このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220323となっている論文です。

PDF登録状況(公開日: 20220323)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) nowcasting sdgインジケータの実現可能性:包括的調査

Feasibility of nowcasting SDG indicators: a comprehensive survey ( http://arxiv.org/abs/2204.01482v1 )

ライセンス: CC BY 4.0
Daniel Hopp, Emily Fu, Anu Peltola(参考訳) 2030年のアジェンダとそれに付随する持続可能な開発目標(SDG)は、国家とグローバルな政策を導く上で不可欠である。 しかし、これらの目標に向けた進捗を測定するために使われるsdg指標の多くは、長い出版遅延に苦しむ。 nowcastingはこの問題に対処し、これらの指標をよりタイムリーに見積もる可能性がある。 本稿では,その可能性を達成するための資源を提供する。 1)全SDG指標の総合的放送可能性調査を実施し、その可能性を評価し、 2)インジケータ9.4.1のケーススタディを行い,現在のキャスティングの実施過程について説明し,考察する。 231のSDG指標が存在するが、ティアー1指標のみを調べることと、多くの指標が複数のサブ指標を持つという事実により、362指標とサブ指標が最終的に調査された。 これらの362,150種のうち、現在放送に適した候補となる可能性が高く、87種、125種が不適当であることが判明した。

The 2030 Agenda and accompanying Sustainable Development Goals (SDGs) are vital in guiding national and global policy. However, many of the SDG indicators used to measure progress toward those goals suffer from long publication lags. Nowcasting has the potential to address this problem and generate more timely estimates of those indicators. This paper provides resources for achieving that potential by 1) carrying out a comprehensive nowcasting feasibility survey of all SDG indicators to assess their potential to be nowcast, and 2) performing a case study of indicator 9.4.1 to illustrate and shed light on the process of performing a nowcasting exercise. There exist 231 SDG indicators, but due to only examining Tier 1 indicators and the fact that many indicators have multiple sub-indicators, 362 indicators and sub-indicators were eventually surveyed. Of those 362, 150 were found highly likely to be suitable candidates for nowcasting, 87 were found to be likely, and 125 were found to be unsuitable.
翻訳日:2022-04-10 13:04:19 公開日:2022-03-23
# (参考訳) 気候変数と機械学習技術を用いたコスタリカのデング熱リスク評価 [全文訳有]

Assessing dengue fever risk in Costa Rica by using climate variables and machine learning techniques ( http://arxiv.org/abs/2204.01483v1 )

ライセンス: CC BY 4.0
Luis A. Barboza, Shu-Wei Chou, Paola V\'asquez, Yury E. Garc\'ia, Juan G. Calvo, Hugo C. Hidalgo, Fabio Sanchez(参考訳) デング熱(dengue fever)は、熱帯・亜熱帯諸国において、毎年何百万人にも及び、公衆衛生に重大な負担を負うベクター病である。 その地理的分布は気候に非常に敏感である。 本稿では,GAMLSS (Generalized Additive Model for location, scale, and shape) とランダムフォレスト (Random Forest,RF) 機械学習アルゴリズムを用いた気候変数の効果について検討する。 報告されたデング症例数を用いて,信頼性の高い予測を得た。 予測の不確実性も測定された。 これらの予測は、デング熱発生前の資源配分をさらに改善し最適化するため、保健当局への入力となる。

Dengue fever is a vector-borne disease mostly endemic to tropical and subtropical countries that affect millions every year and is considered a significant burden for public health. Its geographic distribution makes it highly sensitive to climate conditions. Here, we explore the effect of climate variables using the Generalized Additive Model for location, scale, and shape (GAMLSS) and Random Forest (RF) machine learning algorithms. Using the reported number of dengue cases, we obtained reliable predictions. The uncertainty of the predictions was also measured. These predictions will serve as input to health officials to further improve and optimize the allocation of resources prior to dengue outbreaks.
翻訳日:2022-04-10 13:02:55 公開日:2022-03-23
# ポリプ検出のための視覚的説明 : 内因性・外因性説明の医学的評価

Visual explanations for polyp detection: How medical doctors assess intrinsic versus extrinsic explanations ( http://arxiv.org/abs/2204.00617v1 )

ライセンス: Link先を確認
Steven Hicks, Andrea Stor{\aa}s, Michael Riegler, Cise Midoglu, Malek Hammou, Thomas de Lange, Sravanthi Parasa, P{\aa}l Halvorsen, Inga Str\"umke(参考訳) 近年、深層学習はコンピュータビジョンのあらゆる分野で大きな成功を収めており、疾患やその他の異常の視覚的内容を分析するために医師を支援する可能性がある。 しかし、ディープラーニングの現状は非常にブラックボックスであり、医療専門家はこれらの手法を臨床実践に統合することに非常に懐疑的である。 ブラックボックスに光を当てるためにいくつかの方法が提案されているが、これらの説明を消費する医師の意見には一致していない。 本論文は,消化器疾患検出症例に適用した場合の最先端の人工知能手法について,医師に意見を述べるものである。 本研究は,本質的と外因的という2つの異なる説明方法を比較し,これらの説明の現在の価値についての評価を行う。 その結果,本質的な説明が望ましいことが示唆された。

Deep learning has in recent years achieved immense success in all areas of computer vision and has the potential of assisting medical doctors in analyzing visual content for disease and other abnormalities. However, the current state of deep learning is very much a black box, making medical professionals highly skeptical about integrating these methods into clinical practice. Several methods have been proposed in order to shine some light onto these black boxes, but there is no consensus on the opinion of the medical doctors that will consume these explanations. This paper presents a study asking medical doctors about their opinion of current state-of-the-art explainable artificial intelligence methods when applied to a gastrointestinal disease detection use case. We compare two different categories of explanation methods, intrinsic and extrinsic, and gauge their opinion of the current value of these explanations. The results indicate that intrinsic explanations are preferred and that explanation.
翻訳日:2022-04-10 11:12:47 公開日:2022-03-23
# 実践的顔認識システムに対する強力な物理対抗事例

Powerful Physical Adversarial Examples Against Practical Face Recognition Systems ( http://arxiv.org/abs/2203.15498v1 )

ライセンス: Link先を確認
Inderjeet Singh, Toshinori Araki, and Kazuya Kakizaki(参考訳) 最も既存の機械学習(ML)ベースの安全クリティカルなアプリケーションは、敵例(AXs)と呼ばれる慎重に構築された入力インスタンスに対して脆弱であることはよく知られている。 敵は、デジタルや物理世界からこれらのターゲットシステムを便利に攻撃することができる。 本稿では,顔認識システムに対する堅牢な物理AXの生成を目的とする。 本稿では,強力な物理軸を実現するための新しい平滑性損失関数とパッチノイズ複合攻撃を提案する。 滑らかさの損失は、攻撃発生過程における遅延制約の概念を介し、最適化の複雑さと物理領域に対するよりスムーズなAXの扱いをより良くする。 パッチノイズコンボ攻撃は、異なる分布からのパッチノイズと不可避的に小さなノイズを組み合わせ、強力な登録ベースの物理AXを生成する。 広範に実験した結果, 従来の手法よりも頑健で伝達性の高いデジタルおよび物理AXが得られた。 特に、我々の滑らかな損失は、物理的ホワイトボックス攻撃とブラックボックス攻撃でそれぞれ1.17と1.97倍の攻撃成功率(ASR)をもたらす。 このパッチノイズ複合攻撃は,従来の物理世界ホワイトボックス攻撃とブラックボックス攻撃の2.39倍,4.74倍の性能向上をもたらす。

It is well-known that the most existing machine learning (ML)-based safety-critical applications are vulnerable to carefully crafted input instances called adversarial examples (AXs). An adversary can conveniently attack these target systems from digital as well as physical worlds. This paper aims to the generation of robust physical AXs against face recognition systems. We present a novel smoothness loss function and a patch-noise combo attack for realizing powerful physical AXs. The smoothness loss interjects the concept of delayed constraints during the attack generation process, thereby causing better handling of optimization complexity and smoother AXs for the physical domain. The patch-noise combo attack combines patch noise and imperceptibly small noises from different distributions to generate powerful registration-based physical AXs. An extensive experimental analysis found that our smoothness loss results in robust and more transferable digital and physical AXs than the conventional techniques. Notably, our smoothness loss results in a 1.17 and 1.97 times better mean attack success rate (ASR) in physical white-box and black-box attacks, respectively. Our patch-noise combo attack furthers the performance gains and results in 2.39 and 4.74 times higher mean ASR than conventional technique in physical world white-box and black-box attacks, respectively.
翻訳日:2022-04-03 17:49:18 公開日:2022-03-23
# 強化学習における複数対向運動の先駆的スキル

Advanced Skills through Multiple Adversarial Motion Priors in Reinforcement Learning ( http://arxiv.org/abs/2203.14912v1 )

ライセンス: Link先を確認
Eric Vollenweider, Marko Bjelonic, Victor Klemm, Nikita Rudin, Joonho Lee, Marco Hutter(参考訳) 近年、強化学習(RL)は高度に調音されたロボットシステムの移動制御に優れた性能を示している。 このようなアプローチは、通常、望ましい動作スタイルを達成するために退屈な報酬関数チューニングを伴う。 対向運動先行のような模倣学習アプローチは、事前に定義された動きスタイルを奨励することによってこの問題を軽減することを目的としている。 本研究では,複数の個別に切り替え可能なスタイルを実現するために,逆運動事前ベースRLの概念を拡大するアプローチを提案する。 動作データフリーのスキルと組み合わせても、顕著なパフォーマンスの違いなしに複数のスタイルやスキルを同時に学習できることが示される。 本手法は、既存のRLコントローラから学んだスキルと、ダッキングやウォーキングなどの軌道最適化、四足歩行とヒューマノイド構成の切り替えなどの新しいスキルを示す車輪付き四足ロボットを用いた実世界のいくつかの実験で検証された。 後者のスキルでは、ロボットは立ち上がり、2つの車輪で移動し、座る必要がある。 着席動作をチューニングするのではなく、スタンドアップ動作の逆再生がロボットの着席動作を検知し、退屈な報酬関数のチューニングを回避できることを確認します。

In recent years, reinforcement learning (RL) has shown outstanding performance for locomotion control of highly articulated robotic systems. Such approaches typically involve tedious reward function tuning to achieve the desired motion style. Imitation learning approaches such as adversarial motion priors aim to reduce this problem by encouraging a pre-defined motion style. In this work, we present an approach to augment the concept of adversarial motion prior-based RL to allow for multiple, discretely switchable styles. We show that multiple styles and skills can be learned simultaneously without notable performance differences, even in combination with motion data-free skills. Our approach is validated in several real-world experiments with a wheeled-legged quadruped robot showing skills learned from existing RL controllers and trajectory optimization, such as ducking and walking, and novel skills such as switching between a quadrupedal and humanoid configuration. For the latter skill, the robot is required to stand up, navigate on two wheels, and sit down. Instead of tuning the sit-down motion, we verify that a reverse playback of the stand-up movement helps the robot discover feasible sit-down behaviors and avoids tedious reward function tuning.
翻訳日:2022-04-03 17:48:57 公開日:2022-03-23
# ランダム森林学習法を用いた風速予測

Wind speed forecast using random forest learning method ( http://arxiv.org/abs/2203.14909v1 )

ライセンス: Link先を確認
G. V. Drisya, Valsaraj P., K. Asokan, K. Satheesh Kumar(参考訳) 風速予測モデルとその風力発電事業への応用は、クリーンエネルギー源としての利点から、文学において顕著な注目を集めている。 本稿では,風速変動を予測するために,ランダム森林回帰と呼ばれる時系列機械学習手法を提案する。 相互情報と自己相関の計算値から, 風速値は12時間までの過去のデータに依存することがわかった。 ランダムフォレストモデルは、2週間のデータからアンサンブルを用いて訓練され、各値の入力として過去12時間の値が与えられた。 計算された根平均二乗誤差は、2週間のデータで訓練されたモデルを3年以内の信頼性の高い短期予測に利用することができることを示している。

Wind speed forecasting models and their application to wind farm operations are attaining remarkable attention in the literature because of its benefits as a clean energy source. In this paper, we suggested the time series machine learning approach called random forest regression for predicting wind speed variations. The computed values of mutual information and auto-correlation shows that wind speed values depend on the past data up to 12 hours. The random forest model was trained using ensemble from two weeks data with previous 12 hours values as input for every value. The computed root mean square error shows that model trained with two weeks data can be employed to make reliable short-term predictions up to three years ahead.
翻訳日:2022-04-03 17:48:37 公開日:2022-03-23
# 資産価値に対する税金と公共サービスの影響の計測--ダブル機械学習によるアプローチ

Measuring the Impact of Taxes and Public Services on Property Values: A Double Machine Learning Approach ( http://arxiv.org/abs/2203.14751v1 )

ライセンス: Link先を確認
Isaiah Hull and Anna Grodecka-Messi(参考訳) 不動産価格が地方税や地方公共サービスの変化にどう反応するか Oates (1969) を皮切りにこれを測定しようとする試みは、地方公共サービス制御の欠如に悩まされている。 最近の研究は、準実験手法を用いて、そのようなデータ制限を克服しようと試みている。 我々は、この根本的な問題を再考するが、Chernozhukovらの二重機械学習推定器(2018)と、2010-2016年の間にスウェーデンのすべての自治体で、947の時間変化の地域特性と公共サービス制御の新たなデータセットを組み合わせた、異なる経験的戦略を採用する。 地方公共事業の適正な管理と特性管理は,地方所得税が住宅価格に与える影響を2倍以上に増やしている。 また、我々のデータセットのユニークな特徴を利用して、市政競争の激しい地域では税の資本化が強く、タイブアウト仮説の核心的な含意をサポートすることを実証した。 最後に,公共事業,教育,犯罪が住宅価格に与える影響と,地方税が移住に与える影響を測定した。

How do property prices respond to changes in local taxes and local public services? Attempts to measure this, starting with Oates (1969), have suffered from a lack of local public service controls. Recent work attempts to overcome such data limitations through the use of quasi-experimental methods. We revisit this fundamental problem, but adopt a different empirical strategy that pairs the double machine learning estimator of Chernozhukov et al. (2018) with a novel dataset of 947 time-varying local characteristic and public service controls for all municipalities in Sweden over the 2010-2016 period. We find that properly controlling for local public service and characteristic controls more than doubles the estimated impact of local income taxes on house prices. We also exploit the unique features of our dataset to demonstrate that tax capitalization is stronger in areas with greater municipal competition, providing support for a core implication of the Tiebout hypothesis. Finally, we measure the impact of public services, education, and crime on house prices and the effect of local taxes on migration.
翻訳日:2022-04-03 17:47:46 公開日:2022-03-23
# (参考訳) ディープニューラルネットワークの効率的な適応のための一方向薄型アダプタ [全文訳有]

Unidirectional Thin Adapter for Efficient Adaptation of Deep Neural Networks ( http://arxiv.org/abs/2203.10463v2 )

ライセンス: CC BY 4.0
Han Gyel Sun, Hyunjae Ahn, HyunGyu Lee, Injung Kim(参考訳) 本稿では,学習済みのディープニューラルネットワークを最小限の計算量で対象領域に適応させる新しいアダプタネットワークを提案する。 提案モデルであるUDTAは、バックボーンネットワークを補完する補助機能を提供することで、分類器が新しいデータに適応するのに役立つ。 UDTAは、バックボーンの複数のレイヤからの出力を入力機能として取り込むが、バックボーンにいかなる機能も送信しない。 その結果、UDTAはバックボーンの勾配を計算せずに学習でき、トレーニングのための計算を大幅に節約できる。 さらに、UDTAはバックボーンを変更することなくターゲットタスクを学習するため、単一のバックボーンはUDTAのみを個別に学習することで複数のタスクに適応することができる。 少数のサンプルからなる5つの細粒度分類データセットの実験では、udtaはバックプロパゲーションに必要な計算とトレーニング時間を著しく削減し、従来のアダプタモデルと同等あるいはそれ以上の精度を示した。

In this paper, we propose a new adapter network for adapting a pre-trained deep neural network to a target domain with minimal computation. The proposed model, unidirectional thin adapter (UDTA), helps the classifier adapt to new data by providing auxiliary features that complement the backbone network. UDTA takes outputs from multiple layers of the backbone as input features but does not transmit any feature to the backbone. As a result, UDTA can learn without computing the gradient of the backbone, which saves computation for training significantly. In addition, since UDTA learns the target task without modifying the backbone, a single backbone can adapt to multiple tasks by learning only UDTAs separately. In experiments on five fine-grained classification datasets consisting of a small number of samples, UDTA significantly reduced computation and training time required for backpropagation while showing comparable or even improved accuracy compared with conventional adapter models.
翻訳日:2022-03-26 11:23:45 公開日:2022-03-23
# (参考訳) 粒子物理学におけるグラフニューラルネットワーク : 実装,革新,挑戦

Graph Neural Networks in Particle Physics: Implementations, Innovations, and Challenges ( http://arxiv.org/abs/2203.12852v1 )

ライセンス: CC BY 4.0
Savannah Thais, Paolo Calafiura, Grigorios Chachamis, Gage DeZoort, Javier Duarte, Sanmay Ganguly, Michael Kagan, Daniel Murnane, Mark S. Neubauer, Kazuhiro Terao(参考訳) 多くの物理系は、関連する関係を持つ離散データの集合として最もよく理解できる。 従来、これらのデータセットは、利用可能な機械学習アーキテクチャとグラフニューラルネットワーク(GNN)の出現に合わせて、シリーズまたはイメージデータとして定式化されてきたが、これらのシステムはグラフとしてネイティブに学習することができる。 これにより、さまざまな高レベルおよび低レベルの物理的特徴を計測にアタッチすることができ、同じトークンによって、同じGNNアーキテクチャによって、さまざまなHEPタスクが達成される。 GNNは、再構築、タグ付け、生成、エンドツーエンド分析に強力なユースケースを見つけた。 業界におけるGNNの普及により、HEPコミュニティは、GNNレイテンシとメモリ使用量の急速な改善の恩恵を受けることができる。 しかし、業界でのユースケースはHEPと完全に一致していないため、ユニークなGNN機能とユニークなHEP障害を最大限にマッチさせるためには、多くの作業が必要になる。 以下に示すのは、HEPコミュニティで現在十分に評価されており、まだ未成熟な機能である。 機械学習におけるグラフ技術の展望を捉えつつ、研究の大きな飛躍を妨げる最も重要なギャップを指摘したいと考えています。

Many physical systems can be best understood as sets of discrete data with associated relationships. Where previously these sets of data have been formulated as series or image data to match the available machine learning architectures, with the advent of graph neural networks (GNNs), these systems can be learned natively as graphs. This allows a wide variety of high- and low-level physical features to be attached to measurements and, by the same token, a wide variety of HEP tasks to be accomplished by the same GNN architectures. GNNs have found powerful use-cases in reconstruction, tagging, generation and end-to-end analysis. With the wide-spread adoption of GNNs in industry, the HEP community is well-placed to benefit from rapid improvements in GNN latency and memory usage. However, industry use-cases are not perfectly aligned with HEP and much work needs to be done to best match unique GNN capabilities to unique HEP obstacles. We present here a range of these capabilities, predictions of which are currently being well-adopted in HEP communities, and which are still immature. We hope to capture the landscape of graph techniques in machine learning as well as point out the most significant gaps that are inhibiting potentially large leaps in research.
翻訳日:2022-03-26 04:08:25 公開日:2022-03-23
# (参考訳) onchocerciasis wormの生存率検出のための非侵襲熱画像の評価 [全文訳有]

Evaluation of Non-Invasive Thermal Imaging for detection of Viability of Onchocerciasis worms ( http://arxiv.org/abs/2203.12620v1 )

ライセンス: CC BY 4.0
Ronak Dedhiya, Siva Teja Kakileti, Goutham Deepu, Kanchana Gopinath, Nicholas Opoku, Christopher King, and Geetha Manjunath(参考訳) Onchocerciasisは、現在世界中で50万人以上の失明を引き起こしている。 侵襲的な処置がなければ、薬の有効性を測定する方法がないため、この疾患の薬物開発が損なわれる。 onchocercaワームの生存率の評価による薬物有効性の測定は、侵襲性、高価、時間を要する、スキル依存、インフラ依存、長いプロセスである結節切除を患者に要求する。 本稿では,非侵襲的かつ正確にワームの生存率を予測するために,熱画像を用いた機械学習の利用を提案する。 論文の主な貢献は (i)解釈可能な特徴を抽出するためにアライメント、登録、セグメンテーションなどの前処理手順と共にユニークな熱イメージングプロトコル (ii)意味的特徴の抽出 (iii)結節内に生存するワームの存在を検出するための正確な分類器の開発 48個の結節を有する30人の有望な試験データを用いて実験を行ったところ、AUC(Area Under the Curve)は0.85。

Onchocerciasis is causing blindness in over half a million people in the world today. Drug development for the disease is crippled as there is no way of measuring effectiveness of the drug without an invasive procedure. Drug efficacy measurement through assessment of viability of onchocerca worms requires the patients to undergo nodulectomy which is invasive, expensive, time-consuming, skill-dependent, infrastructure dependent and lengthy process. In this paper, we discuss the first-ever study that proposes use of machine learning over thermal imaging to non-invasively and accurately predict the viability of worms. The key contributions of the paper are (i) a unique thermal imaging protocol along with pre-processing steps such as alignment, registration and segmentation to extract interpretable features (ii) extraction of relevant semantic features (iii) development of accurate classifiers for detecting the existence of viable worms in a nodule. When tested on a prospective test data of 30 participants with 48 palpable nodules, we achieved an Area Under the Curve (AUC) of 0.85.
翻訳日:2022-03-26 04:07:23 公開日:2022-03-23
# (参考訳) 物理情報ニューラル演算子の応用 [全文訳有]

Applications of physics informed neural operators ( http://arxiv.org/abs/2203.12634v1 )

ライセンス: CC BY 4.0
Shawn G. Rosofsky, E. A. Huerta(参考訳) 物理現象の研究やモデリングにおいてユビキタスな偏微分方程式を解くために,初期データ生成,境界条件の選択,および物理インフォームド・ニューラル演算子を用いて,偏微分方程式を学習するエンド・ツー・エンドのフレームワークを提案する。 まず,本手法は,他の文献で発表された他のニューラルネットワークの精度と性能を再現し,1次元波動方程式と1次元バーガース方程式を学習する。 その後、スカラー・インビシデント・ベクトル型における2次元バーガース方程式を含む新しいタイプの方程式を学習するために、物理学インフォームド・ニューラル演算子を適用した。 最後に, 3つの連成偏微分方程式を含む2次元線形および非線形浅水方程式の物理を学習する手法も適用可能であることを示した。 私たちは人工知能と科学ソフトウェアをリリースし、初期データと境界条件を生成し、幅広い身体的動機づけのあるシナリオを研究します。 ソースコード、物理学的なインフォームドニューラルオペレーターの予測を視覚化するインタラクティブなwebサイト、そして科学のためのdata and learning hubでの使用のためのチュートリアルを提供する。

We present an end-to-end framework to learn partial differential equations that brings together initial data production, selection of boundary conditions, and the use of physics-informed neural operators to solve partial differential equations that are ubiquitous in the study and modeling of physics phenomena. We first demonstrate that our methods reproduce the accuracy and performance of other neural operators published elsewhere in the literature to learn the 1D wave equation and the 1D Burgers equation. Thereafter, we apply our physics-informed neural operators to learn new types of equations, including the 2D Burgers equation in the scalar, inviscid and vector types. Finally, we show that our approach is also applicable to learn the physics of the 2D linear and nonlinear shallow water equations, which involve three coupled partial differential equations. We release our artificial intelligence surrogates and scientific software to produce initial data and boundary conditions to study a broad range of physically motivated scenarios. We provide the source code, an interactive website to visualize the predictions of our physics informed neural operators, and a tutorial for their use at the Data and Learning Hub for Science.
翻訳日:2022-03-26 04:00:54 公開日:2022-03-23
# (参考訳) 再生エネルギーを用いたCT再構成 [全文訳有]

Computed Tomography Reconstruction using Generative Energy-Based Priors ( http://arxiv.org/abs/2203.12658v1 )

ライセンス: CC BY 4.0
Martin Zach and Erich Kobler and Thomas Pock(参考訳) 過去数十年間、ctは医学における最も重要なイメージング技術の1つとして確立されてきた。 今日では、CTの適用性は、堆積放射線線量によってのみ制限され、ノイズや不完全な測定で現れる。 したがって、堅牢な再構成アルゴリズムの必要性が生じる。 本研究では, 基準CTデータに基づいて, 大域的受容場を持つパラメトリック正則化器を最大化することにより学習する。 この教師なし学習戦略により、訓練された正規化器は本当に高レベルなドメイン統計を表し、ct画像の合成によって実証的に示します。 さらに、この正則化器は可変フレームワークに組み込むことで異なるct再構成問題に容易に適用でき、フィードフォワード学習に基づくアプローチに比べて柔軟性と解釈性が向上する。 さらに、それに伴う確率論的視点により、専門家は完全な後方分布を探索でき、再構築アプローチの不確実性を定量化することができる。 我々は,この正規化器を,従来の再構成アルゴリズムを大きなマージンで上回る,限られた角度と少ない視点のct再構成問題に適用する。

In the past decades, Computed Tomography (CT) has established itself as one of the most important imaging techniques in medicine. Today, the applicability of CT is only limited by the deposited radiation dose, reduction of which manifests in noisy or incomplete measurements. Thus, the need for robust reconstruction algorithms arises. In this work, we learn a parametric regularizer with a global receptive field by maximizing it's likelihood on reference CT data. Due to this unsupervised learning strategy, our trained regularizer truly represents higher-level domain statistics, which we empirically demonstrate by synthesizing CT images. Moreover, this regularizer can easily be applied to different CT reconstruction problems by embedding it in a variational framework, which increases flexibility and interpretability compared to feed-forward learning-based approaches. In addition, the accompanying probabilistic perspective enables experts to explore the full posterior distribution and may quantify uncertainty of the reconstruction approach. We apply the regularizer to limited-angle and few-view CT reconstruction problems, where it outperforms traditional reconstruction algorithms by a large margin.
翻訳日:2022-03-26 03:38:20 公開日:2022-03-23
# (参考訳) 連続mdpにおける深部リアクティブポリシーのサンプル効率の反復的下限最適化 [全文訳有]

Sample-efficient Iterative Lower Bound Optimization of Deep Reactive Policies for Planning in Continuous MDPs ( http://arxiv.org/abs/2203.12679v1 )

ライセンス: CC BY 4.0
Siow Meng Low, Akshat Kumar, Scott Sanner(参考訳) 近年のディープラーニングの進歩により、パラメトリックポリシをディープニューラルネットワークとして符号化し、エンドツーエンドのモデルベース勾配降下フレームワークで自動微分を活用することで、継続的なMDP計画のためのDeep Reactive Policy(DRP)の最適化が可能になった。 このアプローチは非線形連続MDPにおけるDRPの最適化に有効であることが証明されているが、効果的に学習するためには多数のサンプル軌道が必要である。 本研究では,モデルに基づく DRP の全体目標を再検討し,その代わりに最小化-最大化の観点から DRP w.r.t. を局所的に厳密な下界目標に反復的に最適化する。 反復的下界最適化(ILBO)としてのDRP学習の新たな定式化は特に魅力的である。 (i)各ステップは全体目標よりも構造的に最適化が簡単である。 (ii)ある理論条件下での単調な改善目標を保証し、 (iii)イテレーション間でサンプルを再利用し、サンプルの複雑さを低下させる。 実験的な評価により,ILBOは最先端のDRPプランナよりもはるかに試料効率が高く,分散度が低い溶液品質が一貫して向上していることがわかった。 さらに、ilboが再トレーニングを必要とせずに、新しい問題インスタンス(すなわち、異なる初期状態)にうまく一般化できることを実証する。

Recent advances in deep learning have enabled optimization of deep reactive policies (DRPs) for continuous MDP planning by encoding a parametric policy as a deep neural network and exploiting automatic differentiation in an end-to-end model-based gradient descent framework. This approach has proven effective for optimizing DRPs in nonlinear continuous MDPs, but it requires a large number of sampled trajectories to learn effectively and can suffer from high variance in solution quality. In this work, we revisit the overall model-based DRP objective and instead take a minorization-maximiz ation perspective to iteratively optimize the DRP w.r.t. a locally tight lower-bounded objective. This novel formulation of DRP learning as iterative lower bound optimization (ILBO) is particularly appealing because (i) each step is structurally easier to optimize than the overall objective, (ii) it guarantees a monotonically improving objective under certain theoretical conditions, and (iii) it reuses samples between iterations thus lowering sample complexity. Empirical evaluation confirms that ILBO is significantly more sample-efficient than the state-of-the-art DRP planner and consistently produces better solution quality with lower variance. We additionally demonstrate that ILBO generalizes well to new problem instances (i.e., different initial states) without requiring retraining.
翻訳日:2022-03-26 03:22:14 公開日:2022-03-23
# (参考訳) 幾何学と意味を伝達する線図を生成する学習

Learning to generate line drawings that convey geometry and semantics ( http://arxiv.org/abs/2203.12691v1 )

ライセンス: CC BY 4.0
Caroline Chan, Fredo Durand, Phillip Isola(参考訳) 本稿では,写真から線画を作成する方法を提案する。 現在の手法は、しばしばライン描画を生成するために高品質なペアデータセットに依存している。 しかしながら、これらのデータセットは、特定のドメインに属する描画の主題や収集されたデータの量によって制限されることが多い。 教師なし画像間翻訳における最近の研究は、多くの進歩を示しているが、最新の手法は魅力的な線図を生成するのに依然として苦労している。 線画はシーン情報のエンコーディングであり,3次元形状と意味的意味を伝達しようとする。 これらの観察を目的のセットに構築し,画像変換を訓練し,画像を線画にマッピングする。 線描画の画像特徴から深度情報を予測する幾何学的損失と、線描画のCLIP特徴と対応する写真とを一致させる意味的損失を導入する。 任意の写真から線画を作成する際に,最先端の非ペア画像翻訳や線画生成手法に勝る手法を提案する。 コードとデモについては、webページ carolineec.github.io /informative_drawing s をご覧ください。

This paper presents an unpaired method for creating line drawings from photographs. Current methods often rely on high quality paired datasets to generate line drawings. However, these datasets often have limitations due to the subjects of the drawings belonging to a specific domain, or in the amount of data collected. Although recent work in unsupervised image-to-image translation has shown much progress, the latest methods still struggle to generate compelling line drawings. We observe that line drawings are encodings of scene information and seek to convey 3D shape and semantic meaning. We build these observations into a set of objectives and train an image translation to map photographs into line drawings. We introduce a geometry loss which predicts depth information from the image features of a line drawing, and a semantic loss which matches the CLIP features of a line drawing with its corresponding photograph. Our approach outperforms state-of-the-art unpaired image translation and line drawing generation methods on creating line drawings from arbitrary photographs. For code and demo visit our webpage carolineec.github.io /informative_drawing s
翻訳日:2022-03-26 03:00:38 公開日:2022-03-23
# (参考訳) マルチモーダルテキストと画像データに向けた感情フィードバック合成 [全文訳有]

Affective Feedback Synthesis Towards Multimodal Text and Image Data ( http://arxiv.org/abs/2203.12692v1 )

ライセンス: CC BY 4.0
Puneet Kumar, Gaurav Bhat, Omkar Ingle, Daksh Goyal and Balasubramanian Raman(参考訳) 本稿では,人間がマルチモーダルデータに応答するのと同様の方法で,入力テキストと対応する画像に対するフィードバックを生成する,感情フィードバック合成の新しいタスクを定義した。 画像テキスト入力と地対人コメントを用いたフィードバック合成システムの提案と訓練が行われている。 また、画像、テキスト、Twitterユーザーコメント、コメントに対するいいね!の回数などからなる大規模なデータセットを構築しました。 提案システムは,変換器を用いたテキストエンコーダを用いてテキスト特徴を抽出し,高速領域に基づく畳み込みニューラルネットワークモデルを用いて視覚特徴を抽出する。 テキストおよび視覚的特徴は、デコーダがフィードバックを合成するマルチモーダル特徴を構築するために連結されている。 提案システムの結果を定量的および定性的尺度を用いてベースラインモデルと比較した。 生成したフィードバックは自動評価と人間評価を用いて分析された。 これらは意味的に地上のコメントと似ており、与えられたテキスト画像の入力に関連することが判明している。

In this paper, we have defined a novel task of affective feedback synthesis that deals with generating feedback for input text & corresponding image in a similar way as humans respond towards the multimodal data. A feedback synthesis system has been proposed and trained using ground-truth human comments along with image-text input. We have also constructed a large-scale dataset consisting of image, text, Twitter user comments, and the number of likes for the comments by crawling the news articles through Twitter feeds. The proposed system extracts textual features using a transformer-based textual encoder while the visual features have been extracted using a Faster region-based convolutional neural networks model. The textual and visual features have been concatenated to construct the multimodal features using which the decoder synthesizes the feedback. We have compared the results of the proposed system with the baseline models using quantitative and qualitative measures. The generated feedbacks have been analyzed using automatic and human evaluation. They have been found to be semantically similar to the ground-truth comments and relevant to the given text-image input.
翻訳日:2022-03-26 02:59:39 公開日:2022-03-23
# (参考訳) AIエンジニアのためのソフトウェア品質とは何か? 霧の薄化に向けて [全文訳有]

What is Software Quality for AI Engineers? Towards a Thinning of the Fog ( http://arxiv.org/abs/2203.12697v1 )

ライセンス: CC BY 4.0
Valentina Golendukhina, Valentina Lenarduzzi, Michael Felderer(参考訳) AI対応システムはソフトウェアシステムであるため、ソフトウェア品質保証(SQA)に依存していることが多い。 そこで本研究の目的は,AI/MLコンポーネントやコードの開発,統合,メンテナンスにおいて採用されるソフトウェア品質保証戦略を検討することである。 ai対応システムを開発するオーストリアの中小企業10社の代表と半構造化インタビューを行った。 インタビューデータの質的分析により、AI/MLコンポーネントの開発における12の課題が明らかになった。 さらに,AI/MLコンポーネントの品質問題の発生状況と検出方法も確認した。 本研究の結果は,AI/MLコンポーネントのソフトウェア品質保証プロセスと技術に関する今後の研究を導くものである。

It is often overseen that AI-enabled systems are also software systems and therefore rely on software quality assurance (SQA). Thus, the goal of this study is to investigate the software quality assurance strategies adopted during the development, integration, and maintenance of AI/ML components and code. We conducted semi-structured interviews with representatives of ten Austrian SMEs that develop AI-enabled systems. A qualitative analysis of the interview data identified 12 issues in the development of AI/ML components. Furthermore, we identified when quality issues arise in AI/ML components and how they are detected. The results of this study should guide future work on software quality assurance processes and techniques for AI/ML components.
翻訳日:2022-03-26 02:38:15 公開日:2022-03-23
# (参考訳) RILI: 遅延インテントのロバストな影響 [全文訳有]

RILI: Robustly Influencing Latent Intent ( http://arxiv.org/abs/2203.12705v1 )

ライセンス: CC BY 4.0
Sagar Parekh, Soheil Habibian, and Dylan P. Losey(参考訳) ロボットが人間のパートナーと対話するとき、これらのパートナーはロボットに反応して行動を変えることが多い。 一方、ロボットはダイナミックなパートナーと協調することを学ぶ必要があるため、これは難しい。 しかし一方で、もしロボットがこれらのダイナミクスを理解しているなら、ロボットは自身の振る舞いを活用し、人間に影響を与え、効果的なコラボレーションへとチームを導くことができる。 先行研究により、ロボットは他のロボットやシミュレーションエージェントに影響を与えることができる。 本稿では,これらの学習方法を拡張し,人間に影響を与えている。 人間に特に影響を与えるのは、人間がロボットに反応するだけでなく、一人のユーザーがロボットに反応する方法が時間とともに変化し、異なる人間が同じロボットの振る舞いに異なる方法で反応する、ということです。 そこで我々は,パートナーのダイナミクスの変化に影響を及ぼすロバストなアプローチを提案する。 提案手法は,まず,反復的なインタラクションを通じてパートナーのセットを訓練し,過去の状態,行動,報酬に基づいて現在のパートナーの行動を予測する。 次に、ロボットが元のパートナーから学んだ軌跡をサンプリングし、既存の行動を利用して新しいパートナーのダイナミクスに影響を与えることで、新しいパートナーに迅速に適応する。 その結果得られたアルゴリズムをシミュレーション環境における最先端のベースラインと比較し,ロボットと参加者が協調してタワーを構築するユーザ調査を行った。 パートナーが新しい、あるいは予期せぬダイナミクスに従っていても、私たちのアプローチは代替手段よりも優れています。 ユーザー調査のビデオはこちら。 https://youtu.be/lys wm8an18g

When robots interact with human partners, often these partners change their behavior in response to the robot. On the one hand this is challenging because the robot must learn to coordinate with a dynamic partner. But on the other hand -- if the robot understands these dynamics -- it can harness its own behavior, influence the human, and guide the team towards effective collaboration. Prior research enables robots to learn to influence other robots or simulated agents. In this paper we extend these learning approaches to now influence humans. What makes humans especially hard to influence is that -- not only do humans react to the robot -- but the way a single user reacts to the robot may change over time, and different humans will respond to the same robot behavior in different ways. We therefore propose a robust approach that learns to influence changing partner dynamics. Our method first trains with a set of partners across repeated interactions, and learns to predict the current partner's behavior based on the previous states, actions, and rewards. Next, we rapidly adapt to new partners by sampling trajectories the robot learned with the original partners, and then leveraging those existing behaviors to influence the new partner dynamics. We compare our resulting algorithm to state-of-the-art baselines across simulated environments and a user study where the robot and participants collaborate to build towers. We find that our approach outperforms the alternatives, even when the partner follows new or unexpected dynamics. Videos of the user study are available here: https://youtu.be/lYs WM8An18g
翻訳日:2022-03-26 02:25:25 公開日:2022-03-23
# (参考訳) 画像間翻訳における最大空間摂動一貫性 [全文訳有]

Maximum Spatial Perturbation Consistency for Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2203.12707v1 )

ライセンス: CC BY 4.0
Yanwu Xu, Shaoan Xie, Wenhao Wu, Kun Zhang, Mingming Gong and Kayhan Batmanghelich(参考訳) 無限個の変換関数がソース領域の分布を対象の分布にマッピングできるため、未ペア画像画像変換(I2I)は不適切な問題である。 そのため、サイクル整合性(CycleGAN)、幾何整合性(GCGAN)、コントラスト学習に基づく制約(CUTGAN)などの適切な制約の設計に多くの努力が払われている。 しかし、これらのよく知られた制約には制限があり、(1)特定のi2iタスクには制限的すぎるか弱すぎるか、(2)ソースドメインとターゲットドメインの間に大きな空間的変動がある場合にコンテンツの歪みが生じる。 本稿では,空間摂動関数 (t) と変換演算子 (g) を可換(すなわち tg = gt) に強制する,最大空間摂動一貫性 (mspc) と呼ばれる普遍正規化手法を提案する。 さらに,空間摂動関数を学習するための2つの逆訓練成分について紹介する。 まず、t が g と競合して最大摂動を達成する。 2つ目は、GとTが識別器と競合して、オブジェクトサイズやオブジェクトの歪み、背景の中断などによる空間的変動を調整できることだ。 提案手法は,ほとんどのI2Iベンチマークにおいて最先端の手法よりも優れている。 また,実世界のアプリケーションにおけるi2iの基盤となる課題を強調するために,新たなベンチマーク,すなわちface to profile face datasetも導入した。 最終的にアブレーション実験を行い,空間摂動の重症度に対する感度と分布アライメントの有効性について検討した。

Unpaired image-to-image translation (I2I) is an ill-posed problem, as an infinite number of translation functions can map the source domain distribution to the target distribution. Therefore, much effort has been put into designing suitable constraints, e.g., cycle consistency (CycleGAN), geometry consistency (GCGAN), and contrastive learning-based constraints (CUTGAN), that help better pose the problem. However, these well-known constraints have limitations: (1) they are either too restrictive or too weak for specific I2I tasks; (2) these methods result in content distortion when there is a significant spatial variation between the source and target domains. This paper proposes a universal regularization technique called maximum spatial perturbation consistency (MSPC), which enforces a spatial perturbation function (T ) and the translation operator (G) to be commutative (i.e., TG = GT ). In addition, we introduce two adversarial training components for learning the spatial perturbation function. The first one lets T compete with G to achieve maximum perturbation. The second one lets G and T compete with discriminators to align the spatial variations caused by the change of object size, object distortion, background interruptions, etc. Our method outperforms the state-of-the-art methods on most I2I benchmarks. We also introduce a new benchmark, namely the front face to profile face dataset, to emphasize the underlying challenges of I2I for real-world applications. We finally perform ablation experiments to study the sensitivity of our method to the severity of spatial perturbation and its effectiveness for distribution alignment.
翻訳日:2022-03-26 02:09:04 公開日:2022-03-23
# (参考訳) 継続的自己監督学習の課題 [全文訳有]

The Challenges of Continuous Self-Supervised Learning ( http://arxiv.org/abs/2203.12710v1 )

ライセンス: CC BY 4.0
Senthil Purushwalkam, Pedro Morgado, Abhinav Gupta(参考訳) self-supervised learning(ssl)は、表現学習における大きなボトルネックである、人間のアノテーションの必要性を取り除くことを目的としている。 結果としてSSLは、有限かつ静的なデータセットを必要とせずに、ワイルドなデータから表現を学ぶことを約束している。 代わりに、真のSSLアルゴリズムは、インターネットまたはその環境を探索するエージェントによって生成されるデータの連続的なストリームを利用することができるべきである。 しかし、従来の自己教師型学習アプローチはこの設定で機能するのか? 本研究では,この課題を,継続的自己教師型学習問題の実験によって検討する。 野生で学びながら、視覚概念の非定常分布に従う連続的な(無限の)非IIDデータストリームが期待されます。 目標は、過去に見られた概念を忘れずに、堅牢で適応性のある表現を学ぶことです。 このような連続的なセットアップに対する現在の手法の直接的適用は, 1) 計算量と必要なデータ量の両方が非効率である。 2)ストリーミングデータの一部のソースにおける時間的相関(非IIDデータ)による表現の低下につながる。 3)非定常データ分布の源泉で訓練した際,破滅的な忘れの兆候を示す。 本稿では,非効率性と時間的相関の問題を緩和する手法としてリプレイバッファを提案する。 また,最小冗長サンプルを維持することでリプレイバッファを向上させる新しい手法を提案する。 最小冗長性(MinRed)バッファは、単一のエンボディエージェントから得られる逐次視覚データからなる最も困難なストリーミングシナリオにおいても効果的な表現を学習することができ、非定常意味分布を持つデータから学習する際の破滅的忘れの問題を軽減することができる。

Self-supervised learning (SSL) aims to eliminate one of the major bottlenecks in representation learning - the need for human annotations. As a result, SSL holds the promise to learn representations from data in-the-wild, i.e., without the need for finite and static datasets. Instead, true SSL algorithms should be able to exploit the continuous stream of data being generated on the internet or by agents exploring their environments. But do traditional self-supervised learning approaches work in this setup? In this work, we investigate this question by conducting experiments on the continuous self-supervised learning problem. While learning in the wild, we expect to see a continuous (infinite) non-IID data stream that follows a non-stationary distribution of visual concepts. The goal is to learn a representation that can be robust, adaptive yet not forgetful of concepts seen in the past. We show that a direct application of current methods to such continuous setup is 1) inefficient both computationally and in the amount of data required, 2) leads to inferior representations due to temporal correlations (non-IID data) in some sources of streaming data and 3) exhibits signs of catastrophic forgetting when trained on sources with non-stationary data distributions. We propose the use of replay buffers as an approach to alleviate the issues of inefficiency and temporal correlations. We further propose a novel method to enhance the replay buffer by maintaining the least redundant samples. Minimum redundancy (MinRed) buffers allow us to learn effective representations even in the most challenging streaming scenarios composed of sequential visual data obtained from a single embodied agent, and alleviates the problem of catastrophic forgetting when learning from data with non-stationary semantic distributions.
翻訳日:2022-03-26 01:53:03 公開日:2022-03-23
# (参考訳) 生徒の隠れ方:注意を引いたマスク付き画像モデリング

What to Hide from Your Students: Attention-Guided Masked Image Modeling ( http://arxiv.org/abs/2203.12719v1 )

ライセンス: CC BY 4.0
Ioannis Kakogeorgiou, Spyros Gidaris, Bill Psomas, Yannis Avrithis, Andrei Bursuc, Konstantinos Karantzalos, Nikos Komodakis(参考訳) トランスフォーマーとマスク言語モデリングは、コンピュータビジョンにおいて視覚トランスフォーマーとマスク画像モデリング(mim)として急速に採用され、検討されている。 本研究では,画像中のトークンの量と相関関係から,画像のトークンマスキングとテキストのトークンマスキングとは根本的に異なることを論じる。 特に,mimの難解なプリテキストタスクを生成するためには,ランダムマスキングからインフォームドマスキングへの移行を推奨する。 そこでは,教師トランスフォーマーエンコーダが注目マップを生成し,学生エンコーダのマスキングをガイドする。 そこで我々は注意誘導型マスキング (attmask) と呼ばれる新しいマスキング戦略を導入し, 密閉型mimに対するランダムマスキングと, 分別トークンを用いた単純蒸留型自己教師付き学習の有効性を示す。 AttMaskが学習プロセスを加速し、様々な下流タスクのパフォーマンスを向上させることを確認した。

Transformers and masked language modeling are quickly being adopted and explored in computer vision as vision transformers and masked image modeling (MIM). In this work, we argue that image token masking is fundamentally different from token masking in text, due to the amount and correlation of tokens in an image. In particular, to generate a challenging pretext task for MIM, we advocate a shift from random masking to informed masking. We develop and exhibit this idea in the context of distillation-based MIM, where a teacher transformer encoder generates an attention map, which we use to guide masking for the student encoder. We thus introduce a novel masking strategy, called attention-guided masking (AttMask), and we demonstrate its effectiveness over random masking for dense distillation-based MIM as well as plain distillation-based self-supervised learning on classification tokens. We confirm that AttMask accelerates the learning process and improves the performance on a variety of downstream tasks.
翻訳日:2022-03-26 01:31:36 公開日:2022-03-23
# (参考訳) ロボットのリアルタイム制御のための非同期強化学習 [全文訳有]

Asynchronous Reinforcement Learning for Real-Time Control of Physical Robots ( http://arxiv.org/abs/2203.12759v1 )

ライセンス: CC BY 4.0
Yufeng Yuan, Rupam Mahmood(参考訳) 現実世界の強化学習の無知な課題は、エージェントが学習更新を行うと、現実世界が停止しないことだ。 標準的なシミュレーション環境は学習のこのリアルタイムな側面に対処しないため、RLアルゴリズムの最も利用可能な実装は環境相互作用と学習更新を逐次処理する。 その結果、そのような実装が現実世界にデプロイされると、非常に遅延した観察に基づいて決定を下し、応答的に動作しない。 この問題を解決するために非同期学習が提案されているが,実環境を用いた逐次強化学習と非同期強化学習の系統的な比較は行われていない。 本研究では,ロボットアームを用いた2つの視覚ベースのタスクを設定し,従来のアーキテクチャを拡張した非同期学習システムを実装し,異なる動作サイクル時間,知覚データ次元,ミニバッチサイズの逐次的および非同期強化学習を比較した。 我々の実験は、学習の時間コストが上昇すると、シーケンシャルな実装におけるアクションサイクル時間が過度に長くなり、非同期な実装は常に適切なアクションサイクル時間を維持することができることを示した。 したがって、学習更新が高価である場合、逐次学習の性能は低下し、非同期学習によってかなりのマージンで上回る。 われわれのシステムは、リアルタイムで学習し、2時間以内にピクセルから視覚目標に到達し追跡し、実際のロボットを直接使用し、完全にスクラッチから学習する。

An oft-ignored challenge of real-world reinforcement learning is that the real world does not pause when agents make learning updates. As standard simulated environments do not address this real-time aspect of learning, most available implementations of RL algorithms process environment interactions and learning updates sequentially. As a consequence, when such implementations are deployed in the real world, they may make decisions based on significantly delayed observations and not act responsively. Asynchronous learning has been proposed to solve this issue, but no systematic comparison between sequential and asynchronous reinforcement learning was conducted using real-world environments. In this work, we set up two vision-based tasks with a robotic arm, implement an asynchronous learning system that extends a previous architecture, and compare sequential and asynchronous reinforcement learning across different action cycle times, sensory data dimensions, and mini-batch sizes. Our experiments show that when the time cost of learning updates increases, the action cycle time in sequential implementation could grow excessively long, while the asynchronous implementation can always maintain an appropriate action cycle time. Consequently, when learning updates are expensive, the performance of sequential learning diminishes and is outperformed by asynchronous learning by a substantial margin. Our system learns in real-time to reach and track visual targets from pixels within two hours of experience and does so directly using real robots, learning completely from scratch.
翻訳日:2022-03-26 01:30:38 公開日:2022-03-23
# (参考訳) ラベル効率のよいメタラーニングのための多次元的信念定量化 [全文訳有]

Multidimensional Belief Quantification for Label-Efficient Meta-Learning ( http://arxiv.org/abs/2203.12768v1 )

ライセンス: CC BY 4.0
Deep Pandey, Qi Yu(参考訳) 最適化ベースのメタ学習は、多くの現実世界のコンピュータビジョンアプリケーションに不可欠な、数ショットの学習に有望な方向を提供する。 しかし、少数のサンプルから学ぶことは不確実性をもたらし、少数の予測に対するモデルの信頼度を定量化することは、多くの重要な領域において不可欠である。 さらに、メタトレーニングで使われるわずかなショットタスクは通常、反復モデル更新のタスク分散からランダムにサンプリングされ、高いラベリングコストとメタトレーニングの計算オーバーヘッドをもたらす。 ラベル付きメタ学習のための新しい不確実性を考慮したタスク選択モデルを提案する。 提案モデルは、既知の不確実性と与えられたタスクの未知の不確実性の下限を定量化できる多次元の信念測度を定式化する。 我々の理論的結果は、矛盾する信念と誤った信念の間に重要な関係を確立する。 理論的結果から,タスク選択の原則的基準を提供するタスクの完全不確実性を推定することができる。 メタラーニングの計算効率とラベリング効率を向上させるために,新たなマルチクエリタスク定式化が開発されている。 複数の実世界の複数ショット画像分類タスクに対して行われた実験は、提案モデルの有効性を示す。

Optimization-based meta-learning offers a promising direction for few-shot learning that is essential for many real-world computer vision applications. However, learning from few samples introduces uncertainty, and quantifying model confidence for few-shot predictions is essential for many critical domains. Furthermore, few-shot tasks used in meta training are usually sampled randomly from a task distribution for an iterative model update, leading to high labeling costs and computational overhead in meta-training. We propose a novel uncertainty-aware task selection model for label efficient meta-learning. The proposed model formulates a multidimensional belief measure, which can quantify the known uncertainty and lower bound the unknown uncertainty of any given task. Our theoretical result establishes an important relationship between the conflicting belief and the incorrect belief. The theoretical result allows us to estimate the total uncertainty of a task, which provides a principled criterion for task selection. A novel multi-query task formulation is further developed to improve both the computational and labeling efficiency of meta-learning. Experiments conducted over multiple real-world few-shot image classification tasks demonstrate the effectiveness of the proposed model.
翻訳日:2022-03-26 01:17:06 公開日:2022-03-23
# dpst:アミノ酸トランスフォーマーを用いたde novoペプチドの塩基配列決定

DPST: De Novo Peptide Sequencing with Amino-Acid-Aware Transformers ( http://arxiv.org/abs/2203.13132v1 )

ライセンス: Link先を確認
Yan Yang and Zakir Hossain and Khandaker Asif and Liyuan Pan and Shafin Rahman and Eric Stone(参考訳) デノボペプチドシークエンシングは、タンデム質量分析(MS)データからペプチドのアミノ酸配列を復元することを目的としている。 de novo分析の既存のアプローチは、推論中にすべてのアミノ酸クラスのms証拠を列挙する。 これは、MSデータの受容領域を過剰にトリミングし、未解読アミノ酸に付随するMSの証拠を制限する。 提案手法は,(1)MS間のアミノ酸結合に基づくスペクトル表現をスケッチする信頼値集約エンコーダ,(2)局所的なMSエビデンスとアミノ酸プリセプションを事前に定義した先入観で,文脈化されたスペクトル表現を段階的に同化するグローバルな融合デコーダである。 我々のコンポーネントはクローズドフォームのソリューションから生まれ、情報的アミノ酸認識MS表現に選択的に参画する。 広範な実証研究を通じてDPSTの優位性を実証し,12%~19%のペプチドの精度で最先端のアプローチより優れていることを示した。

De novo peptide sequencing aims to recover amino acid sequences of a peptide from tandem mass spectrometry (MS) data. Existing approaches for de novo analysis enumerate MS evidence for all amino acid classes during inference. It leads to over-trimming on receptive fields of MS data and restricts MS evidence associated with following undecoded amino acids. Our approach, DPST, circumvents these limitations with two key components: (1) A confidence value aggregation encoder to sketch spectrum representations according to amino-acid-based connectivity among MS; (2) A global-local fusion decoder to progressively assimilate contextualized spectrum representations with a predefined preconception of localized MS evidence and amino acid priors. Our components originate from a closed-form solution and selectively attend to informative amino-acid-aware MS representations. Through extensive empirical studies, we demonstrate the superiority of DPST, showing that it outperforms state-of-the-art approaches by a margin of 12% - 19% peptide accuracy.
翻訳日:2022-03-25 15:50:37 公開日:2022-03-23
# 科学データに対するB-スプラインモデルの適応正規化

Adaptive Regularization of B-Spline Models for Scientific Data ( http://arxiv.org/abs/2203.12730v1 )

ライセンス: Link先を確認
David Lenz, Raine Yeh, Vijay Mahadevan, Iulian Grindeanu, Tom Peterka(参考訳) b-スプラインモデルは、科学的データセットを関数近似で表現する強力な方法である。 しかし、近似されるデータが一様分布しない場合、これらのモデルでは散発的な振動が発生することがある。 モデル正規化(すなわちスムーズ化)は伝統的にこれらの振動を最小限にするために用いられてきたが、残念ながら、データセットの重要な特徴をスムーズにすることなく、不要なアーティファクトを十分に除去することは不可能である。 本稿では,人工振動を最小化しながら,データセットの重要な特徴を保ったモデル正規化手法を提案する。 提案手法は, 領域全体の平滑化パラメータの強度を自動で変化させ, 未制約領域のアーティファクトを除去し, その他の領域をそのまま残す。 本手法の動作は,科学シミュレーションにより生成した2次元および3次元データセットの集合上で検証される。

B-spline models are a powerful way to represent scientific data sets with a functional approximation. However, these models can suffer from spurious oscillations when the data to be approximated are not uniformly distributed. Model regularization (i.e., smoothing) has traditionally been used to minimize these oscillations; unfortunately, it is sometimes impossible to sufficiently remove unwanted artifacts without smoothing away key features of the data set. In this article, we present a method of model regularization that preserves significant features of a data set while minimizing artificial oscillations. Our method varies the strength of a smoothing parameter throughout the domain automatically, removing artifacts in poorly-constrained regions while leaving other regions unchanged. The behavior of our method is validated on a collection of two- and three-dimensional data sets produced by scientific simulations.
翻訳日:2022-03-25 15:30:11 公開日:2022-03-23
# シーケンスベースタンパク質間相互作用(PPI)予測のための機械学習手法

A Supervised Machine Learning Approach for Sequence Based Protein-protein Interaction (PPI) Prediction ( http://arxiv.org/abs/2203.12659v1 )

ライセンス: Link先を確認
Soumyadeep Debnath and Ayatullah Faruk Mollah(参考訳) 計算タンパク質間相互作用(PPI)予測技術は, 実験手法と比較して時間, コスト, 偽陽性相互作用の低減に大きく寄与する。 配列は、PPI予測において重要な役割を果たすタンパク質の鍵および一次情報の一つである。 PPIデータセットの特徴を利用するために、いくつかの機械学習アプローチが適用されている。 しかし、これらのデータセットは予測モデルの性能に大きな影響を及ぼす。 したがって、データセットのキュレーションと予測モデルの設計の両方に注意する必要がある。 そこで本研究では,高品質なバイアスフリーインタラクションデータセットを用いたシーケンス情報に基づく包括的ppi予測モデルの開発を目的としたseqpipコンペティションの結果について述べる。 2000の正と負の相互作用のトレーニングセットを我々に与えた。 本手法は,3つの独立した高品質インタラクションテストデータセットと,他の競合ソリューションを用いて評価した。

Computational protein-protein interaction (PPI) prediction techniques can contribute greatly in reducing time, cost and false-positive interactions compared to experimental approaches. Sequence is one of the key and primary information of proteins that plays a crucial role in PPI prediction. Several machine learning approaches have been applied to exploit the characteristics of PPI datasets. However, these datasets greatly influence the performance of predicting models. So, care should be taken on both dataset curation as well as design of predictive models. Here, we have described our submitted solution with the results of the SeqPIP competition whose objective was to develop comprehensive PPI predictive models from sequence information with high-quality bias-free interaction datasets. A training set of 2000 positive and 2000 negative interactions with sequences was given to us. Our method was evaluated with three independent high-quality interaction test datasets and with other competitors solutions.
翻訳日:2022-03-25 15:28:57 公開日:2022-03-23
# Mokey: アウトオブボックス浮動小数点変圧器モデルの狭小点推定

Mokey: Enabling Narrow Fixed-Point Inference for Out-of-the-Box Floating-Point Transformer Models ( http://arxiv.org/abs/2203.12758v1 )

ライセンス: Link先を確認
Ali Hadi Zadeh, Mostafa Mahmoud, Ameer Abdelhadi, Andreas Moshovos(参考訳) より大きく改良されたTransformerモデルは、自然言語処理アプリケーションの最先端の精度と能力を維持している。 これらのモデルはより計算力、記憶力、エネルギーを必要とする。 Mokeyは、すべての値を4ビットインデックスに量子化して、最先端の32ビットまたは16ビット浮動小数点変換器モデルのフットプリントを16ビットの定点セントロイドの辞書に還元する。 Mokeyは微調整を必要としないため、トレーニングリソースやデータセットがあまり利用できないことが多いため、重要な機能である。 トランスモデルで自然に発生する値の範囲を広げ、モキーは指数曲線にも適合するセントロイド値を選択する。 このユニークな特徴は、Mokeyが元の乗算累積演算の大部分を3bの狭い固定点加算に置き換えることを可能にし、面積とエネルギー効率のハードウェアアクセラレーターの設計をもたらす。 最先端のトランスフォーマーモデルに対して、mokeyアクセラレータはtensor coresベースのアクセラレータよりもエネルギー効率を桁違いに改善するとともに、モデルとオンチップバッファ容量に応じて最低$4\times$と$15\times$というパフォーマンス向上を実現している。 オプションとして、Mokeyは他のアクセラレーターのメモリ圧縮アシストとして使用することができ、広い浮動小数点や固定点のアクティベーションや重みを4ビットの狭いインデックスに透過的に固定することができる。 Mokeyは、トランスフォーマーの最先端量子化手法よりも優れている。

Increasingly larger and better Transformer models keep advancing state-of-the-art accuracy and capability for Natural Language Processing applications. These models demand more computational power, storage, and energy. Mokey reduces the footprint of state-of-the-art 32-bit or 16-bit floating-point transformer models by quantizing all values to 4-bit indexes into dictionaries of representative 16-bit fixed-point centroids. Mokey does not need fine-tuning, an essential feature as often the training resources or datasets are not available to many. Exploiting the range of values that naturally occur in transformer models, Mokey selects centroid values to also fit an exponential curve. This unique feature enables Mokey to replace the bulk of the original multiply-accumulate operations with narrow 3b fixed-point additions resulting in an area- and energy-efficient hardware accelerator design. Over a set of state-of-the-art transformer models, the Mokey accelerator delivers an order of magnitude improvements in energy efficiency over a Tensor Cores-based accelerator while improving performance by at least $4\times$ and as much as $15\times$ depending on the model and on-chip buffering capacity. Optionally, Mokey can be used as a memory compression assist for any other accelerator, transparently stashing wide floating-point or fixed-point activations or weights into narrow 4-bit indexes. Mokey proves superior to prior state-of-the-art quantization methods for Transformers.
翻訳日:2022-03-25 15:28:45 公開日:2022-03-23
# 長期チャネル分解に基づくメタ学習線形フィルタによるマルチアンテナ周波数選択チャネルの予測

Predicting Multi-Antenna Frequency-Selective Channels via Meta-Learned Linear Filters based on Long-Short Term Channel Decomposition ( http://arxiv.org/abs/2203.12715v1 )

ライセンス: Link先を確認
Sangwoo Park, Osvaldo Simeone(参考訳) マルチアンテナ周波数選択チャネルの効率的なデータ駆動予測戦略は、少数のパイロットシンボルに基づいて動作する必要がある。 本稿では,トランスファーとメタラーニングをチャネルの低ランクパラメトリゼーションと組み合わせることで,この目標を達成する新しいチャネル予測アルゴリズムを提案する。 提案手法は,現行のフレームのタイムスロットでの高速なトレーニングを実現するために,従来と異なる伝搬特性を特徴とする従来のフレームのデータを利用して線形予測器を最適化する。 提案する予測器は,チャネルの分解を長期的時間的シグネチャとフェージング振幅に活用する線形予測モデルの,新しい長期的分解(lstd)に依存している。 まず、転送/メタ学習2次正規化に基づく単一アンテナ周波数平坦チャネルの予測器を開発する。 次に、平衡伝播(EP)と最小二乗(ALS)に基づくLSTDに基づく予測モデルに対するトランスファーおよびメタラーニングアルゴリズムを提案する。 3GPP 5G標準チャネルモデルに基づく数値計算の結果は、チャネル予測のためのパイロット数の削減と、提案したLSTDパラメトリゼーションの利点に対するトランスファーとメタラーニングの影響を示している。

An efficient data-driven prediction strategy for multi-antenna frequency-selective channels must operate based on a small number of pilot symbols. This paper proposes novel channel prediction algorithms that address this goal by integrating transfer and meta-learning with a reduced-rank parametrization of the channel. The proposed methods optimize linear predictors by utilizing data from previous frames, which are generally characterized by distinct propagation characteristics, in order to enable fast training on the time slots of the current frame. The proposed predictors rely on a novel long-short-term decomposition (LSTD) of the linear prediction model that leverages the disaggregation of the channel into long-term space-time signatures and fading amplitudes. We first develop predictors for single-antenna frequency-flat channels based on transfer/meta-learne d quadratic regularization. Then, we introduce transfer and meta-learning algorithms for LSTD-based prediction models that build on equilibrium propagation (EP) and alternating least squares (ALS). Numerical results under the 3GPP 5G standard channel model demonstrate the impact of transfer and meta-learning on reducing the number of pilots for channel prediction, as well as the merits of the proposed LSTD parametrization.
翻訳日:2022-03-25 15:26:29 公開日:2022-03-23
# AIへの信頼とAI技術の受容におけるその役割

Trust in AI and Its Role in the Acceptance of AI Technologies ( http://arxiv.org/abs/2203.12687v1 )

ライセンス: Link先を確認
Hyesun Choung, Prabu David, Arun Ross(参考訳) aiエンハンスド技術がさまざまな領域で一般的になるにつれて、そのような技術でユーザが持つ信頼を定義する必要性が高まっている。 AIの発展の進展を踏まえると、技術に対する信頼性の高度な理解が必要である。 本稿では、AI技術を使用する意図に対する信頼の役割を説明することによって、このニーズに対処する。 調査1では,大学生の質問応答に基づくAI音声アシスタントの利用における信頼感の役割について検討した。 経路分析により、信頼がAIの使用意図に重大な影響があることが確認された。 調査2では,米国人代表者のデータを用いて,人間のような信頼と機能信頼の2つの次元を持つ探索的因子分析を用いて,信頼の異なる次元について検討した。 研究1から得られたパス分析の結果を研究2で再現し,信頼の間接的効果と,有用性,使いやすさ,使用意図に対する態度の間接的影響を確認した。 さらに、信頼の両次元はモデル内の同様の影響パターンを共有しており、機能関連信頼は人間のような信頼よりも使用意図に大きく影響している。 全体として、AI技術の受容における信頼の役割は、両研究の間で重要なものだった。 この研究は、AI関連の応用におけるTAMの進歩と応用に寄与し、信頼できるAIの研究に活用できる多次元信頼尺度を提供する。

As AI-enhanced technologies become common in a variety of domains, there is an increasing need to define and examine the trust that users have in such technologies. Given the progress in the development of AI, a correspondingly sophisticated understanding of trust in the technology is required. This paper addresses this need by explaining the role of trust on the intention to use AI technologies. Study 1 examined the role of trust in the use of AI voice assistants based on survey responses from college students. A path analysis confirmed that trust had a significant effect on the intention to use AI, which operated through perceived usefulness and participants' attitude toward voice assistants. In study 2, using data from a representative sample of the U.S. population, different dimensions of trust were examined using exploratory factor analysis, which yielded two dimensions: human-like trust and functionality trust. The results of the path analyses from Study 1 were replicated in Study 2, confirming the indirect effect of trust and the effects of perceived usefulness, ease of use, and attitude on intention to use. Further, both dimensions of trust shared a similar pattern of effects within the model, with functionality-relate d trust exhibiting a greater total impact on usage intention than human-like trust. Overall, the role of trust in the acceptance of AI technologies was significant across both studies. This research contributes to the advancement and application of the TAM in AI-related applications and offers a multidimensional measure of trust that can be utilized in the future study of trustworthy AI.
翻訳日:2022-03-25 14:44:03 公開日:2022-03-23
# ThingTalk:タスク指向対話のための拡張可能で実行可能な表現言語

ThingTalk: An Extensible, Executable Representation Language for Task-Oriented Dialogues ( http://arxiv.org/abs/2203.12751v1 )

ライセンス: Link先を確認
Monica S. Lam, Giovanni Campagna, Mehrad Moradshahi, Sina J. Semnani, Silei Xu(参考訳) タスク指向の会話エージェントは、自然言語を形式表現に変換するセマンティックパーサに依存している。 本稿では,thingtalk形式表現の設計と理論的根拠と,その設計がトランザクショナルタスク指向エージェントの開発をいかに改善するかを提案する。 ThingTalk は,(1) ユーザ要求を直接実行可能なステートメントとして表現し,エージェントのすべての機能を網羅する,(2) 正確なコンテキスト意味解析をサポートするための対話を形式的かつ簡潔に表現する,(3) エージェント間の再利用を最大化する型とインターフェースを標準化する,(4) 独立に開発された複数のエージェントを単一の仮想アシスタントで構成する,という4つの基本原則に基づいて構築されている。 ThingTalkはGenie Frameworkの一部として開発されており、データベースとAPIが与えられたトランザクションエージェントを素早く構築することができる。 我々はThingTalkを既存の表現であるSMCalFlow、SGD、TreeDSTと比較する。 他の製品と比べて、ThingTalkのデザインはより汎用的で費用対効果が高い。 multiwozベンチマークで評価すると、thingtalkと関連するツールを使うことで、ターンバイターンの79%という新しい精度が得られる。

Task-oriented conversational agents rely on semantic parsers to translate natural language to formal representations. In this paper, we propose the design and rationale of the ThingTalk formal representation, and how the design improves the development of transactional task-oriented agents. ThingTalk is built on four core principles: (1) representing user requests directly as executable statements, covering all the functionality of the agent, (2) representing dialogues formally and succinctly to support accurate contextual semantic parsing, (3) standardizing types and interfaces to maximize reuse between agents, and (4) allowing multiple, independently-develo ped agents to be composed in a single virtual assistant. ThingTalk is developed as part of the Genie Framework that allows developers to quickly build transactional agents given a database and APIs. We compare ThingTalk to existing representations: SMCalFlow, SGD, TreeDST. Compared to the others, the ThingTalk design is both more general and more cost-effective. Evaluated on the MultiWOZ benchmark, using ThingTalk and associated tools yields a new state of the art accuracy of 79% turn-by-turn.
翻訳日:2022-03-25 14:26:32 公開日:2022-03-23
# データサイロ間の非同期協調学習

Asynchronous Collaborative Learning Across Data Silos ( http://arxiv.org/abs/2203.12637v1 )

ライセンス: Link先を確認
Tiffany Tuor, Joshua Lockhart, Daniele Magazzeni(参考訳) 機械学習アルゴリズムは、大規模なデータセットでトレーニングされた場合、うまく機能する。 大きな組織はしばしばかなりのデータ資産を持っているが、これらの資産を訓練を可能にする方法で統一することは困難である。 データは組織のさまざまな部分で“サイロ化”されることが少なく,サイロ間のアクセスはほとんどない。 このデータ資産の断片化は、金融サービスや医療といった規制の厳しい業界で特に顕著である。 本稿では,データサイロ間の機械学習モデルの非同期協調学習を可能にするフレームワークを提案する。 これにより、データサイエンスチームは、データを共有することなく、機械学習モデルを協調的にトレーニングすることができる。 提案手法は,この組織内クロスサイロ環境での非同期トレーニングに適合するように,従来のフェデレーション学習技術を強化する。 提案手法を広範な実験により検証する。

Machine learning algorithms can perform well when trained on large datasets. While large organisations often have considerable data assets, it can be difficult for these assets to be unified in a manner that makes training possible. Data is very often 'siloed' in different parts of the organisation, with little to no access between silos. This fragmentation of data assets is especially prevalent in heavily regulated industries like financial services or healthcare. In this paper we propose a framework to enable asynchronous collaborative training of machine learning models across data silos. This allows data science teams to collaboratively train a machine learning model, without sharing data with one another. Our proposed approach enhances conventional federated learning techniques to make them suitable for this asynchronous training in this intra-organisation, cross-silo setting. We validate our proposed approach via extensive experiments.
翻訳日:2022-03-25 14:25:45 公開日:2022-03-23
# モデルロバスト性向上のための対人訓練 予測と解釈の両方を見て

Adversarial Training for Improving Model Robustness? Look at Both Prediction and Interpretation ( http://arxiv.org/abs/2203.12709v1 )

ライセンス: Link先を確認
Hanjie Chen, Yangfeng Ji(参考訳) ニューラルネットワークモデルは、元のものと意味的に類似した、いくつかの単語を同義語に置き換えた敵の例に脆弱性を示す。 モデルロバスト性を改善するための一般的な方法は、ターゲットモデルを攻撃することによって2つのステップを組立てた敵の例に従い、これらの敵の例で強化データセット上でモデルを微調整する。 従来の敵訓練の目的は、モデルがオリジナル/敵の例ペアで同じ正しい予測を生成するようにすることである。 しかし、2つの類似したテキストにおけるモデル決定の一貫性は無視される。 我々は、ロバストなモデルは、一貫性のある解釈によって反映できる同じ理由(どのように)に基づいて、同じ予測(何)を行う、原/逆の例対に一貫して振る舞うべきであると論じる。 本研究では,FLAT という新しい特徴レベルの対角訓練手法を提案する。 FLATは、予測と解釈の両方の観点からモデルの堅牢性を改善することを目的としている。 FLATはニューラルネットワークに変分ワードマスクを導入し、グローバルな単語の重要性を学び、重要な単語に基づいて予測を行うモデルを教えるボトルネックとして機能する。 フラットは、置換された単語のモデル理解とそれらのシノニムとのミスマッチによって引き起こされる脆弱性問題を、対応するグローバル単語の重要性スコアを正則化することによって明示的にシュートする。 実験では、4つのテキスト分類タスクに対する2つの敵攻撃に対する4つのニューラルネットワークモデル(LSTM, CNN, BERT, DeBERTa)の予測と解釈の両方に関して、FLATの有効性が示された。 FLATで訓練されたモデルは、異なる攻撃に対する予期せぬ敵の例において、ベースラインモデルよりも堅牢性が高い。

Neural language models show vulnerability to adversarial examples which are semantically similar to their original counterparts with a few words replaced by their synonyms. A common way to improve model robustness is adversarial training which follows two steps-collecting adversarial examples by attacking a target model, and fine-tuning the model on the augmented dataset with these adversarial examples. The objective of traditional adversarial training is to make a model produce the same correct predictions on an original/adversarial example pair. However, the consistency between model decision-makings on two similar texts is ignored. We argue that a robust model should behave consistently on original/adversarial example pairs, that is making the same predictions (what) based on the same reasons (how) which can be reflected by consistent interpretations. In this work, we propose a novel feature-level adversarial training method named FLAT. FLAT aims at improving model robustness in terms of both predictions and interpretations. FLAT incorporates variational word masks in neural networks to learn global word importance and play as a bottleneck teaching the model to make predictions based on important words. FLAT explicitly shoots at the vulnerability problem caused by the mismatch between model understandings on the replaced words and their synonyms in original/adversarial example pairs by regularizing the corresponding global word importance scores. Experiments show the effectiveness of FLAT in improving the robustness with respect to both predictions and interpretations of four neural network models (LSTM, CNN, BERT, and DeBERTa) to two adversarial attacks on four text classification tasks. The models trained via FLAT also show better robustness than baseline models on unforeseen adversarial examples across different attacks.
翻訳日:2022-03-25 13:55:26 公開日:2022-03-23
# UMT:ジョイントビデオモーメント検索と光検出のための統一マルチモーダルトランス

UMT: Unified Multi-modal Transformers for Joint Video Moment Retrieval and Highlight Detection ( http://arxiv.org/abs/2203.12745v1 )

ライセンス: Link先を確認
Ye Liu, Siyuan Li, Yang Wu, Chang Wen Chen, Ying Shan, Xiaohu Qie(参考訳) 自然言語クエリによるビデオの関連モーメントやハイライトを見つけることは、現在のビデオコンテンツの爆発の時代において、自然で非常に価値のある共通のニーズである。 それにもかかわらず、そのコンポーネント問題といくつかの関連するタスクがすでに研究されているにもかかわらず、共同でモーメント検索とハイライト検出を行うことが、新たな研究トピックである。 本稿では,統一型マルチモーダルトランス (UMT) を初めて提案し,このような共同最適化を実現するとともに,個別の問題を解く上で容易にデジェクトすることができることを示す。 私たちが認識している限り、これは、共同最適化または個別モーメント検索タスクのためにマルチモーダル(ビジュアルオーディオ)学習を統合し、新しいクエリジェネレータとクエリデコーダを使用して、キーポイント検出問題としてモーメント検索に取り組む最初のスキームである。 QVHighlights, Charades-STA, YouTube Highlights, TVSum の既存手法との比較により, 提案手法の有効性, 優位性, 柔軟性を示す。 ソースコードと事前訓練されたモデルはhttps://github.com/T encentARC/UMT.comで入手できる。

Finding relevant moments and highlights in videos according to natural language queries is a natural and highly valuable common need in the current video content explosion era. Nevertheless, jointly conducting moment retrieval and highlight detection is an emerging research topic, even though its component problems and some related tasks have already been studied for a while. In this paper, we present the first unified framework, named Unified Multi-modal Transformers (UMT), capable of realizing such joint optimization while can also be easily degenerated for solving individual problems. As far as we are aware, this is the first scheme to integrate multi-modal (visual-audio) learning for either joint optimization or the individual moment retrieval task, and tackles moment retrieval as a keypoint detection problem using a novel query generator and query decoder. Extensive comparisons with existing methods and ablation studies on QVHighlights, Charades-STA, YouTube Highlights, and TVSum datasets demonstrate the effectiveness, superiority, and flexibility of the proposed method under various settings. Source code and pre-trained models are available at https://github.com/T encentARC/UMT.
翻訳日:2022-03-25 13:50:43 公開日:2022-03-23
# エッジコンピューティングにおける高速かつロバストなフェデレーション学習のための文脈モデル集約

Contextual Model Aggregation for Fast and Robust Federated Learning in Edge Computing ( http://arxiv.org/abs/2203.12738v1 )

ライセンス: Link先を確認
Hung T. Nguyen, H. Vincent Poor, Mung Chiang(参考訳) フェデレーション学習(federated learning)は、ネットワークエッジにおける分散機械学習の第一候補である。 しかし、既存のアルゴリズムは、エッジにおけるデータ分散、計算、通信能力のかなりの不均一性のために、収束の遅さや性能の堅牢性といった問題に直面している。 本研究では,フェデレーション学習システムにおけるモデル集約の重要なコンポーネントに着目し,そのタスクを行うための最適なアルゴリズムについて検討する。 特に,最適化の各ラウンドにおける損失削減の最適文脈依存境界を達成する文脈集約スキームを提案する。 上記コンテキスト依存境界は、そのラウンド内の特定の参加者デバイスと、全体の損失関数の滑らかさに関する仮定から導出される。 このアグリゲーションが各ラウンドにおける損失関数を確実に減少させることを示す。 さらに,アグリゲーションを多くの既存アルゴリズムと統合し,文脈バージョンを得る。 実験の結果,コンバージェンス速度とコンテクストバージョンのロバスト性は,従来のアルゴリズムと比較して有意に向上した。 また,コンテクストアグリゲーションの異なる変種を検討し,最も極端な設定でもロバストな性能を示す。

Federated learning is a prime candidate for distributed machine learning at the network edge due to the low communication complexity and privacy protection among other attractive properties. However, existing algorithms face issues with slow convergence and/or robustness of performance due to the considerable heterogeneity of data distribution, computation and communication capability at the edge. In this work, we tackle both of these issues by focusing on the key component of model aggregation in federated learning systems and studying optimal algorithms to perform this task. Particularly, we propose a contextual aggregation scheme that achieves the optimal context-dependent bound on loss reduction in each round of optimization. The aforementioned context-dependent bound is derived from the particular participating devices in that round and an assumption on smoothness of the overall loss function. We show that this aggregation leads to a definite reduction of loss function at every round. Furthermore, we can integrate our aggregation with many existing algorithms to obtain the contextual versions. Our experimental results demonstrate significant improvements in convergence speed and robustness of the contextual versions compared to the original algorithms. We also consider different variants of the contextual aggregation and show robust performance even in the most extreme settings.
翻訳日:2022-03-25 13:26:03 公開日:2022-03-23
# 急速探索型ランダムツリーを用いた効率的な探索学習

Learning Efficient Exploration through Human Seeded Rapidly-exploring Random Trees ( http://arxiv.org/abs/2203.12774v1 )

ライセンス: Link先を確認
Max Zuo and Logan Schick and Matthew Gombolay and Nakul Gopalan(参考訳) 現代のコンピュータゲームには、非常に大きな状態とアクションスペースがある。 これらのゲームのモデルのバグを検出するために、人間のテスタは繰り返しゲームをしてゲームを調べ、ゲーム内のエラーを見つける。 そのような遊びは徹底的で時間を要する。 さらに、ロボットシミュレータは、モデル仕様とデバッグの類似の方法に依存しているため、モデル内のエラーを見つける問題は、ロボットの振る舞いとインタラクションがシミュレーターで一貫性があることを保証するロボットコミュニティにとって関心がある。 以前の手法では強化学習と検索ベースの手法を使い、素早く探索するランダムツリー(rrt)を含むゲームの状態動作空間を探索してバグを見つける。 しかし、そのような探索と探索に基づく手法は、事前定義されたヒューリスティックがなければ状態-作用空間を探索することができない。 本研究は,ゲーム解決における人間テスターの専門知識と,ゲームの状態空間を高いカバレッジで効率的に探索するRRTの徹底性を組み合わせることを目的とする。 本稿では,人間種RRT (HS-RRT) と行動閉鎖支援RT (CA-RRT) を用いて,探索したゲーム状態の数と,それらのゲーム状態の探索に要する時間について述べる。 本手法をゲーム探索試験のための既存の重み付きRRTベースラインと比較した。 HS-RRT と CA-RRT はいずれも,既存のベースラインと比較して,ツリー拡張/イテレーションの少ないゲーム状態を探索する。 各テストでは、CA-RRTはRRTと同じ回数で平均でより多くの状態に達した。 テスト環境では、CA-RRTは平均で5000以上のイテレーションを減らし、約50%の削減を実現しました。

Modern day computer games have extremely large state and action spaces. To detect bugs in these games' models, human testers play the games repeatedly to explore the game and find errors in the games. Such game play is exhaustive and time consuming. Moreover, since robotics simulators depend on similar methods of model specification and debugging, the problem of finding errors in the model is of interest for the robotics community to ensure robot behaviors and interactions are consistent in simulators. Previous methods have used reinforcement learning and search based methods including Rapidly-exploring Random Trees (RRT) to explore a game's state-action space to find bugs. However, such search and exploration based methods are not efficient at exploring the state-action space without a pre-defined heuristic. In this work we attempt to combine a human-tester's expertise in solving games, and the exhaustiveness of RRT to search a game's state space efficiently with high coverage. This paper introduces human-seeded RRT (HS-RRT) and behavior-cloning-ass isted RRT (CA-RRT) in testing the number of game states searched and the time taken to explore those game states. We compare our methods to an existing weighted RRT baseline for game exploration testing studied. We find HS-RRT and CA-RRT both explore more game states in fewer tree expansions/iteration s when compared to the existing baseline. In each test, CA-RRT reached more states on average in the same number of iterations as RRT. In our tested environments, CA-RRT was able to reach the same number of states as RRT by more than 5000 fewer iterations on average, almost a 50% reduction.
翻訳日:2022-03-25 13:25:46 公開日:2022-03-23
# Denoising Autoencodersを用いた生物配列設計のためのベイズ最適化の高速化

Accelerating Bayesian Optimization for Biological Sequence Design with Denoising Autoencoders ( http://arxiv.org/abs/2203.12742v1 )

ライセンス: Link先を確認
Samuel Stanton, Wesley Maddox, Nate Gruver, Phillip Maffettone, Emily Delaney, Peyton Greenside, Andrew Gordon Wilson(参考訳) ベイズ最適化はクエリ効率の高い連続最適化のための金の標準である。 しかし、薬品および抗体配列設計への採用は、決定変数の離散的で高次元的な性質によって妨げられている。 本稿では,自動エンコーダの潜在空間における多目的獲得関数の勾配に基づく最適化を実現するため,識別型マルチタスクガウスプロセスヘッドで自動エンコーダを協調訓練する手法(LaMBO)を開発した。 これらの獲得機能により、LaMBOは複数の設計ラウンドにおける探索・探索トレードオフのバランスをとることができ、Paretoフロンティア上の多くの異なる点におけるシーケンスを最適化することで、客観的トレードオフのバランスをとることができる。 我々は,ZINCデータセットに基づく小分子タスクでLaMBOを評価し,蛍光タンパク質をターゲットとした新しい大規模分子タスクを導入する。 我々の実験では、LaMBOは遺伝的オプティマイザよりも優れており、大きな事前学習コーパスを必要としないため、ベイズ最適化は生物学的配列設計において実用的で効果的であることを示す。

Bayesian optimization is a gold standard for query-efficient continuous optimization. However, its adoption for drug and antibody sequence design has been hindered by the discrete, high-dimensional nature of the decision variables. We develop a new approach (LaMBO) which jointly trains a denoising autoencoder with a discriminative multi-task Gaussian process head, enabling gradient-based optimization of multi-objective acquisition functions in the latent space of the autoencoder. These acquisition functions allow LaMBO to balance the explore-exploit trade-off over multiple design rounds, and to balance objective tradeoffs by optimizing sequences at many different points on the Pareto frontier. We evaluate LaMBO on a small-molecule task based on the ZINC dataset and introduce a new large-molecule task targeting fluorescent proteins. In our experiments, LaMBO outperforms genetic optimizers and does not require a large pretraining corpus, demonstrating that Bayesian optimization is practical and effective for biological sequence design.
翻訳日:2022-03-25 13:24:56 公開日:2022-03-23
# Q-FW: 二次二項最適化のためのハイブリッド古典量子フランクウルフ

Q-FW: A Hybrid Classical-Quantum Frank-Wolfe for Quadratic Binary Optimization ( http://arxiv.org/abs/2203.12633v1 )

ライセンス: Link先を確認
Alp Yurtsever and Tolga Birdal and Vladislav Golyanik(参考訳) 本稿では,量子アニール(QA)上の二次的,線形に制約された2値最適化問題を解くために,フランク・ウルフアルゴリズム(Q-FW)に基づく古典量子ハイブリッドフレームワークを提案する。 量子コンピュータの計算前提は、様々な既存の視覚問題を量子フレンドリーな形式に再設計した。 実験的QA実現は、二次非制約バイナリ最適化(QUBO)として知られる特定の非凸問題を解くことができる。 しかし、naive-quboはパラメータの制限を考慮に入れることができない。 パラメータ空間にさらなる構造を導入するために、研究者たちは正規化子の形で(線形)制約を組み込んだアドホックな解法を開発した。 しかし、これは超パラメーターを犠牲にして、正規化の影響のバランスをとる。 現在までに、二次二元最適化(QBO)問題の真の制約付き解法は欠落している。 Q-FW は最初、制約付き QBO をコ陽性プログラム (CP) として再定義し、その後、線形(不等式)の制約を満足しながら CP を解くためにフランク=ウルフ反復を用いる。 この手順は、元の制約付きQBOを一連の制約なしQUBOにアンロールし、これらすべてを後続のQAで解決する。 我々はD-Wave Advantage QAを用いて、グラフマッチングと置換同期という2つの重要なコンピュータビジョン問題に対する合成および実実験を行い、この手法が明示的な正規化係数の必要性を軽減するのに有効であることを示す。

We present a hybrid classical-quantum framework based on the Frank-Wolfe algorithm, Q-FW, for solving quadratic, linearly-constrained , binary optimization problems on quantum annealers (QA). The computational premise of quantum computers has cultivated the re-design of various existing vision problems into quantum-friendly forms. Experimental QA realizations can solve a particular non-convex problem known as the quadratic unconstrained binary optimization (QUBO). Yet a naive-QUBO cannot take into account the restrictions on the parameters. To introduce additional structure in the parameter space, researchers have crafted ad-hoc solutions incorporating (linear) constraints in the form of regularizers. However, this comes at the expense of a hyper-parameter, balancing the impact of regularization. To date, a true constrained solver of quadratic binary optimization (QBO) problems has lacked. Q-FW first reformulates constrained-QBO as a copositive program (CP), then employs Frank-Wolfe iterations to solve CP while satisfying linear (in)equality constraints. This procedure unrolls the original constrained-QBO into a set of unconstrained QUBOs all of which are solved, in a sequel, on a QA. We use D-Wave Advantage QA to conduct synthetic and real experiments on two important computer vision problems, graph matching and permutation synchronization, which demonstrate that our approach is effective in alleviating the need for an explicit regularization coefficient.
翻訳日:2022-03-25 13:23:32 公開日:2022-03-23
# 深部生成モデルを用いた自律エージェントの能力評価

Competency Assessment for Autonomous Agents using Deep Generative Models ( http://arxiv.org/abs/2203.12670v1 )

ライセンス: Link先を確認
Aastha Acharya, Rebecca Russell, Nisar R. Ahmed(参考訳) 自律的なエージェントが人間のユーザにとって信頼できるパートナーとして振る舞うためには、要求されたタスクに対して確実に能力を伝える必要があります。 本研究の目的は,エージェント軌道のシミュレーションとタスク結果の正確な計算を可能にする,深層生成モデルに基づく確率論的世界モデルを開発することである。 条件付き変分オートエンコーダの強度と繰り返しニューラルネットワークを組み合わせることで、深部生成世界モデルは、長い水平線上の軌道を確率的に予測し、タスク完遂する。 予測された軌道は結果確率分布の計算にどのように使われるかを示し,特定のタスクや初期設定に対するエージェント能力の正確な評価を可能にした。

For autonomous agents to act as trustworthy partners to human users, they must be able to reliably communicate their competency for the tasks they are asked to perform. Towards this objective, we develop probabilistic world models based on deep generative modelling that allow for the simulation of agent trajectories and accurate calculation of tasking outcome probabilities. By combining the strengths of conditional variational autoencoders with recurrent neural networks, the deep generative world model can probabilistically forecast trajectories over long horizons to task completion. We show how these forecasted trajectories can be used to calculate outcome probability distributions, which enable the precise assessment of agent competency for specific tasks and initial settings.
翻訳日:2022-03-25 13:21:52 公開日:2022-03-23
# キー値メモリバンク付き線形化トランス

Linearizing Transformer with Key-Value Memory Bank ( http://arxiv.org/abs/2203.12644v1 )

ライセンス: Link先を確認
Yizhe Zhang, Deng Cai(参考訳) Transformerは、幅広い自然言語処理タスクで大きな成功を収めた。 それでも、バニラ変圧器の計算オーバーヘッドは、シーケンス長の2倍にスケールする。 より効率的な変圧器の開発に多くの努力がなされている。 作業行(Linformerなど)は入力シーケンスを低ランク空間に投影し、線形時間複雑性を実現する。 しかしLinformerは、シーケンス長を事前に指定する必要があるため、テキスト生成タスクには適していない。 提案するMemSizerは,ソースシーケンスを低次元表現に投影する手法であるが,注意機構の異なる視点で動的長の入力を行うことができる。 MemSizerは同じ線形時間複雑性を達成できるだけでなく、効率的なリカレントスタイルの自己回帰生成も実現している。 我々は,言語モデリングや機械翻訳タスクにおいて,バニラ変圧器と他の線形変圧器との効率と精度のトレードオフを改良し,さらなる推論効率向上に向けた有効な方向を明らかにした。

Transformer has brought great success to a wide range of natural language processing tasks. Nevertheless, the computational overhead of the vanilla transformer scales quadratically with sequence length. Many efforts have been made to develop more efficient transformer variants. A line of work (e.g., Linformer) projects the input sequence into a low-rank space, achieving linear time complexity. However, Linformer does not suit well for text generation tasks as the sequence length must be pre-specified. We propose MemSizer, an approach also projects the source sequence into lower dimension representation but can take input with dynamic length, with a different perspective of the attention mechanism. MemSizer not only achieves the same linear time complexity but also enjoys efficient recurrent-style autoregressive generation, which yields constant memory complexity and reduced computation at inference. We demonstrate that MemSizer provides an improved tradeoff between efficiency and accuracy over the vanilla transformer and other linear variants in language modeling and machine translation tasks, revealing a viable direction towards further inference efficiency improvement.
翻訳日:2022-03-25 13:04:06 公開日:2022-03-23
# 特徴帰属アルゴリズムによる制御可能な要因の影響の理解に関する医学的事例研究

On Understanding the Influence of Controllable Factors with a Feature Attribution Algorithm: a Medical Case Study ( http://arxiv.org/abs/2203.12701v1 )

ライセンス: Link先を確認
Veera Raghava Reddy Kovvuri, Siyuan Liu, Monika Seisenberger, Berndt M\"uller, and Xiuyi Fan(参考訳) 特徴帰属XAIアルゴリズムは、ユーザがその特徴重要度計算を通じて、大きなデータセットの基盤となるパターンを把握できるようにする。 既存の特徴属性アルゴリズムはデータセット内のすべての特徴を均質に扱い、特徴値の変化による結果の誤解釈につながる可能性がある。 本研究では,制御可能かつ制御不能な部分に特徴を分割することを検討するとともに,制御可能特徴の相対的重要性を計算するための制御可能fActor特徴属性(CAFA)アプローチを提案する。 cafaを既存の2つのデータセットと、新型コロナウイルス(covid-19)非薬剤管理指標データセットに適用する実験を行った。 実験の結果,cafaでは,予測のためのデータセットを完全に保持しながら,制御不能な特徴から影響を除外できることがわかった。

Feature attribution XAI algorithms enable their users to gain insight into the underlying patterns of large datasets through their feature importance calculation. Existing feature attribution algorithms treat all features in a dataset homogeneously, which may lead to misinterpretation of consequences of changing feature values. In this work, we consider partitioning features into controllable and uncontrollable parts and propose the Controllable fActor Feature Attribution (CAFA) approach to compute the relative importance of controllable features. We carried out experiments applying CAFA to two existing datasets and our own COVID-19 non-pharmaceutical control measures dataset. Experimental results show that with CAFA, we are able to exclude influences from uncontrollable features in our explanation while keeping the full dataset for prediction.
翻訳日:2022-03-25 13:00:51 公開日:2022-03-23
# コンファウンディングによる全目的領域適応に向けて

Towards All-Purpose Domain Adaptation Under Confounding ( http://arxiv.org/abs/2203.12720v1 )

ライセンス: Link先を確認
Calvin McCarter(参考訳) 現在のドメイン適応法は共変量シフトやラベルシフトの問題に対処するが、それらが同時に発生し互いに相互作用する設定には適用されない。 本稿では,この問題に取り組み始めるために,シフトを結合した仮定を提案する。 また、ソースとターゲット条件分布の相違を最小限に抑えることに基づく、このタスクのためのフレームワークを提案する。 本枠組みでは, 逆KL分散法を用いて, パラメトリック線形ガウス法と非パラメトリック非線形ガウス法の両方を用いて条件分布を推定する手法を提案する。 また,フレームワーク内での最大平均離散性(MMD)についても提案する。 本稿では,MMDによるドメイン適応を効果的に実現するために,カーネル帯域幅を選択するためのインテリジェントな動的戦略を提案する。 最後に、我々のアプローチは、様々な合成および実際のデータセットに有利であることを示す。

Current domain adaptation methods address the problems of covariate shift or label shift, but are not applicable to the setting where they occur simultaneously and interact with each other. In this paper, we propose an assumption, confounded shift, to begin to address this problem. We also propose a framework for this task, based on minimizing the expected divergence between the source and target conditional distributions. Within this framework, we propose using the reverse KL divergence, demonstrating the use of both parametric linear Gaussian and nonparametric nonlinear Gaussian Process estimators of the conditional distribution. We also propose using the Maximum Mean Discrepancy (MMD) within our framework. To make confounded domain adaptation with the MMD effective, we propose an intelligent dynamic strategy for choosing the kernel bandwidth, which may be of independent interest even outside of the confounded shift context. Finally, we show that our approach is advantageous on a variety of synthetic and real datasets.
翻訳日:2022-03-25 13:00:02 公開日:2022-03-23
# 多項性による分類器の保守性とロバスト性の向上

Enhancing Classifier Conservativeness and Robustness by Polynomiality ( http://arxiv.org/abs/2203.12693v1 )

ライセンス: Link先を確認
Ziqi Wang, Marco Loog(参考訳) 古典的LDA法やロジスティック回帰法のような手法において指数的行動が持つような過信決定のような有害な効果について述べる。 次に、多項式性がいかに状況を改善するかを示す。 このことは、トレーニングデータの大部分から離れて、意図的に尾部のランダムなレベルのパフォーマンスにつながる。 直接的に関連があり、単純で重要な技術的新奇性は、現代の(ディープ)ニューラルネットワークで使用される標準ソフトマックス関数に代わる、SoftRmaxである。 標準ソフトマックスをガウス級条件モデルにリンクすることで導出され、LDAで採用され、多項式の代替品に置き換えられる。 我々は,ソフトRmaxの2つの側面,保守性と固有の勾配正規化が,勾配難読化のない敵攻撃に対する堅牢性をもたらすことを示した。

We illustrate the detrimental effect, such as overconfident decisions, that exponential behavior can have in methods like classical LDA and logistic regression. We then show how polynomiality can remedy the situation. This, among others, leads purposefully to random-level performance in the tails, away from the bulk of the training data. A directly related, simple, yet important technical novelty we subsequently present is softRmax: a reasoned alternative to the standard softmax function employed in contemporary (deep) neural networks. It is derived through linking the standard softmax to Gaussian class-conditional models, as employed in LDA, and replacing those by a polynomial alternative. We show that two aspects of softRmax, conservativeness and inherent gradient regularization, lead to robustness against adversarial attacks without gradient obfuscation.
翻訳日:2022-03-25 12:59:20 公開日:2022-03-23
# 実用前の可能性:学習と階層的アフォーアンスの利用

Possibility Before Utility: Learning And Using Hierarchical Affordances ( http://arxiv.org/abs/2203.12686v1 )

ライセンス: Link先を確認
Robby Costales and Shariq Iqbal and Fei Sha(参考訳) 強化学習アルゴリズムは複雑な階層的依存構造を持つタスクに苦労する。 人間や他の知的エージェントは、存在するすべてのハイレベルなアクションの有用性を評価する時間を無駄にせず、まず最初に考えられるものだけを考える。 現段階では、実現可能なもののみに焦点を合わせることで、エージェントは、何が重要なのかを評価するのと行動の両方により多くの時間を費やすことができる。 そこで本研究では,より効果的な学習のために,難解なサブタスクをプルーピングするために階層的アフォーアンスモデルを学ぶ手法である階層的アフォーアンス学習(hal)を提案する。 既存の階層的強化学習では,サブタスクの構造的表現をエージェントに提供しているが,アベイランスを意識していないため,現状では階層的アベイランスの定義を根拠にすることで,サブタスクの依存関係を象徴的な歴史に根ざしたアプローチよりも柔軟である。 これらの論理ベースのメソッドはサブタスク階層の完全な知識を必要とすることが多いが、このアプローチは不完全で多様なシンボリックな仕様を活用できる。 さらに,halエージェントは,非適応認識手法と比較して,複雑なタスクを効率的に学習し,環境確率をナビゲートし,多彩な指導の欠如により多様なスキルを身につけることができることを実証する。

Reinforcement learning algorithms struggle on tasks with complex hierarchical dependency structures. Humans and other intelligent agents do not waste time assessing the utility of every high-level action in existence, but instead only consider ones they deem possible in the first place. By focusing only on what is feasible, or "afforded", at the present moment, an agent can spend more time both evaluating the utility of and acting on what matters. To this end, we present Hierarchical Affordance Learning (HAL), a method that learns a model of hierarchical affordances in order to prune impossible subtasks for more effective learning. Existing works in hierarchical reinforcement learning provide agents with structural representations of subtasks but are not affordance-aware, and by grounding our definition of hierarchical affordances in the present state, our approach is more flexible than the multitude of approaches that ground their subtask dependencies in a symbolic history. While these logic-based methods often require complete knowledge of the subtask hierarchy, our approach is able to utilize incomplete and varying symbolic specifications. Furthermore, we demonstrate that relative to non-affordance-aware methods, HAL agents are better able to efficiently learn complex tasks, navigate environment stochasticity, and acquire diverse skills in the absence of extrinsic supervision -- all of which are hallmarks of human learning.
翻訳日:2022-03-25 12:43:15 公開日:2022-03-23
# フェアネスはメートル法のみの深さか? 深層学習におけるサブグループギャップの評価と対応

Is Fairness Only Metric Deep? Evaluating and Addressing Subgroup Gaps in Deep Metric Learning ( http://arxiv.org/abs/2203.12748v1 )

ライセンス: Link先を確認
Natalie Dullerud, Karsten Roth, Kimia Hamidieh, Nicolas Papernot, Marzyeh Ghassemi(参考訳) ディープメトリック学習(dml)は、表現の類似性構造を重視して、より少ない監督で学習を可能にする。 ゼロショット検索のような設定におけるDMLの一般化に関する多くの研究があるが、その妥当性についてはほとんど分かっていない。 本稿では,不均衡データにトレーニングされた最先端dml手法を最初に評価し,これらの表現が下流タスクに使用する場合のマイノリティサブグループ性能に与える影響を示す。 本研究では、まず、クラス間アライメント、クラス内アライメント、均一性という表現空間の3つの特性を解析し、非バランスなDMLベンチマークにおけるフェアネスであるfinDMLを提案する。 finDMLを用いることで、DML表現のバイアスが共通の下流分類タスクに伝播する。 驚くべきことに、このバイアスは下流タスクのトレーニングデータが再バランスされた場合でも伝播する。 この問題に対処するため, 部分属性デコリレーション(PARADE)を提案し, 特徴表現を機密属性から非相関化し, 埋め込み空間と下流メトリクスの両方におけるサブグループ間の性能ギャップを減らした。

Deep metric learning (DML) enables learning with less supervision through its emphasis on the similarity structure of representations. There has been much work on improving generalization of DML in settings like zero-shot retrieval, but little is known about its implications for fairness. In this paper, we are the first to evaluate state-of-the-art DML methods trained on imbalanced data, and to show the negative impact these representations have on minority subgroup performance when used for downstream tasks. In this work, we first define fairness in DML through an analysis of three properties of the representation space -- inter-class alignment, intra-class alignment, and uniformity -- and propose finDML, the fairness in non-balanced DML benchmark to characterize representation fairness. Utilizing finDML, we find bias in DML representations to propagate to common downstream classification tasks. Surprisingly, this bias is propagated even when training data in the downstream task is re-balanced. To address this problem, we present Partial Attribute De-correlation (PARADE) to de-correlate feature representations from sensitive attributes and reduce performance gaps between subgroups in both embedding space and downstream metrics.
翻訳日:2022-03-25 12:42:51 公開日:2022-03-23
# 正則逆拡散法によるMR画像の劣化と超解像

MR Image Denoising and Super-Resolution Using Regularized Reverse Diffusion ( http://arxiv.org/abs/2203.12621v1 )

ライセンス: Link先を確認
Hyungjin Chung, Eun Sun Lee, Jong Chul Ye(参考訳) MRIの患者スキャンは、しばしばノイズに悩まされ、そのような画像の診断能力を損なう。 このようなアーティファクトを緩和する方法として、デノイジングは医用画像のコミュニティ内と一般の主題としてのコミュニティ外の両方で広く研究されている。 しかし、最近のディープニューラルネットワークベースのアプローチは、主に、ぼやけた出力を生成する傾向にある最小平均二乗誤差(MMSE)推定に依存する。 さらに、そのようなモデルが現実のシチュエーションに展開される際には、アウト・オブ・ディストリビューションデータや、通常のパラメトリックノイズモデルから逸脱する複雑なノイズ分布に悩まされる。 本研究では,上記すべての欠点を克服したスコアベース逆拡散サンプリングに基づく新しい雑音除去手法を提案する。 われわれのネットワークは, 冠状膝関節スキャンのみを用いて訓練され, 生体内MRIデータにおいても, 複雑なノイズ混入で汚染されている。 さらに,同一ネットワーク上でのデノベーション画像の解像度を向上させる手法を提案する。 実験により,本手法は,従来のMMSE復調器では得られない望ましい特性,すなわちフレキシブルに denoising の程度を選択し,不確実性を定量化しながら,最先端の性能を確立した。

Patient scans from MRI often suffer from noise, which hampers the diagnostic capability of such images. As a method to mitigate such artifact, denoising is largely studied both within the medical imaging community and beyond the community as a general subject. However, recent deep neural network-based approaches mostly rely on the minimum mean squared error (MMSE) estimates, which tend to produce a blurred output. Moreover, such models suffer when deployed in real-world sitautions: out-of-distribution data, and complex noise distributions that deviate from the usual parametric noise models. In this work, we propose a new denoising method based on score-based reverse diffusion sampling, which overcomes all the aforementioned drawbacks. Our network, trained only with coronal knee scans, excels even on out-of-distribution in vivo liver MRI data, contaminated with complex mixture of noise. Even more, we propose a method to enhance the resolution of the denoised image with the same network. With extensive experiments, we show that our method establishes state-of-the-art performance, while having desirable properties which prior MMSE denoisers did not have: flexibly choosing the extent of denoising, and quantifying uncertainty.
翻訳日:2022-03-25 12:42:10 公開日:2022-03-23
# うるさい擬似ラベルを用いた3次元点雲内のシーンフローの学習

Learning Scene Flow in 3D Point Clouds with Noisy Pseudo Labels ( http://arxiv.org/abs/2203.12655v1 )

ライセンス: Link先を確認
Bing Li, Cheng Zheng, Guohao Li, Bernard Ghanem(参考訳) そこで本研究では,3次元の3次元動きを点雲からキャプチャするシーンフロー手法を提案する。 点雲の不規則さと空白さのため、地平線フローアノテーションを取得するのに時間と費用がかかる。 最先端のいくつかのアプローチは、ポイントクラウドから擬似シーンフローラベルを近似することで、自己教師付き学習方法でシーンフローネットワークを訓練する。 しかし、スパルシリティやカラー情報の欠如といったポイントクラウドの制限のため、これらの手法は完全な教師付き手法のパフォーマンスレベルを達成できなかった。 そこで本研究では,単眼のRGB画像と点雲を用いてシーンフローネットワークをトレーニングするための擬似シーンフローラベルを生成する手法を提案する。 擬似ラベル生成モジュールは,単眼画像におけるリッチな外観情報と点雲の幾何学的情報を同時に活用することにより,ポイントクラウドの擬似シーンラベルを推定する。 擬似ラベルが学習に与える負の効果をさらに低減するため, 点の幾何学的関係を利用して, 雑音を意識した学習手法を提案する。 実験の結果,本手法は最先端の自己教師ありアプローチに勝るだけでなく,精度の高い地中流れを用いた教師ありアプローチにも勝ることがわかった。

We propose a novel scene flow method that captures 3D motions from point clouds without relying on ground-truth scene flow annotations. Due to the irregularity and sparsity of point clouds, it is expensive and time-consuming to acquire ground-truth scene flow annotations. Some state-of-the-art approaches train scene flow networks in a self-supervised learning manner via approximating pseudo scene flow labels from point clouds. However, these methods fail to achieve the performance level of fully supervised methods, due to the limitations of point cloud such as sparsity and lacking color information. To provide an alternative, we propose a novel approach that utilizes monocular RGB images and point clouds to generate pseudo scene flow labels for training scene flow networks. Our pseudo label generation module infers pseudo scene labels for point clouds by jointly leveraging rich appearance information in monocular images and geometric information of point clouds. To further reduce the negative effect of noisy pseudo labels on the training, we propose a noisy-label-aware training scheme by exploiting the geometric relations of points. Experiment results show that our method not only outperforms state-of-the-art self-supervised approaches, but also outperforms some supervised approaches that use accurate ground-truth flows.
翻訳日:2022-03-25 12:40:04 公開日:2022-03-23
# セマンティクスセグメンテーションのためのマルチスケール特徴融合の再検討

Revisiting Multi-Scale Feature Fusion for Semantic Segmentation ( http://arxiv.org/abs/2203.12683v1 )

ライセンス: Link先を確認
Tianjian Meng, Golnaz Ghiasi, Reza Mahjorian, Quoc V. Le, Mingxing Tan(参考訳) 高い内部分解能と高価な操作(例えばatrous convolutions)が組み合わさって正確なセマンティックセグメンテーションが必要と考えられており、結果として速度が遅く、メモリ使用量も大きくなる。 本稿では,この信念に疑問を呈し,高い内部分解能や複雑な畳み込みは不要であることを実証する。 我々の直感では、セグメンテーションはピクセルごとの密度の高い予測タスクであるが、各ピクセルのセマンティクスは近隣と遠方の両方に依存することが多いため、より強力なマルチスケール特徴融合ネットワークが重要な役割を果たす。 この直観に従い、従来の多スケール特徴空間(典型的にはp5)を再検討し、よりリッチな空間まで拡張し、最小の特徴は入力サイズの1/512に過ぎず、非常に大きな受容場を持つp9まで拡張する。 このようなリッチな特徴空間を処理するために、最近のBiFPNを活用してマルチスケールな特徴を融合する。 これらの知見に基づいて,高内部分解能も高価なアトラス畳み込みも持たない,ESegと呼ばれる簡易なセグメンテーションモデルを開発した。 意外なことに、我々の単純な手法は、複数のデータセットにわたる先行技術よりも高速で精度を向上できる。 リアルタイム設定では、ESeg-Lite-SはCityScapes [12]で76.0% mIoUを189 FPSで達成し、FasterSeg [9](73.1% mIoUで170 FPS)を上回っている。 我々のESeg-Lite-Lは79 FPSで動作し、80.1% mIoUを達成した。

It is commonly believed that high internal resolution combined with expensive operations (e.g. atrous convolutions) are necessary for accurate semantic segmentation, resulting in slow speed and large memory usage. In this paper, we question this belief and demonstrate that neither high internal resolution nor atrous convolutions are necessary. Our intuition is that although segmentation is a dense per-pixel prediction task, the semantics of each pixel often depend on both nearby neighbors and far-away context; therefore, a more powerful multi-scale feature fusion network plays a critical role. Following this intuition, we revisit the conventional multi-scale feature space (typically capped at P5) and extend it to a much richer space, up to P9, where the smallest features are only 1/512 of the input size and thus have very large receptive fields. To process such a rich feature space, we leverage the recent BiFPN to fuse the multi-scale features. Based on these insights, we develop a simplified segmentation model, named ESeg, which has neither high internal resolution nor expensive atrous convolutions. Perhaps surprisingly, our simple method can achieve better accuracy with faster speed than prior art across multiple datasets. In real-time settings, ESeg-Lite-S achieves 76.0% mIoU on CityScapes [12] at 189 FPS, outperforming FasterSeg [9] (73.1% mIoU at 170 FPS). Our ESeg-Lite-L runs at 79 FPS and achieves 80.1% mIoU, largely closing the gap between real-time and high-performance segmentation models.
翻訳日:2022-03-25 12:39:42 公開日:2022-03-23
# GradViT: 視覚変換器のグラディエントインバージョン

GradViT: Gradient Inversion of Vision Transformers ( http://arxiv.org/abs/2203.11894v2 )

ライセンス: Link先を確認
Ali Hatamizadeh, Hongxu Yin, Holger Roth, Wenqi Li, Jan Kautz, Daguang Xu and Pavlo Molchanov(参考訳) 本研究は,視力変換器(ViT)の勾配型逆転攻撃に対する脆弱性を実証する。 この攻撃の間、元のデータバッチはモデル重みと対応する勾配によって再構成される。 そこで本研究では,自然に見える画像にランダムノイズを最適化するGradViTを提案する。 最適化の目的は (i)勾配の一致による損失 (ii)事前訓練されたcnnモデルのバッチ正規化統計量と距離の形で先行する画像、及び (iii)適切な回復場所を導くパッチの総変動正規化。 最適化時に局所最小化を克服する一意な損失スケジューリング関数を提案する。 我々は、ImageNet1KおよびMS-Celeb-1Mデータセット上でGadViTを評価し、元の(隠された)データに対する前例のない高い忠実性と近接性を観測した。 分析中、視覚トランスフォーマーは注意機構の存在により、以前研究したcnnよりも著しく脆弱であることが判明した。 本手法は,定性的,定量的両指標の勾配インバージョンのための新しい最先端結果を示す。 プロジェクトページ: https://gradvit.gith ub.io/

In this work we demonstrate the vulnerability of vision transformers (ViTs) to gradient-based inversion attacks. During this attack, the original data batch is reconstructed given model weights and the corresponding gradients. We introduce a method, named GradViT, that optimizes random noise into naturally looking images via an iterative process. The optimization objective consists of (i) a loss on matching the gradients, (ii) image prior in the form of distance to batch-normalization statistics of a pretrained CNN model, and (iii) a total variation regularization on patches to guide correct recovery locations. We propose a unique loss scheduling function to overcome local minima during optimization. We evaluate GadViT on ImageNet1K and MS-Celeb-1M datasets, and observe unprecedentedly high fidelity and closeness to the original (hidden) data. During the analysis we find that vision transformers are significantly more vulnerable than previously studied CNNs due to the presence of the attention mechanism. Our method demonstrates new state-of-the-art results for gradient inversion in both qualitative and quantitative metrics. Project page at https://gradvit.gith ub.io/.
翻訳日:2022-03-25 11:17:00 公開日:2022-03-23
# (参考訳) LSTMを用いた音楽生成 [全文訳有]

Music Generation Using an LSTM ( http://arxiv.org/abs/2203.12105v1 )

ライセンス: CC BY 4.0
Michael Conner, Lucas Gral, Kevin Adams, David Hunger, Reagan Strelow, and Alexander Neuwirth(参考訳) ここ数年、シーケンスモデリングのためのディープラーニングが人気を博してきた。 この目的を達成するために、LSTMネットワーク構造はシリーズの次の出力の予測に非常に有用であることが証明されている。 例えば、テキストメッセージの次の単語を予測するスマートフォンはLSTMを使用することができる。 Recurrent Neural Networks (RNN) を用いた音楽生成手法の実証を試みた。 具体的には、Long Short-Term Memory (LSTM) ニューラルネットワークである。 音楽の生成は、手作りでも生成でも、無数の部品があるため、非常に複雑な作業である。 これを考慮し、私たちは音楽生成におけるLSTMの直観、理論、応用の簡単な要約、この目標を達成するのに最適なネットワークの開発と提示、直面している問題と課題の特定と解決、そして、我々のネットワークの将来的な改善を含む。

Over the past several years, deep learning for sequence modeling has grown in popularity. To achieve this goal, LSTM network structures have proven to be very useful for making predictions for the next output in a series. For instance, a smartphone predicting the next word of a text message could use an LSTM. We sought to demonstrate an approach of music generation using Recurrent Neural Networks (RNN). More specifically, a Long Short-Term Memory (LSTM) neural network. Generating music is a notoriously complicated task, whether handmade or generated, as there are a myriad of components involved. Taking this into account, we provide a brief synopsis of the intuition, theory, and application of LSTMs in music generation, develop and present the network we found to best achieve this goal, identify and address issues and challenges faced, and include potential future improvements for our network.
翻訳日:2022-03-25 09:35:17 公開日:2022-03-23
# (参考訳) 筋視:実時間キーポイントに基づく身体運動のPose分類 [全文訳有]

Muscle Vision: Real Time Keypoint Based Pose Classification of Physical Exercises ( http://arxiv.org/abs/2203.12111v1 )

ライセンス: CC BY 4.0
Alex Moran, Bart Gebka, Joshua Goldshteyn, Autumn Beyer, Nathan Johnson, and Alexander Neuwirth(参考訳) 最近の機械学習技術の進歩により、多くの一般的なタスク、特に画像認識において、非常にポータブルでパフォーマンスの高いモデルが実現されている。 ビデオから外挿した3d人間のポーズ認識は、下流の機械学習タスクをサポートするのに十分な出力を持つリアルタイムソフトウェアアプリケーションを可能にするために進歩した。 本研究では、ライブビデオフィード上で人間のポーズ認識を行う新しい機械学習パイプラインとWebインターフェースを提案し、共通のエクササイズが実行されることを検知し、それに従って分類する。 分類結果のライブ表示によるWebカメラ入力が可能なモデルインタフェースを提案する。 主なコントリビューションは、選択したフィットネスエクササイズを分類するためのキーポイントと時系列に基づく軽量アプローチと、結果をリアルタイムで取得および視覚化するためのWebベースのソフトウェアアプリケーションである。

Recent advances in machine learning technology have enabled highly portable and performant models for many common tasks, especially in image recognition. One emerging field, 3D human pose recognition extrapolated from video, has now advanced to the point of enabling real-time software applications with robust enough output to support downstream machine learning tasks. In this work we propose a new machine learning pipeline and web interface that performs human pose recognition on a live video feed to detect when common exercises are performed and classify them accordingly. We present a model interface capable of webcam input with live display of classification results. Our main contributions include a keypoint and time series based lightweight approach for classifying a selected set of fitness exercises and a web-based software application for obtaining and visualizing the results in real time.
翻訳日:2022-03-25 09:29:42 公開日:2022-03-23
# (参考訳) 卵巣癌生検標本のハイパースペクトル画像におけるリンパ球の分類 [全文訳有]

Lymphocyte Classification in Hyperspectral Images of Ovarian Cancer Tissue Biopsy Samples ( http://arxiv.org/abs/2203.12112v1 )

ライセンス: CC BY 4.0
Benjamin Paulson, Theodore Colwell, Natalia Bukowski, Joseph Weller, Andrew Crisler, John Cisler, Alexander Drobek, and Alexander Neuwirth(参考訳) 患者内における複数種類のがんの進行の診断方法は, 針生検の解釈に依拠している。 このプロセスは、パラフィン化、ヘマトキシリンとエオシン(H&E)染色、脱パラフィン化、およびアノテーションの段階にわたってエラーを起こすのに時間を要する。 フーリエ変換赤外線(FTIR)イメージングは、フーリエ変換赤外線(FTIR)画像と機械学習を組み合わせることで、偏光やH&E染色を必要とせず、バイオプシーコアを適切に注釈付けするための染色に代わる有望な方法であることが示されている。 本稿では,生検コアのハイパースペクトル画像に白血球(リンパ球)画素を分割する機械学習パイプラインを提案する。 これらの細胞は臨床的に診断に重要であるが、いくつかの先行研究は正確なピクセルラベルを得るのが困難であるため、それらを組み込むのに苦労している。 評価手法としては、Support Vector Machine(SVM)、Gaussian Naive Bayes、Multilayer Perceptron(MLP)、および、比較的現代的な畳み込みニューラルネットワーク(CNN)の解析がある。

Current methods for diagnosing the progression of multiple types of cancer within patients rely on interpreting stained needle biopsies. This process is time-consuming and susceptible to error throughout the paraffinization, Hematoxylin and Eosin (H&E) staining, deparaffinization, and annotation stages. Fourier Transform Infrared (FTIR) imaging has been shown to be a promising alternative to staining for appropriately annotating biopsy cores without the need for deparaffinization or H&E staining with the use of Fourier Transform Infrared (FTIR) images when combined with machine learning to interpret the dense spectral information. We present a machine learning pipeline to segment white blood cell (lymphocyte) pixels in hyperspectral images of biopsy cores. These cells are clinically important for diagnosis, but some prior work has struggled to incorporate them due to difficulty obtaining precise pixel labels. Evaluated methods include Support Vector Machine (SVM), Gaussian Naive Bayes, and Multilayer Perceptron (MLP), as well as analyzing the comparatively modern convolutional neural network (CNN).
翻訳日:2022-03-25 09:23:52 公開日:2022-03-23
# (参考訳) NovGrid: 新規性に対するエージェント応答を評価するフレキシブルグリッドワールド [全文訳有]

NovGrid: A Flexible Grid World for Evaluating Agent Response to Novelty ( http://arxiv.org/abs/2203.12117v1 )

ライセンス: CC BY 4.0
Jonathan Balloch, Zhiyu Lin, Mustafa Hussain, Aarun Srinivas, Robert Wright, Xiangyu Peng, Julia Kim, Mark Riedl(参考訳) 複雑な逐次意思決定問題を解決するための強固な強化学習手法が開発されている。 しかしながら、これらの手法は、列車と評価タスクは、同じまたは同一の分散環境から来ていると仮定する。 この仮定は、環境への小さな新しい変化が、以前に学んだポリシーを失敗させたり、見つからないような単純なソリューションを導入したりするような現実には当てはまらない。 そのために我々は、この研究で定義される「新奇」の概念を、環境の力学や性質に対する突然の変化として探求する。 対象と行動に影響を及ぼす新規性、一意的特性と非一意的関係、課題に対する解の分布を区別する、逐次的意思決定に最も関係のある新規性に関するオントロジーを提供する。 ノベルティ適応型強化学習手法を迅速に開発・評価するためのツールキットとして,minigrid上に構築されたノベルティ生成フレームワークであるnovgridを紹介する。 NovGridの中核であるNovGridとともに、オントロジーと整合した典型的なノベルティを提供し、多くのMiniGrid準拠環境に適用可能なノベルティテンプレートとしてインスタンス化する。 最後に,新しい適応型機械学習手法の評価のためのフレームワークに組み込まれたメトリクスセットを示し,これらのメトリクスを用いたベースラインrlモデルの特徴を示す。

A robust body of reinforcement learning techniques have been developed to solve complex sequential decision making problems. However, these methods assume that train and evaluation tasks come from similarly or identically distributed environments. This assumption does not hold in real life where small novel changes to the environment can make a previously learned policy fail or introduce simpler solutions that might never be found. To that end we explore the concept of {\em novelty}, defined in this work as the sudden change to the mechanics or properties of environment. We provide an ontology of for novelties most relevant to sequential decision making, which distinguishes between novelties that affect objects versus actions, unary properties versus non-unary relations, and the distribution of solutions to a task. We introduce NovGrid, a novelty generation framework built on MiniGrid, acting as a toolkit for rapidly developing and evaluating novelty-adaptation-e nabled reinforcement learning techniques. Along with the core NovGrid we provide exemplar novelties aligned with our ontology and instantiate them as novelty templates that can be applied to many MiniGrid-compliant environments. Finally, we present a set of metrics built into our framework for the evaluation of novelty-adaptation-e nabled machine-learning techniques, and show characteristics of a baseline RL model using these metrics.
翻訳日:2022-03-25 09:17:41 公開日:2022-03-23
# (参考訳) ヘテロゴナルコストによる行列完全化 [全文訳有]

Matrix Completion with Heterogonous Cost ( http://arxiv.org/abs/2203.12120v1 )

ライセンス: CC BY 4.0
Ilqar Ramazanli(参考訳) マトリックス完備化問題は,各エントリが均一な観測コストを持つという条件下で広く研究されている。 また,適応的あるいは非適応的,正確な,あるいは推定カテゴリによって,この問題が検討されている。 本稿では,異なるカテゴリにおける問題にアプローチする手法を提案する。 まず,各コラムのコストが異なるが,各コラムの場合,各エントリの観察コストが異なる,という2つのコストモデルについて検討した。 また、他のコストモデルでは、マトリックス内の各エントリは、同じ列や行にある場合でも異なる。

Matrix completion problem has been studied extensively under the condition that each entry has uniform observation cost. And the problem has been explored withing adaptive or nonadaptive, exact or estimation categories. In this paper, we propose a method that approaches to problem in a different category that, price of checking different entries varies accross the matrix. We study under two type of cost model, first one is each column has different cost, but withing a column, every entry has different cost of observation. Also, another cost model is each entry within the matrix are different no matter if they are in the same column or row.
翻訳日:2022-03-25 09:07:16 公開日:2022-03-23
# (参考訳) Wasserstein BarycentersによるWasserstein分布ロバスト最適化 [全文訳有]

Wasserstein Distributionally Robust Optimization via Wasserstein Barycenters ( http://arxiv.org/abs/2203.12136v1 )

ライセンス: CC BY 4.0
Tim Tsz-Kit Lau, Han Liu(参考訳) 統計学や機械学習の多くの応用において、複数のソースからのデータサンプルが利用できるようになっている。 一方,分布にロバストな最適化では,確率分布の一定範囲内のデータサンプルから構築した名目分布から,最も悪質な分布下において良好に機能するデータ駆動決定を求める。 しかし、複数のソースからのデータサンプルが利用できる場合、このような分散的堅牢性を達成する方法はまだ不明である。 本稿では,複数のソースから収集したデータサンプルの集約として,wasserstein barycenter の概念を用いて,分布的ロバストな最適化問題における名目分布を構築することを提案する。 損失関数の特定の選択の下で、提案された定式化は、強力な有限サンプルと漸近的保証を持つ有限凸プログラムとして扱いやすい再構成を認める。 提案手法は, 位置散乱関数の公称分布と分布的にロバストな最大確率推定を具体例で示す。

In many applications in statistics and machine learning, the availability of data samples from multiple sources has become increasingly prevalent. On the other hand, in distributionally robust optimization, we seek data-driven decisions which perform well under the most adverse distribution from a nominal distribution constructed from data samples within a certain distance of probability distributions. However, it remains unclear how to achieve such distributional robustness when data samples from multiple sources are available. In this paper, we propose constructing the nominal distribution in Wasserstein distributionally robust optimization problems through the notion of Wasserstein barycenter as an aggregation of data samples from multiple sources. Under specific choices of the loss function, the proposed formulation admits a tractable reformulation as a finite convex program, with powerful finite-sample and asymptotic guarantees. We illustrate our proposed method through concrete examples with nominal distributions of location-scatter families and distributionally robust maximum likelihood estimation.
翻訳日:2022-03-25 08:59:20 公開日:2022-03-23
# (参考訳) 因子空間における確率計画の近似推定 [全文訳有]

Approximate Inference for Stochastic Planning in Factored Spaces ( http://arxiv.org/abs/2203.12139v1 )

ライセンス: CC BY 4.0
Zhennan Wu, Roni Khardon(参考訳) 本稿では,離散因子空間を用いた確率的計画問題の解法として近似推論手法を提案する。 このトピックに関する多くの先行研究があるが、微妙なバリエーションは、それらの違いと潜在的な利点に対する異なるアプローチのグローバルな理解を妨げる。 ここでは,情報フローの方向,すなわち前方方向と後方方向の推論,および,信念伝達(bp)と平均場変動推論(mfvi)といった近似のタイプを,2次元に沿ってキャプチャして接続する単純なフレームワークを抽象化する。 また,本解析により,先行研究に比べてより厳密な変分近似を行う新しいアルゴリズムcsviを提案する。 大規模な実験的評価では、BP に基づく手法は MFVI に基づく手法よりも一般的に優れていること、CSVI が BP のアルゴリズムと競合すること、推論方向が VI の手法に有意な影響を示さないこと、フォワード推論が BP でより優れた性能をもたらすこと、などである。

The paper explores the use of approximate inference techniques as solution methods for stochastic planning problems with discrete factored spaces. While much prior work exists on this topic, subtle variations hinder a global understanding of different approaches for their differences and potential advantages. Here we abstract a simple framework that captures and connects prior work along two dimensions, direction of information flow, i.e., forward vs backward inference, and the type of approximation used, e.g., Belief Propagation (BP) vs mean field variational inference (MFVI). Through this analysis we also propose a novel algorithm, CSVI, which provides a tighter variational approximation compared to prior work. An extensive experimental evaluation compares algorithms from different branches of the framework, showing that methods based on BP are generally better than methods based on MFVI, that CSVI is competitive with BP algorithms, and that while inference direction does not show a significant effect for VI methods, forward inference provides stronger performance with BP.
翻訳日:2022-03-25 08:21:53 公開日:2022-03-23
# (参考訳) 3D-EDM:3Dプリント断層の早期検出モデル [全文訳有]

3D-EDM: Early Detection Model for 3D-Printer Faults ( http://arxiv.org/abs/2203.12147v1 )

ライセンス: CC BY 4.0
Harim Jeong, Joo Hun Yoo(参考訳) さまざまな価格帯とサイズで3Dプリンターが登場し、もはやプロだけに限ったものではない。 しかし、3Dプリンタを完璧に使うのは難しい。 特に, 融解法の場合, 正確な校正を行うのは非常に困難である。 従来の研究では、センサデータと機械学習を用いた画像データを用いてこれらの問題を検出できることが示唆されている。 しかし,追加センサの設置により,提案手法の適用は困難である。 将来、実際の利用を考えると、収集が容易なデータによる軽量早期検出モデルの作成に注力する。 畳み込みニューラルネットワークによる早期検出モデルでは,2進分類タスクが96.72%,マルチ分類タスクが93.38%という有意な故障分類精度を示した。 本研究では,3dプリンタの一般ユーザがプリンタを正確に利用できることを期待する。

With the advent of 3D printers in different price ranges and sizes, they are no longer just for professionals. However, it is still challenging to use a 3D printer perfectly. Especially, in the case of the Fused Deposition Method, it is very difficult to perform with accurate calibration. Previous studies have suggested that these problems can be detected using sensor data and image data with machine learning methods. However, there are difficulties to apply the proposed method due to extra installation of additional sensors. Considering actual use in the future, we focus on generating the lightweight early detection model with easily collectable data. Proposed early detection model through Convolutional Neural Network shows significant fault classification accuracy with 96.72% for the binary classification task, and 93.38% for multi-classification task respectively. By this research, we hope that general users of 3D printers can use the printer accurately.
翻訳日:2022-03-25 08:01:51 公開日:2022-03-23
# (参考訳) amharic scene text detection and recognitionのための総合ベンチマークデータセット [全文訳有]

Comprehensive Benchmark Datasets for Amharic Scene Text Detection and Recognition ( http://arxiv.org/abs/2203.12165v1 )

ライセンス: CC0 1.0
Wondimu Dikubab, Dingkang Liang, Minghui Liao, Xiang Bai(参考訳) Ethiopic/Amharicスクリプトはアフリカ最古の文字体系の一つで、少なくとも23の言語(アムハラ語、ティグリニア語など)を東アフリカで1億2000万人以上の人々に提供している。 アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。 Amharic syllabic matrixは、34塩基のグラテム/子音から派生し、文字に12個の適切な発音または発声マーカーを加える。 共通の子音や発声マーカーを持つ音節は視覚的に類似しており、テキスト認識タスクに挑戦する可能性がある。 本研究では,HUST-ART,HUST-AST,A BE,Tanaという,自然環境におけるアムハラ文字の検出と認識のための総合的な公開データセットについて紹介した。 また,我々のデータセット上でのアンハリックシーンテキストの検出と認識において,アート手法の現状を評価するための広範な実験を行った。 評価結果は、ベンチマークのためのデータセットの堅牢性と、堅牢なアムハラ文字検出および認識アルゴリズムの開発を促進する可能性を示す。 その結果、いくつかの国や国際社会の外交官を含む東アフリカの人々に利益をもたらすことになる。

Ethiopic/Amharic script is one of the oldest African writing systems, which serves at least 23 languages (e.g., Amharic, Tigrinya) in East Africa for more than 120 million people. The Amharic writing system, Abugida, has 282 syllables, 15 punctuation marks, and 20 numerals. The Amharic syllabic matrix is derived from 34 base graphemes/consonants by adding up to 12 appropriate diacritics or vocalic markers to the characters. The syllables with a common consonant or vocalic markers are likely to be visually similar and challenge text recognition tasks. In this work, we presented the first comprehensive public datasets named HUST-ART, HUST-AST, ABE, and Tana for Amharic script detection and recognition in the natural scene. We have also conducted extensive experiments to evaluate the performance of the state of art methods in detecting and recognizing Amharic scene text on our datasets. The evaluation results demonstrate the robustness of our datasets for benchmarking and its potential of promoting the development of robust Amharic script detection and recognition algorithms. Consequently, the outcome will benefit people in East Africa, including diplomats from several countries and international communities.
翻訳日:2022-03-25 07:58:00 公開日:2022-03-23
# (参考訳) NLPにおける記憶の実証的研究 [全文訳有]

An Empirical Study of Memorization in NLP ( http://arxiv.org/abs/2203.12171v1 )

ライセンス: CC BY 4.0
Xiaosen Zheng and Jing Jiang(参考訳) Feldman (2020) による最近の研究は、ディープラーニングモデルの記憶挙動を説明するための長い尾の理論を提案した。 しかし、この研究で解決されたギャップであるNLPの文脈では記憶が実証的に検証されていない。 本稿では,3つの異なるNLPタスクを用いて,ロングテール理論が成立するかどうかを確認する。 実験の結果,上位記憶型トレーニングインスタンスは非典型的であり,上位記憶型トレーニングインスタンスを削除すると,ランダムにトレーニングインスタンスを削除するよりもテスト精度が大幅に低下することがわかった。 さらに、トレーニングインスタンスを記憶する理由をよりよく理解するための属性手法を開発した。 記憶属性法が忠実であることを実証的に示し、トレーニングインスタンスの上位記憶部がクラスラベルと負の相関を持つ傾向があるという興味深い発見を共有した。

A recent study by Feldman (2020) proposed a long-tail theory to explain the memorization behavior of deep learning models. However, memorization has not been empirically verified in the context of NLP, a gap addressed by this work. In this paper, we use three different NLP tasks to check if the long-tail theory holds. Our experiments demonstrate that top-ranked memorized training instances are likely atypical, and removing the top-memorized training instances leads to a more serious drop in test accuracy compared with removing training instances randomly. Furthermore, we develop an attribution method to better understand why a training instance is memorized. We empirically show that our memorization attribution method is faithful, and share our interesting finding that the top-memorized parts of a training instance tend to be features negatively correlated with the class label.
翻訳日:2022-03-25 07:51:29 公開日:2022-03-23
# (参考訳) ロバストショットクロスドメイン顔アンチスプーフィングのための適応変換器 [全文訳有]

Adaptive Transformers for Robust Few-shot Cross-domain Face Anti-spoofing ( http://arxiv.org/abs/2203.12175v1 )

ライセンス: CC BY 4.0
Hsin-Ping Huang, Deqing Sun, Yaojie Liu, Wen-Sheng Chu, Taihong Xiao, Jinwei Yuan, Hartwig Adam, Ming-Hsuan Yang(参考訳) 近年のフェース・アンチ・スプーフィング法はドメイン内設定下では良好に機能するが、複雑なシーンで取得した画像のより大きな外観変化を、堅牢なパフォーマンスのために考慮する必要がある。 本稿では、堅牢なクロスドメイン顔アンチスプーフィングのための適応型視覚変換器(ViT)を提案する。 具体的には、VTをバックボーンとして採用し、その強度を利用して画素間の長距離依存を考慮します。 さらに,vit内にアンサンブルアダプタモジュールと機能変換層を導入して,いくつかのサンプルでロバストなパフォーマンスを実現する。 いくつかのベンチマークデータセットの実験では、提案モデルが最先端の手法に対して堅牢かつ競争的な性能を達成することが示されている。

While recent face anti-spoofing methods perform well under the intra-domain setups, an effective approach needs to account for much larger appearance variations of images acquired in complex scenes with different sensors for robust performance. In this paper, we present adaptive vision transformers (ViT) for robust cross-domain face anti-spoofing. Specifically, we adopt ViT as a backbone to exploit its strength to account for long-range dependencies among pixels. We further introduce the ensemble adapters module and feature-wise transformation layers in the ViT to adapt to different domains for robust performance with a few samples. Experiments on several benchmark datasets show that the proposed models achieve both robust and competitive performance against the state-of-the-art methods.
翻訳日:2022-03-25 07:29:19 公開日:2022-03-23
# (参考訳) 機械コモンセンス評価のための理論的基盤ベンチマーク [全文訳有]

A Theoretically Grounded Benchmark for Evaluating Machine Commonsense ( http://arxiv.org/abs/2203.12184v1 )

ライセンス: CC BY 4.0
Henrique Santos, Ke Shen, Alice M. Mulvehill, Yasaman Razeghi, Deborah L. McGuinness, Mayank Kejriwal(参考訳) コモンセンス推論(CSR)能力を持つプログラミングマシンは、人工知能コミュニティにおいて長年の課題である。 現在のCSRベンチマークでは、マシンコモンセンスを評価するために、複数の選択(および比較的少ないケースでは、生成的な)質問回答インスタンスを使用している。 最近のトランスフォーマティブ言語表現モデルの進歩は、既存のベンチマークでかなりの進歩があったことを示唆している。 しかし、数万のcsrベンチマークが現在存在し、増え続けているが、完全なcommonsense能力が体系的に評価されていることは明らかではない。 さらに、ベンチマークデータセットのトレーニングパーティションに対して、(少なくともCSRでは)微妙だが規範的に無関係な(テストパーティション上での優れたパフォーマンスを実現するための統計的特徴を取り上げることで、言語モデルが"適合"しているかどうかに疑問がある。 これらの課題に対処するため, 空間, 時間, 世界状態などの多彩なコモンセンスの側面を評価するために, 識別的質問応答にもとづくTG-CSR(Theoryly-Grou nded Commonsense Reasoning)というベンチマークを提案する。 TG-CSRはゴードンとホッブズによるコモンセンスの実行可能な理論として最初に提案されたコモンセンス圏のサブセットに基づいている。 ベンチマークは、わずかなトレーニングと検証の例しか提供されていない(将来的にはゼロショット)ようにも設計されている。 本報告ではベンチマークの構造と構成について述べる。 予備結果は,csr質問応答タスクを識別するために設計された高度な言語表現モデルにおいても,ベンチマークは困難であることを示唆している。 ベンチマークアクセスとリーダーボード: https://codalab.lisn .upsaclay.fr/competi tions/3080 benchmark website: https://usc-isi-i2.g ithub.io/tgcsr/

Programming machines with commonsense reasoning (CSR) abilities is a longstanding challenge in the Artificial Intelligence community. Current CSR benchmarks use multiple-choice (and in relatively fewer cases, generative) question-answering instances to evaluate machine commonsense. Recent progress in transformer-based language representation models suggest that considerable progress has been made on existing benchmarks. However, although tens of CSR benchmarks currently exist, and are growing, it is not evident that the full suite of commonsense capabilities have been systematically evaluated. Furthermore, there are doubts about whether language models are 'fitting' to a benchmark dataset's training partition by picking up on subtle, but normatively irrelevant (at least for CSR), statistical features to achieve good performance on the testing partition. To address these challenges, we propose a benchmark called Theoretically-Ground ed Commonsense Reasoning (TG-CSR) that is also based on discriminative question answering, but with questions designed to evaluate diverse aspects of commonsense, such as space, time, and world states. TG-CSR is based on a subset of commonsense categories first proposed as a viable theory of commonsense by Gordon and Hobbs. The benchmark is also designed to be few-shot (and in the future, zero-shot), with only a few training and validation examples provided. This report discusses the structure and construction of the benchmark. Preliminary results suggest that the benchmark is challenging even for advanced language representation models designed for discriminative CSR question answering tasks. Benchmark access and leaderboard: https://codalab.lisn .upsaclay.fr/competi tions/3080 Benchmark website: https://usc-isi-i2.g ithub.io/TGCSR/
翻訳日:2022-03-25 07:04:09 公開日:2022-03-23
# (参考訳) AbductionRules: 予期せぬ入力を説明するためのトランスフォーマーのトレーニング [全文訳有]

AbductionRules: Training Transformers to Explain Unexpected Inputs ( http://arxiv.org/abs/2203.12186v1 )

ライセンス: CC0 1.0
Nathan Young, Qiming Bao, Joshua Bensemann, Michael Witbrock(参考訳) トランスフォーマーは、最近、自然言語で表現された事実や規則に対する論理的推論を確実に行うことができることが示されているが、予期せぬ観察の最良の説明に対する推論である帰納的推論は、科学的発見、常識的推論、モデル解釈可能性への重要な応用にもかかわらず、過度に研究されている。 本稿では,自然言語知識ベース上での一般推論のトレーニングとテストを目的とした自然言語データセットであるAbductionRulesを紹介する。 これらのデータセットを使用して、トレーニング済みのトランスフォーマーを微調整し、それらのパフォーマンスについて議論し、私たちのモデルは一般的な誘引的テクニックを学びました。 最後に,帰納的推論に対するこのアプローチの有効性と,今後の作業で改善される可能性について考察する。

Transformers have recently been shown to be capable of reliably performing logical reasoning over facts and rules expressed in natural language, but abductive reasoning - inference to the best explanation of an unexpected observation - has been underexplored despite significant applications to scientific discovery, common-sense reasoning, and model interpretability. We present AbductionRules, a group of natural language datasets designed to train and test generalisable abduction over natural-language knowledge bases. We use these datasets to finetune pretrained Transformers and discuss their performance, finding that our models learned generalisable abductive techniques but also learned to exploit the structure of our data. Finally, we discuss the viability of this approach to abductive reasoning and ways in which it may be improved in future work.
翻訳日:2022-03-25 06:56:20 公開日:2022-03-23
# (参考訳) Converse - 木に基づくタスク指向対話システム [全文訳有]

Converse -- A Tree-Based Modular Task-Oriented Dialogue System ( http://arxiv.org/abs/2203.12187v1 )

ライセンス: CC BY 4.0
Tian Xie, Xinyi Yang, Angela S. Lin, Feihong Wu, Kazuma Hashimoto, Jin Qu, Young Mo Kang, Wenpeng Yin, Huan Wang, Semih Yavuz, Gang Wu, Michael Jones, Richard Socher, Yingbo Zhou, Wenhao Liu, Caiming Xiong(参考訳) ai(artificial intelligence)の究極の目標の1つは、タスクを達成するために人間と有意義な会話ができるシステムを作ることだ。 当初からAIの意味を定義している。 最近この分野では、音声アシスタント製品が私たちの日常生活に入り、チャットボットシステムがカスタマーサービスで一般的になるなど、多くのことが達成されている。 一見すると、対話システムには選択肢が不足していないようだ。 しかし、今日の頻繁なデプロイされた対話システムは、すべて重大な弱点に悩まされているように見える。 苦労の核心は、ボットと人間のユーザーの間の対話の全ての順番をスクリプト化する必要があることです。 これにより、タスクが複雑になり、システムにタスクが追加されるにつれて、対話システムはメンテナンスが難しくなります。 本稿では,柔軟なツリーベースモジュール型タスク指向対話システムであるConverseを提案する。 Converseはタスクを表現するためにアンド・アンド・ツリー構造を使用し、強力なマルチタスク対話管理を提供する。 Converseは、他のオープンソースの対話フレームワークと比較してユニークな機能であるタスク依存性とタスク切り替えをサポートしている。 同時にconverseは、プロフェッショナルと非プロのソフトウェア開発者の両方にとって、ボット構築プロセスを簡単かつシンプルにすることを目指している。 コードはhttps://github.com/s alesforce/converseで入手できる。

Creating a system that can have meaningful conversations with humans to help accomplish tasks is one of the ultimate goals of Artificial Intelligence (AI). It has defined the meaning of AI since the beginning. A lot has been accomplished in this area recently, with voice assistant products entering our daily lives and chat bot systems becoming commonplace in customer service. At first glance there seems to be no shortage of options for dialogue systems. However, the frequently deployed dialogue systems today seem to all struggle with a critical weakness - they are hard to build and harder to maintain. At the core of the struggle is the need to script every single turn of interactions between the bot and the human user. This makes the dialogue systems more difficult to maintain as the tasks become more complex and more tasks are added to the system. In this paper, we propose Converse, a flexible tree-based modular task-oriented dialogue system. Converse uses an and-or tree structure to represent tasks and offers powerful multi-task dialogue management. Converse supports task dependency and task switching, which are unique features compared to other open-source dialogue frameworks. At the same time, Converse aims to make the bot building process easy and simple, for both professional and non-professional software developers. The code is available at https://github.com/s alesforce/Converse.
翻訳日:2022-03-25 06:43:15 公開日:2022-03-23
# (参考訳) エネルギーとモーメントを用いた適応勾配法 [全文訳有]

An Adaptive Gradient Method with Energy and Momentum ( http://arxiv.org/abs/2203.12191v1 )

ライセンス: CC BY 4.0
Hailiang Liu and Xuping Tian(参考訳) 確率的目的関数の勾配に基づく最適化のための新しいアルゴリズムを提案する。 この方法は「エネルギー」変数で自動的に調整される適応学習率を備えた運動量を持つSGDの変種と見なすことができる。 この方法は実装が簡単で、計算効率が良く、大規模機械学習問題に適している。 この方法は、ベース学習率の任意のサイズの無条件エネルギー安定性を示す。 オンライン凸最適化フレームワークにおける収束率に縛られた残念な点を挙げる。 また、確率的非凸設定における定常点へのアルゴリズムのエネルギー依存収束率を確立する。 さらに、エネルギー変数に対する正の低い閾値を保証するのに十分な条件が提供される。 我々の実験では、アルゴリズムは深層ニューラルネットワークのトレーニングにおける運動量とSGDよりも良く一般化しながら高速に収束し、Adamと好意的に比較した。

We introduce a novel algorithm for gradient-based optimization of stochastic objective functions. The method may be seen as a variant of SGD with momentum equipped with an adaptive learning rate automatically adjusted by an 'energy' variable. The method is simple to implement, computationally efficient, and well suited for large-scale machine learning problems. The method exhibits unconditional energy stability for any size of the base learning rate. We provide a regret bound on the convergence rate under the online convex optimization framework. We also establish the energy-dependent convergence rate of the algorithm to a stationary point in the stochastic non-convex setting. In addition, a sufficient condition is provided to guarantee a positive lower threshold for the energy variable. Our experiments demonstrate that the algorithm converges fast while generalizing better than or as well as SGD with momentum in training deep neural networks, and compares also favorably to Adam.
翻訳日:2022-03-25 06:30:38 公開日:2022-03-23
# (参考訳) ノイズサンプリングによる検閲への学習 [全文訳有]

Learning to Censor by Noisy Sampling ( http://arxiv.org/abs/2203.12192v1 )

ライセンス: CC BY 4.0
Ayush Chopra, Abhinav Java, Abhishek Singh, Vivek Sharma, Ramesh Raskar(参考訳) 点雲はますますユビキタスな入力モダリティであり、生信号は近年のディープラーニングの進歩とともに効率的に処理できる。 このシグナルは、しばしば不注意に、データ所有者が共有したくないシーンの意味的および幾何学的特性を漏らす可能性のある機密情報をキャプチャする。 この作業の目的は、ポイントクラウドから学ぶ際に機密情報を保護することであり、ポイントクラウドがダウンストリームタスクのためにリリースされる前に機密情報を検閲することである。 具体的には,属性漏洩攻撃を緩和しながら,知覚タスクの実用性を維持することに焦点を当てた。 重要な動機は、ポイントクラウド上の知覚タスクの局所的な正当性を活用して、優れたプライバシユーティリティトレードオフを提供することである。 我々は2つのモジュールからなるcbns(censoring by noise sampling)と呼ばれるメカニズムによってこれを実現する。 i)不変サンプラー:有用性に不変な点を取り除くことを学ぶ微分可能なポイントクラウドサンプラー 二 ノイズディストータ サンプリングされた点を歪め、機密情報を実用性から切り離し、プライバシーの漏洩を緩和することを学ぶこと。 CBNSの有効性を,最先端のベースラインと比較し,鍵設計選択の感度分析により検証した。 その結果,CBNSは複数のデータセット上で優れたプライバシーユーティリティトレードオフを実現することがわかった。

Point clouds are an increasingly ubiquitous input modality and the raw signal can be efficiently processed with recent progress in deep learning. This signal may, often inadvertently, capture sensitive information that can leak semantic and geometric properties of the scene which the data owner does not want to share. The goal of this work is to protect sensitive information when learning from point clouds; by censoring the sensitive information before the point cloud is released for downstream tasks. Specifically, we focus on preserving utility for perception tasks while mitigating attribute leakage attacks. The key motivating insight is to leverage the localized saliency of perception tasks on point clouds to provide good privacy-utility trade-offs. We realize this through a mechanism called Censoring by Noisy Sampling (CBNS), which is composed of two modules: i) Invariant Sampler: a differentiable point-cloud sampler which learns to remove points invariant to utility and ii) Noisy Distorter: which learns to distort sampled points to decouple the sensitive information from utility, and mitigate privacy leakage. We validate the effectiveness of CBNS through extensive comparisons with state-of-the-art baselines and sensitivity analyses of key design choices. Results show that CBNS achieves superior privacy-utility trade-offs on multiple datasets.
翻訳日:2022-03-25 06:01:06 公開日:2022-03-23
# (参考訳) Biceph-Net : 2D-MRIスキャンと深い類似性学習を用いたアルツハイマー病診断のための頑健で軽量なフレームワーク [全文訳有]

Biceph-Net: A robust and lightweight framework for the diagnosis of Alzheimer's disease using 2D-MRI scans and deep similarity learning ( http://arxiv.org/abs/2203.12197v1 )

ライセンス: CC BY 4.0
A. H. Rashid, A. Gupta, J. Gupta, M. Tanveer(参考訳) アルツハイマー病(英語: Alzheimer's Disease, AD)は、高齢者において重要な死因の1つである神経変性疾患である。 磁気共鳴イメージング(MRI)スキャンを用いてADを診断するために多くのディープラーニング技術が提案されている。 3次元MRIスキャンから抽出した2Dスライスを用いたAD予測は、スライス間の情報が失われるにつれて困難である。 そこで本研究では,スライス内情報とスライス間情報の両方をモデル化した2次元MRIスキャンを用いて,AD診断のための新しい軽量フレームワークであるBiceph-Netを提案する。 Biceph-Netは、計算効率が良く、他の時空間ニューラルネットワークとよく似た性能を示すことが実験的に示されている。 Biceph-Netは2次元MRIスライスを用いたAD診断において、バニラ2D畳み込みニューラルネットワーク(CNN)よりも性能が優れている。 biceph-netには、ネットワークが取る分類判断を理解するために活用できる、組み込みのneighborhoodベースのモデル解釈機能もある。 Biceph-Netは、Cognitively Normal (CN) vs ADの分類において100%の精度、Mild Cognitive Impairment (MCI) vs ADの98.16%、CN vs MCI vs ADの97.80%を実験的に達成している。

Alzheimer's Disease (AD) is a neurodegenerative disease that is one of the significant causes of death in the elderly population. Many deep learning techniques have been proposed to diagnose AD using Magnetic Resonance Imaging (MRI) scans. Predicting AD using 2D slices extracted from 3D MRI scans is challenging as the inter-slice information gets lost. To this end, we propose a novel and lightweight framework termed 'Biceph-Net' for AD diagnosis using 2D MRI scans that model both the intra-slice and inter-slice information. Biceph-Net has been experimentally shown to perform similar to other Spatio-temporal neural networks while being computationally more efficient. Biceph-Net is also superior in performance compared to vanilla 2D convolutional neural networks (CNN) for AD diagnosis using 2D MRI slices. Biceph-Net also has an inbuilt neighbourhood-based model interpretation feature that can be exploited to understand the classification decision taken by the network. Biceph-Net experimentally achieves a test accuracy of 100% in the classification of Cognitively Normal (CN) vs AD, 98.16% for Mild Cognitive Impairment (MCI) vs AD, and 97.80% for CN vs MCI vs AD.
翻訳日:2022-03-25 05:44:08 公開日:2022-03-23
# (参考訳) 逆例の自己教師型学習:ディープフェイク検出のための優れた一般化を目指して

Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection ( http://arxiv.org/abs/2203.12208v1 )

ライセンス: CC BY 4.0
Liang Chen, Yong Zhang, Yibing Song, Lingqiao Liu, and Jue Wang(参考訳) 近年のディープフェイク検出の研究は、トレーニングとテストの顔偽造が同じデータセットである場合に有望な結果をもたらしている。 しかし、トレーニングデータセットで見当たらないメソッドによって作成された偽造に検出器を一般化しようとすると、問題は依然として困難である。 この研究は、単純な原理から一般化可能なディープフェイク検出に対処する: 一般化可能な表現は様々な種類の偽造に敏感でなければならない。 本稿では, フォージェリ構成のプールで強化されたフォージェリを合成し, モデルにフォージェリ構成の予測を強制することで, フォージェリに対する「感度」を高めることにより, フォージェリの多様性を高めることを提案する。 大規模偽造増補空間を効果的に探究するため,本モデルに最も挑戦する偽造を動的に合成するために,敵対的訓練戦略を用いることを更に提案する。 広範な実験を通して,提案手法が驚くほど効果的であることを示し(第1図参照),現在の最先端手法よりも優れた性能が得られることを示した。 コードは \url{https://github.com/l iangchen527/sladd} で入手できる。

Recent studies in deepfake detection have yielded promising results when the training and testing face forgeries are from the same dataset. However, the problem remains challenging when one tries to generalize the detector to forgeries created by unseen methods in the training dataset. This work addresses the generalizable deepfake detection from a simple principle: a generalizable representation should be sensitive to diverse types of forgeries. Following this principle, we propose to enrich the "diversity" of forgeries by synthesizing augmented forgeries with a pool of forgery configurations and strengthen the "sensitivity" to the forgeries by enforcing the model to predict the forgery configurations. To effectively explore the large forgery augmentation space, we further propose to use the adversarial training strategy to dynamically synthesize the most challenging forgeries to the current model. Through extensive experiments, we show that the proposed strategies are surprisingly effective (see Figure 1), and they could achieve superior performance than the current state-of-the-art methods. Code is available at \url{https://github.com/l iangchen527/SLADD}.
翻訳日:2022-03-25 05:18:22 公開日:2022-03-23
# (参考訳) ニューラルマシン翻訳のためのベクトル化語彙制約の統合 [全文訳有]

Integrating Vectorized Lexical Constraints for Neural Machine Translation ( http://arxiv.org/abs/2203.12210v1 )

ライセンス: CC BY 4.0
Shuo Wang, Zhixing Tan, Yang Liu(参考訳) 既定制約付きnmtモデルの生成を制御するレキシカル制約付きニューラルマシン翻訳(nmt)は,多くの実用シナリオにおいて重要である。 NMTモデルにおける離散的制約と連続ベクトルとの表現ギャップのため、既存のほとんどの研究は合成データの構築や、語彙的制約を課すための復号アルゴリズムの変更を選択し、NMTモデルをブラックボックスとして扱う。 本研究では,NMTモデルに制約を直接組み込むことにより,このブラックボックスを開放することを提案する。 具体的には、ソースとターゲットの制約を連続キーと値にベクトル化し、NMTモデルのアテンションモジュールで利用することができる。 提案手法は,注目モジュールにおけるキーと値の対応が制約ペアのモデル化に自然に適しているという仮定に基づいている。 実験結果から,提案手法は4つの言語対におけるいくつかの代表的ベースラインを一貫して上回り,ベクトル化語彙制約の統合の優位性を示す。

Lexically constrained neural machine translation (NMT), which controls the generation of NMT models with pre-specified constraints, is important in many practical scenarios. Due to the representation gap between discrete constraints and continuous vectors in NMT models, most existing works choose to construct synthetic data or modify the decoding algorithm to impose lexical constraints, treating the NMT model as a black box. In this work, we propose to open this black box by directly integrating the constraints into NMT models. Specifically, we vectorize source and target constraints into continuous keys and values, which can be utilized by the attention modules of NMT models. The proposed integration method is based on the assumption that the correspondence between keys and values in attention modules is naturally suitable for modeling constraint pairs. Experimental results show that our method consistently outperforms several representative baselines on four language pairs, demonstrating the superiority of integrating vectorized lexical constraints.
翻訳日:2022-03-25 05:17:21 公開日:2022-03-23
# (参考訳) クラスタリングによる人間活動認識におけるコントラスト学習の否定的選択 [全文訳有]

Negative Selection by Clustering for Contrastive Learning in Human Activity Recognition ( http://arxiv.org/abs/2203.12230v1 )

ライセンス: CC BY 4.0
Jinqiang Wang, Tao Zhu, Liming Chen, Huansheng Ning, Yaping Wan(参考訳) センサデータに基づくヒューマンアクティビティ認識(HAR)には,大量のラベル付きデータと少量のラベル付きデータによる教師付き学習に匹敵するパフォーマンスを実現する能力があるため,コントラスト学習が適用されている。 対照的な学習のための事前学習タスクは一般にインスタンス識別であり、各インスタンスが1つのクラスに属していることを示すが、これは否定的な例と同じ種類のサンプルである。 このような事前学習タスクは、主に分類タスクである人間の活動認識タスクには適用されない。 この問題に対処するため,我々はSimCLRに従って,クラスタリングによるネガティブな選択を行う新しいコントラスト学習フレームワークを提案し,これをClusterCLHARと呼ぶ。 simclrと比較すると、同じクラスタの他のサンプルをマスクするソフトラベルを生成するために教師なしのクラスタリングメソッドを使用して、コントラスト損失関数の負のペアを再定義する。 評価指標として平均F1スコアを用いて,USC-HAD,MotionSense ,UCI-HARの3つのベンチマークデータセット上でClusterCLHARを評価する。 実験の結果,自己指導学習や半教師あり学習において,HARに適用される最先端の手法よりも優れていた。

Contrastive learning has been applied to Human Activity Recognition (HAR) based on sensor data owing to its ability to achieve performance comparable to supervised learning with a large amount of unlabeled data and a small amount of labeled data. The pre-training task for contrastive learning is generally instance discrimination, which specifies that each instance belongs to a single class, but this will consider the same class of samples as negative examples. Such a pre-training task is not conducive to human activity recognition tasks, which are mainly classification tasks. To address this problem, we follow SimCLR to propose a new contrastive learning framework that negative selection by clustering in HAR, which is called ClusterCLHAR. Compared with SimCLR, it redefines the negative pairs in the contrastive loss function by using unsupervised clustering methods to generate soft labels that mask other samples of the same cluster to avoid regarding them as negative samples. We evaluate ClusterCLHAR on three benchmark datasets, USC-HAD, MotionSense, and UCI-HAR, using mean F1-score as the evaluation metric. The experiment results show that it outperforms all the state-of-the-art methods applied to HAR in self-supervised learning and semi-supervised learning.
翻訳日:2022-03-25 04:49:09 公開日:2022-03-23
# (参考訳) 不均質な動的畳み込みを伴う幾何アウェア重畳 [全文訳有]

Geometry-Aware Supertagging with Heterogeneous Dynamic Convolutions ( http://arxiv.org/abs/2203.12235v1 )

ライセンス: CC BY 4.0
Konstantinos Kogkalidis and Michael Moortgat(参考訳) 分類文法形式論の統語的圏は、より小さく不可分なプリミティブからなる構成単位であり、基礎となる文法の圏形成規則によって結合される。 構築的スーパータグのトレンドアプローチでは、ニューラルネットワークは内部カテゴリ構造にますます注意を払っており、それによって、より確実に希少でボキャブラリでないカテゴリを予測できるようになる。 本研究では, グラフ理論の観点から構成的スーパータグ付けを再検討し, スーパータガーの出力空間の特異構造を利用した不均一な動的グラフ畳み込みに基づくフレームワークを提案する。 我々は,異なる言語や文法形式にまたがる多くの分類文法データセットにアプローチを試行し,過去のアートスコアよりも大幅に改善した。 コードはhttps://github.com/k onstantinosKokos/dyn amic-graph-supertagg ingで利用可能になる。

The syntactic categories of categorial grammar formalisms are structured units made of smaller, indivisible primitives, bound together by the underlying grammar's category formation rules. In the trending approach of constructive supertagging, neural models are increasingly made aware of the internal category structure, which in turn enables them to more reliably predict rare and out-of-vocabulary categories, with significant implications for grammars previously deemed too complex to find practical use. In this work, we revisit constructive supertagging from a graph-theoretic perspective, and propose a framework based on heterogeneous dynamic graph convolutions aimed at exploiting the distinctive structure of a supertagger's output space. We test our approach on a number of categorial grammar datasets spanning different languages and grammar formalisms, achieving substantial improvements over previous state of the art scores. Code will be made available at https://github.com/k onstantinosKokos/dyn amic-graph-supertagg ing
翻訳日:2022-03-25 04:27:25 公開日:2022-03-23
# (参考訳) 正規指紋データベースを用いた小面積指紋認識深部ニューラルネットワークの訓練のためのデータ拡張法 [全文訳有]

A Method of Data Augmentation to Train a Small Area Fingerprint Recognition Deep Neural Network with a Normal Fingerprint Database ( http://arxiv.org/abs/2203.12241v1 )

ライセンス: CC BY 4.0
JuSong Kim(参考訳) 指紋は、取得の容易さ、ユニーク性、可用性のため、生体認証ベースのシステムで人気がある。 現在、携帯電話のセキュリティ、デジタル決済、デジタルロッカーで使われている。 ミツバチに基づく従来の指紋マッチング法は主に大面積指紋に適用でき、スマートフォンから小面積指紋を扱う場合の精度は大幅に低下する。 小面積の指紋認証にディープラーニングを使う試みは数多くあり、多くの成功がある。 しかし、深層ニューラルネットワークのトレーニングには、トレーニングに多くのデータセットが必要です。 小さな領域のためのよく知られたデータセットはありません。 本稿では、通常の指紋データベース(fvc2002など)を用いて、小規模の指紋認識深層ニューラルネットワークを訓練し、テストにより検証するためのデータ拡張法を提案する。 実験の結果,本手法の有効性が示された。

Fingerprints are popular among the biometric based systems due to ease of acquisition, uniqueness and availability. Nowadays it is used in smart phone security, digital payment and digital locker. The traditional fingerprint matching methods based on minutiae are mainly applicable for large-area fingerprint and the accuracy rate would reduce significantly when dealing with small-area fingerprint from smart phone. There are many attempts to using deep learning for small-area fingerprint recognition, and there are many successes. But training deep neural network needs a lot of datasets for training. There is no well-known dataset for small-area, so we have to make datasets ourselves. In this paper, we propose a method of data augmentation to train a small-area fingerprint recognition deep neural network with a normal fingerprint database (such as FVC2002) and verify it via tests. The experimental results showed the efficiency of our method.
翻訳日:2022-03-25 04:10:49 公開日:2022-03-23
# (参考訳) 否定限定弱擬似関数の新しい識別器 [全文訳有]

New Distinguishers for Negation-Limited Weak Pseudorandom Functions ( http://arxiv.org/abs/2203.12246v1 )

ライセンス: CC BY 4.0
Zhihuai Chen, Siyao Guo, Qian Li, Chengyu Lin, Xiaoming Sun(参考訳) ランダムなサンプルを用いた$\exp\left(\tilde{o}\left(n^{1/3}k^{2/3}\right)\right)$ timeにおける一様ランダム関数と、$\log k$ negations(すなわち$k$モノトン関数)で回路を区別する方法を示す。 それまでの最良の区別器は、Blais, Cannone, Oliveira, Servedio, Tan(RANDOM'15)の学習アルゴリズムにより、$\exp\big(\tilde{O}(n^{1/2} k)\big)$時間を必要とする。 我々の区別は、ブール立方体のemph{slices of the boolean cube}のフーリエ解析に基づいている。 否定制限回路の「中間」スライスには強い低次フーリエ濃度があることを示し、次に古典的なLinial, Mansour, Nisan "Low-Degree Algorithm" (JACM'93) の変種をスライスに適用する。 また,本手法により,一様分布下での制限回路の無効化に対して,弱学習が若干改善される。

We show how to distinguish circuits with $\log k$ negations (a.k.a $k$-monotone functions) from uniformly random functions in $\exp\left(\tilde{O}\left(n^{1/3}k^{2/3}\right)\right)$ time using random samples. The previous best distinguisher, due to the learning algorithm by Blais, Cannone, Oliveira, Servedio, and Tan (RANDOM'15), requires $\exp\big(\tilde{O}(n^{1/2} k)\big)$ time. Our distinguishers are based on Fourier analysis on \emph{slices of the Boolean cube}. We show that some "middle" slices of negation-limited circuits have strong low-degree Fourier concentration and then we apply a variation of the classic Linial, Mansour, and Nisan "Low-Degree algorithm" (JACM'93) on slices. Our techniques also lead to a slightly improved weak learner for negation limited circuits under the uniform distribution.
翻訳日:2022-03-25 04:07:08 公開日:2022-03-23
# (参考訳) Ev-TTA:イベントベースオブジェクト認識のためのテスト時間適応

Ev-TTA: Test-Time Adaptation for Event-Based Object Recognition ( http://arxiv.org/abs/2203.12247v1 )

ライセンス: CC BY 4.0
Junho Kim, Inwoo Hwang, and Young Min Kim(参考訳) 本稿では,イベントベース物体認識のための簡易なテスト時間適応アルゴリズムev-ttaを提案する。 イベントカメラは、高速な動きや急激な照明変化を伴うシーンの測定を行うために提案されているが、既存のイベントベース認識アルゴリズムの多くは、ドメインシフトが著しいため、極端な条件下での性能劣化に悩まされている。 Ev-TTAは、イベントの時空間特性にインスパイアされた損失関数を用いて、テストフェーズ中に事前訓練された分類器を微調整することにより、深刻なドメインギャップを緩和する。 イベントデータは時間的な測定ストリームであるので、我々の損失関数は、変化した環境に迅速に適応するために、隣接するイベントの類似した予測を実行する。 また, 2つの事象の極性間の空間相関を利用して, 事象の極性が異なるノイズ分布を示す極度照明下での雑音を扱う。 ev-ttaは、広範な追加のトレーニングなしで、幅広いイベントベースのオブジェクト認識タスクで大量のパフォーマンス向上を示す。 我々の定式化は入力表現に関係なくうまく適用でき、さらに回帰タスクに拡張できる。 Ev-TTAは、重要なドメインシフトが避けられない現実世界のアプリケーションにイベントベースのビジョンアルゴリズムをデプロイするための重要な技術を提供することを期待しています。

We introduce Ev-TTA, a simple, effective test-time adaptation algorithm for event-based object recognition. While event cameras are proposed to provide measurements of scenes with fast motions or drastic illumination changes, many existing event-based recognition algorithms suffer from performance deterioration under extreme conditions due to significant domain shifts. Ev-TTA mitigates the severe domain gaps by fine-tuning the pre-trained classifiers during the test phase using loss functions inspired by the spatio-temporal characteristics of events. Since the event data is a temporal stream of measurements, our loss function enforces similar predictions for adjacent events to quickly adapt to the changed environment online. Also, we utilize the spatial correlations between two polarities of events to handle noise under extreme illumination, where different polarities of events exhibit distinctive noise distributions. Ev-TTA demonstrates a large amount of performance gain on a wide range of event-based object recognition tasks without extensive additional training. Our formulation can be successfully applied regardless of input representations and further extended into regression tasks. We expect Ev-TTA to provide the key technique to deploy event-based vision algorithms in challenging real-world applications where significant domain shift is inevitable.
翻訳日:2022-03-25 03:17:42 公開日:2022-03-23
# (参考訳) 自己記述型ネットワークを用いたエンティティ認識 [全文訳有]

Few-shot Named Entity Recognition with Self-describing Networks ( http://arxiv.org/abs/2203.12252v1 )

ライセンス: CC BY 4.0
Jiawei Chen, Qing Liu, Hongyu Lin, Xianpei Han, Le Sun(参考訳) NERは限られたインスタンスから情報を効果的に取得し、外部リソースから有用な知識を転送する必要がある。 本稿では,表現型インスタンスを効果的に活用し,外部資源からの知識の伝達を,普遍的な概念セットを用いて表現することにより行う,少数ショットnerの自己記述機構を提案する。 具体的には、seq2seq生成モデルである自己記述ネットワーク(sdnet)を設計し、概念を用いて言及を普遍的に記述し、新しいエンティティタイプを概念に自動マッピングし、オンデマンドでエンティティを適応的に認識する。 大規模なコーパスでSDNetを事前トレーニングし、異なるドメインから8つのベンチマークで実験を行う。 実験によると、SDNetはすべてのベンチマークで競争力を発揮し、新しい最先端の6つのベンチマークを実現している。

Few-shot NER needs to effectively capture information from limited instances and transfer useful knowledge from external resources. In this paper, we propose a self-describing mechanism for few-shot NER, which can effectively leverage illustrative instances and precisely transfer knowledge from external resources by describing both entity types and mentions using a universal concept set. Specifically, we design Self-describing Networks (SDNet), a Seq2Seq generation model which can universally describe mentions using concepts, automatically map novel entity types to concepts, and adaptively recognize entities on-demand. We pre-train SDNet with large-scale corpus, and conduct experiments on 8 benchmarks from different domains. Experiments show that SDNet achieves competitive performances on all benchmarks and achieves the new state-of-the-art on 6 benchmarks, which demonstrates its effectiveness and robustness.
翻訳日:2022-03-25 03:16:45 公開日:2022-03-23
# (参考訳) IAM: 総合的かつ大規模なArgument Miningタスクデータセット [全文訳有]

IAM: A Comprehensive and Large-Scale Dataset for Integrated Argument Mining Tasks ( http://arxiv.org/abs/2203.12257v1 )

ライセンス: CC0 1.0
Liying Cheng, Lidong Bing, Ruidan He, Qian Yu, Yan Zhang, Luo Si(参考訳) 伝統的に、議論は通常、多くの記事を読み、クレームを選択し、クレームのスタンスを特定し、クレームの証拠を求めるなど、手作業による準備プロセスを必要とする。 aiの議論が近年さらに注目を集める中、議論システムに関わる面倒なプロセスを自動化するための方法を探求する価値がある。 本研究では, クレーム抽出, 姿勢分類, 証拠抽出など, 一連の議論マイニングタスクに適用可能な, 包括的で大規模なデータセットIAMを導入する。 データセットは123のトピックに関連する1万以上の記事から収集されます。 データセット内の約70kの文は、その引数特性(クレーム、スタンス、証拠など)に基づいて完全に注釈付けされる。 さらに,(1)姿勢分類によるクレーム抽出 (cesc) と(2)クレーム・エビデンス対抽出 (cepe) という,議論作成プロセスに関連する2つの新しい統合的議論マイニングタスクを提案する。 統合タスク毎にパイプラインアプローチとエンドツーエンドメソッドを別々に採用する。 提案課題の価値と課題を実証した実験結果が報告され,今後の議論マイニング研究のモチベーションとなっている。

Traditionally, a debate usually requires a manual preparation process, including reading plenty of articles, selecting the claims, identifying the stances of the claims, seeking the evidence for the claims, etc. As the AI debate attracts more attention these years, it is worth exploring the methods to automate the tedious process involved in the debating system. In this work, we introduce a comprehensive and large dataset named IAM, which can be applied to a series of argument mining tasks, including claim extraction, stance classification, evidence extraction, etc. Our dataset is collected from over 1k articles related to 123 topics. Near 70k sentences in the dataset are fully annotated based on their argument properties (e.g., claims, stances, evidence, etc.). We further propose two new integrated argument mining tasks associated with the debate preparation process: (1) claim extraction with stance classification (CESC) and (2) claim-evidence pair extraction (CEPE). We adopt a pipeline approach and an end-to-end method for each integrated task separately. Promising experimental results are reported to show the values and challenges of our proposed tasks, and motivate future research on argument mining.
翻訳日:2022-03-25 02:29:50 公開日:2022-03-23
# (参考訳) Promptは事前訓練された言語モデルを証明できるか? 因果的視点から見えないリスクを理解する [全文訳有]

Can Prompt Probe Pretrained Language Models? Understanding the Invisible Risks from a Causal View ( http://arxiv.org/abs/2203.12258v1 )

ライセンス: CC BY 4.0
Boxi Cao, Hongyu Lin, Xianpei Han, Fangchao Liu, Le Sun(参考訳) プロンプトベースのプローブは、プリトレーニング言語モデル(plm)の能力を評価するために広く使われている。 残念なことに、最近の研究では、そのような評価は不正確であり、矛盾し、信頼できない可能性がある。 さらに、内部動作の理解の欠如と幅広い適用性が相まって、実世界のアプリケーションにおけるplmの評価と適用に関する予期せぬリスクにつながる可能性がある。 リスクを発見し, 理解し, 定量化するため, 因果的考察から, バイアスのある結果や結論を導出できる3つの重要なバイアスに着目し, 因果的介入によるデバイアスの実施を提案する。 本稿では、不偏データセットの設計、より良い探索フレームワーク、事前学習された言語モデルのより信頼性の高い評価に関する貴重な洞察を提供する。 さらに、より優れた事前学習された言語モデルを特定するための基準を再考する必要があると結論付けている。 ソースコードとデータはhttps://github.com/c -box/causalEval.comで公開しました。

Prompt-based probing has been widely used in evaluating the abilities of pretrained language models (PLMs). Unfortunately, recent studies have discovered such an evaluation may be inaccurate, inconsistent and unreliable. Furthermore, the lack of understanding its inner workings, combined with its wide applicability, has the potential to lead to unforeseen risks for evaluating and applying PLMs in real-world applications. To discover, understand and quantify the risks, this paper investigates the prompt-based probing from a causal view, highlights three critical biases which could induce biased results and conclusions, and proposes to conduct debiasing via causal intervention. This paper provides valuable insights for the design of unbiased datasets, better probing frameworks and more reliable evaluations of pretrained language models. Furthermore, our conclusions also echo that we need to rethink the criteria for identifying better pretrained language models. We openly released the source code and data at https://github.com/c -box/causalEval.
翻訳日:2022-03-25 02:15:36 公開日:2022-03-23
# (参考訳) ECO v1:イベント中心のオピニオンマイニングを目指す [全文訳有]

ECO v1: Towards Event-Centric Opinion Mining ( http://arxiv.org/abs/2203.12264v1 )

ライセンス: CC BY 4.0
Ruoxi Xu, Hongyu Lin, Meng Liao, Xianpei Han, Jin Xu, Wei Tan, Yingfei Sun, Le Sun(参考訳) イベントは世界の基本的なビルディングブロックと見なされている。 イベント中心の意見のマイニングは意思決定、コミュニケーション、社会的利益の恩恵を受ける。 残念なことに、イベント中心の意見マイニングを扱う文献はほとんどないが、意味、構造、表現において、エンティティ中心の意見マイニングとは大きく異なる。 本稿では,イベント中心の意見マイニングの課題を,イベントアグメンテーション構造と表現分類理論に基づいて提案・定式化する。 また、先駆的なコーパスを構築し、2段階のベンチマークフレームワークを設計することで、このタスクをベンチマークする。 実験結果から,イベント中心の意見マイニングが実現可能であり,課題,データセット,ベースラインが今後の研究に有用であることが示唆された。

Events are considered as the fundamental building blocks of the world. Mining event-centric opinions can benefit decision making, people communication, and social good. Unfortunately, there is little literature addressing event-centric opinion mining, although which significantly diverges from the well-studied entity-centric opinion mining in connotation, structure, and expression. In this paper, we propose and formulate the task of event-centric opinion mining based on event-argument structure and expression categorizing theory. We also benchmark this task by constructing a pioneer corpus and designing a two-step benchmark framework. Experiment results show that event-centric opinion mining is feasible and challenging, and the proposed task, dataset, and baselines are beneficial for future studies.
翻訳日:2022-03-25 01:55:33 公開日:2022-03-23
# (参考訳) イベントベースDenseリコンストラクションパイプライン [全文訳有]

Event-Based Dense Reconstruction Pipeline ( http://arxiv.org/abs/2203.12270v1 )

ライセンス: CC0 1.0
Kun Xiao, Guohui Wang, Yi Chen, Jinghong Nan, Yongfeng Xie(参考訳) イベントカメラは、従来のカメラとは異なる新しいタイプのセンサーである。 各ピクセルはイベントによって非同期に起動される。 トリガーイベントは、画素に照射された輝度の変化である。 輝度のインクリメントまたはデクリメントが一定の閾値よりも高い場合は、イベントが出力される。 従来のカメラと比較して、イベントカメラは高いダイナミックレンジの利点があり、動きのぼやけがない。 イベントは強度エッジの見かけの動きによって引き起こされるため、ほとんどの3d再構成マップはシーンエッジ、すなわちセミセンスマップのみで構成されており、一部のアプリケーションでは不十分である。 本稿では,イベントベース高密度再構成を実現するパイプラインを提案する。 まず、深層学習を用いてイベントからの強度画像の再構成を行う。 そして、structure from motion (sfm) は、カメラ内在性、外在性、スパースポイント雲の推定に使用される。 最後に、多視点ステレオ(MVS)を用いて高密度再構成を行う。

Event cameras are a new type of sensors that are different from traditional cameras. Each pixel is triggered asynchronously by event. The trigger event is the change of the brightness irradiated on the pixel. If the increment or decrement of brightness is higher than a certain threshold, an event is output. Compared with traditional cameras, event cameras have the advantages of high dynamic range and no motion blur. Since events are caused by the apparent motion of intensity edges, the majority of 3D reconstructed maps consist only of scene edges, i.e., semi-dense maps, which is not enough for some applications. In this paper, we propose a pipeline to realize event-based dense reconstruction. First, deep learning is used to reconstruct intensity images from events. And then, structure from motion (SfM) is used to estimate camera intrinsic, extrinsic and sparse point cloud. Finally, multi-view stereo (MVS) is used to complete dense reconstruction.
翻訳日:2022-03-25 01:40:36 公開日:2022-03-23
# (参考訳) 統一低ショット関係抽出のための事前学習 [全文訳有]

Pre-training to Match for Unified Low-shot Relation Extraction ( http://arxiv.org/abs/2203.12274v1 )

ライセンス: CC BY 4.0
Fangchao Liu, Hongyu Lin, Xianpei Han, Boxi Cao, Le Sun(参考訳) 低ショット関係抽出~(re)は、非常に少ない、あるいは全くないサンプルで新しい関係を認識することを目的としている。 少ないショットとゼロショットREは2つの代表的ローショットREタスクであり、同じターゲットを持つように見えるが、全く異なる基盤能力を必要とする。 本稿では,低ショット関係抽出を統一するマルチチョイスマッチングネットワークを提案する。 ゼロショットと少数ショットREのギャップを埋めるために, ゼロショットラベルマッチング能力の事前学習に三重項パラフレーズを利用するメタトレーニングを提案し, メタラーニングパラダイムを用いて, 少数ショットインスタンスの要約能力を学習する。 3つの異なる低ショットREタスクの実験結果から,提案手法は強いベースラインを大きなマージンで上回り,少数ショットREリーダーボード上で最高の性能を発揮することが示された。

Low-shot relation extraction~(RE) aims to recognize novel relations with very few or even no samples, which is critical in real scenario application. Few-shot and zero-shot RE are two representative low-shot RE tasks, which seem to be with similar target but require totally different underlying abilities. In this paper, we propose Multi-Choice Matching Networks to unify low-shot relation extraction. To fill in the gap between zero-shot and few-shot RE, we propose the triplet-paraphrase meta-training, which leverages triplet paraphrase to pre-train zero-shot label matching ability and uses meta-learning paradigm to learn few-shot instance summarizing ability. Experimental results on three different low-shot RE tasks show that the proposed method outperforms strong baselines by a large margin, and achieve the best performance on few-shot RE leaderboard.
翻訳日:2022-03-25 01:31:20 公開日:2022-03-23
# (参考訳) ERNIE-SPARSE:正規化自己認識による階層的効率変換器の学習 [全文訳有]

ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through Regularized Self-Attention ( http://arxiv.org/abs/2203.12276v1 )

ライセンス: CC BY 4.0
Yang Liu, Jiaxiang Liu, Li Chen, Yuxiang Lu, Shikun Feng, Zhida Feng, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang(参考訳) Sparse Transformerは、最近、シーケンス長の二次依存性を減らす能力から、多くの注目を集めている。 我々は、情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼすと論じている。 本稿では,ERNIE-Sparseというモデルを提案する。 2つの特徴ある部分からなる。 (i)階層スパース変換器(HST)により、局所情報とグローバル情報を逐次統合する。 (II)SAR法(Self-Attention Regularization)は、異なる注意トポロジを持つ変圧器の距離を最小化する新しい正規化法である。 ERNIE-Sparseの有効性を評価するため,広範囲な評価を行った。 まず,マルチモーダル長周期モデリングタスクベンチマークであるLong Range Arena(LRA)について実験を行った。 実験の結果、アーニースパースは、密集した注意やその他の効率的なスパース注意法を含む様々な強力なベースライン法を著しく上回り、2.77%(57.78%対55.01%)の改善を達成した。 第2に,本手法の有効性をさらに示すため,ERNIE-Sparseを事前訓練し,3つのテキスト分類と2つのQAダウンストリームタスクで検証し,分類ベンチマークを0.83%(92.46%対91.63%)、QAベンチマークを3.24%(74.67%対71.43%)改善した。 実験結果は、その優れた性能を示し続けている。

Sparse Transformer has recently attracted a lot of attention since the ability for reducing the quadratic dependency on the sequence length. We argue that two factors, information bottleneck sensitivity and inconsistency between different attention topologies, could affect the performance of the Sparse Transformer. This paper proposes a well-designed model named ERNIE-Sparse. It consists of two distinctive parts: (i) Hierarchical Sparse Transformer (HST) to sequentially unify local and global information. (ii) Self-Attention Regularization (SAR) method, a novel regularization designed to minimize the distance for transformers with different attention topologies. To evaluate the effectiveness of ERNIE-Sparse, we perform extensive evaluations. Firstly, we perform experiments on a multi-modal long sequence modeling task benchmark, Long Range Arena (LRA). Experimental results demonstrate that ERNIE-Sparse significantly outperforms a variety of strong baseline methods including the dense attention and other efficient sparse attention methods and achieves improvements by 2.77% (57.78% vs. 55.01%). Secondly, to further show the effectiveness of our method, we pretrain ERNIE-Sparse and verified it on 3 text classification and 2 QA downstream tasks, achieve improvements on classification benchmark by 0.83% (92.46% vs. 91.63%), on QA benchmark by 3.24% (74.67% vs. 71.43%). Experimental results continue to demonstrate its superior performance.
翻訳日:2022-03-25 01:15:58 公開日:2022-03-23
# (参考訳) ユニバーサル情報抽出のための統一構造生成 [全文訳有]

Unified Structure Generation for Universal Information Extraction ( http://arxiv.org/abs/2203.12277v1 )

ライセンス: CC BY 4.0
Yaojie Lu, Qing Liu, Dai Dai, Xinyan Xiao, Hongyu Lin, Xianpei Han, Le Sun, Hua Wu(参考訳) 情報抽出は、様々なターゲット、異種構造、要求固有のスキーマに悩まされる。 本稿では、異なるIEタスクを普遍的にモデル化し、ターゲット構造を適応的に生成し、異なる知識ソースから一般的なIE能力を協調的に学習する、統一的なテキスト・構造生成フレームワークであるUIEを提案する。 具体的には、uieは構造化抽出言語を介して異なる抽出構造を均一に符号化し、スキーマベースのプロンプト機構(構造スキーマインストラクタ)を介してターゲット抽出を適応的に生成し、大規模な事前学習されたテキストから構造へのモデルを介して共通のie能力をキャプチャする。 実験の結果、UIEは4つのIEタスク、13のデータセット、および広範囲のエンティティ、関係性、イベント、感情抽出タスクとそれらの統合のための教師付き、低リソース、数ショット設定で最先端のパフォーマンスを達成した。 これらの結果はUIEの有効性,普遍性,伝達性について検証した。

Information extraction suffers from its varying targets, heterogeneous structures, and demand-specific schemas. In this paper, we propose a unified text-to-structure generation framework, namely UIE, which can universally model different IE tasks, adaptively generate targeted structures, and collaboratively learn general IE abilities from different knowledge sources. Specifically, UIE uniformly encodes different extraction structures via a structured extraction language, adaptively generates target extractions via a schema-based prompt mechanism - structural schema instructor, and captures the common IE abilities via a large-scale pre-trained text-to-structure model. Experiments show that UIE achieved the state-of-the-art performance on 4 IE tasks, 13 datasets, and on all supervised, low-resource, and few-shot settings for a wide range of entity, relation, event and sentiment extraction tasks and their unification. These results verified the effectiveness, universality, and transferability of UIE.
翻訳日:2022-03-25 00:56:17 公開日:2022-03-23
# (参考訳) クライアント間の潜在関係のマイニング--適応隣接マッチングを用いたピアツーピアフェデレーション学習 [全文訳有]

Mining Latent Relationships among Clients: Peer-to-peer Federated Learning with Adaptive Neighbor Matching ( http://arxiv.org/abs/2203.12285v1 )

ライセンス: CC BY 4.0
Zexi Li, Jiaxun Lu, Shuang Luo, Didi Zhu, Yunfeng Shao, Yinchuan Li, Zhimeng Zhang, Chao Wu(参考訳) フェデレーション学習(fl)では、クライアントは多様な目的を持ち、すべてのクライアントの知識をひとつのグローバルモデルに統合すると、ローカルなパフォーマンスに負の転送を引き起こす。 したがって、クラスタ化FLは、類似のクライアントをクラスタにグループ化し、いくつかのグローバルモデルを維持するために提案される。 しかしながら、現在のクラスタ型flアルゴリズムではクラスタ数を仮定する必要があるため、クライアント間の潜在関係を探索するには有効ではない。 しかし,P2P (P2P) FLを利用して,クライアントが中央サーバを使わずに隣人と通信し,クラスタ数を仮定することなく効率的な通信トポロジを分散的に構築するアルゴリズムを提案する。 さらに、P2P設定は、信頼性や通信帯域幅の問題など、中央サーバが集中的なFLで引き起こす懸念を解放する。 私たちの方法では 1) P2Pプロトコルで適用可能なクライアント類似度を測定するための2つの新しい指標を提案する。 2) 2段階のアルゴリズムを考案し,まず,クライアントが同一クラスタの隣人を高い信頼性でマッチングできる効率的な手法を提案する。 3)第2段階では,類似性の仮定としてガウス混合モデルに基づく期待最大化に基づくヒューリスティックな手法を用いて,類似した目的を持つ隣人を見つけ出す。 提案手法がP2P FLよりも優れているかの理論解析を行い,本手法がP2P FLベースラインを全て上回り,集中クラスタFLと同等あるいはそれ以上の性能を有することを示す。 また,提案手法は,クラスタ数を仮定することなく,様々な不均一性下での潜在クラスタ関係の抽出に有効であり,低通信予算でも有効であることを示した。

In federated learning (FL), clients may have diverse objectives, merging all clients' knowledge into one global model will cause negative transfers to local performance. Thus, clustered FL is proposed to group similar clients into clusters and maintain several global models. Nevertheless, current clustered FL algorithms require the assumption of the number of clusters, they are not effective enough to explore the latent relationships among clients. However, we take advantage of peer-to-peer (P2P) FL, where clients communicate with neighbors without a central server and propose an algorithm that enables clients to form an effective communication topology in a decentralized manner without assuming the number of clusters. Additionally, the P2P setting will release the concerns caused by the central server in centralized FL, such as reliability and communication bandwidth problems. In our method, 1) we present two novel metrics for measuring client similarity, applicable under P2P protocols; 2) we devise a two-stage algorithm, in the first stage, an efficient method to enable clients to match same-cluster neighbors with high confidence is proposed; 3) then in the second stage, a heuristic method based on Expectation Maximization under the Gaussian Mixture Model assumption of similarities is used for clients to discover more neighbors with similar objectives. We make a theoretical analysis of how our work is superior to the P2P FL counterpart and extensive experiments show that our method outperforms all P2P FL baselines and has comparable or even superior performance to centralized cluster FL. Moreover, results show that our method is much effective in mining latent cluster relationships under various heterogeneity without assuming the number of clusters and it is effective even under low communication budgets.
翻訳日:2022-03-25 00:24:42 公開日:2022-03-23
# (参考訳) 位置埋め込みによる車線検出 [全文訳有]

Lane detection with Position Embedding ( http://arxiv.org/abs/2203.12301v1 )

ライセンス: CC0 1.0
Jun Xie, Jiacheng Han, Dezhen Qi, Feng Chen, Kaer Huang, Jianwei Shuai(参考訳) 近年,車線検出は自動運転において大きな進歩を遂げている。 RESA (Recurrent Feature-Shift Aggregator) は画像セグメンテーションに基づいている。 通常のCNNによる予備的特徴抽出後の車線特徴を豊かにする新しいモジュールを提供する。 Tusimpleデータセットでは、複雑なシーンはなく、レーンはより顕著な空間的特徴を持つ。 本稿では,resaに基づき,空間的特徴を高めるための位置埋め込み手法を提案する。 実験の結果、この手法はtusimpleデータセットで96.93%の精度を達成した。

Recently, lane detection has made great progress in autonomous driving. RESA (REcurrent Feature-Shift Aggregator) is based on image segmentation. It presents a novel module to enrich lane feature after preliminary feature extraction with an ordinary CNN. For Tusimple dataset, there is not too complicated scene and lane has more prominent spatial features. On the basis of RESA, we introduce the method of position embedding to enhance the spatial features. The experimental results show that this method has achieved the best accuracy 96.93% on Tusimple dataset.
翻訳日:2022-03-24 23:56:43 公開日:2022-03-23
# (参考訳) 各種計算パラダイムにおける人工知能手法を用いた資源配分最適化 [全文訳有]

Resource allocation optimization using artificial intelligence methods in various computing paradigms: A Review ( http://arxiv.org/abs/2203.12315v1 )

ライセンス: CC BY-SA 4.0
Javad Hassannataj Joloudari, Roohallah Alizadehsani, Issa Nodehi, Sanaz Mojrian, Fatemeh Fazl, Sahar Khanjani Shirkharkolaie, H M Dipu Kabir, Ru-San Tan, U Rajendra Acharya(参考訳) スマートデバイスが出現すると、モノのインターネット、霧、クラウドコンピューティングといった様々な計算パラダイムへの需要が高まっている。 しかし、これらのパラダイムでは効果的な資源配分は依然として困難である。 本稿では、ディープラーニング(DL)や機械学習(ML)といった人工知能(AI)手法の計算パラダイムにおける資源配分最適化への応用に関する総合的な文献レビューを行う。 我々の知る限りでは、異なる計算パラダイムにおけるAIベースのリソース割り当てアプローチに関する既存のレビューはない。 レビューされたMLベースのアプローチは、教師付き強化学習(RL)に分類される。 さらに,DLベースのアプローチとRLの組み合わせについて検討した。 レビューは、オープンな研究の方向性と結論に関する議論で終わる。

With the advent of smart devices, the demand for various computational paradigms such as the Internet of Things, fog, and cloud computing has increased. However, effective resource allocation remains challenging in these paradigms. This paper presents a comprehensive literature review on the application of artificial intelligence (AI) methods such as deep learning (DL) and machine learning (ML) for resource allocation optimization in computational paradigms. To the best of our knowledge, there are no existing reviews on AI-based resource allocation approaches in different computational paradigms. The reviewed ML-based approaches are categorized as supervised and reinforcement learning (RL). Moreover, DL-based approaches and their combination with RL are surveyed. The review ends with a discussion on open research directions and a conclusion.
翻訳日:2022-03-24 23:48:51 公開日:2022-03-23
# (参考訳) XAIにおける信頼と信頼--時間的・行動的措置の相違 [全文訳有]

Trust and Reliance in XAI -- Distinguishing Between Attitudinal and Behavioral Measures ( http://arxiv.org/abs/2203.12318v1 )

ライセンス: CC BY 4.0
Nicolas Scharowski, Sebastian A. C. Perrig, Nick von Felten, Florian Br\"uhlmann(参考訳) 信頼はしばしば、AIの効果的な使用と実世界の展開に不可欠な基準として言及される。 研究者たちは、AIは信頼を高めるためにより透明でなければならないと主張しており、透明性はXAIの主要な目標の1つだ。 それでも、このトピックに関する実証研究は、信頼に対する透明性の影響に関して決定的ではない。 この曖昧さに対する説明として、xai内では信頼が異なる操作をされることが考えられる。 本稿では,行動(客観的)の信頼度尺度と信頼度(主観的)尺度とを明確に区別することを提案する。 しかし、研究者は信頼を奪おうとするときに行動的措置を用いることがあるが、対位法の方が適切である。 過去の研究に基づいて、信頼と信頼を別々に維持する理論的な理由があることを強調した。 これら2つの概念を適切に区別することは、透明性が信頼と信頼にどのように影響するかをより包括的に理解し、将来のXAI研究に役立つ。

Trust is often cited as an essential criterion for the effective use and real-world deployment of AI. Researchers argue that AI should be more transparent to increase trust, making transparency one of the main goals of XAI. Nevertheless, empirical research on this topic is inconclusive regarding the effect of transparency on trust. An explanation for this ambiguity could be that trust is operationalized differently within XAI. In this position paper, we advocate for a clear distinction between behavioral (objective) measures of reliance and attitudinal (subjective) measures of trust. However, researchers sometimes appear to use behavioral measures when intending to capture trust, although attitudinal measures would be more appropriate. Based on past research, we emphasize that there are sound theoretical reasons to keep trust and reliance separate. Properly distinguishing these two concepts provides a more comprehensive understanding of how transparency affects trust and reliance, benefiting future XAI research.
翻訳日:2022-03-24 23:25:25 公開日:2022-03-23
# (参考訳) DR.VIC:ビデオ個別カウントのための分解と推論

DR.VIC: Decomposition and Reasoning for Video Individual Counting ( http://arxiv.org/abs/2203.12335v1 )

ライセンス: CC BY 4.0
Tao Han, Lei Bai, Junyu Gao, Qi Wang, Wanli Ouyang(参考訳) 歩行者計数は歩行者パターンと群集の流れ解析を理解するための基本的なツールである。 既存の作品(例えば、イメージレベルの歩行者計数、クロスラインの群衆計数など)は、画像レベルの計数のみに焦点を当てるか、行のマニュアルアノテーションに拘束される。 そこで本研究では,与えられた映像中の個々の歩行者の総数をカウントするビデオ個人計数(vic)という,新たな視点から歩行者計数を行うことを提案する。 本研究は,MOT(Multiple Object Tracking)技術に頼らず,全歩行者を第1フレームに存在する初期歩行者と第2フレームに別個の身元を持つ新歩行者に分解することで,その問題を解決することを提案する。 そこで,DRNet(End-to-end Decomposition and Reasoning Network)は,初期歩行者数を密度推定法で予測し,各フレームの新規歩行者数を最適な移動量で推定する。 混雑歩行者と多彩なシーンの2つのデータセットについて広範な実験を行い,個々の歩行者を数えるのに優れたベースラインに対して,提案手法の有効性を実証した。 コード: https://github.com/t aohan10200/drnet。

Pedestrian counting is a fundamental tool for understanding pedestrian patterns and crowd flow analysis. Existing works (e.g., image-level pedestrian counting, crossline crowd counting et al.) either only focus on the image-level counting or are constrained to the manual annotation of lines. In this work, we propose to conduct the pedestrian counting from a new perspective - Video Individual Counting (VIC), which counts the total number of individual pedestrians in the given video (a person is only counted once). Instead of relying on the Multiple Object Tracking (MOT) techniques, we propose to solve the problem by decomposing all pedestrians into the initial pedestrians who existed in the first frame and the new pedestrians with separate identities in each following frame. Then, an end-to-end Decomposition and Reasoning Network (DRNet) is designed to predict the initial pedestrian count with the density estimation method and reason the new pedestrian's count of each frame with the differentiable optimal transport. Extensive experiments are conducted on two datasets with congested pedestrians and diverse scenes, demonstrating the effectiveness of our method over baselines with great superiority in counting the individual pedestrians. Code: https://github.com/t aohan10200/DRNet.
翻訳日:2022-03-24 23:17:39 公開日:2022-03-23
# (参考訳) 二元型形態素ニューラルネットワーク [全文訳有]

Binary Morphological Neural Network ( http://arxiv.org/abs/2203.12337v1 )

ライセンス: CC BY 4.0
Theodore Aouad, Hugues Talbot(参考訳) 過去10年間で、畳み込みニューラルネットワーク(CNN)は、ほとんどのコンピュータビジョンタスクのためのディープラーニングアーキテクチャの基礎を形成してきた。 しかし、必ずしも最適とは限らない。 例えば、数学的形態学はバイナリ画像を扱うのに適していることが知られている。 本研究では,バイナリ入力と出力を処理する形態的ニューラルネットワークを構築する。 本稿では, 畳み込みを浸食や拡張に置き換えることで, 画像に適応した層を定式化するためのCNNによる構築を提案する。 得られた学習ネットワークが実際にモルフォロジー演算子であるか否かに関する説明可能な理論的結果を与える。 基本バイナリ演算子を学習するために設計された有望な実験結果を示し、コードをオンラインで公開しました。

In the last ten years, Convolutional Neural Networks (CNNs) have formed the basis of deep-learning architectures for most computer vision tasks. However, they are not necessarily optimal. For example, mathematical morphology is known to be better suited to deal with binary images. In this work, we create a morphological neural network that handles binary inputs and outputs. We propose their construction inspired by CNNs to formulate layers adapted to such images by replacing convolutions with erosions and dilations. We give explainable theoretical results on whether or not the resulting learned networks are indeed morphological operators. We present promising experimental results designed to learn basic binary operators, and we have made our code publicly available online.
翻訳日:2022-03-24 23:16:39 公開日:2022-03-23
# (参考訳) MONAI Label:3次元医用画像のAI支援インタラクティブラベル作成のためのフレームワーク [全文訳有]

MONAI Label: A framework for AI-assisted Interactive Labeling of 3D Medical Images ( http://arxiv.org/abs/2203.12362v1 )

ライセンス: CC BY-SA 4.0
Andres Diaz-Pinto, Sachidanand Alle, Alvin Ihsani, Muhammad Asad, Vishwesh Nath, Fernando P\'erez-Garc\'ia, Pritesh Mehta, Wenqi Li, Holger R. Roth, Tom Vercauteren, Daguang Xu, Prerna Dogra, Sebastien Ourselin, Andrew Feng and M. Jorge Cardoso(参考訳) 注釈付きデータセットの欠如は、手動アノテーションが高価で時間を要するため、タスク固有の教師付きAIアルゴリズムをトレーニングする上で大きな課題である。 この問題に対処するために,3次元医用画像データセットのアノテートに必要な時間を短縮することを目的とした,AIベースのアプリケーション開発を容易にする,フリーかつオープンソースのプラットフォームであるMONAI Labelを紹介する。 monAI Labelの研究者は、自身の専門分野に焦点を当てたアノテーションアプリケーションを開発することができる。 研究者は自分のアプリをサービスとして簡単にデプロイでき、好みのユーザーインターフェースを通じて臨床医が利用できる。 現在、MONAI Labelはローカルにインストールされた(3DSlicer)とWebベースの(OHIF)フロントエンドを容易にサポートしており、セグメンテーションアルゴリズムのトレーニングを容易にし、高速化するための2つのアクティブラーニング戦略を提供している。 MONAI Labelは、研究者が他の研究者や臨床医にも利用できるようにすることで、ラベルアプリの改良を段階的に行うことができる。 最後にmonAI Labelは、DeepEditとDeepGrowというサンプルラベリングアプリを提供し、アノテーションの時間を劇的に短縮した。

The lack of annotated datasets is a major challenge in training new task-specific supervised AI algorithms as manual annotation is expensive and time-consuming. To address this problem, we present MONAI Label, a free and open-source platform that facilitates the development of AI-based applications that aim at reducing the time required to annotate 3D medical image datasets. Through MONAI Label researchers can develop annotation applications focusing on their domain of expertise. It allows researchers to readily deploy their apps as services, which can be made available to clinicians via their preferred user-interface. Currently, MONAI Label readily supports locally installed (3DSlicer) and web-based (OHIF) frontends, and offers two Active learning strategies to facilitate and speed up the training of segmentation algorithms. MONAI Label allows researchers to make incremental improvements to their labeling apps by making them available to other researchers and clinicians alike. Lastly, MONAI Label provides sample labeling apps, namely DeepEdit and DeepGrow, demonstrating dramatically reduced annotation times.
翻訳日:2022-03-24 23:06:09 公開日:2022-03-23
# (参考訳) 異種グラフニューラルネットワークを用いたEthereumフラッド検出 [全文訳有]

Ethereum Fraud Detection with Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2203.12363v1 )

ライセンス: CC BY 4.0
Hiroki Kanezashi, Toyotaro Suzumura, Xin Liu, Takahiro Hirofuchi(参考訳) ethereumのような暗号通貨による取引が普及している一方で、詐欺やその他の犯罪取引は珍しくない。 グラフ分析アルゴリズムと機械学習技術は、大規模トランザクションネットワークにおけるフィッシングにつながる疑わしいトランザクションを検出する。 多くのグラフニューラルネットワーク(GNN)モデルが、グラフ構造にディープラーニング技術を適用するために提案されている。 EthereumトランザクションネットワークにはGNNモデルを用いたフィッシング検出に関する研究があるが、頂点とエッジのスケールとラベルの不均衡に対処するモデルはまだ研究されていない。 本稿では,実際のEthereumトランザクションネットワークデータセット上でのGNNモデルのモデル性能と,報告されたラベルデータのフィッシングを比較し,どのGNNモデルとハイパーパラメータが最も精度が高いかを徹底的に比較・検証する。 具体的には,単一型ノードとエッジを考慮した代表的均質gnnモデルと,異なる種類のノードとエッジをサポートする異種gnnモデルの性能評価を行った。 異種モデルの方が均質モデルよりも優れたモデル性能を示した。 特に、RGCNモデルは、全体的なメトリクスで最高のパフォーマンスを達成した。

While transactions with cryptocurrencies such as Ethereum are becoming more prevalent, fraud and other criminal transactions are not uncommon. Graph analysis algorithms and machine learning techniques detect suspicious transactions that lead to phishing in large transaction networks. Many graph neural network (GNN) models have been proposed to apply deep learning techniques to graph structures. Although there is research on phishing detection using GNN models in the Ethereum transaction network, models that address the scale of the number of vertices and edges and the imbalance of labels have not yet been studied. In this paper, we compared the model performance of GNN models on the actual Ethereum transaction network dataset and phishing reported label data to exhaustively compare and verify which GNN models and hyperparameters produce the best accuracy. Specifically, we evaluated the model performance of representative homogeneous GNN models which consider single-type nodes and edges and heterogeneous GNN models which support different types of nodes and edges. We showed that heterogeneous models had better model performance than homogeneous models. In particular, the RGCN model achieved the best performance in the overall metrics.
翻訳日:2022-03-24 22:46:29 公開日:2022-03-23
# (参考訳) 大規模データストリームの高速極性ラベリングのためのフレームワーク [全文訳有]

A Framework for Fast Polarity Labelling of Massive Data Streams ( http://arxiv.org/abs/2203.12368v1 )

ライセンス: CC BY 4.0
Huilin Wu and Mian Lu and Zhao Zheng and Shuhao Zhang(参考訳) 既存の感情分析技術の多くは教師付き学習に基づいており、モデルをトレーニングするための貴重なトレーニングデータセットの可用性を求めている。 データセットの鮮度が重要になると、ラベルなしの高速データストリームの注釈は重要になるが、オープンな問題のままである。 本稿では,Twitter のつぶやきやオンライン製品レビューなど,膨大なデータストリームの高速極性ラベリングのための新しい Apache Flink ベースのフレームワーク PLStream を提案する。 関連する実装課題に対処し、アルゴリズムの改良とシステム最適化の両方を含むテクニックのリストを提案する。 2つの実世界のワークロードによる徹底的な実証検証は、PLStreamが、手作業なしで、高速で連続的な非競合データストリーム(ほぼ16,000タプル/秒)の存在下で、高品質なラベル(ほぼ80%の精度)を生成できることを実証している。

Many of the existing sentiment analysis techniques are based on supervised learning, and they demand the availability of valuable training datasets to train their models. When dataset freshness is critical, the annotating of high speed unlabelled data streams becomes critical but remains an open problem. In this paper, we propose PLStream, a novel Apache Flink-based framework for fast polarity labelling of massive data streams, like Twitter tweets or online product reviews. We address the associated implementation challenges and propose a list of techniques including both algorithmic improvements and system optimizations. A thorough empirical validation with two real-world workloads demonstrates that PLStream is able to generate high quality labels (almost 80% accuracy) in the presence of high-speed continuous unlabelled data streams (almost 16,000 tuples/sec) without any manual efforts.
翻訳日:2022-03-24 22:33:29 公開日:2022-03-23
# (参考訳) MetricGAN+/-:未確認データにおけるノイズ低減のロバスト化 [全文訳有]

MetricGAN+/-: Increasing Robustness of Noise Reduction on Unseen Data ( http://arxiv.org/abs/2203.12369v1 )

ライセンス: CC BY 4.0
George Close, Thomas Hain and Stefan Goetze(参考訳) 音声強調システムの訓練は、しばしば人間の知覚に関する知識を含まないため、不自然な発音結果につながる可能性がある。 予測ネットワークを用いたモデルトレーニングの一環として,心理音響的動機づけによる音声知覚指標が最近注目されている。 しかし,これらの予測器の性能は,トレーニングデータに現れるメトリックスコアの分布によって制限されるため,トレーニングにおいてより広い範囲のメトリックスコアの観測を確保することで,予測ネットワークの堅牢性向上を図る「デジェネレータ」という追加のネットワークを導入したMetricGAN+/(メトリガN+の拡張)を提案する。 voicebank-demandデータセットでの実験的結果は、pesqスコアの相対的な改善($3.05$対$3.22$ pesqスコア)と、ノイズや音声の認識不能化の一般化を示している。

Training of speech enhancement systems often does not incorporate knowledge of human perception and thus can lead to unnatural sounding results. Incorporating psychoacoustically motivated speech perception metrics as part of model training via a predictor network has recently gained interest. However, the performance of such predictors is limited by the distribution of metric scores that appear in the training data.In this work, we propose MetricGAN+/- (an extension of MetricGAN+, one such metric-motivated system) which introduces an additional network - a "de-generator" which attempts to improve the robustness of the prediction network (and by extension of the generator) by ensuring observation of a wider range of metric scores in training. Experimental results on the VoiceBank-DEMAND dataset show relative improvement in PESQ score of $3.8\%$ ($3.05$ vs $3.22$ PESQ score), as well as better generalisation to unseen noise and speech.
翻訳日:2022-03-24 22:19:15 公開日:2022-03-23
# (参考訳) 四状態量子形式系の青写真 [全文訳有]

A Blueprint for Four-states Quantum Formal System ( http://arxiv.org/abs/2203.12385v1 )

ライセンス: CC0 1.0
Kazuki Otsuka(参考訳) 2つの量子ビットからなる系の絡み合いと並列計算に基づく生体系を記述するための形式的システムのための青写真を提案する。 特に、S = {T, A, G, C}, | S | = 22 = 4 個のヌクレオチド記号からなるDNA配列の同型化が目的である。 この単純なシステムでは、2つのキュービットはシステムAに属するが、残りの2つのキュービットはシステムBに属する。 システムAとシステムBは、母子二倍体生体系に由来する。

A blueprint for a formal system for describing living systems, based on the entanglement and parallel computation of systems consisting of two qubits shall be proposed. In particular, isomorphism with the S = {T, A, G, C}, | S | = 22 = 4 system of DNA sequences consisting of nucleotide symbols are aimed for. In this simple system, two qubits belong to system A and the other two qubits belong to system B, which are entangled and inseparable. System A and System B are derived from a parent-mother diploid living system.
翻訳日:2022-03-24 22:06:33 公開日:2022-03-23
# (参考訳) MasterFace攻撃の(制限された)一般化と顔表現能力との関係について [全文訳有]

On the (Limited) Generalization of MasterFace Attacks and Its Relation to the Capacity of Face Representations ( http://arxiv.org/abs/2203.12387v1 )

ライセンス: CC BY 4.0
Philipp Terh\"orst, Florian Bierbaum, Marco Huber, Naser Damer, Florian Kirchbuchner, Kiran Raja, Arjan Kuijper(参考訳) マスターフェイス(masterface)は、人口の大部分とうまくマッチする顔画像である。 彼らの世代は登録した被験者の情報にアクセスする必要がないので、MasterFace攻撃は広く使われている顔認識システムに対する潜在的なセキュリティリスクを表す。 先行研究は、このような画像を生成する手法を提案し、これらの攻撃が顔認識を損なうことを実証した。 しかし、以前の研究は、古い認識モデル、限られたクロスデータセットとクロスモデル評価、低スケールなテストデータの使用からなる評価設定に従っていた。 これにより、これらの攻撃の一般化性を記述するのが困難になる。 本研究では,経験的および理論的研究におけるMasterFace攻撃の一般化可能性について包括的に分析する。 実証的な調査には、6つの最先端frモデル、クロスデータセットとクロスモデル評価プロトコルの使用、そしてかなり大きなサイズと分散のテストデータセットの利用が含まれる。 その結果、MasterFacesがテストで使用するものと異なる顔認識モデルでトレーニングしている場合、一般化性が低いことが示された。 これらの場合、攻撃性能はゼロ・エフォート・インポスター攻撃に似ている。 理論的研究では,顔空間のアイデンティティが十分に分離されていると仮定して,顔容量と最大MasterFaceカバレッジを定義し,推定する。 顔認証の公平性と一般化性を高める最近の傾向は、将来のシステムの脆弱性がさらに減少する可能性を示唆している。 MasterFacesは顔認識システムに対する脅威とみなすべきではないが、それとは対照的に、顔認識モデルの堅牢性を理解し、強化するためのツールと見なされる。

A MasterFace is a face image that can successfully match against a large portion of the population. Since their generation does not require access to the information of the enrolled subjects, MasterFace attacks represent a potential security risk for widely-used face recognition systems. Previous works proposed methods for generating such images and demonstrated that these attacks can strongly compromise face recognition. However, previous works followed evaluation settings consisting of older recognition models, limited cross-dataset and cross-model evaluations, and the use of low-scale testing data. This makes it hard to state the generalizability of these attacks. In this work, we comprehensively analyse the generalizability of MasterFace attacks in empirical and theoretical investigations. The empirical investigations include the use of six state-of-the-art FR models, cross-dataset and cross-model evaluation protocols, and utilizing testing datasets of significantly higher size and variance. The results indicate a low generalizability when MasterFaces are training on a different face recognition model than the one used for testing. In these cases, the attack performance is similar to zero-effort imposter attacks. In the theoretical investigations, we define and estimate the face capacity and the maximum MasterFace coverage under the assumption that identities in the face space are well separated. The current trend of increasing the fairness and generalizability in face recognition indicates that the vulnerability of future systems might further decrease. We conclude that MasterFaces should not be seen as a threat to face recognition systems but, on the contrary, seen as a tool to understand and enhance the robustness of face recognition models.
翻訳日:2022-03-24 22:02:48 公開日:2022-03-23
# (参考訳) u-boost nas: 利用促進型微分可能ニューラルネットワーク検索

U-Boost NAS: Utilization-Boosted Differentiable Neural Architecture Search ( http://arxiv.org/abs/2203.12412v1 )

ライセンス: CC BY 4.0
Ahmet Caner Y\"uz\"ug\"uler, Nikolaos Dimitriadis, Pascal Frossard(参考訳) ターゲットプラットフォームにおけるリソース利用の最適化は、DNN推論時に高いパフォーマンスを達成するための鍵となる。 推論レイテンシ、メモリフットプリント、エネルギー消費の最適化が提案されているが、従来のハードウェア対応ニューラルアーキテクチャサーチ(NAS)手法ではリソース利用を省略しており、DNNがターゲットの推論プラットフォームを完全に活用できない。 特に、Google TPUのような広く使われている配列ベースの推論アクセラレータでは、リソース利用を効率的に正確にモデル化することは困難である。 本研究では,タスクの正確性や推論遅延を最適化するだけでなく,資源利用のためのハードウェア対応NASフレームワークを提案する。 また,推論アクセラレータにおける資源利用のための新しい計算モデルを提案し,検証する。 提案するnasフレームワークと提案するリソース利用モデルを用いて,dnn推定の2.8倍から4倍の高速化を実現し,cifar-10およびimagenet-100データセットにおける画像分類精度を向上させた。

Optimizing resource utilization in target platforms is key to achieving high performance during DNN inference. While optimizations have been proposed for inference latency, memory footprint, and energy consumption, prior hardware-aware neural architecture search (NAS) methods have omitted resource utilization, preventing DNNs to take full advantage of the target inference platforms. Modeling resource utilization efficiently and accurately is challenging, especially for widely-used array-based inference accelerators such as Google TPU. In this work, we propose a novel hardware-aware NAS framework that does not only optimize for task accuracy and inference latency, but also for resource utilization. We also propose and validate a new computational model for resource utilization in inference accelerators. By using the proposed NAS framework and the proposed resource utilization model, we achieve 2.8 - 4x speedup for DNN inference compared to prior hardware-aware NAS methods while attaining similar or improved accuracy in image classification on CIFAR-10 and Imagenet-100 datasets.
翻訳日:2022-03-24 21:49:59 公開日:2022-03-23
# (参考訳) 第3回ABAWコンペティションにおける注意に基づく行動単位検出手法 [全文訳有]

An Attention-based Method for Action Unit Detection at the 3rd ABAW Competition ( http://arxiv.org/abs/2203.12428v1 )

ライセンス: CC BY 4.0
Duy Le Hoai, Eunchae Lim, Eunbin Choi, Sieun Kim, Sudarshan Pant, Guee-Sang Lee, Soo-Huyng Kim, Hyung-Jeong Yang(参考訳) 顔行動符号化システムは、人間の感情表現の複雑さをモデル化するためのアプローチである。 自動アクションユニット(AU)検出は、人間とコンピュータの相互作用において重要な研究領域である。 本稿では,第3回行動分析コンペティション(abaw)コンペティション2022への提案について述べる。 ビデオ中の顔動作単位を検出する手法を提案する。 第一段階では、軽量CNNベースの特徴抽出器を用いて、各映像フレームから特徴マップを抽出する。 そして、アテンションマップを洗練させるためにアテンションモジュールを適用する。 注意符号化ベクトルは、特徴マップと注意スコアの重み付き和を用いて導出される。 最後に、Sigmoid関数を出力層で使用して、マルチラベルAUs検出に適した予測を行う。 ABAWチャレンジ検証セットのマクロF1スコアは0.48であり,ベースラインモデルでは0.39であった。

Facial Action Coding System is an approach for modeling the complexity of human emotional expression. Automatic action unit (AU) detection is a crucial research area in human-computer interaction. This paper describes our submission to the third Affective Behavior Analysis in-the-wild (ABAW) competition 2022. We proposed a method for detecting facial action units in the video. At the first stage, a lightweight CNN-based feature extractor is employed to extract the feature map from each video frame. Then, an attention module is applied to refine the attention map. The attention encoded vector is derived using a weighted sum of the feature map and the attention scores later. Finally, the sigmoid function is used at the output layer to make the prediction suitable for multi-label AUs detection. We achieved a macro F1 score of 0.48 on the ABAW challenge validation set compared to 0.39 from the baseline model.
翻訳日:2022-03-24 21:49:00 公開日:2022-03-23
# (参考訳) SMEMO: 軌道予測のためのソーシャルメモリ [全文訳有]

SMEMO: Social Memory for Trajectory Forecasting ( http://arxiv.org/abs/2203.12446v1 )

ライセンス: CC BY 4.0
Francesco Marchetti, Federico Becattini, Lorenzo Seidenari, Alberto Del Bimbo(参考訳) 人間の相互作用の効果的なモデリングは、将来の軌跡のような行動を予測する際に最も重要である。 それぞれの個人は、その動きによって周囲のエージェントに影響を与え、全員が衝突回避やグループフォローのような社会的に記述されていない規則に従う。 本稿では,アルゴリズム的な観点から,すなわちデータ操作タスクとして問題を見ることにより,時間を通じて常に進化するそのようなインタラクションをモデル化する。 本稿では,各エージェントに関する情報の連続書き込み,更新,リコールが可能な外部ストレージとして機能する,エンドツーエンドのトレーニング可能な作業メモリに基づくニューラルネットワークを提案する。 提案手法は,異なるエージェントの動き間の説明可能な因果関係を学習し,複数の軌道予測データセットの最先端結果を得る。

Effective modeling of human interactions is of utmost importance when forecasting behaviors such as future trajectories. Each individual, with its motion, influences surrounding agents since everyone obeys to social non-written rules such as collision avoidance or group following. In this paper we model such interactions, which constantly evolve through time, by looking at the problem from an algorithmic point of view, i.e. as a data manipulation task. We present a neural network based on an end-to-end trainable working memory, which acts as an external storage where information about each agent can be continuously written, updated and recalled. We show that our method is capable of learning explainable cause-effect relationships between motions of different agents, obtaining state-of-the-art results on multiple trajectory forecasting datasets.
翻訳日:2022-03-24 21:44:29 公開日:2022-03-23
# (参考訳) 弱修正セグメンテーションにおける画素対画像レベルアグリゲーションのアクティベーションに基づくサンプリング [全文訳有]

Activation-Based Sampling for Pixel- to Image-Level Aggregation in Weakly-Supervised Segmentation ( http://arxiv.org/abs/2203.12459v1 )

ライセンス: CC BY 4.0
Arvi Jonnarth, Michael Felsberg, Yushan Zhang(参考訳) 分類ネットワークは、クラスアクティベーションマップ(cams)によって画像内のオブジェクトのローカライズとセグメンテーションに使用することができる。 しかし,ピクセルレベルのアノテーションがなければ,(1)識別領域に焦点をあてること,(2)よく定義された予測輪郭のない拡散CAMを生成することが知られている。 本研究では,CAM学習の改善に2つの貢献によって両問題にアプローチする。 まず,camsによって引き起こされるクラス毎確率質量関数に基づく重要度サンプリングを行い,確率的画像レベルのクラス予測を行う。 これにより、CAMはより大きな範囲のオブジェクトを活性化する。 次に,画像のエッジと予測輪郭の一致を目的とした特徴類似性損失項を定式化する。 第3のコントリビューションとして,PASCAL VOCおよびMS-COCOベンチマークデータセットを用いた実験を行い,これらの修正によって輪郭精度が著しく向上することを示した。

Classification networks can be used to localize and segment objects in images by means of class activation maps (CAMs). However, without pixel-level annotations, they are known to (1) mainly focus on discriminative regions, and (2) to produce diffuse CAMs without well-defined prediction contours. In this work, we approach both problems with two contributions for improving CAM learning. First, we incorporate importance sampling based on the class-wise probability mass function induced by the CAMs to produce stochastic image-level class predictions. This results in CAMs which activate over a larger extent of the objects. Second, we formulate a feature similarity loss term which aims to match the prediction contours with edges in the image. As a third contribution, we conduct experiments on the PASCAL VOC and MS-COCO benchmark datasets to demonstrate that these modifications significantly increase the performance in terms of contour accuracy, while being comparable to current state-of-the-art methods in terms of region similarity.
翻訳日:2022-03-24 21:14:52 公開日:2022-03-23
# (参考訳) voiceprivacy 2022 課題評価計画 [全文訳有]

The VoicePrivacy 2022 Challenge Evaluation Plan ( http://arxiv.org/abs/2203.12468v1 )

ライセンス: CC BY 4.0
Natalia Tomashenko, Xin Wang, Xiaoxiao Miao, Hubert Nourtel, Pierre Champion, Massimiliano Todisco, Emmanuel Vincent, Nicholas Evans, Junichi Yamagishi, Jean Fran\c{c}ois Bonastre(参考訳) 新しい参加者のために:(1)課題は、言語的内容、パラ言語的属性、知性、自然性を保護しつつ、話者の声のアイデンティティを隠蔽する音声データの音声匿名化システムを開発することである。 2)3種類のベースライン匿名化システム,評価スクリプト,メトリクスに加えて,トレーニング,開発,評価データセットが提供される。 参加者は、開発した匿名化システムを適用し、評価スクリプトを実行し、客観的評価結果と匿名化された音声データを主催者に提出する。 3)すべての参加者がチャレンジシステムを提示し,追加のワークショップ論文を提出するために招待される,interspeech 2022と共同で実施するワークショップで結果が提示される。 voiceprivacy challenge - change w.r.t. 2020: (1) anonymized (per-utterance) speech dataでトレーニングされたautomated speaker verification (asv)システムという形式で、より強く、セミインフォームされた攻撃モデルを変更する。 2)プライバシメトリクスとしてのeer(equal error rate)、一次ユーティリティメトリクスとしてのwer(word error rate)、二次ユーティリティメトリクスとしての音声識別性のピッチ相関とゲインを含む補完指標。 3) 最小限のターゲットプライバシ要件に基づく新たなランキングポリシ。

For new participants - Executive summary: (1) The task is to develop a voice anonymization system for speech data which conceals the speaker's voice identity while protecting linguistic content, paralinguistic attributes, intelligibility and naturalness. (2) Training, development and evaluation datasets are provided in addition to 3 different baseline anonymization systems, evaluation scripts, and metrics. Participants apply their developed anonymization systems, run evaluation scripts and submit objective evaluation results and anonymized speech data to the organizers. (3) Results will be presented at a workshop held in conjunction with INTERSPEECH 2022 to which all participants are invited to present their challenge systems and to submit additional workshop papers. For readers familiar with the VoicePrivacy Challenge - Changes w.r.t. 2020: (1) A stronger, semi-informed attack model in the form of an automatic speaker verification (ASV) system trained on anonymized (per-utterance) speech data. (2) Complementary metrics comprising the equal error rate (EER) as a privacy metric, the word error rate (WER) as a primary utility metric, and the pitch correlation and gain of voice distinctiveness as secondary utility metrics. (3) A new ranking policy based upon a set of minimum target privacy requirements.
翻訳日:2022-03-24 20:52:27 公開日:2022-03-23
# (参考訳) 深層学習セマンティックセマンティックセマンティックセグメンテーション効率を最大精度で向上させる3次元適応型ランダムフォレストビジョン(DARFV) [全文訳有]

3D Adapted Random Forest Vision (3DARFV) for Untangling Heterogeneous-Fabric Exceeding Deep Learning Semantic Segmentation Efficiency at the Utmost Accuracy ( http://arxiv.org/abs/2203.12469v1 )

ライセンス: CC BY 4.0
Omar Alfarisi, Zeyar Aung, Qingfeng Huang, Ashraf Al-Khateeb, Hamed Alhashmi, Mohamed Abdelsalam, Salem Alzaabi, Haifa Alyazeedi, Anthony Tzes(参考訳) 惑星探査は岩石と環境の静的・動的特性を特徴付けるために3次元画像データに大きく依存する。 3D画像の解析には多くの計算が必要であり、大きなエネルギー消費とともに処理時間が長くなる。 ハイパフォーマンスコンピューティング(HPC)は、エネルギー消費を犠牲にして明らかな効率性を提供する。 しかし、遠隔探査では、搬送された監視とロボットセンシングは、正確な精度でより高速なデータ分析を必要とする。 このような環境では、HPCへのアクセスとエネルギーは限られている。 そのため,計算量を最適化し,所望の精度を維持することで効率が向上することがわかった。 本稿では,確率的決定木アルゴリズム,3次元適応型ランダムフォレストビジョン(3darfv)の意味セグメンテーション能力を示し,最大精度でディープラーニングアルゴリズム効率を上回った。

Planetary exploration depends heavily on 3D image data to characterize the static and dynamic properties of the rock and environment. Analyzing 3D images requires many computations, causing efficiency to suffer lengthy processing time alongside large energy consumption. High-Performance Computing (HPC) provides apparent efficiency at the expense of energy consumption. However, for remote explorations, the conveyed surveillance and the robotized sensing need faster data analysis with ultimate accuracy to make real-time decisions. In such environments, access to HPC and energy is limited. Therefore, we realize that reducing the number of computations to optimal and maintaining the desired accuracy leads to higher efficiency. This paper demonstrates the semantic segmentation capability of a probabilistic decision tree algorithm, 3D Adapted Random Forest Vision (3DARFV), exceeding deep learning algorithm efficiency at the utmost accuracy.
翻訳日:2022-03-24 20:29:58 公開日:2022-03-23
# (参考訳) 自己適応型システムの景観解析計画 [全文訳有]

Planning Landscape Analysis for Self-Adaptive Systems ( http://arxiv.org/abs/2203.12472v1 )

ライセンス: CC BY 4.0
Tao Chen(参考訳) 自動適応システム(SAS)において、特に多くのアダプティブオプションで高度に設定可能な場合、計画はおそらく最も重要なステップの1つである。 しかし、それを分析するための計画環境や方法についてはほとんど理解されていない。 これは必然的に、SASのためのより良い、そして調整されたプランナーの設計に障壁を生じさせる。 本稿では,SASの計画環境について,特に異なる環境に関して,定量化と推論を行う方法について述べる。 By studying four diverse real-world SASs and 14 environments, we found that (1) the SAS planning landscapes often provide strong guidance to the planner, but their ruggedness and multi-modality can be the major obstacle; (2) the extents of guidance and number of global/local optima are sensitive to the changing environment, but not the ruggedness of the surface; (3) the local optima are often closer to the global optimum than other random points; and (4) there are considerable (and useful) overlaps on the global/local optima between landscapes under different environments. 次に、SASのためのプランナー設計の今後の課題について論じる。

To assure performance on the fly, planning is arguably one of the most important steps for self-adaptive systems (SASs), especially when they are highly configurable with a daunting number of adaptation options. However, there has been little understanding of the planning landscape or ways by which it can be analyzed. This inevitably creates barriers to the design of better and tailored planners for SASs. In this paper, we showcase how the planning landscapes of SASs can be quantified and reasoned, particularly with respect to the different environments. By studying four diverse real-world SASs and 14 environments, we found that (1) the SAS planning landscapes often provide strong guidance to the planner, but their ruggedness and multi-modality can be the major obstacle; (2) the extents of guidance and number of global/local optima are sensitive to the changing environment, but not the ruggedness of the surface; (3) the local optima are often closer to the global optimum than other random points; and (4) there are considerable (and useful) overlaps on the global/local optima between landscapes under different environments. We then discuss the potential implications to the future work of planner designs for SASs.
翻訳日:2022-03-24 20:19:42 公開日:2022-03-23
# (参考訳) 貯蓄サークルへのアルゴリズム導入 [全文訳有]

An Algorithmic Introduction to Savings Circles ( http://arxiv.org/abs/2203.12486v1 )

ライセンス: CC BY 4.0
Rediet Abebe, Adam Eck, Christian Ikeokwu and Samuel Taggart(参考訳) 回転貯蓄と信用組合(roscas)は、コミュニティが正式な金融機関へのアクセスを減らした環境で一般的な非公式の金融機関である。 roscaでは、一定数の参加者が定期的に金額をポットに寄付する。 このポットは、宝くじ、アフターマーケット、オークション機構を使って定期的に割り当てられる。 ロスカスは経験的に経済学に精通している。 しかし、その動的性質から理論的に研究することが困難である。 ロザカスの典型的な経済分析は、他の信用配分メカニズムと比較した粗悪な社会福祉で停止し、ロザカスのユビキタス性の多くは説明できないままである。 本研究では,roscasの研究にアルゴリズム的視点をあてる。 アナキシー文学の価格に基づく手法を基礎として,最悪の福祉近似保証を提案する。 さらに、環境の重要な特徴として、成果の福祉を実験的に比較する。 これらの基礎的福祉分析は、ロカスの流行をさらに合理化する。 我々は、他のいくつかの有望な道について議論することで締めくくる。

Rotating savings and credit associations (roscas) are informal financial organizations common in settings where communities have reduced access to formal financial institutions. In a rosca, a fixed group of participants regularly contribute sums of money to a pot. This pot is then allocated periodically using lottery, aftermarket, or auction mechanisms. Roscas are empirically well-studied in economics. They are, however, challenging to study theoretically due to their dynamic nature. Typical economic analyses of roscas stop at coarse ordinal welfare comparisons to other credit allocation mechanisms, leaving much of roscas' ubiquity unexplained. In this work, we take an algorithmic perspective on the study of roscas. Building on techniques from the price of anarchy literature, we present worst-case welfare approximation guarantees. We further experimentally compare the welfare of outcomes as key features of the environment vary. These cardinal welfare analyses further rationalize the prevalence of roscas. We conclude by discussing several other promising avenues.
翻訳日:2022-03-24 19:49:37 公開日:2022-03-23
# (参考訳) 句読点復元のための文脈認識型特徴融合フレームワーク [全文訳有]

A Context-Aware Feature Fusion Framework for Punctuation Restoration ( http://arxiv.org/abs/2203.12487v1 )

ライセンス: CC BY-SA 4.0
Yangjun Wu, Kebin Fang, Yao Zhao(参考訳) 句読点復元作業を達成するため、既存のアプローチのほとんどは余分な情報(例えば音声タグ)を活用することや、クラス不均衡の問題に対処することに焦点を当てている。 最近の研究はトランスフォーマーに基づく言語モデルを広く応用し、その効果を著しく改善している。 私たちの知る限りでは、トランスフォーマーの個々のヘッドの注意は、長い非変動発話を流しながら、希薄化または無力化されます。 これらの以前の文脈は、以下のものではなく、現在の位置において比較的価値が高いため、独立した注意によって良好なバランスをとることは困難である。 本稿では,この不足を軽減するために,2型注意(ffa)に基づく新しい特徴融合フレームワークを提案する。 2ストリームアーキテクチャを導入している。 1つのモジュールは、コミュニケーションを促進するためにアテンションヘッド間のインタラクションを含み、もう1つのアテンションモジュールは依存する特徴表現をキャプチャする。 そして、情報を融合するために2つの機能埋め込みを集約し、コンテキスト認識を強化する。 一般的なベンチマークデータセットであるIWSLTの実験は、我々のアプローチが効果的であることを示す。 追加データがないと、現在の最先端モデルに匹敵するパフォーマンスが得られる。

To accomplish the punctuation restoration task, most existing approaches focused on leveraging extra information (e.g., part-of-speech tags) or addressing the class imbalance problem. Recent works have widely applied the transformer-based language models and significantly improved their effectiveness. To the best of our knowledge, an inherent issue has remained neglected: the attention of individual heads in the transformer will be diluted or powerless while feeding the long non-punctuation utterances. Since those previous contexts, not the followings, are comparatively more valuable to the current position, it's hard to achieve a good balance by independent attention. In this paper, we propose a novel Feature Fusion framework based on two-type Attentions (FFA) to alleviate the shortage. It introduces a two-stream architecture. One module involves interaction between attention heads to encourage the communication, and another masked attention module captures the dependent feature representation. Then, it aggregates two feature embeddings to fuse information and enhances context-awareness. The experiments on the popular benchmark dataset IWSLT demonstrate that our approach is effective. Without additional data, it obtains comparable performance to the current state-of-the-art models.
翻訳日:2022-03-24 19:25:02 公開日:2022-03-23
# (参考訳) 南アジアにおける計算史言語学と言語多様性 [全文訳有]

Computational historical linguistics and language diversity in South Asia ( http://arxiv.org/abs/2203.12524v1 )

ライセンス: CC BY 4.0
Aryaman Arora, Adam Farris, Samopriya Basu, Suresh Kolichala(参考訳) 南アジアには多くの言語があり、その多くが新しい言語技術にアクセスできない。 この言語多様性はまた、多くの言語からの広範なデータの収集を必要とする分野である比較、接触、歴史的言語学の研究にともなう研究環境をもたらす。 データ散在性(希少性よりもむしろ)は南アジア言語技術の発展における主要な障害であり、言語史の研究は、この障害を克服することと一意に一致していることを示唆している。 本稿では,南アジアnlpと歴史比較言語学の交点における最近の展開を概観し,この領域における我々の取り組みについて述べる。 データバリアを壊すための新たな戦略も提供しています。

South Asia is home to a plethora of languages, many of which severely lack access to new language technologies. This linguistic diversity also results in a research environment conducive to the study of comparative, contact, and historical linguistics -- fields which necessitate the gathering of extensive data from many languages. We claim that data scatteredness (rather than scarcity) is the primary obstacle in the development of South Asian language technology, and suggest that the study of language history is uniquely aligned with surmounting this obstacle. We review recent developments in and at the intersection of South Asian NLP and historical-comparati ve linguistics, describing our and others' current efforts in this area. We also offer new strategies towards breaking the data barrier.
翻訳日:2022-03-24 19:13:39 公開日:2022-03-23
# (参考訳) 動作単位検出用マルチラベル変圧器 [全文訳有]

Multi-label Transformer for Action Unit Detection ( http://arxiv.org/abs/2203.12531v1 )

ライセンス: CC BY 4.0
Gauthier Tallec, Edouard Yvinec, Arnaud Dapogny, Kevin Bailly(参考訳) action unit (au) 検出は、一意的な顔面筋運動を認識することを目的とした感情コンピューティングの分野である。 これは、偏りのない計算的な顔表現を解き放つ鍵であり、それゆえ過去数年間で大きな関心を呼び起こしてきた。 AUの専門家がアノテートした顔画像データベースを,効率的なディープラーニングベースで構築する上での障害のひとつだ。 ABAWチャレンジは、約2MフレームのAUアノテーション付きデータセットを含むため、より良いAU検出への道を開く。 本稿では,ABAW3チャレンジへの応募について述べる。 一言で言えば、顔画像のどの部分がauの予測に最も重要かを知るために、マルチヘッド注意を利用するマルチラベル検出トランスを応用した。

Action Unit (AU) Detection is the branch of affective computing that aims at recognizing unitary facial muscular movements. It is key to unlock unbiaised computational face representations and has therefore aroused great interest in the past few years. One of main obstacles toward building efficient deep learning based AU detection system facial images database annotated by AU experts. In that extent the ABAW challenge paves the way toward better AU detection as it involves a ~2M frames AU annotated dataset. In this paper, we present our submission to the ABAW3 challenge. In a nutshell, we applied a multi-label detection transformer that leverage multi-head attention to learn which part of the face image is the most relevant to predict each AU.
翻訳日:2022-03-24 18:52:10 公開日:2022-03-23
# (参考訳) Pathways: MLのための非同期分散データフロー [全文訳有]

Pathways: Asynchronous Distributed Dataflow for ML ( http://arxiv.org/abs/2203.12533v1 )

ライセンス: CC BY 4.0
Paul Barham and Aakanksha Chowdhery and Jeff Dean and Sanjay Ghemawat and Steven Hand and Dan Hurt and Michael Isard and Hyeontaek Lim and Ruoming Pang and Sudip Roy and Brennan Saeta and Parker Schuh and Ryan Sepassi and Laurent El Shafey and Chandramohan A. Thekkath and Yonghui Wu(参考訳) 本稿では,加速器用大規模オーケストレーション層の設計について述べる。 当社のシステムであるPathwaysは,現行モデルにおけるアートパフォーマンスの状態を保ちながら,新しいシステムやML研究のアイデアの探索を可能にするように設計されている。 pathsは、未来を消費し、生成する非同期オペレータのシャードデータフローグラフを使用し、数千のアクセラレータ上で並列並列計算を効率的にギャングスケジューリングし、専用のインターコネクト上でのデータ転送をコーディネートする。 pathsは、新しい非同期分散データフロー設計を使用して、データプレーンの依存関係に関わらず、コントロールプレーンを並列に実行する。 この設計は、注意深いエンジニアリングで、Pathwaysは複雑な新しい並列処理パターンを簡単に表現できるシングルコントローラモデルを採用することができる。 我々は,2048 TPU上でSPMD計算を行う場合,Pathwaysが性能の同等性(約100%のアクセラレータ利用)を実現すると同時に,データセンタネットワーク上で接続された2つのアクセラレーターの島間でパイプラインされたトランスフォーマーモデルのSPMDケースに匹敵するスループットを実現することを実証した。

We present the design of a new large scale orchestration layer for accelerators. Our system, Pathways, is explicitly designed to enable exploration of new systems and ML research ideas, while retaining state of the art performance for current models. Pathways uses a sharded dataflow graph of asynchronous operators that consume and produce futures, and efficiently gang-schedules heterogeneous parallel computations on thousands of accelerators while coordinating data transfers over their dedicated interconnects. Pathways makes use of a novel asynchronous distributed dataflow design that lets the control plane execute in parallel despite dependencies in the data plane. This design, with careful engineering, allows Pathways to adopt a single-controller model that makes it easier to express complex new parallelism patterns. We demonstrate that Pathways can achieve performance parity (~100% accelerator utilization) with state-of-the-art systems when running SPMD computations over 2048 TPUs, while also delivering throughput comparable to the SPMD case for Transformer models that are pipelined across 16 stages, or sharded across two islands of accelerators connected over a data center network.
翻訳日:2022-03-24 18:46:34 公開日:2022-03-23
# (参考訳) 制約確率最適化によるソーシャルネットワーク上の誤情報の社会的公正化 [全文訳有]

Socially Fair Mitigation of Misinformation on Social Networks via Constraint Stochastic Optimization ( http://arxiv.org/abs/2203.12537v1 )

ライセンス: CC BY 4.0
Ahmed Abouzeid, Ole-Christoffer Granmo, Christian Webersik, Morten Goodwin(参考訳) 近年のソーシャルネットワークの誤情報緩和アプローチは,ネットワーク全体の統計尺度を考慮し,誤情報を減らす方法を検討する傾向にある。 しかし、個人間の不均衡な誤情報の暴露は、緩和資源の公平な配分を追求する。 さらに、ネットワークは時間とともに変化するランダムなダイナミクスを持つ。 そこで我々は,確率的かつ非定常的なknapsack問題を導入し,その解決法をソーシャルネットワークキャンペーンにおける誤情報の軽減に応用する。 さらに、異なるソーシャルネットワークの誤情報統計に頑健で、現実のシナリオに有望な影響を与えるような一般的な誤情報緩和アルゴリズムを提案する。 新しい損失関数は、ユーザ間の公正な緩和を保証する。 最適化インセンティブ予算をナップサックにインテリジェントに割り当て、損失関数を最適化することで公平性を達成する。 この目的のために、Learning Automata(LA)チームが予算配分を推進している。 各laはユーザと関連付けられ、状態空間を非定常かつ確率的に歩くことで誤情報への露出を最小限に抑えることができる。 以上の結果から,我々のLAに基づく手法が,ネットワークユーザに与える影響について,同様の誤情報緩和手法より優れていることを示す。

Recent social networks' misinformation mitigation approaches tend to investigate how to reduce misinformation by considering a whole-network statistical scale. However, unbalanced misinformation exposures among individuals urge to study fair allocation of mitigation resources. Moreover, the network has random dynamics which change over time. Therefore, we introduce a stochastic and non-stationary knapsack problem, and we apply its resolution to mitigate misinformation in social network campaigns. We further propose a generic misinformation mitigation algorithm that is robust to different social networks' misinformation statistics, allowing a promising impact in real-world scenarios. A novel loss function ensures fair mitigation among users. We achieve fairness by intelligently allocating a mitigation incentivization budget to the knapsack, and optimizing the loss function. To this end, a team of Learning Automata (LA) drives the budget allocation. Each LA is associated with a user and learns to minimize its exposure to misinformation by performing a non-stationary and stochastic walk over its state space. Our results show how our LA-based method is robust and outperforms similar misinformation mitigation methods in how the mitigation is fairly influencing the network users.
翻訳日:2022-03-24 18:14:05 公開日:2022-03-23
# (参考訳) dynamicearthnet: セマンティクス変化セグメンテーションのための毎日のマルチスペクトル衛星データセット [全文訳有]

DynamicEarthNet: Daily Multi-Spectral Satellite Dataset for Semantic Change Segmentation ( http://arxiv.org/abs/2203.12560v1 )

ライセンス: CC BY-SA 4.0
Aysim Toker, Lukas Kondmann, Mark Weber, Marvin Eisenberger, Andr\'es Camero, Jingliang Hu, Ariadna Pregel Hoderlein, \c{C}a\u{g}lar \c{S}enaras, Timothy Davis, Daniel Cremers, Giovanni Marchisio, Xiao Xiang Zhu, Laura Leal-Taix\'e(参考訳) 地球観測は、特定の地域における土地利用の進化を監視するための基本的なツールである。 この文脈で変化を観察し正確に定義するには、時系列データとピクセルワイドセグメンテーションの両方が必要である。 そこで我々は,Planet Labsの画像とともに,地球上に分布する75の関心領域を毎日,多スペクトルで観測するDynamicEarthNetデータセットを提案する。 これらの観測は7つの土地利用と土地被覆(lulc)クラスのピクセル毎のセマンティクスセグメンテーションラベルと組み合わせる。 DynamicEarthNetは、日々の測定と高品質なラベルのユニークな組み合わせを提供する最初のデータセットである。 本実験では, 日次観測を追加の学習データ(半教師付き学習)として活用するか, 同時に複数の観察データ(時空間学習)を将来の研究の参考点として利用する, 確立されたベースラインを比較した。 最後に、時系列意味変化セグメンテーションに関連する特定の課題に対処する新しい評価指標SCSを提案する。 データは、https://mediatum.ub. tum.de/1650201で入手できる。

Earth observation is a fundamental tool for monitoring the evolution of land use in specific areas of interest. Observing and precisely defining change, in this context, requires both time-series data and pixel-wise segmentations. To that end, we propose the DynamicEarthNet dataset that consists of daily, multi-spectral satellite observations of 75 selected areas of interest distributed over the globe with imagery from Planet Labs. These observations are paired with pixel-wise monthly semantic segmentation labels of 7 land use and land cover (LULC) classes. DynamicEarthNet is the first dataset that provides this unique combination of daily measurements and high-quality labels. In our experiments, we compare several established baselines that either utilize the daily observations as additional training data (semi-supervised learning) or multiple observations at once (spatio-temporal learning) as a point of reference for future research. Finally, we propose a new evaluation metric SCS that addresses the specific challenges associated with time-series semantic change segmentation. The data is available at: https://mediatum.ub. tum.de/1650201.
翻訳日:2022-03-24 17:59:02 公開日:2022-03-23
# (参考訳) ネットワークにおける階層型マルチラベル分類のためのトップダウン教師付き学習手法 [全文訳有]

A Top-down Supervised Learning Approach to Hierarchical Multi-label Classification in Networks ( http://arxiv.org/abs/2203.12569v1 )

ライセンス: CC BY 4.0
Miguel Romero, Jorge Finke, Camilo Rocha(参考訳) ノード分類は、ネットワーク内の他のノードで利用可能な情報から欠落したノード属性を推測または予測するタスクである。 本稿では,階層型マルチラベル分類(HMC)に対する一般的な予測モデルを提案する。 クラスごとの局所分類器を構築することで教師あり学習により階層的マルチラベル分類に対処するトップダウン分類アプローチに基づいている。 提案モデルは,イネの品種であるオリーザ・サティバ・ジャポニカの遺伝子機能の予測を事例として紹介する。 予測性能と計算コストの両アプローチを評価することにより、確率モデルである階層的双項近傍モデルと比較する。 本研究の成果は,提案モデルが技術状況に関連してスケールアップしながら,優れた予測効率を達成できるという作業仮説を支持するものである。

Node classification is the task of inferring or predicting missing node attributes from information available for other nodes in a network. This paper presents a general prediction model to hierarchical multi-label classification (HMC), where the attributes to be inferred can be specified as a strict poset. It is based on a top-down classification approach that addresses hierarchical multi-label classification with supervised learning by building a local classifier per class. The proposed model is showcased with a case study on the prediction of gene functions for Oryza sativa Japonica, a variety of rice. It is compared to the Hierarchical Binomial-Neighborhoo d, a probabilistic model, by evaluating both approaches in terms of prediction performance and computational cost. The results in this work support the working hypothesis that the proposed model can achieve good levels of prediction efficiency, while scaling up in relation to the state of the art.
翻訳日:2022-03-24 17:39:28 公開日:2022-03-23
# (参考訳) あなたの「注意」は注意に値する - 顔行動分析のためのマルチチャンネル注意 [全文訳有]

Your "Attention" Deserves Attention: A Self-Diversified Multi-Channel Attention for Facial Action Analysis ( http://arxiv.org/abs/2203.12570v1 )

ライセンス: CC BY 4.0
Xiaotian Li, Zhihua Li, Huiyuan Yang, Geran Zhao and Lijun Yin(参考訳) 表情認識(FER)と行動単位検出(AU)の両方において、きめ細かい特徴を学習するために、視覚的注意が広く研究されている。 これまでの幅広い研究で、注意モジュールを使用して、詳細な顔の部分(例えば、顔の動き単位)をローカライズし、識別的特徴を学習し、クラス間の相関を学習する方法が検討されてきた。 しかし、注意モジュール自体の堅牢性に注意を払っている関連作品はほとんどない。 実験により、異なる特徴マップで初期化されたニューラルアテンションマップが、同一の関心領域(ROI)への参加を学ぶ際に、多様な表現をもたらすことがわかった。 言い換えれば、一般的な特徴学習と同様、注意マップの表現的質もモデルの性能に大きな影響を与え、制約のない注意学習には多くのランダム性がある。 この不確実性により、従来の注意学習は準最適に陥る。 本稿では,ニューラルアテンションマップの表現力と集中力を向上し,改良されたアテンションマップの「インターアテンション」相関を学習するコンパクトモデルを提案し,これを「自己分散マルチチャネルアテンションネットワーク(SMA-Net)」と呼ぶ。 提案手法は,AU検出のための2つのベンチマークデータベース(BP4D, DISFA)と顔認識のための4つのデータベース(CK+, MMI, BU-3DFE, BP4D+)で評価した。 最先端の手法に比べて優れた性能を発揮する。

Visual attention has been extensively studied for learning fine-grained features in both facial expression recognition (FER) and Action Unit (AU) detection. A broad range of previous research has explored how to use attention modules to localize detailed facial parts (e,g. facial action units), learn discriminative features, and learn inter-class correlation. However, few related works pay attention to the robustness of the attention module itself. Through experiments, we found neural attention maps initialized with different feature maps yield diverse representations when learning to attend the identical Region of Interest (ROI). In other words, similar to general feature learning, the representational quality of attention maps also greatly affects the performance of a model, which means unconstrained attention learning has lots of randomnesses. This uncertainty lets conventional attention learning fall into sub-optimal. In this paper, we propose a compact model to enhance the representational and focusing power of neural attention maps and learn the "inter-attention" ; correlation for refined attention maps, which we term the "Self-Diversified Multi-Channel Attention Network (SMA-Net)". The proposed method is evaluated on two benchmark databases (BP4D and DISFA) for AU detection and four databases (CK+, MMI, BU-3DFE, and BP4D+) for facial expression recognition. It achieves superior performance compared to the state-of-the-art methods.
翻訳日:2022-03-24 17:20:24 公開日:2022-03-23
# (参考訳) AI Poincar\'{e} 2.0: 微分方程式による機械学習保存法則 [全文訳有]

AI Poincar\'{e} 2.0: Machine Learning Conservation Laws from Differential Equations ( http://arxiv.org/abs/2203.12610v1 )

ライセンス: CC BY 4.0
Ziming Liu (MIT), Varun Madhavan (IIT), Max Tegmark (MIT)(参考訳) ニューラルネットワークとしてパラメータ化された)微分方程式から保存則を発見し,その機能的独立性(線形独立性の非線形一般化)を確保する機械学習アルゴリズムを提案する。 我々の独立モジュールは特異値分解の非線形一般化と見なすことができる。 本手法は保全法則の帰納バイアスを容易に扱える。 3体問題、kdv方程式、非線形schr\"odinger方程式などを用いて検証を行う。

We present a machine learning algorithm that discovers conservation laws from differential equations, both numerically (parametrized as neural networks) and symbolically, ensuring their functional independence (a non-linear generalization of linear independence). Our independence module can be viewed as a nonlinear generalization of singular value decomposition. Our method can readily handle inductive biases for conservation laws. We validate it with examples including the 3-body problem, the KdV equation and nonlinear Schr\"odinger equation.
翻訳日:2022-03-24 17:08:13 公開日:2022-03-23
# 火災フロントスプレッドのためのエミュレーションフレームワーク

An Emulation Framework for Fire Front Spread ( http://arxiv.org/abs/2203.12160v1 )

ライセンス: Link先を確認
Andrew Bolt, Joel Janek Dabrowski, Carolyn Huston, Petra Kuhnert(参考訳) 森林火災の延焼予測は, 防火・対応活動において重要な要素である。 ブッシュファイアスプレッドの実証観測は、特定の条件下での火災応答を推定するために使用できる。 これらの観測は、シミュレーションを生成するために使用できるスプレッドモデルを形成する。 我々は機械学習を用いてブッシュファイアのエミュレーションアプローチを駆動し、エミュレーションがシミュレーションされた火災フロントデータを密接に再現する能力を持っていることを示す。 本稿では,複雑なシミュレーションを高速にエミュレーションできるエミュレータ・アプローチを提案する。 多数の予測は、より堅牢で信頼性の高い確率システムの予測を提供するアンサンブル推定手法の一部として生成される。

Forecasting bushfire spread is an important element in fire prevention and response efforts. Empirical observations of bushfire spread can be used to estimate fire response under certain conditions. These observations form rate-of-spread models, which can be used to generate simulations. We use machine learning to drive the emulation approach for bushfires and show that emulation has the capacity to closely reproduce simulated fire-front data. We present a preliminary emulator approach with the capacity for fast emulation of complex simulations. Large numbers of predictions can then be generated as part of ensemble estimation techniques, which provide more robust and reliable forecasts of stochastic systems.
翻訳日:2022-03-24 16:37:48 公開日:2022-03-23
# モダリティコンペティション: ディープラーニングにおいて、マルチモーダルネットワークの合同トレーニングが失敗する理由 (おそらく)

Modality Competition: What Makes Joint Training of Multi-modal Network Fail in Deep Learning? (Provably) ( http://arxiv.org/abs/2203.12221v1 )

ライセンス: Link先を確認
Yu Huang and Junyang Lin and Chang Zhou and Hongxia Yang and Longbo Huang(参考訳) 実際に深いマルチモーダル学習が成功したにもかかわらず、理論上はよく説明されていない。 近年,複数の信号がより多くの情報をもたらすため,協調学習されたマルチモーダルネットワークよりも優れたユニモーダルネットワークが提案されている。 この研究は、ニューラルネットワークにおけるそのようなパフォーマンスギャップの出現に関する理論的な説明を提供する。 マルチモーダルデータの現実的特性をキャプチャする簡易データ分布に基づき,勾配降下によって協調的に訓練された(スムース)reluアクティベーションを持つマルチモーダルレイトフュージョンネットワークにおいて,異なるモーダル性が競合することを証明した。 エンコーダネットワークは、モダリティのサブセットのみを学習する。 この現象をモダリティ競争と呼ぶ。 発見に失敗したモダリティの喪失は、合同トレーニングのサブオプティリティ(sub-optimality)の起源である。 実験により, モダリティ・コンペティションが, 後期輸液合同訓練の固有行動に合致することを示す。

Despite the remarkable success of deep multi-modal learning in practice, it has not been well-explained in theory. Recently, it has been observed that the best uni-modal network outperforms the jointly trained multi-modal network, which is counter-intuitive since multiple signals generally bring more information. This work provides a theoretical explanation for the emergence of such performance gap in neural networks for the prevalent joint training framework. Based on a simplified data distribution that captures the realistic property of multi-modal data, we prove that for the multi-modal late-fusion network with (smoothed) ReLU activation trained jointly by gradient descent, different modalities will compete with each other. The encoder networks will learn only a subset of modalities. We refer to this phenomenon as modality competition. The losing modalities, which fail to be discovered, are the origins where the sub-optimality of joint training comes from. Experimentally, we illustrate that modality competition matches the intrinsic behavior of late-fusion joint training.
翻訳日:2022-03-24 16:37:39 公開日:2022-03-23
# 適応型局所リンクを用いた完全分散フェデレーション学習

Efficient Fully Distributed Federated Learning with Adaptive Local Links ( http://arxiv.org/abs/2203.12281v1 )

ライセンス: Link先を確認
Evangelos Georgatos, Christos Mavrokefalidis, Kostas Berberidis(参考訳) 現在、データ駆動、機械学習、ディープラーニングのアプローチは、画像分類やオブジェクト検出など、さまざまな複雑なタスクや、自動運転車、医療画像、無線通信など、さまざまな応用分野において、前例のないパフォーマンスを提供している。 従来、このようなアプローチは、関連するデータセットとともに、スタンドアロンデバイスにデプロイされてきた。 最近、エッジ機械学習(Edge Machine Learning)と呼ばれる、ローカルな計算リソースとストレージリソースを備えた複数のデバイスが、集中型サーバの助けを借りてコラボレーションできるようにする、集中型アーキテクチャが採用されている。 有名な連合学習アプローチでは、各コントリビュートデバイスにデータセットをプライベートに保ちながら、パラメータのみをサーバと交換可能にすることで、このようなアーキテクチャを活用できる。 本研究では,中央サーバを必要とせず,完全に分散した拡散ベースの学習アルゴリズムを提案し,デバイス協調のための適応結合ルールを提案する。 mnistデータセットの分類タスクを採用することで、非iidデータセットシナリオにおいて許容可能な精度レベルを達成するために必要な協調ラウンド数を削減し、提案アルゴリズムの有効性を実証する。

Nowadays, data-driven, machine and deep learning approaches have provided unprecedented performance in various complex tasks, including image classification and object detection, and in a variety of application areas, like autonomous vehicles, medical imaging and wireless communications. Traditionally, such approaches have been deployed, along with the involved datasets, on standalone devices. Recently, a shift has been observed towards the so-called Edge Machine Learning, in which centralized architectures are adopted that allow multiple devices with local computational and storage resources to collaborate with the assistance of a centralized server. The well-known federated learning approach is able to utilize such architectures by allowing the exchange of only parameters with the server, while keeping the datasets private to each contributing device. In this work, we propose a fully distributed, diffusion-based learning algorithm that does not require a central server and propose an adaptive combination rule for the cooperation of the devices. By adopting a classification task on the MNIST dataset, the efficacy of the proposed algorithm over corresponding counterparts is demonstrated via the reduction of the number of collaboration rounds required to achieve an acceptable accuracy level in non- IID dataset scenarios.
翻訳日:2022-03-24 16:37:20 公開日:2022-03-23
# 患者レベル予測のための患者人口グラフの教師なし事前学習

Unsupervised Pre-Training on Patient Population Graphs for Patient-Level Predictions ( http://arxiv.org/abs/2203.12616v1 )

ライセンス: Link先を確認
Chantal Pellegrini, Anees Kazi, Nassir Navab(参考訳) 事前トレーニングは、コンピュータビジョン(cv)、自然言語処理(nlp)、医療画像など、さまざまな機械学習分野で成功を収めている。 しかし, 臨床データ解析では十分に研究されていない。 膨大な量の電子健康記録(EHR)データが記録されているが、小さな病院で収集されたり、稀な疾患を扱う場合、データやラベルは乏しい。 このようなシナリオでは、より大きなEHRデータの事前トレーニングにより、モデルのパフォーマンスが向上する可能性がある。 本稿では,患者結果の予測のために,教師なし事前学習を異種マルチモーダルEHRデータに適用する。 このデータをモデル化するために、人口グラフよりもグラフ深層学習を利用する。 まず、連続、離散、時系列といったEHRデータに発生する様々な入力特徴タイプを扱うように設計されたグラフトランスフォーマーに基づくネットワークアーキテクチャを設計し、マルチモーダルデータ融合を向上する。 さらに,異なるエンドタスクを微調整する前にネットワークを事前学習するために,マスクインプテーションに基づく事前学習手法を設計する。 事前トレーニングは完全に教師なしの方法で行われ、異なるタスクと将来における類似のモダリティを持つ大規模な公開データセットを事前トレーニングするための基礎となる。 本手法は,TADPOLEとMIMIC-IIIという2つの患者記録の医療データセットを用いて,画像と非画像の特徴と異なる予測タスクを含む実験を行った。 提案手法は,人口レベルでのデータモデリングに有効であり,MIMICでは平均4.15%,TADPOLEでは7.64%の微調整タスクの性能向上を図っている。

Pre-training has shown success in different areas of machine learning, such as Computer Vision (CV), Natural Language Processing (NLP) and medical imaging. However, it has not been fully explored for clinical data analysis. Even though an immense amount of Electronic Health Record (EHR) data is recorded, data and labels can be scarce if the data is collected in small hospitals or deals with rare diseases. In such scenarios, pre-training on a larger set of EHR data could improve the model performance. In this paper, we apply unsupervised pre-training to heterogeneous, multi-modal EHR data for patient outcome prediction. To model this data, we leverage graph deep learning over population graphs. We first design a network architecture based on graph transformer designed to handle various input feature types occurring in EHR data, like continuous, discrete, and time-series features, allowing better multi-modal data fusion. Further, we design pre-training methods based on masked imputation to pre-train our network before fine-tuning on different end tasks. Pre-training is done in a fully unsupervised fashion, which lays the groundwork for pre-training on large public datasets with different tasks and similar modalities in the future. We test our method on two medical datasets of patient records, TADPOLE and MIMIC-III, including imaging and non-imaging features and different prediction tasks. We find that our proposed graph based pre-training method helps in modeling the data at a population level and further improves performance on the fine tuning tasks in terms of AUC on average by 4.15% for MIMIC and 7.64% for TADPOLE.
翻訳日:2022-03-24 16:35:41 公開日:2022-03-23
# 軽量非古典推論のための拡張可能な論理埋め込みツール

An Extensible Logic Embedding Tool for Lightweight Non-Classical Reasoning ( http://arxiv.org/abs/2203.12352v1 )

ライセンス: Link先を確認
Alexander Steen(参考訳) 論理埋め込みツールは、古典的でない推論問題を古典的な高階論理にプロシージャエンコーディングする。 拡張可能であり、推論対象として多くの異なる非古典論理をサポートすることができる。 高階定理プローバーのプリプロセッサやライブラリとして使用される場合、このツールは論理の既定の自動化を認めている。

The logic embedding tool provides a procedural encoding for non-classical reasoning problems into classical higher-order logic. It is extensible and can support an increasing number of different non-classical logics as reasoning targets. When used as a pre-processor or library for higher-order theorem provers, the tool admits off-the-shelf automation for logics for which otherwise few to none provers are currently available.
翻訳日:2022-03-24 16:35:17 公開日:2022-03-23
# M-SENA:マルチモーダル感性分析のための統合プラットフォーム

M-SENA: An Integrated Platform for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2203.12441v1 )

ライセンス: Link先を確認
Huisheng Mao and Ziqi Yuan and Hua Xu and Wenmeng Yu and Yihe Liu and Kai Gao(参考訳) M-SENAはMultimodal Sentiment Analysisのオープンソースプラットフォームである。 柔軟なツールキット、信頼できるベンチマーク、直感的なデモを提供することで、高度な研究を促進することを目指している。 このプラットフォームは、データ管理、特徴抽出、モデルトレーニング、結果分析モジュールからなる、完全にモジュール化されたビデオ感情分析フレームワークを備えている。 本稿ではまず,M-SENAプラットフォーム全体のアーキテクチャを説明し,コアモジュールの機能を紹介する。 異なるモダリティ特徴とMSAベンチマークの信頼性の高いベースライン結果も報告されている。 さらに、m-senaが提供するモデル評価分析ツールを用いて、中間表現の可視化、オンザフライインスタンステスト、一般化能力テスト結果を表示する。 プラットフォームのソースコードはhttps://github.com/t huiar/M-SENAで公開されている。

M-SENA is an open-sourced platform for Multimodal Sentiment Analysis. It aims to facilitate advanced research by providing flexible toolkits, reliable benchmarks, and intuitive demonstrations. The platform features a fully modular video sentiment analysis framework consisting of data management, feature extraction, model training, and result analysis modules. In this paper, we first illustrate the overall architecture of the M-SENA platform and then introduce features of the core modules. Reliable baseline results of different modality features and MSA benchmarks are also reported. Moreover, we use model evaluation and analysis tools provided by M-SENA to present intermediate representation visualization, on-the-fly instance test, and generalization ability test results. The source code of the platform is publicly available at https://github.com/t huiar/M-SENA.
翻訳日:2022-03-24 16:35:11 公開日:2022-03-23
# マンダリン音声合成のための階層的文脈情報を用いた表現型発話スタイルモデリング

Towards Expressive Speaking Style Modelling with Hierarchical Context Information for Mandarin Speech Synthesis ( http://arxiv.org/abs/2203.12201v1 )

ライセンス: Link先を確認
Shun Lei, Yixuan Zhou, Liyang Chen, Zhiyong Wu, Shiyin Kang, Helen Meng(参考訳) 表現型音声合成に関するこれまでの研究は、主に現在の文に焦点を当てている。 隣接する文の文脈は無視され、結果として同じテキストに対して柔軟性のない話し方となる。 本稿では,文脈から発話スタイルをモデル化する階層的枠組みを提案する。 文間関係や文間関係など,文脈の構造的関係を考慮したより広い範囲の文脈情報を調べるために,階層型コンテキストエンコーダを提案する。 さらに,このエンコーダがスタイル表現をよりよく学習できるようにするために,エンコーダトレーニングのターゲットとなる知識蒸留を用いた新しいトレーニング戦略を導入する。 マンダリン講義データセットの主観的および主観的評価は,提案手法が合成音声の自然性と表現性を著しく向上することを示した。

Previous works on expressive speech synthesis mainly focus on current sentence. The context in adjacent sentences is neglected, resulting in inflexible speaking style for the same text, which lacks speech variations. In this paper, we propose a hierarchical framework to model speaking style from context. A hierarchical context encoder is proposed to explore a wider range of contextual information considering structural relationship in context, including inter-phrase and inter-sentence relations. Moreover, to encourage this encoder to learn style representation better, we introduce a novel training strategy with knowledge distillation, which provides the target for encoder training. Both objective and subjective evaluations on a Mandarin lecture dataset demonstrate that the proposed method can significantly improve the naturalness and expressiveness of the synthesized speech.
翻訳日:2022-03-24 16:32:48 公開日:2022-03-23
# goss: 一般化したオープンセットセマンティクスセグメンテーションに向けて

GOSS: Towards Generalized Open-set Semantic Segmentation ( http://arxiv.org/abs/2203.12116v1 )

ライセンス: Link先を確認
Jie Hong, Weihao Li, Junlin Han, Jiyang Zheng, Pengfei Fang, Mehrtash Harandi and Lars Petersson(参考訳) 本稿では,新しい画像分割タスクであるgeneralized open-set semantic segmentation(goss)を提案し,検討する。 従来、よく知られたオープンセットセマンティックセグメンテーション(OSS)では、インテリジェントエージェントは、さらなる処理をすることなく未知の領域のみを検出し、環境に対する認識を制限する。 検出された未知のピクセルのさらなる分析が有益である理由は明らかである。 そこで我々は,2つの明確に定義されたセグメンテーションタスクであるOSSとジェネリックセグメンテーション(GS)の能力を総合的に統合したGOSSを提案する。 具体的には、GOSSは既知のクラスに属するピクセルを分類し、未知クラスのピクセルのクラスタ(またはグループ)をラベル付けする。 さらに,この拡張タスクを評価するために,画素分類とクラスタリングの両面のバランスをとる指標を提案する。 さらに、既存のデータセットの上にベンチマークテストを構築し、ベースラインとして単純なニューラルネットワークアーキテクチャを提案し、オープンセット設定下でのピクセル分類とクラスタリングを共同で予測する。 複数のベンチマーク実験により,ベースラインの有効性が示された。 我々の新しいGOSSタスクは、将来の研究に表現力のあるイメージ理解をもたらすと信じている。 コードは利用可能になる。

In this paper, we present and study a new image segmentation task, called Generalized Open-set Semantic Segmentation (GOSS). Previously, with the well-known open-set semantic segmentation (OSS), the intelligent agent only detects the unknown regions without further processing, limiting their perception of the environment. It stands to reason that a further analysis of the detected unknown pixels would be beneficial. Therefore, we propose GOSS, which unifies the abilities of two well-defined segmentation tasks, OSS and generic segmentation (GS), in a holistic way. Specifically, GOSS classifies pixels as belonging to known classes, and clusters (or groups) of pixels of unknown class are labelled as such. To evaluate this new expanded task, we further propose a metric which balances the pixel classification and clustering aspects. Moreover, we build benchmark tests on top of existing datasets and propose a simple neural architecture as a baseline, which jointly predicts pixel classification and clustering under open-set settings. Our experiments on multiple benchmarks demonstrate the effectiveness of our baseline. We believe our new GOSS task can produce an expressive image understanding for future research. Code will be made available.
翻訳日:2022-03-24 16:32:36 公開日:2022-03-23
# イベントカメラのオートフォーカス

Autofocus for Event Cameras ( http://arxiv.org/abs/2203.12321v1 )

ライセンス: Link先を確認
Shijie Lin and Yinqiang Zhang and Lei Yu and Bin Zhou and Xiaowei Luo and Jia Pan(参考訳) フォーカスコントロール(fc)は、実世界のシナリオでシャープな画像を撮影するカメラにとって不可欠である。 オートフォーカス(AF)はフォーカス設定を自動的に調整することでFCを容易にする。 しかし、最近導入されたイベントカメラの効果的なAF手法が欠如しているため、FCは依然として手動フォーカス調整のような手動AFに頼っているため、現実の状況への適応は不十分である。 特に, イベントデータとフレームデータとの知覚的差異, ノイズ, 時間分解能などの相違は, イベントカメラに有効なAF法を設計する上で多くの課題をもたらす。 これらの課題に対処するため,イベント特異的フォーカス尺度であるイベントレート(ER)と,イベントベースゴールデンサーチ(EGS)と呼ばれる堅牢な検索戦略からなる,イベントベースの新しいオートフォーカスフレームワークを開発した。 本手法の性能を検証するため,我々は,高度に同期されたフレーム,イベント,焦点位置を含むイベントベースのオートフォーカスデータセット (ead) を,照明や動作条件の厳しい様々な課題場面で収集した。 このデータセットと追加の実世界のシナリオ実験により、我々の手法が最先端の手法よりも効率と精度で優れていることを示した。

Focus control (FC) is crucial for cameras to capture sharp images in challenging real-world scenarios. The autofocus (AF) facilitates the FC by automatically adjusting the focus settings. However, due to the lack of effective AF methods for the recently introduced event cameras, their FC still relies on naive AF like manual focus adjustments, leading to poor adaptation in challenging real-world conditions. In particular, the inherent differences between event and frame data in terms of sensing modality, noise, temporal resolutions, etc., bring many challenges in designing an effective AF method for event cameras. To address these challenges, we develop a novel event-based autofocus framework consisting of an event-specific focus measure called event rate (ER) and a robust search strategy called event-based golden search (EGS). To verify the performance of our method, we have collected an event-based autofocus dataset (EAD) containing well-synchronized frames, events, and focal positions in a wide variety of challenging scenes with severe lighting and motion conditions. The experiments on this dataset and additional real-world scenarios demonstrated the superiority of our method over state-of-the-art approaches in terms of efficiency and accuracy.
翻訳日:2022-03-24 16:32:15 公開日:2022-03-23
# FullSubNet+: 音声強調のための複素スペクトル付きチャネル注意FullSubNet

FullSubNet+: Channel Attention FullSubNet with Complex Spectrograms for Speech Enhancement ( http://arxiv.org/abs/2203.12188v1 )

ライセンス: Link先を確認
Jun Chen, Zilin Wang, Deyi Tuo, Zhiyong Wu, Shiyin Kang, Helen Meng(参考訳) 以前提案されたFullSubNetは、Deep Noise Suppression (DNS) Challengeで優れたパフォーマンスを達成しており、多くの注目を集めている。 しかし、入出力ミスマッチや周波数帯域の粗い処理といった問題に直面している。 本稿では,フルサブネット+と呼ばれる拡張シングルチャネルリアルタイム音声強調フレームワークを提案する。 まず,マルチスケール畳み込みとチャネルアテンション機構を採用する軽量なマルチスケールタイムセンシティブチャネルアテンション(mulca)モジュールを設計し,ネットワークがノイズ低減のためにより識別可能な周波数帯域に集中できるようにする。 そして、ノイズの多い音声の位相情報をフル活用するために、我々のモデルは、すべての大きさ、実像および虚像のスペクトログラムを入力として取り込む。 さらに、元のフルバンドモデルにおける長期記憶層を時空間畳み込みネットワーク(TCN)ブロックに置き換えることで、フルバンド抽出器と呼ばれるより効率的なフルバンドモジュールを設計する。 DNS Challengeデータセットの実験結果から、現在のSOTA(State-of-the-ar t)のパフォーマンスに到達し、既存の音声強調手法よりも優れたパフォーマンスを示す。

Previously proposed FullSubNet has achieved outstanding performance in Deep Noise Suppression (DNS) Challenge and attracted much attention. However, it still encounters issues such as input-output mismatch and coarse processing for frequency bands. In this paper, we propose an extended single-channel real-time speech enhancement framework called FullSubNet+ with following significant improvements. First, we design a lightweight multi-scale time sensitive channel attention (MulCA) module which adopts multi-scale convolution and channel attention mechanism to help the network focus on more discriminative frequency bands for noise reduction. Then, to make full use of the phase information in noisy speech, our model takes all the magnitude, real and imaginary spectrograms as inputs. Moreover, by replacing the long short-term memory (LSTM) layers in original full-band model with stacked temporal convolutional network (TCN) blocks, we design a more efficient full-band module called full-band extractor. The experimental results in DNS Challenge dataset show the superior performance of our FullSubNet+, which reaches the state-of-the-art (SOTA) performance and outperforms other existing speech enhancement approaches.
翻訳日:2022-03-24 16:31:39 公開日:2022-03-23
# オーブンスケジューリング問題に対する厳密な方法と下界

Exact methods and lower bounds for the Oven Scheduling Problem ( http://arxiv.org/abs/2203.12517v1 )

ライセンス: Link先を確認
Marie-Louise Lackner, Christoph Mrkvicka, Nysret Musliu, Daniel Walkiewicz, Felix Winter(参考訳) Oven Scheduling Problem (OSP) は、電子部品製造の領域で発生する新しい並列バッチスケジューリング問題である。 ジョブは複数のオーブンの1つにスケジュールされ、互換性のある要件があれば同時に1回のバッチで処理される。 ジョブのスケジューリングは、オーブンの適性と可用性、ジョブのリリース日、バッチ間のセットアップ時間、およびオーブン容量に関するいくつかの制約を尊重しなければならない。 オーブンの実行は非常にエネルギー集約的なため、ジョブを時間通りに終えることに加えて、オーブン全体の累積バッチ処理時間を最小化することが主な目的である。 この目的はOSPと他のバッチ処理の問題とを区別するが、これは通常、マシパン、重大さ、遅さに関連する目的を最小化する。 本稿では,制約プログラミング (cp) と整数線形計画 (ilp) によるnp-ハードスケジューリング問題の解法を提案し,対応するモデルを提案する。 実験的な評価のために,多パラメータランダムインスタンス生成器を導入し,多様な問題インスタンスを提供する。 そこで,最先端ソルバを用いて品質評価を行い,cpモデルとilpモデルの性能比較を行った。 我々のモデルは現実的なサイズのインスタンスに対して実現可能な解を見つけることができ、その多くが証明可能な最適解あるいはほぼ最適解であることを示す。 最後に、OSPに対する実現可能なソリューションのソリューションコストに関する理論的に低い境界を導出し、これらは数秒で計算できる。 これらの下限は最先端の解法で導かれる解法と競合していることを示す。

The Oven Scheduling Problem (OSP) is a new parallel batch scheduling problem that arises in the area of electronic component manufacturing. Jobs need to be scheduled to one of several ovens and may be processed simultaneously in one batch if they have compatible requirements. The scheduling of jobs must respect several constraints concerning eligibility and availability of ovens, release dates of jobs, setup times between batches as well as oven capacities. Running the ovens is highly energy-intensive and thus the main objective, besides finishing jobs on time, is to minimize the cumulative batch processing time across all ovens. This objective distinguishes the OSP from other batch processing problems which typically minimize objectives related to makespan, tardiness or lateness. We propose to solve this NP-hard scheduling problem via constraint programming (CP) and integer linear programming (ILP) and present corresponding models. For an experimental evaluation, we introduce a multi-parameter random instance generator to provide a diverse set of problem instances. Using state-of-the-art solvers, we evaluate the quality and compare the performance of our CP- and ILP-models. We show that our models can find feasible solutions for instances of realistic size, many of those being provably optimal or nearly optimal solutions. Finally, we derive theoretical lower bounds on the solution cost of feasible solutions to the OSP; these can be computed within a few seconds. We show that these lower bounds are competitive with those derived by state-of-the-art solvers.
翻訳日:2022-03-24 16:30:07 公開日:2022-03-23
# 機械学習モデルは、手掛かりのない時に私たちに報告すべきだろうか?

Should Machine Learning Models Report to Us When They Are Clueless? ( http://arxiv.org/abs/2203.12131v1 )

ライセンス: Link先を確認
Roozbeh Yousefzadeh and Xuenan Cao(参考訳) AIの説明可能性の権利は、研究コミュニティと政策決定におけるコンセンサスとして統合されている。 しかし、説明可能性の重要な要素が欠落している。外挿(extrapolation)は、不慣れなサンプル(例えば、トレーニングセットの凸殻の外にあるサンプル)に遭遇したとき、AIモデルがどのようにして無意味であるかを記述する。 我々は、AIモデルは、ユーザーや利害関係者に通知することなく、慣れ親しんだデータの範囲外で露出していると報告する。 モデルを外挿したかどうかを知ることは、透明性と説明責任を支持するために、AIモデルの説明に含めるべき基本的な洞察である。 AIの透明性を促進するための障害をクリアする手段を提供しています。 米国における国家AIイニシアティブ法(National AI Initiative Act)や欧州委員会によるAI法(European Commission)など、AI規制に含めるのに役立つ実践的な条項を添付した分析注釈書。

The right to AI explainability has consolidated as a consensus in the research community and policy-making. However, a key component of explainability has been missing: extrapolation, which describes the extent to which AI models can be clueless when they encounter unfamiliar samples (i.e., samples outside a convex hull of their training sets, as we will explain down below). We report that AI models extrapolate outside their range of familiar data, frequently and without notifying the users and stakeholders. Knowing whether a model has extrapolated or not is a fundamental insight that should be included in explaining AI models in favor of transparency and accountability. Instead of dwelling on the negatives, we offer ways to clear the roadblocks in promoting AI transparency. Our analysis commentary accompanying practical clauses useful to include in AI regulations such as the National AI Initiative Act in the US and the AI Act by the European Commission.
翻訳日:2022-03-24 16:29:44 公開日:2022-03-23
# PEAR:リコメンデーションのためのコンテキスト変換器を用いたパーソナライズされた再ランク

PEAR: Personalized Re-ranking with Contextualized Transformer for Recommendation ( http://arxiv.org/abs/2203.12267v1 )

ライセンス: Link先を確認
Yi Li, Jieming Zhu, Weiwen Liu, Liangcai Su, Guohao Cai, Qi Zhang, Ruiming Tang, Xi Xiao, Xiuqiang He(参考訳) 推薦システムの目標は、自分の興味に最も合うユーザーに対して、注文されたアイテムリストを提供することである。 レコメンデーションパイプラインにおける重要なタスクとして、近年では再ランキングが注目を集めている。 各アイテムを個別に得点する従来のランキングモデルとは対照的に、再ランキングはアイテム間の相互影響を明示的にモデル化し、最初のランキングリストが与えられた項目の順序をさらに洗練することを目的としている。 本稿では、文脈変換器に基づくパーソナライズされた再ランクモデル(PEAR)を提案する。 PEARは既存のメソッドに対していくつかの大きな改善を行っている。 具体的には、PEARは機能レベルとアイテムレベルのインタラクションをキャプチャするだけでなく、初期ランキングリストと履歴クリックアイテムリストの両方からアイテムコンテキストをモデル化する。 項目レベルのランキングスコア予測に加えて、ランキングリスト全体のユーザの満足度を評価するために、リストレベルの分類タスクによるPEARのトレーニングも強化する。 パブリックデータセットとプロダクションデータセットの両方の実験結果は、以前の再ランクモデルと比較してPEARの優れた効果を示している。

The goal of recommender systems is to provide ordered item lists to users that best match their interests. As a critical task in the recommendation pipeline, re-ranking has received increasing attention in recent years. In contrast to conventional ranking models that score each item individually, re-ranking aims to explicitly model the mutual influences among items to further refine the ordering of items given an initial ranking list. In this paper, we present a personalized re-ranking model (dubbed PEAR) based on contextualized transformer. PEAR makes several major improvements over the existing methods. Specifically, PEAR not only captures feature-level and item-level interactions, but also models item contexts from both the initial ranking list and the historical clicked item list. In addition to item-level ranking score prediction, we also augment the training of PEAR with a list-level classification task to assess users' satisfaction on the whole ranking list. Experimental results on both public and production datasets have shown the superior effectiveness of PEAR compared to the previous re-ranking models.
翻訳日:2022-03-24 16:29:27 公開日:2022-03-23
# NavDreams:人間間のカメラ専用RLナビゲーションを目指す

NavDreams: Towards Camera-Only RL Navigation Among Humans ( http://arxiv.org/abs/2203.12299v1 )

ライセンス: Link先を確認
Daniel Dugas, Olov Andersson, Roland Siegwart and Jen Jen Chung(参考訳) ロボットを日常の混雑した空間で自律的に移動させるには、複雑な知覚と計画の課題を解決する必要がある。 単眼画像センサデータのみを入力として使用する場合、古典的な2次元計画手法は使用できない。 イメージは知覚や計画に関して大きな課題があるが、複雑な幾何学、体の動き、その他の視覚手がかりといった重要な詳細を捉えることもできる。 画像のみからナビゲーションタスクをうまく解決するためには、この情報チャネルのみを使用して、アルゴリズムがシーンとそのダイナミクスをモデル化する必要がある。 本研究では,アタリゲームにおけるモデリングおよび学習ポリシーに関する最先端の成果と,2次元LiDARに基づく観衆ナビゲーションの有望な結果を示す世界モデルの概念が,カメラベースのナビゲーション問題にも適用できるかどうかを考察する。 そこで我々は,ロボットが目標を達成するために衝突することなく,静的で動く人間を通り過ぎなければならないシミュレーション環境を構築した。 現状の手法はナビゲーション問題の解決に成功し,一貫した幾何学的特徴を示す将来の画像系列の夢のような予測を生成することができる。 また、実際のロボットでポリシーをテストすることで、高忠実なsim2realシミュレーションシナリオにおけるポリシー性能を実世界に移すことができる。 シミュレーター、モデル、実験はhttps://github.com/d anieldugas/navdreams で利用可能です。

Autonomously navigating a robot in everyday crowded spaces requires solving complex perception and planning challenges. When using only monocular image sensor data as input, classical two-dimensional planning approaches cannot be used. While images present a significant challenge when it comes to perception and planning, they also allow capturing potentially important details, such as complex geometry, body movement, and other visual cues. In order to successfully solve the navigation task from only images, algorithms must be able to model the scene and its dynamics using only this channel of information. We investigate whether the world model concept, which has shown state-of-the-art results for modeling and learning policies in Atari games as well as promising results in 2D LiDAR-based crowd navigation, can also be applied to the camera-based navigation problem. To this end, we create simulated environments where a robot must navigate past static and moving humans without colliding in order to reach its goal. We find that state-of-the-art methods are able to achieve success in solving the navigation problem, and can generate dream-like predictions of future image-sequences which show consistent geometry and moving persons. We are also able to show that policy performance in our high-fidelity sim2real simulation scenario transfers to the real world by testing the policy on a real robot. We make our simulator, models and experiments available at https://github.com/d anieldugas/NavDreams .
翻訳日:2022-03-24 16:29:08 公開日:2022-03-23
# トポロジカルデータ解析を用いたニューラルネットワークの一般化ギャップの説明に向けて

Towards explaining the generalization gap in neural networks using topological data analysis ( http://arxiv.org/abs/2203.12330v1 )

ライセンス: Link先を確認
Rub\'en Ballester, Xavier Arnal Clemente, Carles Casacuberta, Meysam Madadi, Ciprian A. Corneanu, Sergio Escalera(参考訳) ニューラルネットワークが見えないデータをどのように一般化するかを理解することは、より堅牢で信頼性の高いモデルの設計に不可欠である。 本稿では,トポロジカルデータ解析の手法を用いたニューラルネットワークの一般化ギャップについて検討する。 この目的のために、トレーニングフェーズ後にニューロン活性化相関から構築された重み付きグラフのホモロジー永続図を計算し、ネットワークの一般化能力に関連するパターンを捉えることを目的とした。 パーシステンスダイアグラムからの異なる数値要約の有用性を比較し,それらの組み合わせによって,テスト集合を必要とせずに一般化ギャップを正確に予測し,部分的に説明できることを示す。 2つのコンピュータビジョン認識タスク(CIFAR10とSVHN)の評価は、最先端の手法と比較した場合の競合一般化ギャップ予測を示す。

Understanding how neural networks generalize on unseen data is crucial for designing more robust and reliable models. In this paper, we study the generalization gap of neural networks using methods from topological data analysis. For this purpose, we compute homological persistence diagrams of weighted graphs constructed from neuron activation correlations after a training phase, aiming to capture patterns that are linked to the generalization capacity of the network. We compare the usefulness of different numerical summaries from persistence diagrams and show that a combination of some of them can accurately predict and partially explain the generalization gap without the need of a test set. Evaluation on two computer vision recognition tasks (CIFAR10 and SVHN) shows competitive generalization gap prediction when compared against state-of-the-art methods.
翻訳日:2022-03-24 16:28:46 公開日:2022-03-23
# タイヤレコメンデーションのためのディープマルチビュー学習

Deep Multi-View Learning for Tire Recommendation ( http://arxiv.org/abs/2203.12451v1 )

ライセンス: Link先を確認
Thomas Ranvier, Kilian Bourhis, Khalid Benabdeslem, Bruno Canitia(参考訳) 私たちは常にレコメンデーションシステムを使っています。 彼らは私たちの興味を持つであろうコンテンツを推薦するために、私たちの人物のプロフィールを構築します。 ユーザを表すデータ、システムや製品とのインタラクションは、異なるソースから来ており、さまざまな性質を持っている可能性がある。 私たちのゴールは、マルチビュー学習アプローチを使用して、リコメンダシステムを改善し、マルチビューデータ管理能力を向上させることです。 産業データに適用した最先端マルチビューモデルの比較検討を行った。 本研究は,レコメンダシステムにおけるマルチビュー学習の有用性を示す。

We are constantly using recommender systems, often without even noticing. They build a profile of our person in order to recommend the content we will most likely be interested in. The data representing the users, their interactions with the system or the products may come from different sources and be of a various nature. Our goal is to use a multi-view learning approach to improve our recommender system and improve its capacity to manage multi-view data. We propose a comparative study between several state-of-the-art multi-view models applied to our industrial data. Our study demonstrates the relevance of using multi-view learning within recommender systems.
翻訳日:2022-03-24 16:28:32 公開日:2022-03-23
# Residual Attention U-Netを用いた遠心光電界透過型光顕微鏡画像からの細胞セグメンテーション:HeLa線を例として

Cell segmentation from telecentric bright-field transmitted light microscopic images using a Residual Attention U-Net: a case study on HeLa line ( http://arxiv.org/abs/2203.12290v1 )

ライセンス: Link先を確認
Ali Ghaznavi, Renata Rychtarikova, Mohammadmehdi Saberioon, Dalibor Stys(参考訳) 明視野光顕微鏡画像からのリビング細胞分画は、生体細胞の画像の複雑さと時間的変化のために困難である。 近年, 深層学習(DL)に基づく手法が, その成功と有望な成果により, 医用・顕微鏡画像分割作業で普及している。 本研究の目的は,HeLa線の生きた細胞を光電場透過顕微鏡に分割する深層学習型UNet法を開発することである。 データセットに最も適したアーキテクチャを見つけるため,U-Netに留意することを提案し,それを注意と単純なU-Netアーキテクチャと比較した。 注意機構は、顕著な特徴を強調し、無関係の画像領域における活性化を抑制する。 残留メカニズムは、消失する勾配問題によって克服される。 データセットの平均iouスコアはそれぞれ0.9505, 0.9524, 0.9530, 単純, 注意, 残留注意u-netである。 残差と注意機構を組み合わせることで,平均iouおよびdice指標において,最も正確な意味セグメンテーション結果を得た。 この最善の注意セグメンテーション結果に対する流域法の適用により,各セルの特定情報を用いたセグメンテーションが得られた。

Living cell segmentation from bright-field light microscopic images is challenging due to the image complexity and temporal changes in the living cells. Recently developed deep learning (DL)-based methods became popular in medical and microscopic image segmentation tasks due to their success and promising outcomes. The main objective of this paper is to develop a deep learning, UNet-based method to segment the living cells of the HeLa line in bright-field transmitted light microscopy. To find the most suitable architecture for our datasets, we have proposed a residual attention U-Net and compared it with an attention and a simple U-Net architecture. The attention mechanism highlights the remarkable features and suppresses activations in the irrelevant image regions. The residual mechanism overcomes with vanishing gradient problem. The Mean-IoU score for our datasets reaches 0.9505, 0.9524, and 0.9530 for the simple, attention, and residual attention U-Net, respectively. We achieved the most accurate semantic segmentation results in the Mean-IoU and Dice metrics by applying the residual and attention mechanisms together. The watershed method applied to this best - Residual Attention - semantic segmentation result gave the segmentation with the specific information for each cell.
翻訳日:2022-03-24 16:27:13 公開日:2022-03-23
# 光制御環境と強化学習ベンチマーク

An Optical Controlling Environment and Reinforcement Learning Benchmarks ( http://arxiv.org/abs/2203.12114v1 )

ライセンス: Link先を確認
Abulikemu Abuduweili and Changliu Liu(参考訳) 深層強化学習は様々な科学的問題に対処する可能性がある。 本稿では,強化学習ベースコントローラのための光学シミュレーション環境を実装した。 この環境は非凸・非線形光学現象とより現実的な時間依存ノイズを含む。 次に,提案するシミュレーション環境における最新の強化学習アルゴリズムのベンチマーク結果を示す。 最後に,強化学習アルゴリズムを用いて実世界の光環境を制御することの難しさについて論じる。

Deep reinforcement learning has the potential to address various scientific problems. In this paper, we implement an optics simulation environment for reinforcement learning based controllers. The environment incorporates nonconvex and nonlinear optical phenomena as well as more realistic time-dependent noise. Then we provide the benchmark results of several state-of-the-art reinforcement learning algorithms on the proposed simulation environment. In the end, we discuss the difficulty of controlling the real-world optical environment with reinforcement learning algorithms.
翻訳日:2022-03-24 16:26:33 公開日:2022-03-23
# ノード間相互情報最大化によるグラフのノード表現学習

Node Representation Learning in Graph via Node-to-Neighbourhoo d Mutual Information Maximization ( http://arxiv.org/abs/2203.12265v1 )

ライセンス: Link先を確認
Wei Dong, Junsheng Wu, Yi Luo, Zongyuan Ge, Peng Wang(参考訳) グラフにおける情報ノード表現の学習の鍵は、近隣からコンテキスト情報を得る方法にある。 本研究では,ノードの隠蔽表現と周辺部との相互情報を直接最大化し,グラフスムーシングへのリンクによって理論的に正当化できる,単純かつ効果的な自己教師付きノード表現学習戦略を提案する。 インフォデンスに従い、我々のフレームワークは代理的なコントラスト損失によって最適化され、ポジティブな選択が表現学習の品質と効率を左右する。 そこで本研究では,ノード間の構造的依存関係を考慮し,近傍からの正の抽出を行い,正の選択を可能にするトポロジー対応正のサンプリング戦略を提案する。 極端な場合、1つの正のサンプルのみを採取した場合、我々は高価な近傍集合を完全に回避する。 本手法は様々なノード分類データセット上で有望な性能を実現する。 また、損失関数をMPPベースのノードエンコーダに適用することで、既存のソリューションよりも高速に処理することができる。 私たちのコードと補足資料はhttps://github.com/d ongwei156/n2nで入手できます。

The key towards learning informative node representations in graphs lies in how to gain contextual information from the neighbourhood. In this work, we present a simple-yet-effective self-supervised node representation learning strategy via directly maximizing the mutual information between the hidden representations of nodes and their neighbourhood, which can be theoretically justified by its link to graph smoothing. Following InfoNCE, our framework is optimized via a surrogate contrastive loss, where the positive selection underpins the quality and efficiency of representation learning. To this end, we propose a topology-aware positive sampling strategy, which samples positives from the neighbourhood by considering the structural dependencies between nodes and thus enables positive selection upfront. In the extreme case when only one positive is sampled, we fully avoid expensive neighbourhood aggregation. Our methods achieve promising performance on various node classification datasets. It is also worth mentioning by applying our loss function to MLP based node encoders, our methods can be orders of faster than existing solutions. Our codes and supplementary materials are available at https://github.com/d ongwei156/n2n.
翻訳日:2022-03-24 16:26:27 公開日:2022-03-23
# ミスマッチ記録装置を用いた音響シーン分類のための広・深層ニューラルネットワークアーキテクチャ

Wider or Deeper Neural Network Architecture for Acoustic Scene Classification with Mismatched Recording Devices ( http://arxiv.org/abs/2203.12314v1 )

ライセンス: Link先を確認
Lam Pham, Khoa Dinh, Dat Ngo, Hieu Tang, Alexander Schindler(参考訳) 本稿では,音響シーン分類(asc)のためのロバストで低複雑性な音響シーン分類システムを提案する。 本稿では,まず,新しい入出力型ネットワークアーキテクチャを設計し,不一致な記録装置問題に対処する,ASCベースラインシステムを構築する。 さらに性能を向上しつつも低複雑性モデルを満たすために,マルチスペクトログラムのアンサンブルとascベースラインシステムのチャネル削減という2つの手法を適用した。 ベンチマークDCASE 2020 Task 1A Developmentデータセットで広範な実験を行うことで、69.9%の精度と2.4Mのトレーニング可能なパラメータの低い複雑さを実現し、最先端のASCシステムと競合し、エッジデバイス上での現実的なアプリケーションの可能性を実現する。

In this paper, we present a robust and low complexity system for Acoustic Scene Classification (ASC), the task of identifying the scene of an audio recording. We first construct an ASC baseline system in which a novel inception-residual-b ased network architecture is proposed to deal with the mismatched recording device issue. To further improve the performance but still satisfy the low complexity model, we apply two techniques: ensemble of multiple spectrograms and channel reduction on the ASC baseline system. By conducting extensive experiments on the benchmark DCASE 2020 Task 1A Development dataset, we achieve the best model performing an accuracy of 69.9% and a low complexity of 2.4M trainable parameters, which is competitive to the state-of-the-art ASC systems and potential for real-life applications on edge devices.
翻訳日:2022-03-24 16:24:13 公開日:2022-03-23
# カーネル法による安全クリティカルコントロールポリシーの検証

Verification of safety critical control policies using kernel methods ( http://arxiv.org/abs/2203.12407v1 )

ライセンス: Link先を確認
Nikolaus Vertovec, Sina Ober-Bl\"obaum, Kostas Margellos(参考訳) ハミルトン・ヤコビ到達性法を安全性クリティカル制御に応用する手法はよく研究されてきたが,その安全性保証は数値計算の精度に依存する。 したがって、基礎となる力学や環境の不確実性や引き起こされた数値誤差によって生じる不正確性を理解し、考慮することが重要である。 そこで本研究では,ガウス過程を用いてハミルトン・ヤコビ到達可能性に固有な値関数の誤差をモデル化する枠組みを提案する。 派生した安全制御装置は、任意のコントローラと結合して安全なハイブリッド制御則を提供できる。 ガウス過程の限界確率は、最小制限制御器と安全制御器の間のスイッチを決定するのに使用される信頼度指標を提供する。 古典的追従回避例において,提案手法の予測と補正能力の両立を検証した。

Hamilton-Jacobi reachability methods for safety-critical control have been well studied, but the safety guarantees derived rely on the accuracy of the numerical computation. Thus, it is crucial to understand and account for any inaccuracies that occur due to uncertainty in the underlying dynamics and environment as well as the induced numerical errors. To this end, we propose a framework for modeling the error of the value function inherent in Hamilton-Jacobi reachability using a Gaussian process. The derived safety controller can be used in conjuncture with arbitrary controllers to provide a safe hybrid control law. The marginal likelihood of the Gaussian process then provides a confidence metric used to determine switches between a least restrictive controller and a safety controller. We test both the prediction as well as the correction capabilities of the presented method in a classical pursuit-evasion example.
翻訳日:2022-03-24 16:23:56 公開日:2022-03-23
# 量子強化マルコフ連鎖モンテカルロ

Quantum-enhanced Markov chain Monte Carlo ( http://arxiv.org/abs/2203.12497v1 )

ライセンス: Link先を確認
David Layden, Guglielmo Mazzola, Ryan V. Mishmash, Mario Motta, Pawel Wocjan, Jin-Sung Kim, Sarah Sheldon(参考訳) 複雑な確率分布からのサンプリングは、統計物理学、最適化、機械学習など、多くの分野で生じる難しい計算問題である。 量子コンピュータは最近、古典的にサンプリングするのが難しい複雑な分布からサンプルを取るのに使われてきたが、アプリケーションではほとんど使われない。 本稿では,超伝導量子プロセッサ上で実装するいくつかのアプリケーションにおいてボトルネックとなる分布からサンプルする量子アルゴリズムを提案する。 このアルゴリズムは、古典的なイジングモデルのボルツマン分布からサンプリングするために、人気のある反復サンプリング技法であるマルコフ連鎖モンテカルロ(mcmc)を実行する。 各ステップにおいて、量子プロセッサは重ね合わせでモデルを探索し、ランダムな動きを提案し、古典的コンピュータによって受け入れられ、拒否され、量子プロセッサに戻され、所望のボルツマン分布に収束する。 この量子アルゴリズムは、シミュレーションと実験の両方において、関連する問題インスタンスの一般的なmcmc代替品よりも少ないイテレーションで収束する。 そのため、量子コンピュータが有用である--単に難しいだけでなく--を短期的に解決する新たな道を開く。

Sampling from complicated probability distributions is a hard computational problem arising in many fields, including statistical physics, optimization, and machine learning. Quantum computers have recently been used to sample from complicated distributions that are hard to sample from classically, but which seldom arise in applications. Here we introduce a quantum algorithm to sample from distributions that pose a bottleneck in several applications, which we implement on a superconducting quantum processor. The algorithm performs Markov chain Monte Carlo (MCMC), a popular iterative sampling technique, to sample from the Boltzmann distribution of classical Ising models. In each step, the quantum processor explores the model in superposition to propose a random move, which is then accepted or rejected by a classical computer and returned to the quantum processor, ensuring convergence to the desired Boltzmann distribution. We find that this quantum algorithm converges in fewer iterations than common classical MCMC alternatives on relevant problem instances, both in simulations and experiments. It therefore opens a new path for quantum computers to solve useful--not merely difficult--problems in the near term.
翻訳日:2022-03-24 16:23:43 公開日:2022-03-23
# (参考訳) VideoMAE:Masked Autoencodersは自己監督型ビデオ事前学習のためのデータ効率のよい学習者 [全文訳有]

VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training ( http://arxiv.org/abs/2203.12602v1 )

ライセンス: CC BY 4.0
Zhan Tong, Yibing Song, Jue Wang, Limin Wang(参考訳) 大規模データセットでの事前学習ビデオトランスフォーマーは、比較的小さなデータセットでのプレミアパフォーマンスを達成するために一般的に必要となる。 本稿では,ビデオマスク付きオートエンコーダ(VideoMAE)が,自己教師付きビデオ事前学習(SSVP)のためのデータ効率の高い学習者であることを示す。 我々は、最新のImageMAEに触発され、カスタマイズされたビデオチューブマスキングと再構築を提案する。 これらの単純な設計は,映像再構成時の時間的相関による情報漏洩の克服に有効であることが判明した。 その結果,(1)マスキング比(90%から95%)の極めて高い割合がビデオメイの良好な性能をもたらすことがわかった。 時間的冗長なビデオコンテンツは、画像よりもマスキング比が高い。 2) VideoMAEは、余分なデータを用いることなく、非常に小さなデータセット(約3k-4kビデオ)で印象的な結果が得られる。 これは、高レベルの構造学習を強制するビデオ再構成の難題に部分的に説明されている。 (3) SSVPのデータ量よりもデータ品質が重要であることを示す。 事前トレーニングとターゲットデータセットのドメインシフトは、SSVPで重要な問題である。 特に、バニラVTバックボーン付きビデオMAEはKinect-400で83.9%、Something V2で75.3%、UCF101で90.8%、HMDB51で61.1%を達成した。 コードはhttps://github.com/M CG-NJU/VideoMAEで公開される。

Pre-training video transformers on extra large-scale datasets is generally required to achieve premier performance on relatively small datasets. In this paper, we show that video masked autoencoders (VideoMAE) are data-efficient learners for self-supervised video pre-training (SSVP). We are inspired by the recent ImageMAE and propose customized video tube masking and reconstruction. These simple designs turn out to be effective for overcoming information leakage caused by the temporal correlation during video reconstruction. We obtain three important findings on SSVP: (1) An extremely high proportion of masking ratio (i.e., 90% to 95%) still yields favorable performance of VideoMAE. The temporally redundant video content enables higher masking ratio than that of images. (2) VideoMAE achieves impressive results on very small datasets (i.e., around 3k-4k videos) without using any extra data. This is partially ascribed to the challenging task of video reconstruction to enforce high-level structure learning. (3) VideoMAE shows that data quality is more important than data quantity for SSVP. Domain shift between pre-training and target datasets are important issues in SSVP. Notably, our VideoMAE with the vanilla ViT backbone can achieve 83.9% on Kinects-400, 75.3% on Something-Something V2, 90.8% on UCF101, and 61.1% on HMDB51 without using any extra data. Code will be released at https://github.com/M CG-NJU/VideoMAE.
翻訳日:2022-03-24 16:21:50 公開日:2022-03-23
# 自己教師あり学習による肺扁平上皮癌再発の予測

Interpretable Prediction of Lung Squamous Cell Carcinoma Recurrence With Self-supervised Learning ( http://arxiv.org/abs/2203.12204v1 )

ライセンス: Link先を確認
Weicheng Zhu, Carlos Fernandez-Granda, Narges Razavian(参考訳) 肺扁平上皮癌(LSCC)は再発率と転移率が高い。 再発・転移に影響を及ぼす因子は現在不明であり,LSCCの再発・転移のリスクを示す病理組織学的,形態学的特徴は明らかでない。 本研究は,H&E-stained Histopathological whole-slide image (WSI)に基づくLSCCの再発予測に焦点を当てた。 LSCCコホートのサイズが小さいため、様々な畳み込みニューラルネットワークを用いた標準的なエンドツーエンド学習は過度に適応する傾向にある。 また、これらのモデルによる予測は解釈が難しい。 病理組織学的WSIは典型的には非常に大きいため、小さなタイルの集合として処理される。 本稿では,まず,wsiの表現をタイルレベルで学習する新しい条件付き自己教師付き学習(ssl)法を提案し,同様の病理組織学的表現を持つタイルをクラスタリングアルゴリズムを用いて同定する。 患者レベルでの再発予測のための生存モデルの特徴として, 自己スーパービジョンから得られた表現とクラスターを用いる。 TCGAとCPTACの2つの公開データセットを用いて、LSCC再発予測サバイバルモデルは、LSCCの病的ステージベースアプローチと、複数のインスタンス学習のような機械学習ベースラインの両方より優れていることを示す。 提案法により, 得られたクラスターを用いて再発の病理組織学的危険因子を説明できる。 このことは、病理学者がLSCC再発に伴う形態学的特徴に関する新しい仮説を導き出すのに役立つ。

Lung squamous cell carcinoma (LSCC) has a high recurrence and metastasis rate. Factors influencing recurrence and metastasis are currently unknown and there are no distinct histopathological or morphological features indicating the risks of recurrence and metastasis in LSCC. Our study focuses on the recurrence prediction of LSCC based on H&E-stained histopathological whole-slide images (WSI). Due to the small size of LSCC cohorts in terms of patients with available recurrence information, standard end-to-end learning with various convolutional neural networks for this task tends to overfit. Also, the predictions made by these models are hard to interpret. Histopathology WSIs are typically very large and are therefore processed as a set of smaller tiles. In this work, we propose a novel conditional self-supervised learning (SSL) method to learn representations of WSI at the tile level first, and leverage clustering algorithms to identify the tiles with similar histopathological representations. The resulting representations and clusters from self-supervision are used as features of a survival model for recurrence prediction at the patient level. Using two publicly available datasets from TCGA and CPTAC, we show that our LSCC recurrence prediction survival model outperforms both LSCC pathological stage-based approach and machine learning baselines such as multiple instance learning. The proposed method also enables us to explain the recurrence histopathological risk factors via the derived clusters. This can help pathologists derive new hypotheses regarding morphological features associated with LSCC recurrence.
翻訳日:2022-03-24 15:25:33 公開日:2022-03-23
# トレーニングフリートランスフォーマーアーキテクチャ探索

Training-free Transformer Architecture Search ( http://arxiv.org/abs/2203.12217v1 )

ライセンス: Link先を確認
Qinqin Zhou, Kekai Sheng, Xiawu Zheng, Ke Li, Xing Sun, Yonghong Tian, Jie Chen, Rongrong Ji(参考訳) 近年,ビジョントランスフォーマー (ViT) はコンピュータビジョンタスクにおいて顕著な成功を収めている。 進歩はアーキテクチャ設計と非常に関連しており、より良いvitsを自動的に検索するためにtransformer architecture search (tas)を提案する価値がある。 しかし、現在のTAS法は時間がかかり、CNNの既存のゼロコストプロキシは、我々の実験的な観察により、ViT検索空間にうまく一般化しない。 本稿では,TASをトレーニング自由な方法で実施する方法を初めて検討し,効果的なトレーニング自由なTAS(TF-TAS)方式を考案する。 まず,マルチヘッド自己注意(MSA)とマルチ層パーセプトロン(MLP)のViTにおける特性が全く異なり,MSAのシナプスの多様性が性能に顕著に影響を及ぼすことを観察する。 次に,dss-indicator(dss-i ndicator)と呼ばれるシナプス多様性(synaptic diversity)とシナプス塩分(synaptic saliency)という2つの理論的な観点からvitアーキテクチャを評価し,分類するtf-tasのモジュラー戦略を考案する。 DSS-indicatorでは、評価結果はViTモデルの試験精度と強く相関する。 実験の結果、TF-TASは、手動で、あるいは自動でViTアーキテクチャを設計し、VT検索空間の探索効率を大幅に向上させ、約24ドルGPU日から0.5ドルGPU日以下まで、我々のTF-TASは競争性能を発揮することが示された。 さらに、提案したDSS指標は、既存の最先端ゼロコストアプローチ(TEスコアやNASWOTなど)よりも優れている。

Recently, Vision Transformer (ViT) has achieved remarkable success in several computer vision tasks. The progresses are highly relevant to the architecture design, then it is worthwhile to propose Transformer Architecture Search (TAS) to search for better ViTs automatically. However, current TAS methods are time-consuming and existing zero-cost proxies in CNN do not generalize well to the ViT search space according to our experimental observations. In this paper, for the first time, we investigate how to conduct TAS in a training-free manner and devise an effective training-free TAS (TF-TAS) scheme. Firstly, we observe that the properties of multi-head self-attention (MSA) and multi-layer perceptron (MLP) in ViTs are quite different and that the synaptic diversity of MSA affects the performance notably. Secondly, based on the observation, we devise a modular strategy in TF-TAS that evaluates and ranks ViT architectures from two theoretical perspectives: synaptic diversity and synaptic saliency, termed as DSS-indicator. With DSS-indicator, evaluation results are strongly correlated with the test accuracies of ViT models. Experimental results demonstrate that our TF-TAS achieves a competitive performance against the state-of-the-art manually or automatically design ViT architectures, and it promotes the searching efficiency in ViT search space greatly: from about $24$ GPU days to less than $0.5$ GPU days. Moreover, the proposed DSS-indicator outperforms the existing cutting-edge zero-cost approaches (e.g., TE-score and NASWOT).
翻訳日:2022-03-24 15:25:09 公開日:2022-03-23
# DAN:手書き文書認識のためのセグメンテーションフリー文書注意ネットワーク

DAN: a Segmentation-free Document Attention Network for Handwritten Document Recognition ( http://arxiv.org/abs/2203.12273v1 )

ライセンス: Link先を確認
Denis Coquenet and Cl\'ement Chatelain and Thierry Paquet(参考訳) 制約のない手書き文書認識は、コンピュータビジョンの課題である。 伝統的に、行のセグメンテーションとテキストのライン認識を組み合わせた2段階のアプローチで処理される。 本稿では,手書き文書認識のためのエンドツーエンドセグメンテーションフリーアーキテクチャであるDocument Attention Networkを提案する。 テキスト認識に加えて、モデルはxmlのような方法で開始タグと終了タグを使用してテキスト部分のラベル付けを訓練される。 このモデルは、特徴抽出のためのFCNエンコーダと、繰り返しトークン・バイ・トークン予測プロセスのためのトランスフォーマー・デコーダ層からなる。 テキスト文書全体を入力として、論理的なレイアウトトークンだけでなく、文字を逐次出力する。 既存のセグメンテーションベースのアプローチとは対照的に、モデルはセグメンテーションラベルを使わずにトレーニングされる。 ページレベルでのリードデータセットと、cerが3.53%と3.69%のダブルページレベルでの競合結果を得る。 RIMESデータセットのページレベルでの結果も提供し、CERの4.54%に達しました。 私たちは、https://github.com/F actoDeepLearning/DAN で、すべてのソースコードと事前訓練されたモデルウェイトを提供します。

Unconstrained handwritten document recognition is a challenging computer vision task. It is traditionally handled by a two-step approach combining line segmentation followed by text line recognition. For the first time, we propose an end-to-end segmentation-free architecture for the task of handwritten document recognition: the Document Attention Network. In addition to the text recognition, the model is trained to label text parts using begin and end tags in an XML-like fashion. This model is made up of an FCN encoder for feature extraction and a stack of transformer decoder layers for a recurrent token-by-token prediction process. It takes whole text documents as input and sequentially outputs characters, as well as logical layout tokens. Contrary to the existing segmentation-based approaches, the model is trained without using any segmentation label. We achieve competitive results on the READ dataset at page level, as well as double-page level with a CER of 3.53% and 3.69%, respectively. We also provide results for the RIMES dataset at page level, reaching 4.54% of CER. We provide all source code and pre-trained model weights at https://github.com/F actoDeepLearning/DAN .
翻訳日:2022-03-24 15:24:40 公開日:2022-03-23
# ドメイン一般化テクスチャ表面異常検出

Domain-Generalized Textured Surface Anomaly Detection ( http://arxiv.org/abs/2203.12304v1 )

ライセンス: Link先を確認
Shang-Fu Chen, Yu-Min Liu, Chia-Ching Lin, Trista Pei-Chun Chen, Yu-Chiang Frank Wang(参考訳) 異常検出は、通常データから逸脱する異常データを識別することを目的としており、通常、このタスクを実行するためのモデルのトレーニングに十分な量の正規データを必要とする。 近年の異常検出手法の成功にもかかわらず、見えない領域で異常検出を行うことは難しい課題である。 本稿では,ドメイン一般化型表面異常検出の課題に対処する。 複数のソース領域にまたがる正常および異常な表面データを観察することにより、我々のモデルは、テスト中にごく少数の正常なデータしか観測できない、見当たらないテクスチャ面に一般化されることが期待できる。 画像レベルのラベルのみをトレーニングデータで観察した場合,パッチベースのメタラーニングモデルでは,画像領域を一般化できるだけでなく,クエリ画像の異常領域のローカライズも可能であるという,有望な一般化能力を示す。 実験により,本モデルは各種設定における最先端異常検出および領域一般化アプローチに対して良好に機能することを確認した。

Anomaly detection aims to identify abnormal data that deviates from the normal ones, while typically requiring a sufficient amount of normal data to train the model for performing this task. Despite the success of recent anomaly detection methods, performing anomaly detection in an unseen domain remain a challenging task. In this paper, we address the task of domain-generalized textured surface anomaly detection. By observing normal and abnormal surface data across multiple source domains, our model is expected to be generalized to an unseen textured surface of interest, in which only a small number of normal data can be observed during testing. Although with only image-level labels observed in the training data, our patch-based meta-learning model exhibits promising generalization ability: not only can it generalize to unseen image domains, but it can also localize abnormal regions in the query image. Our experiments verify that our model performs favorably against state-of-the-art anomaly detection and domain generalization approaches in various settings.
翻訳日:2022-03-24 15:24:22 公開日:2022-03-23
# 運動・露光キューからの自己監督型HDRイメージング

Self-supervised HDR Imaging from Motion and Exposure Cues ( http://arxiv.org/abs/2203.12311v1 )

ライセンス: Link先を確認
Michal Nazarczuk and Sibi Catley-Chandar and Ales Leonardis and Eduardo P\'erez Pellitero(参考訳) 近年のハイダイナミックレンジ(hdr)技術は、広い照明範囲のシーンを単一の低ダイナミックレンジ(ldr)画像で正確に撮影できない現在のカメラの能力を拡張している。 これは一般に、情報を統合されたHDR画像に組み込んだ様々な露光値を持つ複数のLDR画像をキャプチャすることで達成される。 このようなアプローチは静的なシーンではうまく機能するが、動的シーンにはいくつかの課題があり、主に信頼できるピクセル対応を見つけるのが困難である。 データ駆動アプローチでは、ldr-hdrトレーニングデータでエンドツーエンドマッピングを学習することでこの問題に対処しているが、実際には、ダイナミックシーンのためのhdrグラウンド-ルースラベルの生成には時間がかかり、シーンの動的要素(俳優のポーズなど)と反復可能な照明条件(ストップモーションキャプチャ)の制御を前提とする複雑な手順が必要となる。 本研究では,学習可能なHDR推定のための新たな自己教師型アプローチを提案する。 我々は,LDR画像の内部統計を利用してHDR擬似ラベルを作成することを提案する。 入力画像の静的およびよく露出した部分を別々に利用し、合成照明クリッピングと運動増強と組み合わせて高品質なトレーニング例を提供する。 実験結果から,提案手法を用いて訓練したhdrモデルは,全監督下で訓練したhdrモデルと同等に監視を必要としない従来の手法に匹敵する性能を実現することがわかった。

Recent High Dynamic Range (HDR) techniques extend the capabilities of current cameras where scenes with a wide range of illumination can not be accurately captured with a single low-dynamic-range (LDR) image. This is generally accomplished by capturing several LDR images with varying exposure values whose information is then incorporated into a merged HDR image. While such approaches work well for static scenes, dynamic scenes pose several challenges, mostly related to the difficulty of finding reliable pixel correspondences. Data-driven approaches tackle the problem by learning an end-to-end mapping with paired LDR-HDR training data, but in practice generating such HDR ground-truth labels for dynamic scenes is time-consuming and requires complex procedures that assume control of certain dynamic elements of the scene (e.g. actor pose) and repeatable lighting conditions (stop-motion capturing). In this work, we propose a novel self-supervised approach for learnable HDR estimation that alleviates the need for HDR ground-truth labels. We propose to leverage the internal statistics of LDR images to create HDR pseudo-labels. We separately exploit static and well-exposed parts of the input images, which in conjunction with synthetic illumination clipping and motion augmentation provide high quality training examples. Experimental results show that the HDR models trained using our proposed self-supervision approach achieve performance competitive with those trained under full supervision, and are to a large extent superior to previous methods that equally do not require any supervision.
翻訳日:2022-03-24 15:24:04 公開日:2022-03-23
# ストリーミング知覚のためのリアルタイム物体検出

Real-time Object Detection for Streaming Perception ( http://arxiv.org/abs/2203.12338v1 )

ライセンス: Link先を確認
Jinrong Yang, Songtao Liu, Zeming Li, Xiaoping Li and Jian Sun(参考訳) 自律運転では、モデルが環境を認識し、安全のために低レイテンシ内で行動する必要がある。 過去の研究は処理後の環境の変化を無視するが、ビデオオンライン知覚のための単一のメトリクスにレイテンシと精度を共同評価するためにストリーミング知覚を提案する。 本稿では,先行研究のように精度と速度のトレードオフを探索する代わりに,リアルタイムモデルに未来を予測する能力を持たせることが,この問題に対処するための鍵であることを指摘する。 ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。 DualFlow Perceptionモジュール(DFP)は動的および静的なフローを含み、動きの傾向を捉え、ストリーミング予測のための基本的な検出機能を備えている。 さらに,動き速度の異なる物体に対して適応的な重み付けを生成するトレンド要因と組み合わせたトレンド認識損失(tal)を提案する。 本手法はargoverse-hdデータセットの競合性能を実現し,強力なベースラインと比較して4.9%改善し,その効果を検証した。 私たちのコードはhttps://github.com/y ancie-yjr/streamyolo で利用できます。

Autonomous driving requires the model to perceive the environment and (re)act within a low latency for safety. While past works ignore the inevitable changes in the environment after processing, streaming perception is proposed to jointly evaluate the latency and accuracy into a single metric for video online perception. In this paper, instead of searching trade-offs between accuracy and speed like previous works, we point out that endowing real-time models with the ability to predict the future is the key to dealing with this problem. We build a simple and effective framework for streaming perception. It equips a novel DualFlow Perception module (DFP), which includes dynamic and static flows to capture the moving trend and basic detection feature for streaming prediction. Further, we introduce a Trend-Aware Loss (TAL) combined with a trend factor to generate adaptive weights for objects with different moving speeds. Our simple method achieves competitive performance on Argoverse-HD dataset and improves the AP by 4.9% compared to the strong baseline, validating its effectiveness. Our code will be made available at https://github.com/y ancie-yjr/StreamYOLO .
翻訳日:2022-03-24 15:22:20 公開日:2022-03-23
# Adaptive Confidence Marginを用いた半監督深層表情認識に向けて

Towards Semi-Supervised Deep Facial Expression Recognition with An Adaptive Confidence Margin ( http://arxiv.org/abs/2203.12341v1 )

ライセンス: Link先を確認
Hangyu Li, Nannan Wang, Xi Yang, Xiaoyu Wang, and Xinbo Gao(参考訳) 半教師付き学習法において、信頼スコアが予め定義された閾値(すなわち、信頼率)よりも高いようなモデルを訓練するために、ラベル付きデータの一部のみが選択される。 我々は,ラベルなしデータをすべて活用することにより,認識性能をさらに向上させるべきであると主張している。 本稿では,Adaptive Confidence Margin (Ada-CM) を学習し,ラベルのないすべてのデータを半教師付き深層表情認識に活用する。 全未ラベル標本は、その信頼スコアと各トレーニングエポックにおける適応的に学習された信頼マージンを比較して2つのサブセットに分割される:(1)信頼スコアがマージン以下でないサンプルを含むサブセットI、(2)信頼スコアがマージン以下であるサンプルを含むサブセットII。 サブセットiのサンプルの場合、それらの予測を擬似ラベルに合わせるように制限する。 一方、サブセットIIのサンプルは、効果的な表情特徴を学習するための特徴レベルのコントラスト的目的に関与する。 我々は,Ada-CMを4つの挑戦的データセット上で広範囲に評価し,その手法が最先端の性能を達成することを示す。 アブレーション研究は我々の方法の有効性をさらに証明している。 ソースコードはhttps://github.com/h angyu94/Ada-CMで入手できる。

Only parts of unlabeled data are selected to train models for most semi-supervised learning methods, whose confidence scores are usually higher than the pre-defined threshold (i.e., the confidence margin). We argue that the recognition performance should be further improved by making full use of all unlabeled data. In this paper, we learn an Adaptive Confidence Margin (Ada-CM) to fully leverage all unlabeled data for semi-supervised deep facial expression recognition. All unlabeled samples are partitioned into two subsets by comparing their confidence scores with the adaptively learned confidence margin at each training epoch: (1) subset I including samples whose confidence scores are no lower than the margin; (2) subset II including samples whose confidence scores are lower than the margin. For samples in subset I, we constrain their predictions to match pseudo labels. Meanwhile, samples in subset II participate in the feature-level contrastive objective to learn effective facial expression features. We extensively evaluate Ada-CM on four challenging datasets, showing that our method achieves state-of-the-art performance, especially surpassing fully-supervised baselines in a semi-supervised manner. Ablation study further proves the effectiveness of our method. The source code is available at https://github.com/h angyu94/Ada-CM.
翻訳日:2022-03-24 15:22:01 公開日:2022-03-23
# どうやってやるのか? pseudo-adverbsによるきめ細かい行動理解

How Do You Do It? Fine-Grained Action Understanding with Pseudo-Adverbs ( http://arxiv.org/abs/2203.12344v1 )

ライセンス: Link先を確認
Hazel Doughty and Cees G. M. Snoek(参考訳) 我々は,行動がどのように行われるかを理解し,「しっかりと」と「緩やかに」の微妙な違いを識別することを目指している。 そこで本研究では,異なる行動にまたがる副詞を認識する手法を提案する。 しかし,このような細粒度のアノテーションは入手が困難であり,その長文性から稀な動作副詞の認識が困難である。 そこで本手法では,マルチアドバーブ擬似ラベルを用いた半教師付き学習を行い,アクションラベルのみを用いたビデオを活用する。 これらの擬似アドバーブの適応しきい値設定と組み合わせることで、ロングテール分布に取り組みながら、利用可能なデータを効率的に利用することができる。 さらに,既存の3つのビデオ検索データセットに対する副詞アノテーションを収集し,未知のアクション・副詞合成や未知のドメインにおける副詞認識の新たなタスクを導入する。 提案手法の有効性を実証し, 副詞認識における先行作業と半教師付き作業とを比較検討した。 また,adverbsがきめ細かいアクションを関連付ける方法についても示す。

We aim to understand how actions are performed and identify subtle differences, such as 'fold firmly' vs. 'fold gently'. To this end, we propose a method which recognizes adverbs across different actions. However, such fine-grained annotations are difficult to obtain and their long-tailed nature makes it challenging to recognize adverbs in rare action-adverb compositions. Our approach therefore uses semi-supervised learning with multiple adverb pseudo-labels to leverage videos with only action labels. Combined with adaptive thresholding of these pseudo-adverbs we are able to make efficient use of the available data while tackling the long-tailed distribution. Additionally, we gather adverb annotations for three existing video retrieval datasets, which allows us to introduce the new tasks of recognizing adverbs in unseen action-adverb compositions and unseen domains. Experiments demonstrate the effectiveness of our method, which outperforms prior work in recognizing adverbs and semi-supervised works adapted for adverb recognition. We also show how adverbs can relate fine-grained actions.
翻訳日:2022-03-24 15:21:43 公開日:2022-03-23
# 歴史的文書におけるロバストテキスト行検出:学習と評価法

Robust Text Line Detection in Historical Documents: Learning and Evaluation Methods ( http://arxiv.org/abs/2203.12346v1 )

ライセンス: Link先を確認
M\'elodie Boillet, Christopher Kermorvant, Thierry Paquet(参考訳) テキスト行のセグメンテーションは、歴史的文書理解の重要なステップの1つである。 フォントの多様さ、内容、書風、時代を経た文書の質が問題となっている。 本稿では,現在,高一般化能力のラインセグメンテーションモデルの構築を妨げている限界に対処する。 本稿では,3つの最先端システムであるdoc-ufcn,dhsegment,a lru-netを用いて,多種多様な歴史的文書データセット上でトレーニングされた汎用モデルを構築することが可能であることを示す。 本稿では、トレーニング中に使用されるアノテーションの重要性についても強調する。 本稿では,アノテーションの統一化と最終文認識結果への肯定的な影響を示す。 本稿では,標準的なピクセルレベルメトリクス,オブジェクト指向メトリクス,目標指向メトリクスを用いた完全な評価戦略を提案する。

Text line segmentation is one of the key steps in historical document understanding. It is challenging due to the variety of fonts, contents, writing styles and the quality of documents that have degraded through the years. In this paper, we address the limitations that currently prevent people from building line segmentation models with a high generalization capacity. We present a study conducted using three state-of-the-art systems Doc-UFCN, dhSegment and ARU-Net and show that it is possible to build generic models trained on a wide variety of historical document datasets that can correctly segment diverse unseen pages. This paper also highlights the importance of the annotations used during training: each existing dataset is annotated differently. We present a unification of the annotations and show its positive impact on the final text recognition results. In this end, we present a complete evaluation strategy using standard pixel-level metrics, object-level ones and introducing goal-oriented metrics.
翻訳日:2022-03-24 15:21:22 公開日:2022-03-23
# 重なり合うプラスチックフレークセグメンテーションのハイパースペクトルイメージング

Hyper-Spectral Imaging for Overlapping Plastic Flakes Segmentation ( http://arxiv.org/abs/2203.12350v1 )

ライセンス: Link先を確認
Guillem Martinez, Maya Aghaei, Martin Dijkstra, Bhalaji Nagarajan, Femke Jaarsma, Jaap van de Loosdrecht, Petia Radeva, Klaas Dijkstra(参考訳) 異なる材料のポリマー特性をつかむ際の超スペクトルイメージングのユニークなポテンシャルを考えると、ソート法でよく用いられる。 実用的なプラスチックソートシナリオでは、複数のプラスチックフレークは、その特性によって重なり合う可能性があるが、その重なりはスペクトルシグネチャに反映できる。 本研究では,3種類のプラスチックフレークの分断と重なり得る組み合わせについて,ハイパースペクトル画像を用いた。 重なり合う領域を考慮した直感的でシンプルなマルチラベル符号化手法ビットフィールド符号化を提案する。 実験により、ビットフィールドエンコーディングがベースラインシングルラベルアプローチよりも改善することを示すとともに、重複しないクラスでのみトレーニングされた場合でも、重複したクラスに対して複数のラベルを予測する可能性を示す。

Given the hyper-spectral imaging unique potentials in grasping the polymer characteristics of different materials, it is commonly used in sorting procedures. In a practical plastic sorting scenario, multiple plastic flakes may overlap which depending on their characteristics, the overlap can be reflected in their spectral signature. In this work, we use hyper-spectral imaging for the segmentation of three types of plastic flakes and their possible overlapping combinations. We propose an intuitive and simple multi-label encoding approach, bitfield encoding, to account for the overlapping regions. With our experiments, we show that the bitfield encoding improves over the baseline single-label approach and we further demonstrate its potential in predicting multiple labels for overlapping classes even when the model is only trained with non-overlapping classes.
翻訳日:2022-03-24 15:21:05 公開日:2022-03-23
# 顔表情解析のためのトランスフォーマー型マルチモーダル情報融合

Transformer-based Multimodal Information Fusion for Facial Expression Analysis ( http://arxiv.org/abs/2203.12367v1 )

ライセンス: Link先を確認
Wei Zhang, Zhimeng Zhang, Feng Qiu, Suzhen Wang, Bowen Ma, Hao Zeng, Rudong An, Yu Ding(参考訳) 表情解析はコンピュータビジョン領域において重要な研究課題となっている。 近年の深層学習技術と大規模インザワイルドアノテートデータセットの発達により、表情分析は現実の環境での課題に向けられている。 本稿では,表現分類,行動単位検出,ヴァレンス・覚醒推定,マルチタスク学習の4つの課題を定義した,愛着的行動分析(abaw)に関するcvpr2022コンペティションについて紹介する。 利用可能なマルチモーダル情報は、ビデオにおける音声語、音声韻律、および視覚表現から構成される。 本稿では,上述のマルチモーダル情報の融合を実現するために,トランスフォーマティブベースのネットワークフレームワークを4つ提案する。 aff-wild2データセットの予備結果を報告し,提案手法の有効性を実証した。

Facial expression analysis has been a crucial research problem in the computer vision area. With the recent development of deep learning techniques and large-scale in-the-wild annotated datasets, facial expression analysis is now aimed at challenges in real world settings. In this paper, we introduce our submission to CVPR2022 Competition on Affective Behavior Analysis in-the-wild (ABAW) that defines four competition tasks, including expression classification, action unit detection, valence-arousal estimation, and a multi-task-learning. The available multimodal information consist of spoken words, speech prosody, and visual expression in videos. Our work proposes four unified transformer-based network frameworks to create the fusion of the above multimodal information. The preliminary results on the official Aff-Wild2 dataset are reported and demonstrate the effectiveness of our proposed method.
翻訳日:2022-03-24 15:20:50 公開日:2022-03-23
# Sparse-View Cone-Beam CT 再構成のための適応的再重み付け多損失無拘束変圧器

Adaptively Re-weighting Multi-Loss Untrained Transformer for Sparse-View Cone-Beam CT Reconstruction ( http://arxiv.org/abs/2203.12476v1 )

ライセンス: Link先を確認
Minghui Wu, Yangdi Xu, Yingying Xu, Guangwei Wu, Qingqing Chen, Hongxiang Lin(参考訳) コーンビームct(cbct)は診断に有用であることが証明されているが、低放射線量でスキャン時間を短縮し、3d画像を効率的に再構築する方法が臨床における主要な課題である。 近年のsparse-view計測による断層画像再構成の進展は, 深層ニューラルネットワークを用いてこのような課題に対処しているが, モデルトレーニングの成功には, 与えられた対の計測/画像の量と品質が必要となる。 本研究では、CBCT逆解器をトレーニングデータなしで適合させる新しい非学習変換器を提案する。 主に、数十億のネットワーク重みのトレーニングされていない3次元変換器と、可変重みを持つ多層損失関数で構成されている。 従来のディープニューラルネットワーク(DNN)とは異なり、我々のアプローチではトレーニングステップは必要ありません。 最適化トランスフォーマーの難しさを観察すると、損失関数内の変動重みは繰り返し処理とともに自動的に更新され、最終的に最適化が安定化される。 提案手法をSPAREとWalnutの2つの公開データセットで評価した。 その結果,画像の視認性が低下し,画像品質指標の性能が著しく向上した。 また, 診断の観点から, 再建画像の評価を行うため, 経験者による臨床報告も行った。 ソースコードと最適化されたモデルは現在、要求に応じて対応する著者から入手可能である。

Cone-Beam Computed Tomography (CBCT) has been proven useful in diagnosis, but how to shorten scanning time with lower radiation dosage and how to efficiently reconstruct 3D image remain as the main issues for clinical practice. The recent development of tomographic image reconstruction on sparse-view measurements employs deep neural networks in a supervised way to tackle such issues, whereas the success of model training requires quantity and quality of the given paired measurements/images. We propose a novel untrained Transformer to fit the CBCT inverse solver without training data. It is mainly comprised of an untrained 3D Transformer of billions of network weights and a multi-level loss function with variable weights. Unlike conventional deep neural networks (DNNs), there is no requirement of training steps in our approach. Upon observing the hardship of optimising Transformer, the variable weights within the loss function are designed to automatically update together with the iteration process, ultimately stabilising its optimisation. We evaluate the proposed approach on two publicly available datasets: SPARE and Walnut. The results show a significant performance improvement on image quality metrics with streak artefact reduction in the visualisation. We also provide a clinical report by an experienced radiologist to assess our reconstructed images in a diagnosis point of view. The source code and the optimised models are available from the corresponding author on request at the moment.
翻訳日:2022-03-24 15:20:31 公開日:2022-03-23
# CroMo: 単眼深度推定のためのクロスモーダル学習

CroMo: Cross-Modal Learning for Monocular Depth Estimation ( http://arxiv.org/abs/2203.12485v1 )

ライセンス: Link先を確認
Yannick Verdi\'e, Jifei Song, Barnab\'e Mas, Benjamin Busam, Ale\v{s} Leonardis, Steven McDonagh(参考訳) 学習に基づく奥行き推定は,単眼映像を用いた自己視から,高精度な教師あり手法まで,多方向の最近の進歩を目の当たりにしている。 監視の補完として、複数の信号からの情報を組み合わせることで、パフォーマンスと堅牢性をさらに向上する。 本稿では,センサおよびモダリティ設計選択に関連する重要なトレードオフと,関連するモデルトレーニング戦略を体系的に検討する。 本研究は, 偏光, 時間-光, 構造光入力から変調特異的な利点を接続できる新しい手法を提案する。 様々な訓練信号を評価するために,単眼偏波から深さを推定できる新しいパイプラインを提案する。 微分可能解析モデルの反転は、シーンの幾何学と分極化とtof信号を結びつけ、自己教師付きおよびクロスモーダル学習を可能にする。 既存のマルチモーダルデータセットが存在しない場合は、カスタムメイドのマルチモーダルカメラリグを使用して、cromoを収集し、ビデオレートでキャプチャしたステレオ偏光、間接tof、構造化光深度を同期した最初のデータセットである。 挑戦的な映像シーンに対する大規模な実験により, 競合する単眼深度推定法よりも優れた質的, 定量的パイプラインの利点が確認できた。

Learning-based depth estimation has witnessed recent progress in multiple directions; from self-supervision using monocular video to supervised methods offering highest accuracy. Complementary to supervision, further boosts to performance and robustness are gained by combining information from multiple signals. In this paper we systematically investigate key trade-offs associated with sensor and modality design choices as well as related model training strategies. Our study leads us to a new method, capable of connecting modality-specific advantages from polarisation, Time-of-Flight and structured-light inputs. We propose a novel pipeline capable of estimating depth from monocular polarisation for which we evaluate various training signals. The inversion of differentiable analytic models thereby connects scene geometry with polarisation and ToF signals and enables self-supervised and cross-modal learning. In the absence of existing multimodal datasets, we examine our approach with a custom-made multi-modal camera rig and collect CroMo; the first dataset to consist of synchronized stereo polarisation, indirect ToF and structured-light depth, captured at video rates. Extensive experiments on challenging video scenes confirm both qualitative and quantitative pipeline advantages where we are able to outperform competitive monocular depth estimation method.
翻訳日:2022-03-24 15:19:22 公開日:2022-03-23
# Refine-Net:ノイズ点雲のための正規リファインメントニューラルネットワーク

Refine-Net: Normal Refinement Neural Network for Noisy Point Clouds ( http://arxiv.org/abs/2203.12514v1 )

ライセンス: Link先を確認
Haoran Zhou, Honghua Chen, Yingkui Zhang, Mingqiang Wei, Haoran Xie, Jun Wang, Tong Lu, Jing Qin, and Xiao-Ping Zhang(参考訳) 点法則は3次元物体の内在的な幾何学的性質として、表面の凝縮や再構成といった従来の幾何学的タスクだけでなく、形状解析と生成のための最先端の学習技術にも役立っている。 本稿では,ノイズ点雲の正確な正規分布を予測できるrendering-netと呼ばれる正規精錬ネットワークを提案する。 従来の正規推定の知恵は、表面形状やノイズ分布といった先行に大きく依存する一方、学習ベースのソリューションは、単一の手作りの特徴を定めている。 異なるのは、複数の特徴表現から付加情報を抽出することにより、各点の初期正規性を洗練することである。 この目的のために、いくつかの機能モジュールが開発され、新しい接続モジュールによってrefine-netに組み込まれている。 Refine-Netの全体的なネットワークアーキテクチャに加えて、幾何学領域の知識を吸収することにより、初期正規推定のための新しいマルチスケールフィッティングパッチ選択方式を提案する。 また、Refine-Netは一般的な正規推定フレームワークである。 1)他の方法から得られる点正規化をさらに洗練することができ、 2) 表面幾何構造に関連する任意の特徴モジュールは、フレームワークに統合することができる。 定性的かつ定量的な評価は、合成データセットと実スキャンデータセットの両方における最先端技術に対するRefine-Netの明確な優位性を示している。 私たちのコードはhttps://github.com/h rzhou2/refinenetで利用可能です。

Point normal, as an intrinsic geometric property of 3D objects, not only serves conventional geometric tasks such as surface consolidation and reconstruction, but also facilitates cutting-edge learning-based techniques for shape analysis and generation. In this paper, we propose a normal refinement network, called Refine-Net, to predict accurate normals for noisy point clouds. Traditional normal estimation wisdom heavily depends on priors such as surface shapes or noise distributions, while learning-based solutions settle for single types of hand-crafted features. Differently, our network is designed to refine the initial normal of each point by extracting additional information from multiple feature representations. To this end, several feature modules are developed and incorporated into Refine-Net by a novel connection module. Besides the overall network architecture of Refine-Net, we propose a new multi-scale fitting patch selection scheme for the initial normal estimation, by absorbing geometry domain knowledge. Also, Refine-Net is a generic normal estimation framework: 1) point normals obtained from other methods can be further refined, and 2) any feature module related to the surface geometric structures can be potentially integrated into the framework. Qualitative and quantitative evaluations demonstrate the clear superiority of Refine-Net over the state-of-the-arts on both synthetic and real-scanned datasets. Our code is available at https://github.com/h rzhou2/refinenet.
翻訳日:2022-03-24 15:19:02 公開日:2022-03-23
# ニューマン:超人的放射界を1本ビデオで見る

NeuMan: Neural Human Radiance Field from a Single Video ( http://arxiv.org/abs/2203.12575v1 )

ライセンス: Link先を確認
Wei Jiang, Kwang Moo Yi, Golnoosh Samei, Oncel Tuzel, Anurag Ranjan(参考訳) 人間のフォトリアリスティックなレンダリングと再現は、拡張現実体験を実現する上で重要である。 本研究では,人間とシーンを新たなポーズで再現する新しい枠組みを提案する。 動画を移動カメラで撮影すると、人間のNeRFモデルとシーンNeRFモデルという2つのNeRFモデルを訓練する。 これらのモデルをトレーニングするには、人間とシーンの粗い形状を推定する既存の手法に依存する。 これらの粗い幾何推定は、観察空間から人間のモデルを訓練する標準的なポーズ非依存空間へのゆがみ場を作ることができる。 提案手法は,10秒の映像クリップから,布のしわやアクセサリなど,特定の内容の詳細を学習し,背景とともに新規な視点から,新規なポーズ下での人間の高品質なレンダリングを提供する。

Photorealistic rendering and reposing of humans is important for enabling augmented reality experiences. We propose a novel framework to reconstruct the human and the scene that can be rendered with novel human poses and views from just a single in-the-wild video. Given a video captured by a moving camera, we train two NeRF models: a human NeRF model and a scene NeRF model. To train these models, we rely on existing methods to estimate the rough geometry of the human and the scene. Those rough geometry estimates allow us to create a warping field from the observation space to the canonical pose-independent space, where we train the human model in. Our method is able to learn subject specific details, including cloth wrinkles and accessories, from just a 10 seconds video clip, and to provide high quality renderings of the human under novel poses, from novel views, together with the background.
翻訳日:2022-03-24 15:18:41 公開日:2022-03-23
# structtoken : structure priorを用いた意味セグメンテーション再考

StructToken : Rethinking Semantic Segmentation with Structural Prior ( http://arxiv.org/abs/2203.12612v1 )

ライセンス: Link先を確認
Fangjian Lin, Zhanhao Liang, Junjun He, Miao Zheng, Shengwei Tian, Kai Chen(参考訳) 本稿では,意味的セグメンテーションのための新しいパラダイムである構造トークン(StructToken)を提案する。 セマンティックセグメンテーション(セマンティックセグメンテーション)をピクセル単位の分類として考えると、従来のディープラーニングベースの手法はまずエンコーダとデコーダヘッドを通してピクセル単位の表現を学び、その後、各ピクセル表現を特定のカテゴリに分類してセマンティックマスクを得る。 そこで本研究では,画素ごとの分類を行なわずに,セマンティックマスクを直接予測する構造情報を取得する構造認識アルゴリズムを提案する。 具体的には、入力画像が与えられると、学習可能な構造トークンが画像表現と相互作用し、最終的な意味マスクを推論する。 3つの相互作用手法が検討され、その結果は最先端の手法を上回るだけでなく、より構造的な情報も含む。 ADE20k、Cityscapes、COCO-Stuff 10Kなど、広く使用されている3つのデータセットで実験が行われた。 構造トークンがセマンティックセグメンテーションの代替となり、将来の研究を刺激することを期待している。

In this paper, we present structure token (StructToken), a new paradigm for semantic segmentation. From a perspective on semantic segmentation as per-pixel classification, the previous deep learning-based methods learn the per-pixel representation first through an encoder and a decoder head and then classify each pixel representation to a specific category to obtain the semantic masks. Differently, we propose a structure-aware algorithm that takes structural information as prior to predict semantic masks directly without per-pixel classification. Specifically, given an input image, the learnable structure token interacts with the image representations to reason the final semantic masks. Three interaction approaches are explored and the results not only outperform the state-of-the-art methods but also contain more structural information. Experiments are conducted on three widely used datasets including ADE20k, Cityscapes, and COCO-Stuff 10K. We hope that structure token could serve as an alternative for semantic segmentation and inspire future research.
翻訳日:2022-03-24 15:18:26 公開日:2022-03-23
# 3次元透明物体再構成のためのハイブリッドメッシュニューラル表現法

A Hybrid Mesh-neural Representation for 3D Transparent Object Reconstruction ( http://arxiv.org/abs/2203.12613v1 )

ライセンス: Link先を確認
Jiamin Xu, Zihan Zhu, Hujun Bao, Wewei Xu(参考訳) 自然光条件下で手持ちの撮像画像を用いて透明物体の3次元形状を復元する新しい手法を提案する。 明示的なメッシュとハイブリッド表現であるマルチレイヤパーセプトロン(MLP)ネットワークの利点を組み合わせて、最近のコントリビューションで使用されるキャプチャ設定を簡素化する。 マルチビューシルエットを用いて初期形状を得た後,表面の細部を再構成するための頂点変位場 (VDF) を符号化する曲面型局所MLPを導入する。 ローカルMLPの設計は、最適化アルゴリズムに有利な2層MLPネットワークを用いて、VDFを断片的に表現することができる。 体積の代わりに表面上の局所的なMLPを定義することで、探索空間も減少する。 このようなハイブリッド表現は、光路制約を表す光画素対応を我々の設計した光-セル対応に緩和することを可能にし、単一画像に基づく環境マットングアルゴリズムの実装を著しく単純化する。 地上真理モデルを用いた複数の透明物体に対する表現と再構成アルゴリズムの評価を行った。 提案手法は, 簡易なデータ取得装置を用いて, 最先端の手法よりも高品質な再構成結果が得られることを示す。

We propose a novel method to reconstruct the 3D shapes of transparent objects using hand-held captured images under natural light conditions. It combines the advantage of explicit mesh and multi-layer perceptron (MLP) network, a hybrid representation, to simplify the capture setting used in recent contributions. After obtaining an initial shape through the multi-view silhouettes, we introduce surface-based local MLPs to encode the vertex displacement field (VDF) for the reconstruction of surface details. The design of local MLPs allows to represent the VDF in a piece-wise manner using two layer MLP networks, which is beneficial to the optimization algorithm. Defining local MLPs on the surface instead of the volume also reduces the searching space. Such a hybrid representation enables us to relax the ray-pixel correspondences that represent the light path constraint to our designed ray-cell correspondences, which significantly simplifies the implementation of single-image based environment matting algorithm. We evaluate our representation and reconstruction algorithm on several transparent objects with ground truth models. Our experiments show that our method can produce high-quality reconstruction results superior to state-of-the-art methods using a simplified data acquisition setup.
翻訳日:2022-03-24 15:18:09 公開日:2022-03-23
# スペクトルクラスタ投票による教師なしサリエント物体検出

Unsupervised Salient Object Detection with Spectral Cluster Voting ( http://arxiv.org/abs/2203.12614v1 )

ライセンス: Link先を確認
Gyungin Shin and Samuel Albanie and Weidi Xie(参考訳) 本稿では,自己教師付き特徴のスペクトルクラスタリングを活用することで,教師なしsod(unsupervised salient object detection)の課題に取り組む。 私たちは次のような貢献をします (i)スペクトルクラスタリングを再検討し、その有望な物体の画素をグループ化する可能性を示す。 二 スペクトルクラスタリングの複数の応用によるマスクの提案を、例えば、MoCov2、SwaV、DINOなどの自己監督型モデルから算出した画像の特徴にあてはめ、フレーミングと特徴に基づく対象の事前の活用により、サリアントマスクを選択するための単純かつ効果的な投票機構を提案する。 (iii) 選択された対象セグメンテーションを疑似接地マスクとして使用し, 3つの教師なしsodベンチマークで先行手法に勝る, selfmask と呼ばれるサルエント物体検出器を訓練した。 コードはhttps://github.com/n oelshin/selfmaskで公開されている。

In this paper, we tackle the challenging task of unsupervised salient object detection (SOD) by leveraging spectral clustering on self-supervised features. We make the following contributions: (i) We revisit spectral clustering and demonstrate its potential to group the pixels of salient objects; (ii) Given mask proposals from multiple applications of spectral clustering on image features computed from various self-supervised models, e.g., MoCov2, SwAV, DINO, we propose a simple but effective winner-takes-all voting mechanism for selecting the salient masks, leveraging object priors based on framing and distinctiveness; (iii) Using the selected object segmentation as pseudo groundtruth masks, we train a salient object detector, dubbed SelfMask, which outperforms prior approaches on three unsupervised SOD benchmarks. Code is publicly available at https://github.com/N oelShin/selfmask.
翻訳日:2022-03-24 15:17:49 公開日:2022-03-23
# (参考訳) クロスコーパスHate音声検出のための動的精細正規化 [全文訳有]

Dynamically Refined Regularization for Improving Cross-corpora Hate Speech Detection ( http://arxiv.org/abs/2203.12536v1 )

ライセンス: CC BY 4.0
Tulika Bose, Nikolaos Aletras, Irina Illina, Dominique Fohr(参考訳) ヘイト音声分類器は、ソースと異なるデータセットで評価した場合、かなりの性能劣化を示す。 これは、必ずしもヘイトフル言語に関係しない単語と、トレーニングコーパスからヘイトスピーチラベルの間のスプリアス相関を学習しているためである。 以前の研究は、事前定義された静的辞書から特定の用語を規則化することでこの問題を緩和しようとした。 これは分類器の一般化性を改善するために実証されているが、そのような方法の適用範囲は限られており、辞書は人間の専門家による定期的な手作業による更新を必要とする。 本稿では,訓練中に正規化する必要がある用語のリストを動的に改良し,帰属法を用いてスプリアス相関を自動的に同定し,低減する手法を提案する。 当社のアプローチは柔軟で,事前定義された辞書と組み合わせて,従来の作業よりもクロスコーパスのパフォーマンスを向上する。

Hate speech classifiers exhibit substantial performance degradation when evaluated on datasets different from the source. This is due to learning spurious correlations between words that are not necessarily relevant to hateful language, and hate speech labels from the training corpus. Previous work has attempted to mitigate this problem by regularizing specific terms from pre-defined static dictionaries. While this has been demonstrated to improve the generalizability of classifiers, the coverage of such methods is limited and the dictionaries require regular manual updates from human experts. In this paper, we propose to automatically identify and reduce spurious correlations using attribution methods with dynamic refinement of the list of terms that need to be regularized during training. Our approach is flexible and improves the cross-corpora performance over previous work independently and in combination with pre-defined dictionaries.
翻訳日:2022-03-24 15:15:37 公開日:2022-03-23
# プライバシ保存型パーソナライズ型フィットネスレコメンデーションシステム(p3fitrec: multi-level deep learning)

Privacy-Preserving Personalized Fitness Recommender System (P3FitRec): A Multi-level Deep Learning Approach ( http://arxiv.org/abs/2203.12200v1 )

ライセンス: Link先を確認
Xiao Liu, Bonan Gao, Basem Suleiman, Han You, Zisu Ma, Yu Liu, and Ali Anaissi(参考訳) リコメンダシステムは、機械学習アルゴリズムの助けを借りて、多くのドメインでうまく使われている。 しかし、このようなアプリケーションは多次元のユーザデータを使う傾向があり、ユーザーのプライバシー侵害に関する懸念が広まっている。 一方、ウェアラブル技術により、ユーザーは内蔵センサーを通じてフィットネス関連のデータを収集し、状況を監視したり、パーソナライズされたフィットネス目標を達成することができる。 本稿では,プライバシを意識したパーソナライズドフィットネス推薦システムを提案する。 本稿では,ウェアラブルiotデバイスから収集した大規模リアルフィットネスデータセットから重要な機能を学習し,インテリジェントなフィットネス推奨を導出するマルチレベルディープラーニングフレームワークを提案する。 従来のアプローチとは異なり,センサデータからユーザのフィットネス特性を推定し,ユーザ名や年齢,身長,体重などの生体情報を明示的に収集する必要性を最小化することで,パーソナライズを実現している。 特に、提案したモデルとアルゴリズムは予測する。 (a)目標カロリーの達成を支援するための個別の運動距離勧告 (b)運動の性質及び選択経路を考慮した運動速度調整のためのパーソナライズされた速度系列推薦、及び (c)将来の運動の健康状態をユーザに指導するためのパーソナライズされた心拍数シーケンス。 実世界のFitbitデータセットを用いた実験により,運動距離,速度シーケンス,心拍数列の予測精度が同様の研究と比較された。 さらに,ユーザの機密情報を収集・利用する必要がなく,ユーザのプライバシを保護できるため,既存研究と比較して新しいアプローチである。

Recommender systems have been successfully used in many domains with the help of machine learning algorithms. However, such applications tend to use multi-dimensional user data, which has raised widespread concerns about the breach of users privacy. Meanwhile, wearable technologies have enabled users to collect fitness-related data through embedded sensors to monitor their conditions or achieve personalized fitness goals. In this paper, we propose a novel privacy-aware personalized fitness recommender system. We introduce a multi-level deep learning framework that learns important features from a large-scale real fitness dataset that is collected from wearable IoT devices to derive intelligent fitness recommendations. Unlike most existing approaches, our approach achieves personalization by inferring the fitness characteristics of users from sensory data and thus minimizing the need for explicitly collecting user identity or biometric information, such as name, age, height, weight. In particular, our proposed models and algorithms predict (a) personalized exercise distance recommendations to help users to achieve target calories, (b) personalized speed sequence recommendations to adjust exercise speed given the nature of the exercise and the chosen route, and (c) personalized heart rate sequence to guide the user of the potential health status for future exercises. Our experimental evaluation on a real-world Fitbit dataset demonstrated high accuracy in predicting exercise distance, speed sequence, and heart rate sequence compared to similar studies. Furthermore, our approach is novel compared to existing studies as it does not require collecting and using users sensitive information, and thus it preserves the users privacy.
翻訳日:2022-03-24 14:56:34 公開日:2022-03-23
# コンビニエンス最適化のための認証対称性と支配破壊(申請を含む)

Certified Symmetry and Dominance Breaking for Combinatorial Optimisation (Including Appendices) ( http://arxiv.org/abs/2203.12275v1 )

ライセンス: Link先を確認
Bart Bogaerts, Stephan Gocht, Ciaran McCreesh, Jakob Nordstr\"om(参考訳) 対称性と支配的破壊は、厳密な組合せ探索と最適化問題を解決するために重要であるが、これらの手法の正しさは微妙な議論に依存することがある。 このため、解が正しく計算された効率的な機械検証証明書を作成することが望ましい。 切削面証明システムに基づいて,対称性と支配的破壊が容易に表現可能な最適化問題に対する認証手法を開発した。 実験により, ブール充足可能性 (SAT) の解法において, 完全一般対称性の破れを効果的に検証できることが確認された。 さらに,本手法を,より広範な組合せ問題に適用できるという概念実証として,最大傾き解法と制約プログラミングに適用する。

Symmetry and dominance breaking can be crucial for solving hard combinatorial search and optimisation problems, but the correctness of these techniques sometimes relies on subtle arguments. For this reason, it is desirable to produce efficient, machine-verifiable certificates that solutions have been computed correctly. Building on the cutting planes proof system, we develop a certification method for optimisation problems in which symmetry and dominance breaking are easily expressible. Our experimental evaluation demonstrates that we can efficiently verify fully general symmetry breaking in Boolean satisfiability (SAT) solving, thus providing, for the first time, a unified method to certify a range of advanced SAT techniques that also includes XOR and cardinality reasoning. In addition, we apply our method to maximum clique solving and constraint programming as a proof of concept that the approach applies to a wider range of combinatorial problems.
翻訳日:2022-03-24 14:56:07 公開日:2022-03-23
# 確率的世界のための行動モデル学習のためのSAM+アルゴリズムの例

An Example of the SAM+ Algorithm for Learning Action Models for Stochastic Worlds ( http://arxiv.org/abs/2203.12499v1 )

ライセンス: Link先を確認
Brendan Juba, Roni Stern(参考訳) 本報告では,コーヒー問題の簡便なppddl版上で,確率的計画行動モデル学習のためのアルゴリズムであるsam+アルゴリズムの完全な例を示す。 SAM+アルゴリズムの簡単な説明と単純化されたコーヒードメインの詳細な説明を行い、単純化されたコーヒードメイン上でそれを実行する結果について説明する。

In this technical report, we provide a complete example of running the SAM+ algorithm, an algorithm for learning stochastic planning action models, on a simplified PPDDL version of the Coffee problem. We provide a very brief description of the SAM+ algorithm and detailed description of our simplified version of the Coffee domain, and then describe the results of running it on the simplified Coffee domain.
翻訳日:2022-03-24 14:55:50 公開日:2022-03-23
# 視覚プロンプトチューニング

Visual Prompt Tuning ( http://arxiv.org/abs/2203.12119v1 )

ライセンス: Link先を確認
Menglin Jia and Luming Tang and Bor-Chun Chen and Claire Cardie and Serge Belongie and Bharath Hariharan and Ser-Nam Lim(参考訳) 事前訓練されたモデルを適用する際の現在のModus Operandiは、すべてのバックボーンパラメータ、すなわち完全な微調整を更新する。 本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。 大規模な言語モデルを効率的にチューニングする最近の進歩からインスピレーションを得て、VPTは入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入していない。 様々なダウンストリーム認識タスクについて広範な実験を行った結果,VPTは他のパラメータ効率のよいチューニングプロトコルと比較して大きな性能向上が得られた。 最も重要な点としてVPTは、モデル容量やデータスケールのトレーニングなど、多くの場合において、完全な微調整よりも優れています。

The current modus operandi in adapting pre-trained models involves updating all the backbone parameters, ie, full fine-tuning. This paper introduces Visual Prompt Tuning (VPT) as an efficient and effective alternative to full fine-tuning for large-scale Transformer models in vision. Taking inspiration from recent advances in efficiently tuning large language models, VPT introduces only a small amount (less than 1% of model parameters) of trainable parameters in the input space while keeping the model backbone frozen. Via extensive experiments on a wide variety of downstream recognition tasks, we show that VPT achieves significant performance gains compared to other parameter efficient tuning protocols. Most importantly, VPT even outperforms full fine-tuning in many cases across model capacities and training data scales, while reducing per-task storage cost.
翻訳日:2022-03-24 14:52:36 公開日:2022-03-23
# 弱教師付きポリプフレーム検出のためのコントラストトランスフォーマベース多重インスタンス学習

Contrastive Transformer-based Multiple Instance Learning for Weakly Supervised Polyp Frame Detection ( http://arxiv.org/abs/2203.12121v1 )

ライセンス: Link先を確認
Yu Tian and Guansong Pang and Fengbei Liu and Yuyuan Liu and Chong Wang and Yuanhong Chen and Johan W Verjans and Gustavo Carneiro(参考訳) 現在の大腸内視鏡ビデオからのポリープ検出法では正常(つまり正常な)トレーニング画像のみを用いる。 一 連続映像フレームにおける時間的情報の重要性を無視して 二 ポリープに関する知識がないこと。 その結果、しばしば高い検出誤差、特に難解なポリープ(例えば、小さい、平たい、部分的に見えるポリープ)に対して発生する。 本研究では,ビデオレベルのラベル付きトレーニングデータを用いてフレームレベルのポリプを検出する,弱教師付き異常検出タスクとしてポリプ検出を定式化する。 特に,異常なフレーム(ポリプ付きフレーム)を異常なビデオ(つまり,少なくとも1つのフレームとポリプを含むビデオ)から識別するために設計された,新しい畳み込みトランスフォーマベースの多重インスタンス学習手法を提案する。 本手法では,ビデオとスニペットレベルの異常スコアを同時に最適化しながら,局所的およびグローバルな時間的依存関係をシームレスにキャプチャする。 また, 難解なポリプケースを効果的にモデル化するために, 対照的なスニペットマイニング法を提案する。 本研究で紹介された大規模大腸内視鏡ビデオデータセットにおいて,最先端のアプローチよりも検出精度が大幅に向上する。

Current polyp detection methods from colonoscopy videos use exclusively normal (i.e., healthy) training images, which i) ignore the importance of temporal information in consecutive video frames, and ii) lack knowledge about the polyps. Consequently, they often have high detection errors, especially on challenging polyp cases (e.g., small, flat, or partially visible polyps). In this work, we formulate polyp detection as a weakly-supervised anomaly detection task that uses video-level labelled training data to detect frame-level polyps. In particular, we propose a novel convolutional transformer-based multiple instance learning method designed to identify abnormal frames (i.e., frames with polyps) from anomalous videos (i.e., videos containing at least one frame with polyp). In our method, local and global temporal dependencies are seamlessly captured while we simultaneously optimise video and snippet-level anomaly scores. A contrastive snippet mining method is also proposed to enable an effective modelling of the challenging polyp cases. The resulting method achieves a detection accuracy that is substantially better than current state-of-the-art approaches on a new large-scale colonoscopy video dataset introduced in this work.
翻訳日:2022-03-24 14:52:21 公開日:2022-03-23
# イベントとのフレーム補間と動作の統一化

Unifying Motion Deblurring and Frame Interpolation with Events ( http://arxiv.org/abs/2203.12178v1 )

ライセンス: Link先を確認
Xiang Zhang, Lei Yu(参考訳) フレームベースのカメラのシャッター速度と露光時間が遅いと、視覚のぼやけやフレーム間情報の損失が生じ、撮影されたビデオの全体的な品質が低下する。 そこで我々は,イベントの極めて低遅延を利用して動きのぼやけを緩和し,中間フレーム予測を容易にする,ぼやけたビデオ強調のためのイベントベースモーションデブロアとフレーム補間の統合フレームワークを提案する。 具体的には、ぼやけたフレームとシャープな潜画像のマッピング関係を学習可能な二重積分ネットワークで予測し、連続したぼやけた入力と同時イベントからの情報を利用して粗い結果を洗練する融合ネットワークを提案する。 さらに,ボケフレーム,潜在画像,イベントストリーム間の相互制約を検討することにより,実世界のボケビデオやイベントを用いたネットワークトレーニングを可能にする自己教師あり学習フレームワークを提案する。 広範な実験により、この手法は最先端のアプローチと好適に比較でき、合成データと実世界のデータセットの両方で顕著な性能を達成できることを示した。

Slow shutter speed and long exposure time of frame-based cameras often cause visual blur and loss of inter-frame information, degenerating the overall quality of captured videos. To this end, we present a unified framework of event-based motion deblurring and frame interpolation for blurry video enhancement, where the extremely low latency of events is leveraged to alleviate motion blur and facilitate intermediate frame prediction. Specifically, the mapping relation between blurry frames and sharp latent images is first predicted by a learnable double integral network, and a fusion network is then proposed to refine the coarse results via utilizing the information from consecutive blurry inputs and the concurrent events. By exploring the mutual constraints among blurry frames, latent images, and event streams, we further propose a self-supervised learning framework to enable network training with real-world blurry videos and events. Extensive experiments demonstrate that our method compares favorably against the state-of-the-art approaches and achieves remarkable performance on both synthetic and real-world datasets.
翻訳日:2022-03-24 14:52:01 公開日:2022-03-23
# 確率密度関数のアライメントによる自己監督ロバストシーンフローの推定

Self-Supervised Robust Scene Flow Estimation via the Alignment of Probability Density Functions ( http://arxiv.org/abs/2203.12193v1 )

ライセンス: Link先を確認
Pan He, Patrick Emami, Sanjay Ranka, Anand Rangarajan(参考訳) 本稿では,一対の連続点雲に対する自己監督型シーンフロー推定手法を提案する。 このアプローチの重要な考え方は、ガウス混合モデルを用いて離散点雲を連続確率密度関数として表現することである。 したがって,シーンフロー推定は確率密度関数のアライメントから動きを復元する問題に変換され,古典的なコーシー=シュワルツ分岐の閉形式表現を用いて実現される。 ハードペアワイズ対応を用いた既存手法とは異なり,提案手法ではポイントクラウド間のソフトポイント対応と暗黙ポイント対応を確立し,欠落した対応と外れ値の存在下でより堅牢で正確なシーンフローを生成する。 包括的実験により,本手法は実環境におけるChamfer DistanceおよびEarth Mover's Distanceよりも顕著に向上し,FlyingThings3DおよびKITTIを用いた自己教師型学習手法の最先端性能を実現し,また,地上真実アノテーションを用いた教師型手法よりも優れていた。

In this paper, we present a new self-supervised scene flow estimation approach for a pair of consecutive point clouds. The key idea of our approach is to represent discrete point clouds as continuous probability density functions using Gaussian mixture models. Scene flow estimation is therefore converted into the problem of recovering motion from the alignment of probability density functions, which we achieve using a closed-form expression of the classic Cauchy-Schwarz divergence. Unlike existing nearest-neighbor-bas ed approaches that use hard pairwise correspondences, our proposed approach establishes soft and implicit point correspondences between point clouds and generates more robust and accurate scene flow in the presence of missing correspondences and outliers. Comprehensive experiments show that our method makes noticeable gains over the Chamfer Distance and the Earth Mover's Distance in real-world environments and achieves state-of-the-art performance among self-supervised learning methods on FlyingThings3D and KITTI, even outperforming some supervised methods with ground truth annotations.
翻訳日:2022-03-24 14:51:41 公開日:2022-03-23
# 領域一般化のための深部周波数フィルタ

Deep Frequency Filtering for Domain Generalization ( http://arxiv.org/abs/2203.12198v1 )

ライセンス: Link先を確認
Shiqi Lin, Zhizheng Zhang, Zhipeng Huang, Yan Lu, Cuiling Lan, Peng Chu, Quanzeng You, Jiang Wang, Zicheng Liu, Amey Parulkar, Viraj Navkal, Zhibo Chen(参考訳) ディープニューラルネットワーク(DNN)の一般化能力の向上は,長年にわたる課題である実用上重要な課題である。 いくつかの理論的研究は、DNNが学習過程において異なる周波数成分を好むことを明らかにし、学習特徴の堅牢性に影響を与える可能性があることを示した。 本稿では,学習中の領域間で異なる伝達困難の周波数成分を明示的に変調する最初の試みである,領域一般化型特徴を学習するための深部周波数フィルタリング(dff)を提案する。 そこで我々は,異なる層における特徴マップ上でFast Fourier Transform(FFT)を行い,FFT以降の周波数表現から注目マスクを学習するための軽量モジュールを用いて,伝達可能な周波数成分を増大させ,一般化に導電性のない成分を抑制する。 さらに、概念化されたDFFを実装する上で、異なるタイプの注意を経験的に比較する。 提案するdffの有効性を広範な実験により実証し,dffを平易なベースラインに適用することで,クローズセット分類やオープンセット検索など,異なるドメイン一般化タスクにおける最先端手法よりも優れていることを示した。

Improving the generalization capability of Deep Neural Networks (DNNs) is critical for their practical uses, which has been a longstanding challenge. Some theoretical studies have revealed that DNNs have preferences to different frequency components in the learning process and indicated that this may affect the robustness of learned features. In this paper, we propose Deep Frequency Filtering (DFF) for learning domain-generalizable features, which is the first endeavour to explicitly modulate frequency components of different transfer difficulties across domains during training. To achieve this, we perform Fast Fourier Transform (FFT) on feature maps at different layers, then adopt a light-weight module to learn the attention masks from frequency representations after FFT to enhance transferable frequency components while suppressing the components not conductive to generalization. Further, we empirically compare different types of attention for implementing our conceptualized DFF. Extensive experiments demonstrate the effectiveness of the proposed DFF and show that applying DFF on a plain baseline outperforms the state-of-the-art methods on different domain generalization tasks, including close-set classification and open-set retrieval.
翻訳日:2022-03-24 14:51:20 公開日:2022-03-23
# (参考訳) 半教師付きグラフ学習の次元化 [全文訳有]

Semi-Supervised Graph Learning Meets Dimensionality Reduction ( http://arxiv.org/abs/2203.12522v1 )

ライセンス: CC BY 4.0
Alex Morehead, Watchanan Chantapakul, Jianlin Cheng(参考訳) semi-supervised learning(ssl)は最近、機械学習研究者から注目を集めている。 グラフベースのディープラーニング(GDL)アルゴリズムで既知のラベルを効果的に伝播させることで、SSLは今後数年でGDLでますます使われる技術になりそうだ。 しかし、グラフベースのSSL文献では、ラベルの伝搬を改善するために古典的な次元削減技術を活用する研究はほとんど行われていない。 本研究では,PCA, t-SNE, UMAPなどの次元減少技術を用いて,ノードラベルの半教師付き伝搬のために設計されたグラフニューラルネットワーク(GNN)の性能に与える影響について検討する。 本研究では,Cora や Citeseer などのベンチマーク半教師付き GDL データセットを用いて,各アルゴリズムで学習した表現を次元削減手法と組み合わせて有意義な比較を可能にする。 包括的ベンチマークとクラスタリングの可視化は、ある条件下では、GNN入力と出力に対する事前次元と後続次元の削減を用いて、半教師付きノードラベルの伝搬とノードクラスタリングの有効性を同時に改善できることを示す。 ソースコードはGitHubから無償で入手可能です。

Semi-supervised learning (SSL) has recently received increased attention from machine learning researchers. By enabling effective propagation of known labels in graph-based deep learning (GDL) algorithms, SSL is poised to become an increasingly used technique in GDL in the coming years. However, there are currently few explorations in the graph-based SSL literature on exploiting classical dimensionality reduction techniques for improved label propagation. In this work, we investigate the use of dimensionality reduction techniques such as PCA, t-SNE, and UMAP to see their effect on the performance of graph neural networks (GNNs) designed for semi-supervised propagation of node labels. Our study makes use of benchmark semi-supervised GDL datasets such as the Cora and Citeseer datasets to allow meaningful comparisons of the representations learned by each algorithm when paired with a dimensionality reduction technique. Our comprehensive benchmarks and clustering visualizations quantitatively and qualitatively demonstrate that, under certain conditions, employing a priori and a posteriori dimensionality reduction to GNN inputs and outputs, respectively, can simultaneously improve the effectiveness of semi-supervised node label propagation and node clustering. Our source code is freely available on GitHub.
翻訳日:2022-03-24 14:49:35 公開日:2022-03-23
# 胸部X線分類器の公正性向上

Improving the Fairness of Chest X-ray Classifiers ( http://arxiv.org/abs/2203.12609v1 )

ライセンス: Link先を確認
Haoran Zhang, Natalie Dullerud, Karsten Roth, Lauren Oakden-Rayner, Stephen Robert Pfohl, Marzyeh Ghassemi(参考訳) 深層学習モデルは、医学画像の分野、特に胸部x線を用いた疾患診断において、人間レベルの性能に達している。 しかし、先行研究により、そのような分類器は保護されたグループ間での予測性能のギャップの形でバイアスを示すことが判明した。 本稿では, 予測性能(グループフェアネス)のゼロ格差を達成する努力が, 最悪の症例群のパフォーマンスを最大化することに焦点を当てたミニマックスフェアネスよりも, 臨床設定における適切なフェアネス定義であるかどうかを問う。 これら2つの定義間の分類器の公平性を改善するために,9つの手法の性能をベンチマークした。 非クリニカルデータに関する先行研究と一致して、最悪のグループのパフォーマンス向上を目指す手法は、単純なデータバランシングを上回りません。 また、グループフェアネスを達成する方法は、すべてのグループのパフォーマンスを悪化させることで達成できる。 これらの結果を踏まえ,臨床現場における公平性定義の有用性について考察し,基礎となるデータ生成プロセスにおけるバイアス誘発機構の解明を可能な限り進める。

Deep learning models have reached or surpassed human-level performance in the field of medical imaging, especially in disease diagnosis using chest x-rays. However, prior work has found that such classifiers can exhibit biases in the form of gaps in predictive performance across protected groups. In this paper, we question whether striving to achieve zero disparities in predictive performance (i.e. group fairness) is the appropriate fairness definition in the clinical setting, over minimax fairness, which focuses on maximizing the performance of the worst-case group. We benchmark the performance of nine methods in improving classifier fairness across these two definitions. We find, consistent with prior work on non-clinical data, that methods which strive to achieve better worst-group performance do not outperform simple data balancing. We also find that methods which achieve group fairness do so by worsening performance for all groups. In light of these results, we discuss the utility of fairness definitions in the clinical setting, advocating for an investigation of the bias-inducing mechanisms in the underlying data generating process whenever possible.
翻訳日:2022-03-24 14:35:31 公開日:2022-03-23
# 計算磁気共鳴イメージングのための物理駆動深層学習

Physics-Driven Deep Learning for Computational Magnetic Resonance Imaging ( http://arxiv.org/abs/2203.12215v1 )

ライセンス: Link先を確認
Kerstin Hammernik, Thomas K\"ustner, Burhaneddin Yaman, Zhengnan Huang, Daniel Rueckert, Florian Knoll, Mehmet Ak\c{c}akaya(参考訳) 物理駆動型深層学習法は、コンピュータ磁気共鳴イメージング(MRI)問題に対する強力なツールとして登場し、再構成性能を新たな限界まで押し上げた。 本稿では、物理情報を学習型MRI再構成に組み込んだ最近の進歩の概要について述べる。 計算mriの線形および非線形前方モデルにおける逆問題について考察し,それらの解法を概観する。 次に、物理駆動型ディープラーニングアプローチ、物理駆動型損失関数、プラグ・アンド・プレイ法、生成モデル、およびネットワークを網羅する。 ニューラルネットワークの実数値と複素数値のビルディングブロックや、線形および非線形フォワードモデルを用いたMRIにおける翻訳応用など、ドメイン固有の課題を強調した。 最後に,共通課題とオープン課題について議論し,医学イメージングパイプラインの他のダウンストリームタスクと組み合わせることで,物理駆動学習の重要性に結びつく。

Physics-driven deep learning methods have emerged as a powerful tool for computational magnetic resonance imaging (MRI) problems, pushing reconstruction performance to new limits. This article provides an overview of the recent developments in incorporating physics information into learning-based MRI reconstruction. We consider inverse problems with both linear and non-linear forward models for computational MRI, and review the classical approaches for solving these. We then focus on physics-driven deep learning approaches, covering physics-driven loss functions, plug-and-play methods, generative models, and unrolled networks. We highlight domain-specific challenges such as real- and complex-valued building blocks of neural networks, and translational applications in MRI with linear and non-linear forward models. Finally, we discuss common issues and open challenges, and draw connections to the importance of physics-driven learning when combined with other downstream tasks in the medical imaging pipeline.
翻訳日:2022-03-24 14:35:01 公開日:2022-03-23
# bp依存性関数:確率変数間の依存性の一般的な尺度

The BP Dependency Function: a Generic Measure of Dependence between Random Variables ( http://arxiv.org/abs/2203.12329v1 )

ライセンス: Link先を確認
Guus Berkelmans, Joris Pries, Sandjai Bhulai and Rob van der Mei(参考訳) 確率変数(rv)間の依存関係の測定と定量化は、データセットに対する重要な洞察を与える。 典型的な質問は、 `do underlying relations exists?', `are some variable redundant?', `is some target variable $y$ highly or weakly dependent on variable $x$?' である。 興味深いことに、データ分析の一般的な実践は、RV間の依存関係の汎用的な測定が必要であるにもかかわらず、ほとんどのデータアナリストがピアソン相関係数(PCC)を用いてRV間の依存性の定量化を行っている。 より一般的な依存測度を定義するために多くの試みがなされているが、標準で汎用的な依存関数に関するコンセンサスはまだ存在しない。 実際、依存関数のいくつかの理想的な性質が提案されているが、議論はあまり行われていない。 そこで,本稿では,望ましいプロパティのリストを議論し,修正し,これらすべての要件を満たす新しい依存性関数を提案する。 この汎用依存関数は、データ分析者に変数間の依存度を定量化する強力な手段を提供する。 この目的のために、実際に使用する依存関数を決定するためにPythonコードも提供しています。

Measuring and quantifying dependencies between random variables (RV's) can give critical insights into a data-set. Typical questions are: `Do underlying relationships exist?', `Are some variables redundant?', and `Is some target variable $Y$ highly or weakly dependent on variable $X$?' Interestingly, despite the evident need for a general-purpose measure of dependency between RV's, common practice of data analysis is that most data analysts use the Pearson correlation coefficient (PCC) to quantify dependence between RV's, while it is well-recognized that the PCC is essentially a measure for linear dependency only. Although many attempts have been made to define more generic dependency measures, there is yet no consensus on a standard, general-purpose dependency function. In fact, several ideal properties of a dependency function have been proposed, but without much argumentation. Motivated by this, in this paper we will discuss and revise the list of desired properties and propose a new dependency function that meets all these requirements. This general-purpose dependency function provides data analysts a powerful means to quantify the level of dependence between variables. To this end, we also provide Python code to determine the dependency function for use in practice.
翻訳日:2022-03-24 14:34:44 公開日:2022-03-23
# ALT:「Legibilidade de textos em L\'ingua Portuguesa」のソフトウェア版。

ALT: um software para an\'alise de legibilidade de textos em L\'ingua Portuguesa ( http://arxiv.org/abs/2203.12135v1 )

ライセンス: Link先を確認
Gleice Carvalho de Lima Moreno, Marco P. M. de Souza, Nelson Hein, Adriana Kroenke Hein(参考訳) 人間の生活の初期において、コミュニケーションは社会的相互作用の過程と見なされ、常に当事者間の合意に達する最良の方法であった。 このプロセスにおける理解と信頼性は、相互合意の検証に不可欠である。 しかし、どのようにしてこのコミュニケーションが大質量に達するのか? これは、情報の普及とその承認が求められている場合の主な課題である。 本研究は,Web上で利用可能なポルトガル語に適応した可読性指標から開発したALTソフトウェアを用いて,通信の難易度を低減することを目的とする。 ソフトウェアの開発は、安全で健全な関係の構築と維持に使用されるコミュニケーションチャネルにおける談話の信頼性を測定するために、複数の学際的なスタイルを用いるハーバーマスのコミュニケーション行動の理論に動機づけられた。 -no est\'agio inicial da vida humana a comunica\c{c}\~ao, vista como um processo de intera\c{c}\~ao social, foi sempre o melhor caminho para o consenso entre as partes O entendimento e a credibilidade nesse processo s\~ao fundamentais para que o acordo m'utuo seja validado. mas, como faz\^e-lo de forma que essa comunica\c{c}\~ao alcance a grande massa? Esse \'e o principal desafio quando o que se busca \'e a difus\~ao da informa\c{c}\~ao e a sua aprova\c{c}\~ao Nesse contexto, este estudo apresenta o software ALT, desenvolvido a partir de m\'etricas de legibilidade originais adaptadas para a L\'ingua Portuguesa, dispon\'ivel na web, para reduzir as dificuldades na comunica\c{c}\~ao。 O desenvolvimento do software foi motivado pela teoria do agir comunicativo de Habermas, que faz uso de um estilo multidisciplinar para medir a credibilidade do discurso nos canais de comunica\c{c}\~ao utilizados para construir e manter uma rela\c{c}\~ao segura e saud\'avel com o p'ublico。

In the initial stage of human life, communication, seen as a process of social interaction, was always the best way to reach consensus between the parties. Understanding and credibility in this process are essential for the mutual agreement to be validated. But, how to do it so that this communication reaches the great mass? This is the main challenge when what is sought is the dissemination of information and its approval. In this context, this study presents the ALT software, developed from original readability metrics adapted to the Portuguese language, available on the web, to reduce communication difficulties. The development of the software was motivated by the theory of communicative action of Habermas, which uses a multidisciplinary style to measure the credibility of the discourse in the communication channels used to build and maintain a safe and healthy relationship with the public. -- No est\'agio inicial da vida humana a comunica\c{c}\~ao, vista como um processo de intera\c{c}\~ao social, foi sempre o melhor caminho para o consenso entre as partes. O entendimento e a credibilidade nesse processo s\~ao fundamentais para que o acordo m\'utuo seja validado. Mas, como faz\^e-lo de forma que essa comunica\c{c}\~ao alcance a grande massa? Esse \'e o principal desafio quando o que se busca \'e a difus\~ao da informa\c{c}\~ao e a sua aprova\c{c}\~ao. Nesse contexto, este estudo apresenta o software ALT, desenvolvido a partir de m\'etricas de legibilidade originais adaptadas para a L\'ingua Portuguesa, dispon\'ivel na web, para reduzir as dificuldades na comunica\c{c}\~ao. O desenvolvimento do software foi motivado pela teoria do agir comunicativo de Habermas, que faz uso de um estilo multidisciplinar para medir a credibilidade do discurso nos canais de comunica\c{c}\~ao utilizados para construir e manter uma rela\c{c}\~ao segura e saud\'avel com o p\'ublico.
翻訳日:2022-03-24 14:34:22 公開日:2022-03-23
# chat-capsule:対話レベルの感情分析のための階層カプセル

Chat-Capsule: A Hierarchical Capsule for Dialog-level Emotion Analysis ( http://arxiv.org/abs/2203.12254v1 )

ライセンス: Link先を確認
Yequan Wang, Xuying Meng, Yiyi Liu, Aixin Sun, Yao Wang, Yinhe Zheng, Minlie Huang(参考訳) 対話感情分析に関する多くの研究は発話レベルの感情のみに焦点を当てている。 これらのモデルは、ダイアログレベルの感情検出、すなわちダイアログ全体の感情カテゴリを予測するために最適化されていない。 さらに重要なのは、これらのモデルはダイアログ全体が提供するコンテキストの恩恵を受けられないことです。 現実世界のアプリケーションでは、発話レベルタグ(話者タイプ、意図カテゴリ、感情カテゴリなど)とダイアログレベルタグ(ユーザの満足度、感情曲線カテゴリなど)の両方を含む、ダイアログへのアノテーションがきめ細やかになる可能性がある。 本稿では,発話レベルと対話レベルの両方の感情とその相互関係をモデル化する,コンテキストベースの階層的注意カプセルモデルを提案する。 eコマースプラットフォームの顧客サポートから収集したダイアログデータセットでは,ユーザの満足度や感情曲線のカテゴリを予測することもできる。 感情曲線(Emotion curve)とは、会話の発達に伴う感情の変化を指す。 実験により、提案するチャットカプセルは、ベンチマークデータセットとプロプライエタリデータセットの両方で最先端のベースラインよりも優れていることが示された。 ソースコードは受理後に公開される。

Many studies on dialog emotion analysis focus on utterance-level emotion only. These models hence are not optimized for dialog-level emotion detection, i.e. to predict the emotion category of a dialog as a whole. More importantly, these models cannot benefit from the context provided by the whole dialog. In real-world applications, annotations to dialog could fine-grained, including both utterance-level tags (e.g. speaker type, intent category, and emotion category), and dialog-level tags (e.g. user satisfaction, and emotion curve category). In this paper, we propose a Context-based Hierarchical Attention Capsule~(Chat-Capsul e) model, which models both utterance-level and dialog-level emotions and their interrelations. On a dialog dataset collected from customer support of an e-commerce platform, our model is also able to predict user satisfaction and emotion curve category. Emotion curve refers to the change of emotions along the development of a conversation. Experiments show that the proposed Chat-Capsule outperform state-of-the-art baselines on both benchmark dataset and proprietary dataset. Source code will be released upon acceptance.
翻訳日:2022-03-24 14:31:15 公開日:2022-03-23
# パーソナリティと対人反応性予測のためのプロンプトベース事前学習モデル

Prompt-based Pre-trained Model for Personality and Interpersonal Reactivity Prediction ( http://arxiv.org/abs/2203.12481v1 )

ライセンス: Link先を確認
Bin Li, Yixuan Weng, Qiya Song, Fuyan Ma, Bin Sun, Shutao Li(参考訳) 本稿では,LingJingチームによる主観性・感性・ソーシャルメディア分析ワークショップ(WASSA)2022におけるパーソナリティ予測(PER)と反応性指標予測(IRI)の共有タスクについて述べる。 本稿では,これらの課題を達成するために,事前学習言語モデルを用いたプロンプトベースの手法を採用する。 具体的には、プロンプトは事前学習されたモデルを強化するための追加の知識を提供するように設計されている。 よりよい結果を得るために、データ拡張とモデルアンサンブルが採用されている。 提案手法の有効性を示す広範な実験を行った。 最終提案では, ピアーソン相関係数0.2301と0.2546をトラック3とトラック4でそれぞれ達成した。 両サブタスクでトップ1にランクインした。

This paper describes the LingJing team's method to the Workshop on Computational Approaches to Subjectivity, Sentiment & Social Media Analysis (WASSA) 2022 shared task on Personality Prediction (PER) and Reactivity Index Prediction (IRI). In this paper, we adopt the prompt-based method with the pre-trained language model to accomplish these tasks. Specifically, the prompt is designed to provide the extra knowledge for enhancing the pre-trained model. Data augmentation and model ensemble are adopted for obtaining better results. Extensive experiments are performed, which shows the effectiveness of the proposed method. On the final submission, our system achieves a Pearson Correlation Coefficient of 0.2301 and 0.2546 on Track 3 and Track 4 respectively. We ranked Top-1 on both sub-tasks.
翻訳日:2022-03-24 14:30:57 公開日:2022-03-23
# (参考訳) 天気予報の確率的予測への深層学習アプローチ [全文訳有]

A Deep Learning Approach to Probabilistic Forecasting of Weather ( http://arxiv.org/abs/2203.12529v1 )

ライセンス: CC BY 4.0
Nick Rittler, Carlo Graziani, Jiali Wang, and Rao Kotamarthi(参考訳) 本稿では,予測情報の低次元空間への還元マップを,予測量に関する情報の保存を目的として学習する次元還元ステップと,正規化フローの確率的機械学習技術を用いて予測量と予測量の結合確率密度を計算する密度推定ステップという,2つの連鎖した機械学習ステップに基づく確率的予測手法について論じる。 この結合密度は、条件予測分布を生成するために再正規化される。 この方法では、確率的キャリブレーション試験が正規化手順の役割を担い、第2段階のオーバーフィッティングを防止し、第1段階からの効果的な次元還元が予測シャープネスの源となる。 本手法は,22年間の気象調査・予測(WRF)シミュレーションデータを用いて,グリッド上の表面風の時系列データを用いて検証する。

We discuss an approach to probabilistic forecasting based on two chained machine-learning steps: a dimensional reduction step that learns a reduction map of predictor information to a low-dimensional space in a manner designed to preserve information about forecast quantities; and a density estimation step that uses the probabilistic machine learning technique of normalizing flows to compute the joint probability density of reduced predictors and forecast quantities. This joint density is then renormalized to produce the conditional forecast distribution. In this method, probabilistic calibration testing plays the role of a regularization procedure, preventing overfitting in the second step, while effective dimensional reduction from the first step is the source of forecast sharpness. We verify the method using a 22-year 1-hour cadence time series of Weather Research and Forecasting (WRF) simulation data of surface wind on a grid.
翻訳日:2022-03-24 14:27:44 公開日:2022-03-23
# 深部生成モデルによる降水予測の精度と解像度の向上

Increasing the accuracy and resolution of precipitation forecasts using deep generative models ( http://arxiv.org/abs/2203.12297v1 )

ライセンス: Link先を確認
Ilan Price, Stephan Rasp(参考訳) 極端な降雨の正確な予測は難しいが、気候変動が極端な降雨の頻度を増大させるにつれて、社会にとってさらに重要となる。 地球規模での気象予報モデルはしばしば極端に捉えられず、局所的な高分解能モデルは計算と労働の両方において非常に高価であるのに対し、解像度が低くて実行不可能である。 本稿では,米国大陸におけるグローバルアンサンブル予測の修正とダウンスケールを同時に行うための,深層生成モデルの利用について検討する。 具体的には,細粒度のレーダー観測を基礎として,独自の訓練手順と拡張損失関数を用いて条件付き生成型敵ネットワークを訓練し,他の関連する気象分野に加えて,粗大で大域的な降水予測に基づく高精度なバイアス補正予測のアンサンブルを作成する。 我々のモデルは補間ベースラインと超分解能のみおよびCNNに基づく単変量法を上回り、確立された確率的指標の配列にまたがる運用領域の高分解能モデルの性能にアプローチする。 重要なことは、一度訓練されたCorrectorGANは、1台のマシンで数秒で予測を生成する。 これらの結果から,地域モデルの必要性やデータ駆動型ダウンスケール法や補正法が,これまで高解像度の予測にはアクセスできなかったデータマイニング領域に移行可能であるか,という,エキサイティングな疑問が浮かび上がっている。

Accurately forecasting extreme rainfall is notoriously difficult, but is also ever more crucial for society as climate change increases the frequency of such extremes. Global numerical weather prediction models often fail to capture extremes, and are produced at too low a resolution to be actionable, while regional, high-resolution models are hugely expensive both in computation and labour. In this paper we explore the use of deep generative models to simultaneously correct and downscale (super-resolve) global ensemble forecasts over the Continental US. Specifically, using fine-grained radar observations as our ground truth, we train a conditional Generative Adversarial Network -- coined CorrectorGAN -- via a custom training procedure and augmented loss function, to produce ensembles of high-resolution, bias-corrected forecasts based on coarse, global precipitation forecasts in addition to other relevant meteorological fields. Our model outperforms an interpolation baseline, as well as super-resolution-onl y and CNN-based univariate methods, and approaches the performance of an operational regional high-resolution model across an array of established probabilistic metrics. Crucially, CorrectorGAN, once trained, produces predictions in seconds on a single machine. These results raise exciting questions about the necessity of regional models, and whether data-driven downscaling and correction methods can be transferred to data-poor regions that so far have had no access to high-resolution forecasts.
翻訳日:2022-03-24 14:08:48 公開日:2022-03-23
# 線形逆問題における教師なし学習のためのサンプリング定理

Sampling Theorems for Unsupervised Learning in Linear Inverse Problems ( http://arxiv.org/abs/2203.12513v1 )

ライセンス: Link先を確認
Juli\'an Tachella, Dongdong Chen and Mike Davies(参考訳) 線形逆問題の解法は、基礎となる信号モデルに関する知識を必要とする。 多くのアプリケーションにおいて、このモデルは未知であり、データから学ぶ必要がある。 しかし、逆演算子の範囲外の情報がないため、単一の不完全測定子によって得られた観測値を用いてモデルを学習することは不可能であり、結果として鶏卵の問題が発生する。 この制限を克服する2つの方法は、複数の測定演算子を使用するか、信号モデルがある群作用に不変であると仮定する。 本稿では,モデルの次元のみに依存する部分的測定から信号モデルを学習するための必要十分かつ十分なサンプリング条件と,そのモデルが不変である群作用の演算子数や特性について述べる。 我々の結果は学習アルゴリズムに依存せず、不完全なデータから学習する基本的な限界に光を当て、辞書学習、マトリックス補完、ディープニューラルネットワークなど、幅広い実用的なアルゴリズムに影響を与えている。

Solving a linear inverse problem requires knowledge about the underlying signal model. In many applications, this model is a priori unknown and has to be learned from data. However, it is impossible to learn the model using observations obtained via a single incomplete measurement operator, as there is no information outside the range of the inverse operator, resulting in a chicken-and-egg problem: to learn the model we need reconstructed signals, but to reconstruct the signals we need to know the model. Two ways to overcome this limitation are using multiple measurement operators or assuming that the signal model is invariant to a certain group action. In this paper, we present necessary and sufficient sampling conditions for learning the signal model from partial measurements which only depend on the dimension of the model, and the number of operators or properties of the group action that the model is invariant to. As our results are agnostic of the learning algorithm, they shed light into the fundamental limitations of learning from incomplete data and have implications in a wide range set of practical algorithms, such as dictionary learning, matrix completion and deep neural networks.
翻訳日:2022-03-24 14:08:19 公開日:2022-03-23
# 時間モデルを用いたVQに基づく高速オンライン署名認識

Fast on-line signature recognition based on VQ with time modeling ( http://arxiv.org/abs/2203.12104v1 )

ライセンス: Link先を確認
Juan-Manuel Pascual-Gaspar, Marcos Faundez-Zanuy, Carlos Vivaracho(参考訳) 本稿では,オンライン署名認識のための多区間ベクトル量子化手法を提案する。 MCYTデータベースは,5人のインポスタが実施した330ユーザと25人の熟練したフォージェリーで構成されている。 このデータベースは、通常文献で使用されるものよりも大きい。 それでも、SVCデータベースの結果も提供します。 提案システムは,DTWの約47倍の計算量で,SVCの勝者よりも優れていた。 さらに,本システムでは,ベクトル圧縮によるデータベースストレージの要件を改良し,コードブックを用いて元の署名を復元できないため,よりプライバシーに配慮した。 MCYTの実験結果は99.76%の識別率と2.46%のEER(熟練した偽造品と個々の閾値)を提供する。 SVCを用いた実験では,2分割VQ法では100%の識別率,0%(個人平均閾値),0.31%(一般閾値)が得られた。

This paper proposes a multi-section vector quantization approach for on-line signature recognition. We have used the MCYT database, which consists of 330 users and 25 skilled forgeries per person performed by 5 different impostors. This database is larger than those typically used in the literature. Nevertheless, we also provide results from the SVC database. Our proposed system outperforms the winner of SVC with a reduced computational requirement, which is around 47 times lower than DTW. In addition, our system improves the database storage requirements due to vector compression, and is more privacy-friendly as it is not possible to recover the original signature using the codebooks. Experimental results with MCYT provide a 99.76% identification rate and 2.46% EER (skilled forgeries and individual threshold). Experimental results with SVC are 100% of identification rate and 0% (individual threshold) and 0.31% (general threshold) when using a two-section VQ approach.
翻訳日:2022-03-24 14:08:02 公開日:2022-03-23
# 歩行者識別のためのマイクロドップラーシグネチャを用いた多特性学習法

A Multi-Characteristic Learning Method with Micro-Doppler Signatures for Pedestrian Identification ( http://arxiv.org/abs/2203.12236v1 )

ライセンス: Link先を確認
Yu Xiang, Yu Huang, Haodong Xu, Guangbo Zhang, and Wenyong Wang(参考訳) 近年,レーダーマイクロドップラーシグネチャを用いた歩行者の識別が注目されている。 本稿では,異なる歩行者用マイクロドップラーシグネチャを共同で学習し,各クラスタから学んだ知識を最終決定に融合する,クラスタを用いたマルチ特性学習(MCL)モデルを提案する。 FMCWレーダから抽出したTDS(Time-Doppler Spectrogram)と信号統計学的特徴(micro-Dopplerシグネチャの2つのカテゴリ)は、歩行者の自由歩行パターン内のマイクロモーション情報を学習するためにMCLで使用される。 実験結果から, 本モデルは他の研究よりも精度が高く, 歩行者識別の安定性が向上し, 実用性が向上した。

The identification of pedestrians using radar micro-Doppler signatures has become a hot topic in recent years. In this paper, we propose a multi-characteristic learning (MCL) model with clusters to jointly learn discrepant pedestrian micro-Doppler signatures and fuse the knowledge learned from each cluster into final decisions. Time-Doppler spectrogram (TDS) and signal statistical features extracted from FMCW radar, as two categories of micro-Doppler signatures, are used in MCL to learn the micro-motion information inside pedestrians' free walking patterns. The experimental results show that our model achieves a higher accuracy rate and is more stable for pedestrian identification than other studies, which make our model more practical.
翻訳日:2022-03-24 14:07:46 公開日:2022-03-23
# (参考訳) GriTS:テーブル構造認識のためのグリッドテーブル類似度メトリック [全文訳有]

GriTS: Grid table similarity metric for table structure recognition ( http://arxiv.org/abs/2203.12555v1 )

ライセンス: CC BY 4.0
Brandon Smock and Rohith Pesala and Robin Abraham(参考訳) 本稿では,テーブル構造認識のための新しい評価指標であるグリッドテーブル類似性(grits)を提案する。 従来の測度とは異なり、GriTSは予測表の正しさを、その自然な形で行列として直接評価する。 行列間の類似度尺度を作成するために、NPハードな2次元最大の共通部分構造(2D-LCS)問題を2次元最も類似した部分構造(2D-MSS)問題に一般化し、それを解く多項式時間ヒューリスティックを提案する。 本研究では,表構造認識のための代替手段よりも,行列の比較が望ましい行動を示すPubTables-1Mデータセットを実証的に検証した。 GriTSはまた、同じフレームワーク内で細胞トポロジ認識、細胞位置認識、細胞コンテンツ認識の3つのサブタスクを統一し、評価を単純化し、異なるタイプの構造認識アプローチ間でより有意義な比較を可能にする。 コードはhttps://github.com/m icrosoft/table-trans formerでリリースされる。

In this paper, we propose a new class of evaluation metric for table structure recognition, grid table similarity (GriTS). Unlike prior metrics, GriTS evaluates the correctness of a predicted table directly in its natural form as a matrix. To create a similarity measure between matrices, we generalize the two-dimensional largest common substructure (2D-LCS) problem, which is NP-hard, to the 2D most similar substructures (2D-MSS) problem and propose a polynomial-time heuristic for solving it. We validate empirically using the PubTables-1M dataset that comparison between matrices exhibits more desirable behavior than alternatives for table structure recognition evaluation. GriTS also unifies all three subtasks of cell topology recognition, cell location recognition, and cell content recognition within the same framework, which simplifies the evaluation and enables more meaningful comparisons across different types of structure recognition approaches. Code will be released at https://github.com/m icrosoft/table-trans former.
翻訳日:2022-03-24 14:05:31 公開日:2022-03-23
# adversarial detectionのための入力特異的注意サブネットワーク

Input-specific Attention Subnetworks for Adversarial Detection ( http://arxiv.org/abs/2203.12298v1 )

ライセンス: Link先を確認
Emil Biju, Anirudh Sriram, Pratyush Kumar, Mitesh M Khapra(参考訳) 自己アテンションヘッドはトランスフォーマーモデルの特徴であり、解釈性とプルーニングのためによく研究されている。 本研究は, 全く異なる注意頭の有用性, すなわち, 対向検出の実用性を実証するものである。 具体的には,入力固有の注意サブネットワーク(ias)を構築する手法を提案する。 その結果、11種類の異なる攻撃タイプを持つ10個のNLUデータセット上のBERTエンコーダの最先端の逆検出精度が7.5%以上向上した。 私たちはまた、我々の方法が (a)は、より刺激的な相関関係を持ち、敵の攻撃に弱い大きなモデルに対してより正確である。 (b)控えめな実例の訓練セットでもうまく機能する。

Self-attention heads are characteristic of Transformer models and have been well studied for interpretability and pruning. In this work, we demonstrate an altogether different utility of attention heads, namely for adversarial detection. Specifically, we propose a method to construct input-specific attention subnetworks (IAS) from which we extract three features to discriminate between authentic and adversarial inputs. The resultant detector significantly improves (by over 7.5%) the state-of-the-art adversarial detection accuracy for the BERT encoder on 10 NLU datasets with 11 different adversarial attack types. We also demonstrate that our method (a) is more accurate for larger models which are likely to have more spurious correlations and thus vulnerable to adversarial attack, and (b) performs well even with modest training sets of adversarial examples.
翻訳日:2022-03-24 13:55:53 公開日:2022-03-23
# (参考訳) ポリシーレギュレータは、秘密裏に敵だ

Your Policy Regularizer is Secretly an Adversary ( http://arxiv.org/abs/2203.12592v1 )

ライセンス: CC BY 4.0
Rob Brekelmans, Tim Genewein, Jordi Grau-Moya, Gr\'egoire Del\'etang, Markus Kunesch, Shane Legg, Pedro Ortega(参考訳) 強化学習では,最大エントロピー正則化などの方針正則化手法が広く用いられ,学習方針の堅牢性が向上している。 本稿では,この頑健性が,想像上の敵によって限定された集合から選択される報奨関数の最悪の摂動に対するヘッジから生じることを示す。 凸双対性を用いて、Shannon と Tsallis のエントロピー正規化を含む KL- および {\alpha} 分割正規化の下で、この頑健な対向的報酬摂動を特別な場合として特徴づける。 重要なことに、一般化の保証はこのロバストな集合内で与えられる。 我々は,最悪の場合の報酬の摂動について詳細な議論を行い,その頑健さと一般化との関係を説明するために直感的な実証例を示す。 最後に、我々の分析が、逆報酬の堅牢性および経路整合性最適条件について、過去の結果を補完し、拡張する方法について論じる。

Policy regularization methods such as maximum entropy regularization are widely used in reinforcement learning to improve the robustness of a learned policy. In this paper, we show how this robustness arises from hedging against worst-case perturbations of the reward function, which are chosen from a limited set by an imagined adversary. Using convex duality, we characterize this robust set of adversarial reward perturbations under KL- and {\alpha}-divergence regularization, which includes Shannon and Tsallis entropy regularization as special cases. Importantly, generalization guarantees can be given within this robust set. We provide detailed discussion of the worst-case reward perturbations, and present intuitive empirical examples to illustrate this robustness and its relationship with generalization. Finally, we discuss how our analysis complements and extends previous results on adversarial reward robustness and path consistency optimality conditions.
翻訳日:2022-03-24 13:52:09 公開日:2022-03-23
# Spine MR画像の分割のための半教師付きハイブリッドスピンネットワーク

Semi-Supervised Hybrid Spine Network for Segmentation of Spine MR Images ( http://arxiv.org/abs/2203.12151v1 )

ライセンス: Link先を確認
Meiyan Huang, Shuoling Zhou, Xiumei Chen, Haoran Lai, Qianjin Feng(参考訳) 3次元磁気共鳴(MR)画像における椎体(VBs)と椎間板(IVDs)の自動分画は脊椎疾患の診断・治療に不可欠である。 しかし、VBとIVDを同時に分割することは自明ではない。 さらに、異方性分解によるぼやけたセグメンテーション、高い計算コスト、クラス間類似性とクラス内変動性、データ不均衡といった問題も存在する。 我々は,これらの問題に対して,VBとIVDの同時分割を高精度に実現し,半教師付きハイブリッドスピネルネットワーク(SSHSNet)という2段階のアルゴリズムを提案した。 まず,2次元半監督型DeepLabv3+をクロス擬似監督を用いて構築し,スライス内特徴と粗いセグメンテーションを得た。 第2段階では、3Dフル解像度のパッチベースのDeepLabv3+が製造された。 このモデルは、スライス間情報を抽出し、第1段階から提供される粗いセグメンテーションとスライス内特徴を組み合わせるために使用できる。 さらに、2dおよび3dネットワークから別々に生成されたスライス間情報およびスライス内情報の損失を補償するためにクロストリアテンションモジュールを適用し、特徴表現能力を改善し、良好なセグメンテーション結果を得た。 提案したSSHSNetはスピンMR画像データセットで検証され,顕著なセグメンテーション性能が得られた。 また,提案手法は,データ不均衡問題に対処する上で大きな可能性を秘めている。 前回の報告に基づいて、脊椎分割のためのクロスアテンション機構を備えた半教師付き学習戦略を組み込んだ研究はほとんどない。 したがって, 脊椎疾患の診断や治療において, 脊椎分節や補助に有用なツールを提供することができる。 コードはhttps://github.com/M eiyan88/SSHSNet.comで公開されている。

Automatic segmentation of vertebral bodies (VBs) and intervertebral discs (IVDs) in 3D magnetic resonance (MR) images is vital in diagnosing and treating spinal diseases. However, segmenting the VBs and IVDs simultaneously is not trivial. Moreover, problems exist, including blurry segmentation caused by anisotropy resolution, high computational cost, inter-class similarity and intra-class variability, and data imbalances. We proposed a two-stage algorithm, named semi-supervised hybrid spine network (SSHSNet), to address these problems by achieving accurate simultaneous VB and IVD segmentation. In the first stage, we constructed a 2D semi-supervised DeepLabv3+ by using cross pseudo supervision to obtain intra-slice features and coarse segmentation. In the second stage, a 3D full-resolution patch-based DeepLabv3+ was built. This model can be used to extract inter-slice information and combine the coarse segmentation and intra-slice features provided from the first stage. Moreover, a cross tri-attention module was applied to compensate for the loss of inter-slice and intra-slice information separately generated from 2D and 3D networks, thereby improving feature representation ability and achieving satisfactory segmentation results. The proposed SSHSNet was validated on a publicly available spine MR image dataset, and remarkable segmentation performance was achieved. Moreover, results show that the proposed method has great potential in dealing with the data imbalance problem. Based on previous reports, few studies have incorporated a semi-supervised learning strategy with a cross attention mechanism for spine segmentation. Therefore, the proposed method may provide a useful tool for spine segmentation and aid clinically in spinal disease diagnoses and treatments. Codes are publicly available at: https://github.com/M eiyan88/SSHSNet.
翻訳日:2022-03-24 13:49:48 公開日:2022-03-23
# 知識継承による効率的なマイノリティショット物体検出

Efficient Few-Shot Object Detection via Knowledge Inheritance ( http://arxiv.org/abs/2203.12224v1 )

ライセンス: Link先を確認
Ze Yang, Chi Zhang, Ruibo Li and Guosheng Lin(参考訳) Few-shot Object Detection (FSOD)は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器の学習を目的としている。 しかし、既存のほとんどの手法は、例えば高い計算複雑性と遅い適応速度といった効率の問題を無視している。 特に、組み込みAIへの新たなトレンドにより、効率性は、数ショットのテクニックにとってますます重要な評価指標になっている。 そこで本研究では,従来の最先端(SOTA)手法に匹敵する計算量の増大を伴わない,効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。 このベースラインでは、知識継承(KI)という名前のイニシャライザを考案し、ボックス分類器の新しい重みを確実に初期化し、知識伝達プロセスを効果的に促進し、適応速度を向上する。 ki初期化器内では,予測された新しい重みと事前学習されたベース重みとのベクトル長不整合を緩和する適応長再スケーリング(alr)戦略を提案する。 最後に,提案手法は,PASCAL VOC,COCO,LVISの3つの公開ベンチマーク間でSOTA結果を達成するだけでなく,COCO/LVISベンチマークの他の手法に比べて1.8-9.0倍高速な適応速度を示す。 我々の知る限りでは、FSODの効率問題を考えるのはこれが初めてである。 私たちは、強力で効率的な数ショット技術開発へのトレンドを動機づけたいと考えています。 コードはhttps://github.com/Z e-Yang/Efficient-FSO D.comで公開されている。

Few-shot object detection (FSOD), which aims at learning a generic detector that can adapt to unseen tasks with scarce training samples, has witnessed consistent improvement recently. However, most existing methods ignore the efficiency issues, e.g., high computational complexity and slow adaptation speed. Notably, efficiency has become an increasingly important evaluation metric for few-shot techniques due to an emerging trend toward embedded AI. To this end, we present an efficient pretrain-transfer framework (PTF) baseline with no computational increment, which achieves comparable results with previous state-of-the-art (SOTA) methods. Upon this baseline, we devise an initializer named knowledge inheritance (KI) to reliably initialize the novel weights for the box classifier, which effectively facilitates the knowledge transfer process and boosts the adaptation speed. Within the KI initializer, we propose an adaptive length re-scaling (ALR) strategy to alleviate the vector length inconsistency between the predicted novel weights and the pretrained base weights. Finally, our approach not only achieves the SOTA results across three public benchmarks, i.e., PASCAL VOC, COCO and LVIS, but also exhibits high efficiency with 1.8-9.0x faster adaptation speed against the other methods on COCO/LVIS benchmark during few-shot transfer. To our best knowledge, this is the first work to consider the efficiency problem in FSOD. We hope to motivate a trend toward powerful yet efficient few-shot technique development. The codes are publicly available at https://github.com/Z e-Yang/Efficient-FSO D.
翻訳日:2022-03-24 13:49:16 公開日:2022-03-23
# 半教師付き物体検出のためのスケール等価蒸留

Scale-Equivalent Distillation for Semi-Supervised Object Detection ( http://arxiv.org/abs/2203.12244v1 )

ライセンス: Link先を確認
Qiushan Guo, Yao Mu, Jianyu Chen, Tianqi Wang, Yizhou Yu, Ping Luo(参考訳) 最近の半教師付きオブジェクト検出(ss-od)法は,教師モデルによる教師モデルによるハード擬似ラベル生成を教師信号として用いた自己学習に基づく。 彼らは一定の成功を収めたが、半教師付き学習におけるラベル付きデータの制限は、オブジェクト検出の課題をスケールアップする。 これらの手法が経験的な実験結果と合致する課題を分析した。 大規模な偽陰性サンプルと低位置化精度は考慮されていない。 さらに、物体の大きさと階級不均衡の大きなばらつき(背景と物体の極端な比率)は、先行芸術のパフォーマンスを妨げている。 さらに, 大規模分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるスケール・等価蒸留(SED)を導入することで, これらの課題を克服する。 SEDは以前の作品と比べていくつかの魅力的な利点がある。 1)SEDは大規模分散問題に対処するために整合正則化を課す。 2) SEDは, 偽陰性サンプルと低位置化精度からノイズ問題を緩和する。 (3) 再重み付け戦略は、未ラベルデータの潜在的前景領域を暗黙的にスクリーニングし、クラス不均衡の影響を低減できる。 大規模な実験により、SEDは様々なデータセットで最新の最先端の手法を常に上回っていることがわかった。 例えば、MS-COCO上で5%と10%のラベル付きデータを使用する場合、監督対象を10mAP以上上回る。

Recent Semi-Supervised Object Detection (SS-OD) methods are mainly based on self-training, i.e., generating hard pseudo-labels by a teacher model on unlabeled data as supervisory signals. Although they achieved certain success, the limited labeled data in semi-supervised learning scales up the challenges of object detection. We analyze the challenges these methods meet with the empirical experiment results. We find that the massive False Negative samples and inferior localization precision lack consideration. Besides, the large variance of object sizes and class imbalance (i.e., the extreme ratio between background and object) hinder the performance of prior arts. Further, we overcome these challenges by introducing a novel approach, Scale-Equivalent Distillation (SED), which is a simple yet effective end-to-end knowledge distillation framework robust to large object size variance and class imbalance. SED has several appealing benefits compared to the previous works. (1) SED imposes a consistency regularization to handle the large scale variance problem. (2) SED alleviates the noise problem from the False Negative samples and inferior localization precision. (3) A re-weighting strategy can implicitly screen the potential foreground regions of the unlabeled data to reduce the effect of class imbalance. Extensive experiments show that SED consistently outperforms the recent state-of-the-art methods on different datasets with significant margins. For example, it surpasses the supervised counterpart by more than 10 mAP when using 5% and 10% labeled data on MS-COCO.
翻訳日:2022-03-24 13:48:48 公開日:2022-03-23
# MT-UDA:限られたソースラベルを用いた非教師なしクロスモダリティ医療画像セグメンテーションを目指して

MT-UDA: Towards Unsupervised Cross-modality Medical Image Segmentation with Limited Source Labels ( http://arxiv.org/abs/2203.12454v1 )

ライセンス: Link先を確認
Ziyuan Zhao, Kaixin Xu, Shumeng Li, Zeng Zeng, Cuntai Guan(参考訳) deep convolutional neural networks (dcnns)の成功は、大量の注釈付きデータの恩恵を受ける。 しかし、医療画像に注釈をつけるのは手間がかかり、費用がかかり、人間の専門知識が必要となる。 特にドメインシフトに遭遇すると、問題はより深刻になる。 深層非教師付きドメイン適応(UDA)は、確立されたソースドメインアノテーションと豊富なターゲットドメインデータを利用して、クロスモダリティ画像のセグメンテーションを促進し、ターゲットドメイン上のラベルパウシティ問題を緩和するが、従来のUDAメソッドは、ソースドメインアノテーションが不足すると、大幅なパフォーマンス劣化に悩まされる。 本稿では、限られたソースドメインアノテーションという挑戦的なUDA設定について検討する。 本研究の目的は、ソースおよびターゲットドメインからのラベルなしデータを、モダリティ横断画像分割のための限られたソースアノテーションで効率的に活用する方法を検討することである。 そこで,本研究では,限られたソースラベルで学習した学生モデルが,それぞれ2つの教師モデルでラベル付きデータから学習する,mt-udaと呼ばれる新しいラベル効率の高いudaフレームワークを提案する。 より具体的には、学生モデルは予測一貫性を促進することによってドメイン内意味知識を蒸留するだけでなく、構造的一貫性を強制することによってドメイン間解剖情報を利用する。 これにより、学生モデルは、利用可能なデータリソースの下にある基礎知識を効果的に統合し、ソースラベルの不足の影響を緩和し、モダリティのセグメンテーション性能を向上させることができる。 本手法をMM-WHS 2017データセット上で評価し, 情報源ラベルの不足シナリオ下では, 最先端手法よりも高い性能を示すことを示す。

The success of deep convolutional neural networks (DCNNs) benefits from high volumes of annotated data. However, annotating medical images is laborious, expensive, and requires human expertise, which induces the label scarcity problem. Especially when encountering the domain shift, the problem becomes more serious. Although deep unsupervised domain adaptation (UDA) can leverage well-established source domain annotations and abundant target domain data to facilitate cross-modality image segmentation and also mitigate the label paucity problem on the target domain, the conventional UDA methods suffer from severe performance degradation when source domain annotations are scarce. In this paper, we explore a challenging UDA setting - limited source domain annotations. We aim to investigate how to efficiently leverage unlabeled data from the source and target domains with limited source annotations for cross-modality image segmentation. To achieve this, we propose a new label-efficient UDA framework, termed MT-UDA, in which the student model trained with limited source labels learns from unlabeled data of both domains by two teacher models respectively in a semi-supervised manner. More specifically, the student model not only distills the intra-domain semantic knowledge by encouraging prediction consistency but also exploits the inter-domain anatomical information by enforcing structural consistency. Consequently, the student model can effectively integrate the underlying knowledge beneath available data resources to mitigate the impact of source label scarcity and yield improved cross-modality segmentation performance. We evaluate our method on MM-WHS 2017 dataset and demonstrate that our approach outperforms the state-of-the-art methods by a large margin under the source-label scarcity scenario.
翻訳日:2022-03-24 13:48:23 公開日:2022-03-23
# 対人的役割反転による蒸留言語モデルにおけるジェンダーバイアスの軽減

Mitigating Gender Bias in Distilled Language Models via Counterfactual Role Reversal ( http://arxiv.org/abs/2203.12574v1 )

ライセンス: Link先を確認
Umang Gupta, Jwala Dhamala, Varun Kumar, Apurv Verma, Yada Pruksachatkun, Satyapriya Krishna, Rahul Gupta, Kai-Wei Chang, Greg Ver Steeg, Aram Galstyan(参考訳) 言語モデルはコヒーレントテキストの生成に優れており、知識蒸留のようなモデル圧縮技術はリソース制約された設定での使用を可能にしている。 しかし、これらのモデルは、男女の性別と性別中立の職業の無根拠な関連を含む、複数の方法でバイアスを負うことができる。 したがって、公平性制約のない知識蒸留は、教師モデルのバイアスを蒸留モデルに保存または誇張することができる。 そこで本研究では, 知識蒸留中に公平なモデルを学習することにより, テキスト生成における男女差を緩和する新しい手法を提案する。 本稿では, 教師の確率の修正とトレーニングセットの強化により, 対実的役割逆転に基づく基本知識蒸留の2つの改良を提案する。 我々は, 蒸留および微調整されたgpt$\unicode{x2012}$2モデルから生成したオープンエンドテキストにおいて, 職業間の性極性を評価し, 実用面での小さな妥協だけで, 男女格差の実質的な低減を示す。 最後に、言語生成における性極性を低減する言語モデルは、埋め込みフェアネスや下流分類フェアネスを改善するものではないことを観察する。

Language models excel at generating coherent text, and model compression techniques such as knowledge distillation have enabled their use in resource-constrained settings. However, these models can be biased in multiple ways, including the unfounded association of male and female genders with gender-neutral professions. Therefore, knowledge distillation without any fairness constraints may preserve or exaggerate the teacher model's biases onto the distilled model. To this end, we present a novel approach to mitigate gender disparity in text generation by learning a fair model during knowledge distillation. We propose two modifications to the base knowledge distillation based on counterfactual role reversal$\unicode{x2014}$modifying teacher probabilities and augmenting the training set. We evaluate gender polarity across professions in open-ended text generated from the resulting distilled and finetuned GPT$\unicode{x2012}$2 models and demonstrate a substantial reduction in gender disparity with only a minor compromise in utility. Finally, we observe that language models that reduce gender polarity in language generation do not improve embedding fairness or downstream classification fairness.
翻訳日:2022-03-24 13:47:39 公開日:2022-03-23
# オフセット付き周期性に基づく配車需要予測のための時空間注意多グラフ畳み込みネットワーク

A Spatial-Temporal Attention Multi-Graph Convolution Network for Ride-Hailing Demand Prediction Based on Periodicity with Offset ( http://arxiv.org/abs/2203.12505v1 )

ライセンス: Link先を確認
Dong Xing, Chenguang Zhao, Gang Wang(参考訳) 配車サービスは都市交通の主役になりつつある。 配車サービスの効率を向上させるためには,交通需要の正確な予測が不可欠である。 本稿では,ネットワーク構造とデータセットの定式化の両面からこの問題に対処する。 ネットワーク設計のために,空間的注意型マルチグラフ畳み込みネットワーク(STA-MGCN)を提案する。 STA-MGCNの空間時間層は、時間的注意機構と時間的ゲート畳み込みにより時間的相関を捉え、空間的相関を多重グラフ畳み込みにより捉える。 潜在地域関数を学習し、計算負担を軽減するために特徴クラスタ層を導入する。 データセットの定式化のために、オフセットによる周期性の輸送特性を考慮した新しいアプローチを開発する。 また、同じ期間に履歴データのみを使用する代わりに、昨日と先週の前後の隣接期間の履歴注文要求も含んでいる。 New-York、Chicago、Chengduの3つの実世界のデータセットに対する大規模な実験は、提案アルゴリズムが配車需要予測の最先端のパフォーマンスを達成することを示している。

Ride-hailing service is becoming a leading part in urban transportation. To improve the efficiency of ride-hailing service, accurate prediction of transportation demand is a fundamental challenge. In this paper, we tackle this problem from both aspects of network structure and data-set formulation. For network design, we propose a spatial-temporal attention multi-graph convolution network (STA-MGCN). A spatial-temporal layer in STA-MGCN is developed to capture the temporal correlations by temporal attention mechanism and temporal gate convolution, and the spatial correlations by multigraph convolution. A feature cluster layer is introduced to learn latent regional functions and to reduce the computation burden. For the data-set formulation, we develop a novel approach which considers the transportation feature of periodicity with offset. Instead of only using history data during the same time period, the history order demand in forward and backward neighboring time periods from yesterday and last week are also included. Extensive experiments on the three real-world datasets of New-York, Chicago and Chengdu show that the proposed algorithm achieves the state-of-the-art performance for ride-hailing demand prediction.
翻訳日:2022-03-24 13:46:09 公開日:2022-03-23
# 最大確率理論による分布検出・一般化・ロバスト性三角形の展開

Out of Distribution Detection, Generalization, and Robustness Triangle with Maximum Probability Theorem ( http://arxiv.org/abs/2203.12145v1 )

ライセンス: Link先を確認
Amir Emad Marvasti, Ehsan Emad Marvasti, Ulas Bagci(参考訳) Maximum Probability Frameworkは、最大確率理論(Maximum Probability Theorem)を駆使した最近の理論開発であり、確率モデルを正式に定義すること、目的関数の開発を導くこと、確率モデルを正規化することを目的としている。 MPTは、モデルが確率変数に仮定する確率分布を用いて、モデルの確率の上限を与える。 我々は,MPTをCNNのトレーニングにおける正規化スキームとして組み込むことにより,コンピュータビジョンにおけるアウト・オブ・ディストリビューション(OOD)検出問題に挑戦する。 ハイパーパラメータの異なる1080モデルにおいて,提案手法の有効性を実証し,基本モデルの一般化とロバスト性の向上と,cifar10,cifar100,mn istデータセットでのood性能の向上を両立させた。

Maximum Probability Framework, powered by Maximum Probability Theorem, is a recent theoretical development, aiming to formally define probabilistic models, guiding development of objective functions, and regularization of probabilistic models. MPT uses the probability distribution that the models assume on random variables to provide an upper bound on probability of the model. We apply MPT to challenging out-of-distribution (OOD) detection problems in computer vision by incorporating MPT as a regularization scheme in training of CNNs and their energy based variants. We demonstrate the effectiveness of the proposed method on 1080 trained models, with varying hyperparameters, and conclude that MPT based regularization strategy both stabilizes and improves the generalization and robustness of base models in addition to improved OOD performance on CIFAR10, CIFAR100 and MNIST datasets.
翻訳日:2022-03-24 13:45:50 公開日:2022-03-23
# 動的スケール深部カノニカル相関解析

Dynamically-Scaled Deep Canonical Correlation Analysis ( http://arxiv.org/abs/2203.12377v1 )

ライセンス: Link先を確認
Tomer Friedlander, Lior Wolf(参考訳) 正準相関解析(英: canonical correlation analysis、cca)は、それらの最大相関線形射影を見つけることにより、2つの視点の特徴抽出法である。 CCAのいくつかの変種は、特に2つのビューの高相関性非線形変換を学習するためのディープニューラルネットワークに基づく変種である。 これらのモデルが従来よりパラメータ化されているため、学習可能なパラメータはトレーニングプロセス後に入力から独立している。 入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。 深いccaモデルでは、最終層のパラメータはモデルの入力に基づいて条件づけされた第2のニューラルネットワークによってスケールされ、その結果、入力サンプルに依存するパラメータ化が行われる。 提案手法を複数のデータセット上で評価し,従来のパラメータ化CCAモデルと比較して学習結果がより相関していることを示す。 私たちのコードはhttps://github.com/t omerfr/DynamicallySc aledDeepCCAで利用可能です。

Canonical Correlation Analysis (CCA) is a method for feature extraction of two views by finding maximally correlated linear projections of them. Several variants of CCA have been introduced in the literature, in particular, variants based on deep neural networks for learning highly correlated nonlinear transformations of two views. As these models are parameterized conventionally, their learnable parameters remain independent of the inputs after the training process, which may limit their capacity for learning highly correlated representations. We introduce a novel dynamic scaling method for training an input-dependent canonical correlation model. In our deep-CCA models, the parameters of the last layer are scaled by a second neural network that is conditioned on the model's input, resulting in a parameterization that is dependent on the input samples. We evaluate our model on multiple datasets and demonstrate that the learned representations are more correlated in comparison to the conventionally-param eterized CCA-based models and also obtain preferable retrieval results. Our code is available at https://github.com/t omerfr/DynamicallySc aledDeepCCA.
翻訳日:2022-03-24 13:45:31 公開日:2022-03-23
# カスケードバンドのためのミニマックスレグレット

Minimax Regret for Cascading Bandits ( http://arxiv.org/abs/2203.12577v1 )

ライセンス: Link先を確認
Daniel Vial, Sujay Sanghavi, Sanjay Shakkottai, R. Srikant(参考訳) cascading banditsは、部分的なフィードバックのラウンドで、$l$アイテムから$k$をランク付けする学習のタスクをモデル化する。 このモデルでは、ミニマックス(すなわち、ギャップのない)後悔は、よく知られた下限と上限はそれぞれ$\Omega(\sqrt{nL/K})$と$\tilde{O}(\sqrt{nLK})$である。 低域を$\Omega(\sqrt{nL})$に改善し、CascadeKL-UCB(KL-UCB 指数で項目をランク付けする)がログ項に到達したことを示す。 驚いたことに、CascadeUCB1(UCB1を介してランク付けされている)は、サブ最適$\Omega(\sqrt{nLK})を後悔する可能性がある。 これは標準の$L$武装バンディットとは対照的であり、対応するアルゴリズムはどちらもminimax regret $\sqrt{nL}$(ログ項まで)を達成し、KL-UCBの主な利点はギャップ依存境界における定数を改善することである。 本質的には、ピンスカーの不等式は、l$-armed の場合では難しい問題に対して厳密であるが、cascading の場合では(k$ で)ゆるいためである。

Cascading bandits model the task of learning to rank $K$ out of $L$ items over $n$ rounds of partial feedback. For this model, the minimax (i.e., gap-free) regret is poorly understood; in particular, the best known lower and upper bounds are $\Omega(\sqrt{nL/K})$ and $\tilde{O}(\sqrt{nLK})$, respectively. We improve the lower bound to $\Omega(\sqrt{nL})$ and show CascadeKL-UCB (which ranks items by their KL-UCB indices) attains it up to log terms. Surprisingly, we also show CascadeUCB1 (which ranks via UCB1) can suffer suboptimal $\Omega(\sqrt{nLK})$ regret. This sharply contrasts with standard $L$-armed bandits, where the corresponding algorithms both achieve the minimax regret $\sqrt{nL}$ (up to log terms), and the main advantage of KL-UCB is only to improve constants in the gap-dependent bounds. In essence, this contrast occurs because Pinsker's inequality is tight for hard problems in the $L$-armed case but loose (by a factor of $K$) in the cascading case.
翻訳日:2022-03-24 13:45:15 公開日:2022-03-23
# pixel vq-vaesによるピクセルアート表現の改善

Pixel VQ-VAEs for Improved Pixel Art Representation ( http://arxiv.org/abs/2203.12130v1 )

ライセンス: Link先を確認
Akash Saravanan and Matthew Guzdial(参考訳) 機械学習は画像処理で大きな成功を収めています。 しかし、この作品の焦点は主に写実的なイメージであり、ピクセルアートのようなよりニッチな芸術スタイルを無視している。 さらに、ピクセルのグループに焦点を当てた従来の機械学習モデルは、個々のピクセルが重要であるピクセルアートではうまく機能しない。 ピクセルアートの表現を学習する特殊なvq-vaeモデルであるpixel vq-vaeを提案する。 組込み品質と下流タスクのパフォーマンスの両方において、他のモデルよりも優れていることを示す。

Machine learning has had a great deal of success in image processing. However, the focus of this work has largely been on realistic images, ignoring more niche art styles such as pixel art. Additionally, many traditional machine learning models that focus on groups of pixels do not work well with pixel art, where individual pixels are important. We propose the Pixel VQ-VAE, a specialized VQ-VAE model that learns representations of pixel art. We show that it outperforms other models in both the quality of embeddings as well as performance on downstream tasks.
翻訳日:2022-03-24 13:44:48 公開日:2022-03-23
# (参考訳) マスクによる顔再建のためのディープラーニングフレームワーク [全文訳有]

A Deep Learning Framework to Reconstruct Face under Mask ( http://arxiv.org/abs/2203.12482v1 )

ライセンス: CC BY 4.0
Gourango Modak, Shuvra Smaran Das, Md. Ajharul Islam Miraj, Md. Kishor Morol(参考訳) 深層学習に基づく画像再構成手法は, 画像からの物体除去において有意な成功を収めているが, 性別, 民族性, 表情など, 顔の位相構造などの特徴に一貫性をもたせる効果は得られていない。 本研究の目的は,マスク画像からマスク領域を抽出し,検出された領域を再構築することである。 この問題は複雑です なぜなら 一 仮面の裏に隠された画像の性別を判断することは困難で、これによりネットワークが混乱し、女性として、またはその逆で男性の顔を再構築する。 (二)複数の角度から画像を受け取ることができるため、顔の実際の形状、位相構造、自然像の維持が非常に困難である。 (iii)マスクの面積が正確に予測できない場合もあり、マスクの特定の部分が完成後も顔に残るため、様々なマスク形態に問題がある。 この複雑な課題を解決するために,ランドマーク検出,対象マスク領域の物体検出,対応マスク領域の塗り込みという3つのフェーズに分けた。 まず最初に,マスクの裏にある実際の性別を検出する性別分類を用いて,マスク付き顔画像のランドマークを検出する。 第2に,マスクの非面項目,すなわちマスクを識別し,マスク領域の2値マスクを作成するためにマスクR-CNNネットワークを用いた。 第3に,予想されるランドマークを用いてリアルな画像を生成する塗装ネットワークを開発した。 マスクのセグメンテーションにはマスクR-CNNを使用し、マスク領域を特定するためのバイナリセグメンテーションマップを提供する。 さらに,GANネットワークを通じてランドマークを構造ガイダンスとして利用した画像を生成する。 本稿では,FFHQとCelebAデータセットを用いた。

While deep learning-based image reconstruction methods have shown significant success in removing objects from pictures, they have yet to achieve acceptable results for attributing consistency to gender, ethnicity, expression, and other characteristics like the topological structure of the face. The purpose of this work is to extract the mask region from a masked image and rebuild the area that has been detected. This problem is complex because (i) it is difficult to determine the gender of an image hidden behind a mask, which causes the network to become confused and reconstruct the male face as a female or vice versa; (ii) we may receive images from multiple angles, making it extremely difficult to maintain the actual shape, topological structure of the face and a natural image; and (iii) there are problems with various mask forms because, in some cases, the area of the mask cannot be anticipated precisely; certain parts of the mask remain on the face after completion. To solve this complex task, we split the problem into three phases: landmark detection, object detection for the targeted mask area, and inpainting the addressed mask region. To begin, to solve the first problem, we have used gender classification, which detects the actual gender behind a mask, then we detect the landmark of the masked facial image. Second, we identified the non-face item, i.e., the mask, and used the Mask R-CNN network to create the binary mask of the observed mask area. Thirdly, we developed an inpainting network that uses anticipated landmarks to create realistic images. To segment the mask, this article uses a mask R-CNN and offers a binary segmentation map for identifying the mask area. Additionally, we generated the image utilizing landmarks as structural guidance through a GAN-based network. The studies presented in this paper use the FFHQ and CelebA datasets.
翻訳日:2022-03-24 13:42:52 公開日:2022-03-23
# 教師なし言い換えの探索目標の学習と改善に関する実証的研究

An Empirical Study on Learning and Improving the Search Objective for Unsupervised Paraphrasing ( http://arxiv.org/abs/2203.12106v1 )

ライセンス: Link先を確認
Weikai Steven Lu(参考訳) 教師なしテキスト生成の研究は近年注目を集めている。 最近のアプローチの1つは、言語流動性、意味的意味、および他のタスク固有の属性を特定するヒューリスティックに定義された目的への局所探索である。 文空間内の検索は、挿入、置換、削除を含む単語レベルの編集操作によって実現される。 しかし、このような目的関数は複数のコンポーネントで手動で設計される。 この目的を最大化することは成功の真の尺度(BLEU と iBLEU)の観点からは良いパフォーマンスをもたらすが、目的のランドスケープは大きなノイズを持つ非滑らかであると考えられ、最適化の課題を提起している。 本論文では,探索力学のモデル化を学ぶことによって,ヒューリスティック探索対象の雑音を平滑化する研究課題に対処する。 そして、学習したモデルを元の目的関数と組み合わせて、ブートストラップ方式で探索を誘導する。 実験結果から,学習したモデルと元の探索目標を組み合わせれば,スムーズな効果が得られ,検索性能は小さめのマージンで向上することが示された。

Research in unsupervised text generation has been gaining attention over the years. One recent approach is local search towards a heuristically defined objective, which specifies language fluency, semantic meanings, and other task-specific attributes. Search in the sentence space is realized by word-level edit operations including insertion, replacement, and deletion. However, such objective function is manually designed with multiple components. Although previous work has shown maximizing this objective yields good performance in terms of true measure of success (i.e. BLEU and iBLEU), the objective landscape is considered to be non-smooth with significant noises, posing challenges for optimization. In this dissertation, we address the research problem of smoothing the noise in the heuristic search objective by learning to model the search dynamics. Then, the learned model is combined with the original objective function to guide the search in a bootstrapping fashion. Experimental results show that the learned models combined with the original search objective can indeed provide a smoothing effect, improving the search performance by a small margin.
翻訳日:2022-03-24 13:31:24 公開日:2022-03-23
# Pairwise Constraint Relaxationのない制約クラスタリングとマルチカーネル学習

Constrained Clustering and Multiple Kernel Learning without Pairwise Constraint Relaxation ( http://arxiv.org/abs/2203.12546v1 )

ライセンス: Link先を確認
Benedikt Boecking, Vincent Jeanselme, Artur Dubrawski(参考訳) ペアワイズ制約下でのクラスタリングは、適切なカーネルや距離メトリクスの学習によるクラスタリングのパフォーマンス向上を可能にする、重要な知識発見ツールである。 これらのペアワイズ制約は、必須リンクと無リンクペアの形式で、多くのアプリケーションで自然に発生し、ユーザが提供できる直感的なものだ。 しかしながら、カーネルやメトリクスを学ぶ際の最適化を容易にするために、離散的な制約を連続的なドメインに緩和するという一般的なプラクティスは、リンクのみをエンコードする情報は距離を知らせるために変換されるため、一般化を損なうことがある。 本稿では,利用可能なペアワイズ制約に従って,データをクラスタリングし,カーネルを学習する新しい制約付きクラスタリングアルゴリズムを提案する。 そこで本手法は,距離を知らせる連続領域に対して対関係制約を緩和することなく,制約満足度を最大化するように設計されている。 提案手法は,多種多様な公開データセットにおける既存手法よりも優れており,大規模データを扱う際にどのようにスケールできるかを考察する。

Clustering under pairwise constraints is an important knowledge discovery tool that enables the learning of appropriate kernels or distance metrics to improve clustering performance. These pairwise constraints, which come in the form of must-link and cannot-link pairs, arise naturally in many applications and are intuitive for users to provide. However, the common practice of relaxing discrete constraints to a continuous domain to ease optimization when learning kernels or metrics can harm generalization, as information which only encodes linkage is transformed to informing distances. We introduce a new constrained clustering algorithm that jointly clusters data and learns a kernel in accordance with the available pairwise constraints. To generalize well, our method is designed to maximize constraint satisfaction without relaxing pairwise constraints to a continuous domain where they inform distances. We show that the proposed method outperforms existing approaches on a large number of diverse publicly available datasets, and we discuss how our method can scale to handling large data.
翻訳日:2022-03-24 13:31:04 公開日:2022-03-23
# R3M:ロボットマニピュレーションのためのユニバーサルビジュアル表現

R3M: A Universal Visual Representation for Robot Manipulation ( http://arxiv.org/abs/2203.12601v1 )

ライセンス: Link先を確認
Suraj Nair, Aravind Rajeswaran, Vikash Kumar, Chelsea Finn, Abhinav Gupta(参考訳) 多様な人間のビデオデータに基づいて事前訓練された視覚表現は、下流のロボット操作タスクをデータ効率で学習することができるかを検討する。 具体的には、時間差学習、ビデオ言語アライメント、L1ペナルティを組み合わせたEgo4D人間の映像データセットを用いて視覚表現を事前訓練し、スパース表現とコンパクト表現を奨励する。 結果の表現であるR3Mは、下流ポリシー学習のための凍結認識モジュールとして使用できる。 12のシミュレーションされたロボット操作タスクの中で、R3Mは、スクラッチからのトレーニングとCLIPやMoCoのような最先端のビジュアル表現と比較して、タスクの成功率を20%以上改善する。 さらにR3Mでは、フランカ・エミカ・パンダの腕を使って、20のデモしか行っていないアパートでさまざまな操作タスクを学習することができる。 コードと事前訓練されたモデルはhttps://tinyurl.com/ robotr3m.comで入手できる。

We study how visual representations pre-trained on diverse human video data can enable data-efficient learning of downstream robotic manipulation tasks. Concretely, we pre-train a visual representation using the Ego4D human video dataset using a combination of time-contrastive learning, video-language alignment, and an L1 penalty to encourage sparse and compact representations. The resulting representation, R3M, can be used as a frozen perception module for downstream policy learning. Across a suite of 12 simulated robot manipulation tasks, we find that R3M improves task success by over 20% compared to training from scratch and by over 10% compared to state-of-the-art visual representations like CLIP and MoCo. Furthermore, R3M enables a Franka Emika Panda arm to learn a range of manipulation tasks in a real, cluttered apartment given just 20 demonstrations. Code and pre-trained models are available at https://tinyurl.com/ robotr3m.
翻訳日:2022-03-24 13:30:23 公開日:2022-03-23
# 言語横断要約に関する調査

A Survey on Cross-Lingual Summarization ( http://arxiv.org/abs/2203.12515v1 )

ライセンス: Link先を確認
Jiaan Wang, Fandong Meng, Duo Zheng, Yunlong Liang, Zhixu Li, Jianfeng Qu, Jie Zhou(参考訳) 言語間の要約(英: cross-lingual summarization)とは、1つの言語(例えば、英語)で与えられた文書(例えば、中国語)の要約を生成するタスクである。 グローバリゼーションの背景では、このタスクは計算言語学コミュニティの注目を集めている。 それにもかかわらず、このタスクの包括的なレビューはいまだに欠けている。 そこで本研究では,この分野におけるデータセット,アプローチ,課題について,最初の体系的批判的レビューを行う。 具体的には,既存のデータセットとアプローチを,それぞれ異なる構成方法とソリューションパラダイムに従って慎重に整理する。 それぞれのタイプのデータセットやアプローチについて、これまでの取り組みを徹底的に紹介して要約し、それらをさらに比較してより深い分析を提供する。 最後に、有望な方向性を議論し、将来の研究を促進するために考えを提供する。 この調査は、言語横断の要約に関する初心者と専門家の両方にとって、この領域に関心のある研究者やエンジニアのための新しいアイデアの出発点となることを願っている。

Cross-lingual summarization is the task of generating a summary in one language (e.g., English) for the given document(s) in a different language (e.g., Chinese). Under the globalization background, this task has attracted increasing attention of the computational linguistics community. Nevertheless, there still remains a lack of comprehensive review for this task. Therefore, we present the first systematic critical review on the datasets, approaches and challenges in this field. Specifically, we carefully organize existing datasets and approaches according to different construction methods and solution paradigms, respectively. For each type of datasets or approaches, we thoroughly introduce and summarize previous efforts and further compare them with each other to provide deeper analyses. In the end, we also discuss promising directions and offer our thoughts to facilitate future research. This survey is for both beginners and experts in cross-lingual summarization, and we hope it will serve as a starting point as well as a source of new ideas for researchers and engineers interested in this area.
翻訳日:2022-03-24 13:29:43 公開日:2022-03-23
# (参考訳) 分子再合成予測のためのルートアライメントスマイル [全文訳有]

Root-aligned SMILES for Molecular Retrosynthesis Prediction ( http://arxiv.org/abs/2203.11444v2 )

ライセンス: CC BY 4.0
Zipeng Zhong, Jie Song, Zunlei Feng, Tiantao Liu, Lingxiang Jia, Shaolun Yao, Min Wu, Tingjun Hou and Mingli Song(参考訳) 再合成予測は有機合成の基本的な問題であり、標的分子の合成に使用できる前駆体分子を発見することが目的である。 既存の計算逆合成法の一般的なパラダイムは、レトロ合成予測をシーケンスからシーケンスへの変換問題として定式化し、典型的なSMILES表現を反応剤と生成物の両方に採用する。 しかし、汎用SMILESはレトロ合成の特徴を無視している。 1)反応物の探索空間は非常に巨大で, 2) 分子グラフトポロジーは生成物から反応物までほとんど変化せず, 直接適用すればSMILESの準最適性能が得られる。 本稿では,より効率的なレトロシンセシスのための文字列表現の不一致を狭めるために,製品と反応対象のスマイルの間の1対1の密結合を規定するルートアライメントスマイル~(r-スマイル)を提案する。 提案したR-SMILESでは,入力と出力の最小編集距離が大幅に減少するので,計算モデルは複雑な構文の学習から解放され,逆合成のための化学知識の学習に専念する。 提案するr-smilesを様々なベンチマークにおける最先端のベースラインと比較し,提案手法の優れていることを示す。

Retrosynthesis prediction is a fundamental problem in organic synthesis, where the task is to discover precursor molecules that can be used to synthesize a target molecule. A popular paradigm of existing computational retrosynthesis methods formulate retrosynthesis prediction as a sequence-to-sequence translation problem, where the typical SMILES representations are adopted for both reactants and products. However, the general-purpose SMILES neglects the characteristics of retrosynthesis that 1) the search space of the reactants is quite huge, and 2) the molecular graph topology is largely unaltered from products to reactants, resulting in the suboptimal performance of SMILES if straightforwardly applied. In this article, we propose the root-aligned SMILES~(R-SMILES), which specifies a tightly aligned one-to-one mapping between the product and the reactant SMILES, to narrow the string representation discrepancy for more efficient retrosynthesis. As the minimum edit distance between the input and the output is significantly decreased with the proposed R-SMILES, the computational model is largely relieved from learning the complex syntax and dedicated to learning the chemical knowledge for retrosynthesis. We compare the proposed R-SMILES with various state-of-the-art baselines on different benchmarks and show that it significantly outperforms them all, demonstrating the superiority of the proposed method.
翻訳日:2022-03-24 12:27:21 公開日:2022-03-23
# (参考訳) 動的シーンにおける画像復元の可能性の探索と評価 [全文訳有]

Exploring and Evaluating Image Restoration Potential in Dynamic Scenes ( http://arxiv.org/abs/2203.11754v2 )

ライセンス: CC BY 4.0
Cheng Zhang, Shaolin Su, Yu Zhu, Qingsen Yan, Jinqiu Sun, Yanning Zhang(参考訳) ダイナミックシーンでは、動きの重ね合わせや、動きを避ける際のシャッタースピードによる信号ノイズ比の低下によって、画像が動的にぼやけている場合が多い。 得られた画像から鮮明でクリーンな結果を復元することは、復元方法の能力と入力の品質に大きく依存する。 画像復元に関する既存の研究は、より良い復元結果を得るためのモデル開発に重点を置いているが、どのように、どの入力画像がより優れた復元品質をもたらすかを評価する研究は少ない。 本稿では,画像修復に有効な画像の潜在的な価値をよりよく研究するために,画像修復の可能性(IRP)を参考に,新しい概念を提案する。 具体的には,まず,複合歪みと応用画像復元プロセスを含む動的シーン画像データセットを構築し,その存在の合理性を検証する。 このデータセットに基づいて、irpのいくつかの特性を調査し、irp値を正確に予測する新しい深層モデルを提案する。 劣化特性を徐々に蒸留し, 選択的に融合させることで, IRP予測の優位性を示す。 提案モデルにより,様々な画像復元関連アプリケーションがirp予測からどのように恩恵を受けているかを検証できる。 我々は、IRPの潜在的な使用法を、価値あるフレームを選択するためのフィルタリング原則、復元モデルを改善するための補助ガイダンス、さらには動的シナリオ下でより良い画像を取得するためのカメラ設定を最適化するための指標として示す。

In dynamic scenes, images often suffer from dynamic blur due to superposition of motions or low signal-noise ratio resulted from quick shutter speed when avoiding motions. Recovering sharp and clean results from the captured images heavily depends on the ability of restoration methods and the quality of the input. Although existing research on image restoration focuses on developing models for obtaining better restored results, fewer have studied to evaluate how and which input image leads to superior restored quality. In this paper, to better study an image's potential value that can be explored for restoration, we propose a novel concept, referring to image restoration potential (IRP). Specifically, We first establish a dynamic scene imaging dataset containing composite distortions and applied image restoration processes to validate the rationality of the existence to IRP. Based on this dataset, we investigate several properties of IRP and propose a novel deep model to accurately predict IRP values. By gradually distilling and selective fusing the degradation features, the proposed model shows its superiority in IRP prediction. Thanks to the proposed model, we are then able to validate how various image restoration related applications are benefited from IRP prediction. We show the potential usages of IRP as a filtering principle to select valuable frames, an auxiliary guidance to improve restoration models, and even an indicator to optimize camera settings for capturing better images under dynamic scenarios.
翻訳日:2022-03-24 12:08:48 公開日:2022-03-23
# No Pain, Big Gain: 特徴レベルの時空間表面を適合させて静的モデルで動的ポイントクラウドシーケンスを分類する

No Pain, Big Gain: Classify Dynamic Point Cloud Sequences with Static Models by Fitting Feature-level Space-time Surfaces ( http://arxiv.org/abs/2203.11113v2 )

ライセンス: Link先を確認
Jia-Xing Zhong, Kaichen Zhou, Qingyong Hu, Bing Wang, Niki Trigoni, Andrew Markham(参考訳) scene flowは、3dポイントクラウドのモーションフィールドをキャプチャする強力なツールだ。 しかし、非構造化点がポイントワイド対応を効率的に、効果的に追跡することを困難または不可能にするため、フローベースモデルを動的ポイントクラウド分類に直接適用することは困難である。 そこで我々は,ST曲面の運動論的概念を特徴空間に一般化することにより,キネマティックスにインスパイアされたニューラルネットワーク(Kinet)を提案する。 特徴空間におけるST曲面の通常の解法をアンロールすることにより、Kineetは暗黙的に特徴レベルのダイナミクスを符号化し、静的ポイントクラウド処理に成熟したバックボーンを使用することで利点を得る。 ネットワーク構造や低コンピューティングオーバーヘッドの小さな変更だけで、特定の静的モデルを使ってフレームワークを共同トレーニングし、デプロイすることは難しくありません。 NvGesture, SHREC'17, MSRAction-3D, NTU-RGBDの実験では, パラメータ数と計算複雑性の両面での性能, および様々な静的バックボーンに対する汎用性を示す。 キネは320Mパラメータと10.35G FLOPSしか持たないMSRAction-3Dで93.27%の精度を達成した。

Scene flow is a powerful tool for capturing the motion field of 3D point clouds. However, it is difficult to directly apply flow-based models to dynamic point cloud classification since the unstructured points make it hard or even impossible to efficiently and effectively trace point-wise correspondences. To capture 3D motions without explicitly tracking correspondences, we propose a kinematics-inspired neural network (Kinet) by generalizing the kinematic concept of ST-surfaces to the feature space. By unrolling the normal solver of ST-surfaces in the feature space, Kinet implicitly encodes feature-level dynamics and gains advantages from the use of mature backbones for static point cloud processing. With only minor changes in network structures and low computing overhead, it is painless to jointly train and deploy our framework with a given static model. Experiments on NvGesture, SHREC'17, MSRAction-3D, and NTU-RGBD demonstrate its efficacy in performance, efficiency in both the number of parameters and computational complexity, as well as its versatility to various static backbones. Noticeably, Kinet achieves the accuracy of 93.27% on MSRAction-3D with only 3.20M parameters and 10.35G FLOPS.
翻訳日:2022-03-24 11:53:28 公開日:2022-03-23
# 因果不変変換を用いた分布外一般化

Out-of-distribution Generalization with Causal Invariant Transformations ( http://arxiv.org/abs/2203.11528v2 )

ライセンス: Link先を確認
Ruoyu Wang, Mingyang Yi, Zhitang Chen, Shengyu Zhu(参考訳) 現実世界のアプリケーションでは、アウト・オブ・ディストリビューション(OOD)データでうまく機能するモデルを学ぶことが重要かつ望ましい。 近年、因果性はood一般化問題に取り組むための強力なツールとなり、関心領域にまたがって不変な因果メカニズムに基づくアイデアが定着している。 一般に知られていない因果的メカニズムを活用するために、既存の著作物は因果的特徴の線形形式をとるか、あるいは十分に多くの多様な訓練領域を必要とする。 本研究では,これらの仮定を排除し,因果的特徴を明示的に回復することなくOOD問題に取り組む。 このアプローチは、非因果的特徴を変更するが因果部分は変更しない変換に基づいており、事前の知識から得られるか、あるいはマルチドメインシナリオでトレーニングデータから学ぶことができる。 不変因果機構の設定の下では、そのような変換がすべて利用可能であれば、単一のドメインデータのみを用いて、各ドメインにまたがる最小限の最適モデルを学習できることが理論的に示される。 これらの因果不変変換の完全な集合が非現実的であることを知ることは、これらの変換のサブセットのみを知るのに十分であることを示す。 理論的な知見に基づいて,OODの一般化能力を向上させるための正規化訓練手法を提案する。 合成データと実データの両方に関する広範な実験の結果は、数個の因果不変量変換であっても、提案アルゴリズムの有効性を検証する。

In real-world applications, it is important and desirable to learn a model that performs well on out-of-distribution (OOD) data. Recently, causality has become a powerful tool to tackle the OOD generalization problem, with the idea resting on the causal mechanism that is invariant across domains of interest. To leverage the generally unknown causal mechanism, existing works assume a linear form of causal feature or require sufficiently many and diverse training domains, which are usually restrictive in practice. In this work, we obviate these assumptions and tackle the OOD problem without explicitly recovering the causal feature. Our approach is based on transformations that modify the non-causal feature but leave the causal part unchanged, which can be either obtained from prior knowledge or learned from the training data in the multi-domain scenario. Under the setting of invariant causal mechanism, we theoretically show that if all such transformations are available, then we can learn a minimax optimal model across the domains using only single domain data. Noticing that knowing a complete set of these causal invariant transformations may be impractical, we further show that it suffices to know only a subset of these transformations. Based on the theoretical findings, a regularized training procedure is proposed to improve the OOD generalization capability. Extensive experimental results on both synthetic and real datasets verify the effectiveness of the proposed algorithm, even with only a few causal invariant transformations.
翻訳日:2022-03-24 11:53:04 公開日:2022-03-23
# 環境音表現における摂動のロバスト性に関する研究

A Study on Robustness to Perturbations for Representations of Environmental Sound ( http://arxiv.org/abs/2203.10425v2 )

ライセンス: Link先を確認
Sangeeta Srivastava, Ho-Hsiang Wu, Joao Rulff, Magdalena Fuentes, Mark Cartwright, Claudio Silva, Anish Arora, Juan Pablo Bello(参考訳) 環境音の分析を含むオーディオアプリケーションは、伝達学習に汎用的な音声表現(埋め込みとも呼ばれる)をますます利用している。 近年,HEAR(Holistic Evaluation of Audio Representations)は,19種類のタスクに対する21種類の埋め込みモデルの評価を行っている。 しかしながら、評価の有効性は、所定のデータセット内で既にキャプチャされた変動に依存する。 したがって、与えられたデータ領域において、ミリ波マイクロホンの範囲と音響条件(一般にチャネル効果と呼ばれる)によって引き起こされる変動によって、表現がどのように影響を受けるのかは不明である。 本研究では,HEARを拡張してチャネル効果の不変性を評価することを目的とする。 これを実現するために,音声信号に摂動を注入し,新たな(摂動)埋め込みのシフトを3つの距離尺度で測定することにより,評価領域に依存しながらもタスクに依存しないチャネル効果を模倣する。 下流の性能と組み合わせることで、チャネル効果に対する埋め込みがどれほど堅牢かをより情報的に予測するのに役立つ。 モノフォニック(UrbanSound8K)およびポリフォニック(SONYC UST)データセット上のYAMNetとOpenL$^3$の2つの埋め込みを評価した。 このようなタスク非依存評価において,一つの距離測度が十分でないことを示す。 Fr'echet Audio Distance (FAD) は, 下流タスクの性能低下傾向と相関するが, 摂動の全体的影響を明らかにするためには, 他の距離と組み合わせて検討する必要がある。 埋め込み性能の面では、OpenL$^3$がYAMNetより堅牢であることに気付き、HEARの評価に合致する。

Audio applications involving environmental sound analysis increasingly use general-purpose audio representations, also known as embeddings, for transfer learning. Recently, Holistic Evaluation of Audio Representations (HEAR) evaluated twenty-nine embedding models on nineteen diverse tasks. However, the evaluation's effectiveness depends on the variation already captured within a given dataset. Therefore, for a given data domain, it is unclear how the representations would be affected by the variations caused by myriad microphones' range and acoustic conditions -- commonly known as channel effects. We aim to extend HEAR to evaluate invariance to channel effects in this work. To accomplish this, we imitate channel effects by injecting perturbations to the audio signal and measure the shift in the new (perturbed) embeddings with three distance measures, making the evaluation domain-dependent but not task-dependent. Combined with the downstream performance, it helps us make a more informed prediction of how robust the embeddings are to the channel effects. We evaluate two embeddings -- YAMNet, and OpenL$^3$ on monophonic (UrbanSound8K) and polyphonic (SONYC UST) datasets. We show that one distance measure does not suffice in such task-independent evaluation. Although Fr\'echet Audio Distance (FAD) correlates with the trend of the performance drop in the downstream task most accurately, we show that we need to study this in conjunction with the other distances to get a clear understanding of the overall effect of the perturbation. In terms of the embedding performance, we find OpenL$^3$ to be more robust to YAMNet, which aligns with the HEAR evaluation.
翻訳日:2022-03-24 11:52:40 公開日:2022-03-23
# オンライン知識蒸留におけるチャンネル自己スーパービジョン

Channel Self-Supervision for Online Knowledge Distillation ( http://arxiv.org/abs/2203.11660v2 )

ライセンス: Link先を確認
Shixiao Fan, Xuan Cheng, Xiaomin Wang, Chun Yang, Pan Deng, Minghui Liu, Jiali Deng, Ming Liu(参考訳) 近年,オンライン知識蒸留への関心が高まっている。 オンライン知識蒸留は、ワンステージとエンドツーエンドのトレーニング手法を採用し、複数のピアモデルの集約された中間予測を使用してトレーニングを行う。 しかし、強力な教師モデルがないことは、グループ仲間間の均質性の問題を引き起こし、グループ蒸留の有効性に悪影響を及ぼす可能性がある。 本稿では,オンライン知識蒸留のための新しいオンライン知識蒸留法である \textbf{c}hannel \textbf{s}elf-\textbf{s}upervision for online knowledge distillation (css)を提案する。 具体的には,デュアルネットワークのマルチブランチ構造を構築し,自己教師付き学習によるブランチ間多様性を高める。 一方、二重ネットワーク構造は蒸留時の均質化問題に抵抗する独立したパラメータの空間が大きい。 CIFAR-100の大規模定量実験により,本手法はOKDDipよりも多様性が高く,PCLのような最先端技術でも高い性能向上が得られた。 StanfordDogs,Stanfor dCars,CUB-200-211の3つの詳細なデータセットの結果も,我々のアプローチの大幅な一般化能力を示している。

Recently, researchers have shown an increased interest in the online knowledge distillation. Adopting an one-stage and end-to-end training fashion, online knowledge distillation uses aggregated intermediated predictions of multiple peer models for training. However, the absence of a powerful teacher model may result in the homogeneity problem between group peers, affecting the effectiveness of group distillation adversely. In this paper, we propose a novel online knowledge distillation method, \textbf{C}hannel \textbf{S}elf-\textbf{S}upervision for Online Knowledge Distillation (CSS), which structures diversity in terms of input, target, and network to alleviate the homogenization problem. Specifically, we construct a dual-network multi-branch structure and enhance inter-branch diversity through self-supervised learning, adopting the feature-level transformation and augmenting the corresponding labels. Meanwhile, the dual network structure has a larger space of independent parameters to resist the homogenization problem during distillation. Extensive quantitative experiments on CIFAR-100 illustrate that our method provides greater diversity than OKDDip and we also give pretty performance improvement, even over the state-of-the-art such as PCL. The results on three fine-grained datasets (StanfordDogs, StanfordCars, CUB-200-211) also show the significant generalization capability of our approach.
翻訳日:2022-03-24 11:52:14 公開日:2022-03-23
# ダブルブラックボックス設計によるDNNの積分フィンガープリントと検証

Integrity Fingerprinting of DNN with Double Black-box Design and Verification ( http://arxiv.org/abs/2203.10902v2 )

ライセンス: Link先を確認
Shuo Wang, Sharif Abuadbba, Sidharth Agarwal, Kristen Moore, Surya Nepal, Salil Kanhere(参考訳) クラウド対応の機械学習・アズ・ア・サービス(MLaaS)は、ディープラーニングモデルの開発とデプロイの方法を変えるという大きな可能性を示しています。 それにもかかわらず、悪意ある当事者が悪質な結果を得るために修正できるため、そのようなサービスの使用に伴う潜在的なリスクがある。 したがって、モデルオーナ、サービスプロバイダ、エンドユーザは、デプロイされたモデルが改ざんされていないかどうかを検証することが不可欠である。 このような検証には、パブリックな検証可能性(すなわち、敵を含むすべてのパーティで指紋認証パターンが利用可能)と、API経由でデプロイされたモデルへのブラックボックスアクセスが必要である。 しかし、既存の透かしや指紋認証のアプローチでは、指紋認証の設計にはホワイトボックスの知識(勾配など)が必要であり、個人的な検証性、すなわち正直な当事者による検証のみをサポートする。 本稿では,指紋設計におけるブラックボックス知識と検証時のブラックボックス問合せを可能にする,実用的な透かし手法について述べる。 このサービスは、公開検証を通じてクラウドベースのサービスの整合性を保証する(すなわち、敵を含むすべての当事者が指紋認証パターンを利用できる)。 相手がモデルを操作すると、決定境界が変更される。 したがって、ダブルブラック透かしの基本的な原理は、モデルの決定境界が透かしの固有の指紋として機能することである。 提案手法は, モデル固有の指紋をキャプチャするために, モデル決定境界の周りに自然に変換され, 拡張された入力の集合である, 限られた数のサンプル指紋を生成することにより, 決定境界を捕捉する。 各種モデル整合性攻撃とモデル圧縮攻撃に対する透かし手法の評価を行った。

Cloud-enabled Machine Learning as a Service (MLaaS) has shown enormous promise to transform how deep learning models are developed and deployed. Nonetheless, there is a potential risk associated with the use of such services since a malicious party can modify them to achieve an adverse result. Therefore, it is imperative for model owners, service providers, and end-users to verify whether the deployed model has not been tampered with or not. Such verification requires public verifiability (i.e., fingerprinting patterns are available to all parties, including adversaries) and black-box access to the deployed model via APIs. Existing watermarking and fingerprinting approaches, however, require white-box knowledge (such as gradient) to design the fingerprinting and only support private verifiability, i.e., verification by an honest party. In this paper, we describe a practical watermarking technique that enables black-box knowledge in fingerprint design and black-box queries during verification. The service ensures the integrity of cloud-based services through public verification (i.e. fingerprinting patterns are available to all parties, including adversaries). If an adversary manipulates a model, this will result in a shift in the decision boundary. Thus, the underlying principle of double-black watermarking is that a model's decision boundary could serve as an inherent fingerprint for watermarking. Our approach captures the decision boundary by generating a limited number of encysted sample fingerprints, which are a set of naturally transformed and augmented inputs enclosed around the model's decision boundary in order to capture the inherent fingerprints of the model. We evaluated our watermarking approach against a variety of model integrity attacks and model compression attacks.
翻訳日:2022-03-24 11:51:50 公開日:2022-03-23
# 大規模多重テストのための局所適応移動学習アルゴリズム

Locally Adaptive Transfer Learning Algorithms for Large-Scale Multiple Testing ( http://arxiv.org/abs/2203.11461v2 )

ライセンス: Link先を確認
Ziyi Liang, T. Tony Cai, Wenguang Sun, Yin Xia(参考訳) 転送学習は、さまざまなビッグデータアプリケーションで人気が高まっている。 大規模多重テストのコンテキストでは、関連するソースドメインから学んだ知識を抽出し、転送することで、ターゲットドメイン内の多数の仮説を同時にテストする精度を向上させることが目標だ。 本稿では,複数検定のための伝達学習のための局所適応変換学習アルゴリズム (LATLA) を提案する。 同じテストユニット上の一次データと並行して補助共変量の収集を必要とする既存の共変量支援複数のテスト方法とは対照的に、latlaは、関連するソースドメインから、おそらく異なる次元/構造および多様な集団から補助データの複数のサンプルを組み込むことができる、原則付きで汎用的な転送学習フレームワークを提供する。 理論的および数値的な結果は、LATLAが誤った発見率を制御し、既存の方法よりも優れていることを示している。 LATLAは、関連リンケージ解析から補助データを相互利用することにより、疾患関連SNPの同定のためのゲノムワイドアソシエーション研究への応用を通して説明される。

Transfer learning has enjoyed increasing popularity in a range of big data applications. In the context of large-scale multiple testing, the goal is to extract and transfer knowledge learned from related source domains to improve the accuracy of simultaneously testing of a large number of hypotheses in the target domain. This article develops a locally adaptive transfer learning algorithm (LATLA) for transfer learning for multiple testing. In contrast with existing covariate-assisted multiple testing methods that require the auxiliary covariates to be collected alongside the primary data on the same testing units, LATLA provides a principled and generic transfer learning framework that is capable of incorporating multiple samples of auxiliary data from related source domains, possibly in different dimensions/structure s and from diverse populations. Both the theoretical and numerical results show that LATLA controls the false discovery rate and outperforms existing methods in power. LATLA is illustrated through an application to genome-wide association studies for the identification of disease-associated SNPs by cross-utilizing the auxiliary data from a related linkage analysis.
翻訳日:2022-03-24 11:51:23 公開日:2022-03-23