このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220410となっている論文です。

PDF登録状況(公開日: 20220410)

TitleAuthorsAbstract論文公表日・翻訳日
# 鏡面の偏向計測:概要

Deflectometry for specular surfaces: an overview ( http://arxiv.org/abs/2204.11592v1 )

ライセンス: Link先を確認
Jan Burke, Alexey Pak, Sebastian H\"ofer, Mathias Ziebarth, Masoud Roschani, J\"urgen Beyerer(参考訳) 反射面の評価のための技術アプローチとしての偏向測定は、現在約40年間存在している。 この手法の様々な側面とバリエーションが、複数の論文や研究論文で研究され、また特定のサブトピックにもレビューが利用できるようになった。 いまだに多くの未解決問題のある活発な開発分野であり、ディフレクションメトリーは様々な目的のために設計された様々なアプリケーションドメイン、ハードウェアセットアップタイプ、処理ワークフローを含み、大規模車両の定性的欠陥検査から顕微鏡光学の精密測定まで幅広い範囲にわたっている。 長年にわたり、多くのエキサイティングな開発が基礎となる理論、システム設計、実装仕様に蓄積されてきた。 このようなトピックの多様性は、専門家や非専門家の理解が困難であり、他の研究分野や業界で有用なツールとして、ディフレクションメトリが広く受け入れられることの障害となる可能性がある。 本稿では,偏向法の現状を要約し,その顕著な「スピンオフ」分岐間の関係をマッピングする。 本稿の目的は,実践者に対して共通のコミュニケーション基盤を提供することであり,同時に,学習や利用に関心のある人に便利なエントリポイントを提供することである。 参考文献の一覧は広範であるが、網羅的ではない。読者によるさらなる自己指揮的な探索を促進するために、いくつかの顕著な傾向と確立された研究グループを導入している。

Deflectometry as a technical approach to assessing reflective surfaces has now existed for almost 40 years. Different aspects and variations of the method have been studied in multiple theses and research articles, and reviews are also becoming available for certain subtopics. Still a field of active development with many unsolved problems, deflectometry now encompasses a large variety of application domains, hardware setup types, and processing workflows designed for different purposes, and spans a range from qualitative defect inspection of large vehicles to precision measurements of microscopic optics. Over these years, many exciting developments have accumulated in the underlying theory, in the systems design, and in the implementation specifics. This diversity of topics is difficult to grasp for experts and non-experts alike and may present an obstacle to a wider acceptance of deflectometry as a useful tool in other research fields and in the industry. This paper presents an attempt to summarize the status of deflectometry, and to map relations between its notable "spin-off" branches. The intention of the paper is to provide a common communication basis for practitioners and at the same time to offer a convenient entry point for those interested in learning and using the method. The list of references is extensive but definitely not exhaustive, introducing some prominent trends and established research groups in order to facilitate further self-directed exploration by the reader.
翻訳日:2022-05-01 09:26:26 公開日:2022-04-10
# ハイブリッドアプローチに基づく新しい領域重複検出アルゴリズム

A Novel Region Duplication Detection Algorithm Based on Hybrid Approach ( http://arxiv.org/abs/2204.08545v1 )

ライセンス: Link先を確認
Kshipra Tatkare, Manoj Devare(参考訳) 高帯域インターネットが容易に利用できるため、様々なソースからのデジタル画像がユビキタスである。 デジタル画像は良い意図や悪い意図で簡単に改ざんできる。 デジタル画像における予め埋め込んだ情報の非利用性は,デジタル鑑識の場合の改ざん検出プロセスをより困難にする。 したがって、受動的画像改ざんは検出が難しい。 画像改ざんを検出するアルゴリズムは様々である。 しかし、これらのアルゴリズムには欠点があり、あらゆる種類の改ざんが検出できない。 本稿では,画像改ざんの種類とその検出手法について,例に基づくアプローチで紹介する。 本論文では,既存のアルゴリズムについて考察し,その中から効率的なアルゴリズムを見出そうとする。

The digital images from various sources are ubiquitous due to easy availability of high bandwidth Internet. Digital images are easy to tamper with good or bad intentions. Non-availability of pre-embedded information in digital images makes the tampering detection process more difficult in case of digital forensics. Thus, passive image tampering is difficult to detect. There are various algorithms available for detecting image tampering. However, these algorithms have some drawbacks, due to which all types of tampering cannot be detected. In this paper researchers intend to present the types of image tampering and its detection techniques with example based approach. This paper also illustrates insights into the various existing algorithms and tries to find out efficient algorithm out of them.
翻訳日:2022-04-24 16:13:47 公開日:2022-04-10
# (参考訳) 解釈可能なNLPのための人間のアノテーションの再検討 [全文訳有]

Re-Examining Human Annotations for Interpretable NLP ( http://arxiv.org/abs/2204.04580v1 )

ライセンス: CC BY 4.0
Cheng-Han Chiang and Hung-yi Lee(参考訳) 解釈可能なnlpにおける説明方法は、決定を支持する入力テキストから証拠(合理性)を抽出することで、しばしばモデルの決定を説明する。 合理的性を評価するためのベンチマークデータセットがリリースされた。 これらのデータセットの基本的真理は、しばしばクラウドソースのウェブサイトから得られる人間のアノテーションである。 これらのデータセットが有益であるように、これらの人間のアノテーションの取得方法の詳細は、しばしば明確に指定されない。 In Interpretable NLPで広く使われている2つのデータセット上で,クラウドソースWebサイトを用いた包括的な制御実験を行い,それらの詳細がアノテーションの結果に与える影響を理解する。 具体的には、異なる資格レベルを満たした採用作業員による注記結果を比較する。 また、同じタスクを完了するための異なる指示を持つ高品質なワーカーも提供します。 その結果, 注記品質は作業者の資格に強く依存しており, 作業者の指示により特定の注記を提供するよう指導できることがわかった。 さらに,特定の指示によって得られた基底的真理の合理性を用いて評価すると,特定の説明手法がより良く機能することを示す。 これらの観察に基づいて,アノテーションプロセスの完全な詳細を提供し,アノテーションを用いて得られた実験結果を注意深く解釈することの重要性を強調する。

Explanation methods in Interpretable NLP often explain the model's decision by extracting evidence (rationale) from the input texts supporting the decision. Benchmark datasets for rationales have been released to evaluate how good the rationale is. The ground truth rationales in these datasets are often human annotations obtained via crowd-sourced websites. Valuable as these datasets are, the details on how those human annotations are obtained are often not clearly specified. We conduct comprehensive controlled experiments using crowd-sourced websites on two widely used datasets in Interpretable NLP to understand how those unsaid details can affect the annotation results. Specifically, we compare the annotation results obtained from recruiting workers satisfying different levels of qualification. We also provide high-quality workers with different instructions for completing the same underlying tasks. Our results reveal that the annotation quality is highly subject to the workers' qualification, and workers can be guided to provide certain annotations by the instructions. We further show that specific explanation methods perform better when evaluated using the ground truth rationales obtained by particular instructions. Based on these observations, we highlight the importance of providing complete details of the annotation process and call for careful interpretation of any experiment results obtained using those annotations.
翻訳日:2022-04-15 00:37:03 公開日:2022-04-10
# (参考訳) オープンドメイン質問応答のためのQAメモリによる事前学習言語モデルの拡張 [全文訳有]

Augmenting Pre-trained Language Models with QA-Memory for Open-Domain Question Answering ( http://arxiv.org/abs/2204.04581v1 )

ライセンス: CC BY 4.0
Wenhu Chen, Pat Verga, Michiel de Jong, John Wieting, William Cohen(参考訳) 検索言語モデルは近年,知識集約型タスクの標準となっている。 大規模ニューラルネットワークモデルのパラメータ内で、純粋に潜在意味論に頼るのではなく、モデルが取得する知識のインデックスをエンコードするために半パラメトリックメモリを登録する。 ほとんどの先行研究は知識の単位としてテキストのパッセージを採用しており、解釈性、制御性、効率性といったコストが高い範囲でカバーされている。 逆の性質は、代わりに知識ベース(KB)の事実に依存する他の方法に現れる。 同時に、より最近の研究は、テキスト \citep{lewis2021paq} から派生した Q-A ペアのインデックスの保存と検索の有効性を実証している。 このアプローチは、よりアトミックな情報単位であるためにKBのような特性を維持する高いカバレッジの知識表現をもたらす。 本研究では,質問応答型拡張エンコーダ・デコーダモデルの提案と事前学習戦略により,この研究をさらに推し進める。 これにより、シングルホップQAタスクにおける事前のQA検索方法を上回るだけでなく、2つのマルチホップQAデータセット上での強いパフォーマンスで示されるように、構成的推論を可能にするエンドツーエンドシステムが得られる。 これらの手法は, パッセージ検索システムによる性能ギャップを狭めつつ, モデル解釈と制御能力を向上させる。

Retrieval augmented language models have recently become the standard for knowledge intensive tasks. Rather than relying purely on latent semantics within the parameters of large neural models, these methods enlist a semi-parametric memory to encode an index of knowledge for the model to retrieve over. Most prior work has employed text passages as the unit of knowledge, which has high coverage at the cost of interpretability, controllability, and efficiency. The opposite properties arise in other methods which have instead relied on knowledge base (KB) facts. At the same time, more recent work has demonstrated the effectiveness of storing and retrieving from an index of Q-A pairs derived from text \citep{lewis2021paq}. This approach yields a high coverage knowledge representation that maintains KB-like properties due to its representations being more atomic units of information. In this work we push this line of research further by proposing a question-answer augmented encoder-decoder model and accompanying pretraining strategy. This yields an end-to-end system that not only outperforms prior QA retrieval methods on single-hop QA tasks but also enables compositional reasoning, as demonstrated by strong performance on two multi-hop QA datasets. Together, these methods improve the ability to interpret and control the model while narrowing the performance gap with passage retrieval systems.
翻訳日:2022-04-14 12:20:22 公開日:2022-04-10
# (参考訳) 事前訓練された言語モデルの隠れ状態操作によるパラメータ効率の調整 [全文訳有]

Parameter-Efficient Tuning by Manipulating Hidden States of Pretrained Language Models For Classification Tasks ( http://arxiv.org/abs/2204.04596v1 )

ライセンス: CC BY 4.0
Haoran Yang, Piji Li, Wai Lam(参考訳) パラメータ効率のチューニングは、事前学習された言語モデル(PLM)を凍結しながら、いくつかの導入パラメータを最適化することで、下流タスクの知識を抽出することを目的としている。 入力の埋め込みにいくつかの訓練可能なベクトルを前提とした連続的なプロンプトチューニングは、これらの手法の1つであり、その有効性と効率性から多くの注目を集めている。 この一連の手法はplm内の隠れた状態の非線形変換として表現することができる。 しかし、自然の疑問は無視される:隠された状態はそれらを変更せずに直接分類に使用できるか? 本稿では,3つのトレーニング可能なベクトルのみを導入する単純なチューニング手法を提案する。 まず、導入されたベクトルを用いて、すべての層を隠蔽状態に統合する。 そして、統合された隠れ状態(s)をタスク固有の線形分類器に入力してカテゴリを予測します。 このスキームは、ELMoが隠された状態をLSTMベースのモデルに供給する以外は、隠された状態を利用する方法に似ている。 提案手法は単純だが, P-tuning や P-tuning v2 などの迅速なチューニング手法により, 従来の隠れ状態が分類タスクに有用な情報を含んでいることを検証する。 さらに,提案手法は,時間とパラメータ数において,プロンプトチューニングよりも有利である。

Parameter-efficient tuning aims to distill knowledge for downstream tasks by optimizing a few introduced parameters while freezing the pretrained language models (PLMs). Continuous prompt tuning which prepends a few trainable vectors to the embeddings of input is one of these methods and has drawn much attention due to its effectiveness and efficiency. This family of methods can be illustrated as exerting nonlinear transformations of hidden states inside PLMs. However, a natural question is ignored: can the hidden states be directly used for classification without changing them? In this paper, we aim to answer this question by proposing a simple tuning method which only introduces three trainable vectors. Firstly, we integrate all layers hidden states using the introduced vectors. And then, we input the integrated hidden state(s) to a task-specific linear classifier to predict categories. This scheme is similar to the way ELMo utilises hidden states except that they feed the hidden states to LSTM-based models. Although our proposed tuning scheme is simple, it achieves comparable performance with prompt tuning methods like P-tuning and P-tuning v2, verifying that original hidden states do contain useful information for classification tasks. Moreover, our method has an advantage over prompt tuning in terms of time and the number of parameters.
翻訳日:2022-04-14 11:46:10 公開日:2022-04-10
# (参考訳) 潜時視覚意味フィルタによる深部畳み込みニューラルネットワークの解説

Explaining Deep Convolutional Neural Networks via Latent Visual-Semantic Filter Attention ( http://arxiv.org/abs/2204.04601v1 )

ライセンス: CC BY 4.0
Yu Yang, Seungbae Kim, Jungseock Joo(参考訳) 可読性は視覚モデルにとって重要な特性であり、研究者やユーザが複雑なモデルの内部メカニズムを理解するのに役立つ。 しかし、学習した表現に関する意味的な説明を生成することは、そのような説明を直接の監督なしには困難である。 そこで本研究では,既存の畳み込みニューラルネットワークに対して,潜伏表現に関するテキスト記述をフィルタレベルで生成するための汎用フレームワークである潜伏視覚意味説明器(latent visual semantic descriptioner,lavise )を提案する。 本手法は,画像とカテゴリ名を用いて,汎用画像データセットを用いた視覚空間と意味空間のマッピングを構築する。 その後、セマンティックラベルを持たないターゲットドメインにマッピングを転送する。 提案するフレームワークはモジュール構造を採用し、トレーニング済みのトレーニングデータが利用可能かどうかに関わらず、トレーニング済みのネットワークを分析できる。 本手法は,トレーニングデータセットで定義されたカテゴリのセット以上の学習フィルタに対して新たな記述を生成し,複数のデータセットについて広範な評価を行うことができることを示す。 また,データセット内の隠れたバイアスを自動的に検出したり,ラベルを追加することなく異なるサブセットを比較することのできる教師なしデータセットバイアス解析の新たな応用例を示す。 データセットとコードは、さらなる研究を容易にするために公開されます。

Interpretability is an important property for visual models as it helps researchers and users understand the internal mechanism of a complex model. However, generating semantic explanations about the learned representation is challenging without direct supervision to produce such explanations. We propose a general framework, Latent Visual Semantic Explainer (LaViSE), to teach any existing convolutional neural network to generate text descriptions about its own latent representations at the filter level. Our method constructs a mapping between the visual and semantic spaces using generic image datasets, using images and category names. It then transfers the mapping to the target domain which does not have semantic labels. The proposed framework employs a modular structure and enables to analyze any trained network whether or not its original training data is available. We show that our method can generate novel descriptions for learned filters beyond the set of categories defined in the training dataset and perform an extensive evaluation on multiple datasets. We also demonstrate a novel application of our method for unsupervised dataset bias analysis which allows us to automatically discover hidden biases in datasets or compare different subsets without using additional labels. The dataset and code are made public to facilitate further research.
翻訳日:2022-04-14 11:32:49 公開日:2022-04-10
# (参考訳) 強化学習型電力網配電における長期再生可能エネルギー予測のための信頼度推定トランス [全文訳有]

Confidence Estimation Transformer for Long-term Renewable Energy Forecasting in Reinforcement Learning-based Power Grid Dispatching ( http://arxiv.org/abs/2204.04612v1 )

ライセンス: CC BY 4.0
Xinhang Li, Zihao Li, Nan Yang, Zheng Yuan, Qinwen Wang, Yiying Yang, Yupeng Huang, Xuri Song, Lei Li, Lin Zhang(参考訳) 再生可能エネルギーの拡大は、二酸化炭素排出量のピークと炭素中性化の目標を実現するのに役立つ。 短期再生可能エネルギー予測と強化学習(RL)を統合した既存のグリッドディスパッチ手法は、エネルギー変動リスクの悪影響を軽減することが証明されている。 しかし、これらの手法は長期出力予測を省略し、最適電力流の安定性とセキュリティ上の問題を引き起こす。 本稿では,強化学習型電力グリッドディスパッチング(conformer-rlpatchin g)における長期再生可能エネルギー予測のための信頼度推定トランスを提案する。 conformer-rlpatching は、ハイブリッド・エネルギ・グリッド・ディスパッチングの性能を高めるために、トランスフォーマによって各再生可能エネルギー発生器の長期アクティブ出力を予測する。 さらに,再生可能エネルギーの予測誤差を低減するため,信頼度推定手法を提案する。 一方、ジェネレータのアクティブ出力を調整する必要があるか否かを判定するために、ディスパッチ要求評価機構がフォワードされる。 SG-126電力グリッドシミュレータで行った実験によると、コンフォーマー・ラパチンチはセキュリティスコアの2番目の最適アルゴリズムDDPGを25.8%向上させ、同じシミュレーション環境下でのステートグリッド・コーポレーションが主催する電力グリッド配電コンペティションにおいて、金メダルチームよりも優れた合計報酬を得る。 コードはhttps://github.com/b uptlxh/Conformer-RLp atchingでアウトソースされる。

The expansion of renewable energy could help realizing the goals of peaking carbon dioxide emissions and carbon neutralization. Some existing grid dispatching methods integrating short-term renewable energy prediction and reinforcement learning (RL) have been proved to alleviate the adverse impact of energy fluctuations risk. However, these methods omit the long-term output prediction, which leads to stability and security problems on the optimal power flow. This paper proposes a confidence estimation Transformer for long-term renewable energy forecasting in reinforcement learning-based power grid dispatching (Conformer-RLpatchin g). Conformer-RLpatching predicts long-term active output of each renewable energy generator with an enhanced Transformer to boost the performance of hybrid energy grid dispatching. Furthermore, a confidence estimation method is proposed to reduce the prediction error of renewable energy. Meanwhile, a dispatching necessity evaluation mechanism is put forward to decide whether the active output of a generator needs to be adjusted. Experiments carried out on the SG-126 power grid simulator show that Conformer-RLpatching achieves great improvement over the second best algorithm DDPG in security score by 25.8% and achieves a better total reward compared with the golden medal team in the power grid dispatching competition sponsored by State Grid Corporation of China under the same simulation environment. Codes are outsourced in https://github.com/b uptlxh/Conformer-RLp atching.
翻訳日:2022-04-14 10:26:39 公開日:2022-04-10
# (参考訳) ME-GCN: 半教師付きテキスト分類のための多次元エッジ埋め込みグラフ畳み込みネットワーク [全文訳有]

ME-GCN: Multi-dimensional Edge-Embedded Graph Convolutional Networks for Semi-supervised Text Classification ( http://arxiv.org/abs/2204.04618v1 )

ライセンス: CC BY 4.0
Kunze Wang, Soyeon Caren Han, Siqu Long, Josiah Poon(参考訳) 逐次学習モデルと比較して、グラフベースのニューラルネットワークは、グローバル情報の取り込みに優れた能力を示し、半教師あり学習タスクに使われている。 ほとんどのグラフ畳み込みネットワークは1次元エッジ機能で設計されており、グラフに関する豊富なエッジ情報の利用に失敗した。 本稿では,半教師付きテキスト分類のためのME-GCN (Multi-dimensional Edge-enhanced Graph Convolutional Networks)を提案する。 まず、コーパス全体のテキストグラフを構築し、ワード・ツー・ワード、ドキュメント・ドキュメント、ワード・ツー・ドキュメントの無方向および多次元の関係を記述する。 グラフはコーパス訓練された多次元単語と文書ノード表現で初期化され、それらの単語/文書ノードの距離に応じて関係が表現される。 次に、生成したグラフを、エッジ特徴をマルチストリーム信号とみなすME-GCNでトレーニングし、各ストリームが別々のグラフ畳み込み操作を行う。 ME-GCNはテキストコーパス全体のグラフエッジ情報の豊富なソースを統合することができる。 その結果,提案モデルが8つのベンチマークデータセット間で最先端の手法を著しく上回っていることがわかった。

Compared to sequential learning models, graph-based neural networks exhibit excellent ability in capturing global information and have been used for semi-supervised learning tasks. Most Graph Convolutional Networks are designed with the single-dimensional edge feature and failed to utilise the rich edge information about graphs. This paper introduces the ME-GCN (Multi-dimensional Edge-enhanced Graph Convolutional Networks) for semi-supervised text classification. A text graph for an entire corpus is firstly constructed to describe the undirected and multi-dimensional relationship of word-to-word, document-document, and word-to-document. The graph is initialised with corpus-trained multi-dimensional word and document node representation, and the relations are represented according to the distance of those words/documents nodes. Then, the generated graph is trained with ME-GCN, which considers the edge features as multi-stream signals, and each stream performs a separate graph convolutional operation. Our ME-GCN can integrate a rich source of graph edge information of the entire text corpus. The results have demonstrated that our proposed model has significantly outperformed the state-of-the-art methods across eight benchmark datasets.
翻訳日:2022-04-14 10:05:03 公開日:2022-04-10
# (参考訳) トリミングアライメントと音響対応パターンを用いた高速自動音韻再構成のための新しい枠組み [全文訳有]

A New Framework for Fast Automated Phonological Reconstruction Using Trimmed Alignments and Sound Correspondence Patterns ( http://arxiv.org/abs/2204.04619v1 )

ライセンス: CC BY 4.0
Johann-Mattis List, Robert Forkel, Nathan W. Hill(参考訳) 歴史的言語学における計算的アプローチは、過去10年間でますます適用され、従来の比較法の一部を実装した多くの新しい手法が提案されている。 これらの努力にもかかわらず、音韻的再構成の課題には、使い易く迅速なアプローチがほとんどない。 本稿では,音声アライメント解析と音声対応パターン検出のための新しい手法を併用して,祖先言語における単語形態の教師付き再構築を可能にする手法を提案する。 3つの異なる言語ファミリーから6つのグループをカバーする新しいデータセットでこのメソッドをテストした。 その結果,提案手法は高速であると同時に,適用や拡張が容易であると同時に,有望な結果をもたらすことがわかった。

Computational approaches in historical linguistics have been increasingly applied during the past decade and many new methods that implement parts of the traditional comparative method have been proposed. Despite these increased efforts, there are not many easy-to-use and fast approaches for the task of phonological reconstruction. Here we present a new framework that combines state-of-the-art techniques for automated sequence comparison with novel techniques for phonetic alignment analysis and sound correspondence pattern detection to allow for the supervised reconstruction of word forms in ancestral languages. We test the method on a new dataset covering six groups from three different language families. The results show that our method yields promising results while at the same time being not only fast but also easy to apply and expand.
翻訳日:2022-04-14 09:47:18 公開日:2022-04-10
# (参考訳) 「これは疑わしい反応です!」:nlp攻撃を検出するためにlogitsのバリエーションを解釈する [全文訳有]

"That Is a Suspicious Reaction!": Interpreting Logits Variation to Detect NLP Adversarial Attacks ( http://arxiv.org/abs/2204.04636v1 )

ライセンス: CC BY 4.0
Edoardo Mosca and Shreyash Agarwal and Javier Rando-Ramirez and Georg Groh(参考訳) 敵攻撃は、現在の機械学習研究で直面する大きな課題である。 これらの目的に作られた入力は、安全クリティカルなアプリケーションへのデプロイを前に、最も先進的なモデルでさえも愚かである。 コンピュータビジョンの広範な研究は、信頼できる防衛戦略を開発するために行われている。 しかし、同じ問題が自然言語処理では研究されていない。 本研究は,逆行文例のモデル非依存検出法を提案する。 このアプローチは、入力テキストを摂動する際にターゲット分類器のロジット内のパターンを識別する。 提案した検出器は、対向入力を認識する際の現在の最先端性能を改善し、異なるNLPモデル、データセット、ワードレベルの攻撃に対して強力な一般化能力を示す。

Adversarial attacks are a major challenge faced by current machine learning research. These purposely crafted inputs fool even the most advanced models, precluding their deployment in safety-critical applications. Extensive research in computer vision has been carried to develop reliable defense strategies. However, the same issue remains less explored in natural language processing. Our work presents a model-agnostic detector of adversarial text examples. The approach identifies patterns in the logits of the target classifier when perturbing the input text. The proposed detector improves the current state-of-the-art performance in recognizing adversarial inputs and exhibits strong generalization capabilities across different NLP models, datasets, and word-level attacks.
翻訳日:2022-04-14 09:36:48 公開日:2022-04-10
# (参考訳) ブロックスパース構造に基づくハイパースペクトル画像のスペクトルアンミックス [全文訳有]

Spectral Unmixing of Hyperspectral Images Based on Block Sparse Structure ( http://arxiv.org/abs/2204.04638v1 )

ライセンス: CC BY 4.0
Seyed Hossein Mosavi Azarang, Roozbeh Rajabi, Hadi Zayyani, Amin Zehtabian(参考訳) ハイパースペクトル画像(HSI)のスペクトルアンミックス(SU)は、リモートセンシング(RS)において重要な領域の1つであり、異なるRSアプリケーションで慎重に対処する必要がある。 ハイパースペクトルデータのスペクトル分解能が高いにもかかわらず、センサーの空間分解能は比較的低いため、画像ピクセル内に異なる純粋な物質が混ざり合う可能性がある。 この場合、センサによって記録された所定の画素のスペクトルは、その画素内の一意な物質に属する複数のスペクトルの組み合わせとなる。 スペクトルアンミキシングは、混合画素内の異なる材料のスペクトル特性を抽出し、各純粋なスペクトルシグネチャのスペクトルを復元する手法として用いられる。 隣接する画素間のスペクトル類似性の結果、ハイパースペクトル画像にはブロックスパーシティが存在する。 ブロックスパース信号では、非ゼロサンプルはクラスタ内で発生し、クラスタのパターンは事前情報として利用できないことがしばしばある。 本稿では,ブロックスパース構造とスパースベイズ学習(sbl)戦略に基づくhsisの新たなスペクトル混合法を提案する。 提案するsuアルゴリズムの性能を評価するために、合成データと実超スペクトルデータの両方でテストを行い、その定量的結果と、存在量天使距離(aad)と平均二乗誤差(mse)の観点から、他の最先端手法との比較を行った。 得られた結果は,提案アルゴリズムが他の競合手法よりも有意差で優れていることを示す。

Spectral unmixing (SU) of hyperspectral images (HSIs) is one of the important areas in remote sensing (RS) that needs to be carefully addressed in different RS applications. Despite the high spectral resolution of the hyperspectral data, the relatively low spatial resolution of the sensors may lead to mixture of different pure materials within the image pixels. In this case, the spectrum of a given pixel recorded by the sensor can be a combination of multiple spectra each belonging to a unique material in that pixel. Spectral unmixing is then used as a technique to extract the spectral characteristics of the different materials within the mixed pixels and to recover the spectrum of each pure spectral signature, called endmember. Block-sparsity exists in hyperspectral images as a result of spectral similarity between neighboring pixels. In block-sparse signals, the nonzero samples occur in clusters and the pattern of the clusters is often supposed to be unavailable as prior information. This paper presents an innovative spectral unmixing approach for HSIs based on block-sparse structure and sparse Bayesian learning (SBL) strategy. To evaluate the performance of the proposed SU algorithm, it is tested on both synthetic and real hyperspectral data and the quantitative results are compared to those of other state-of-the-art methods in terms of abundance angel distance (AAD) and mean square error (MSE). The achieved results show the superiority of the proposed algorithm over the other competing methods by a significant margin.
翻訳日:2022-04-14 09:22:49 公開日:2022-04-10
# (参考訳) グラフニューラルネットワークの表現性と近似特性

Expressiveness and Approximation Properties of Graph Neural Networks ( http://arxiv.org/abs/2204.04661v1 )

ライセンス: CC BY 4.0
Floris Geerts, Juan L. Reutter(参考訳) グラフニューラルネットワーク(GNN)の分離パワーを特徴付けることで、グラフ学習タスクの限界を理解することができる。 しかしながら、分離電力に関する結果は、通常、特定のGNNアーキテクチャを念頭に置いており、任意のGNNアーキテクチャを理解するためのツールは一般的に欠落している。 Wesfeiler-Leman (WL) テストでGNNの分離パワーの限界を容易に得るためのエレガントな方法を提供し、GNNの分離パワーを測定するためのヤードスティックとなった。 その要点は、GNNを手続きテンソル言語で表現し、GNNの層における計算を記述することである。 そして、得られた式を簡易に解析することにより、インデックスの数と和のネスティング深さの観点から、WL-テストの観点から分離パワーのバウンドが容易に従うことができる。 我々はテンソル言語を用いて、MPNNの自然な拡張である高次メッセージパッシングニューラルネットワーク(またはk-MPNN)を定義する。 さらに、テンソル言語の観点からは、自然にGNNのクラスに対する普遍性の結果を導出することができる。 我々の手法は、GNNアーキテクチャ設計者がWLテストの複雑さを知ることなく、GNNの分離パワーを解析できるツールボックスを提供する。 また、GNNの分離能力を高めるために何が必要かを洞察する。

Characterizing the separation power of graph neural networks (GNNs) provides an understanding of their limitations for graph learning tasks. Results regarding separation power are, however, usually geared at specific GNN architectures, and tools for understanding arbitrary GNN architectures are generally lacking. We provide an elegant way to easily obtain bounds on the separation power of GNNs in terms of the Weisfeiler-Leman (WL) tests, which have become the yardstick to measure the separation power of GNNs. The crux is to view GNNs as expressions in a procedural tensor language describing the computations in the layers of the GNNs. Then, by a simple analysis of the obtained expressions, in terms of the number of indexes and the nesting depth of summations, bounds on the separation power in terms of the WL-tests readily follow. We use tensor language to define Higher-Order Message-Passing Neural Networks (or k-MPNNs), a natural extension of MPNNs. Furthermore, the tensor language point of view allows for the derivation of universality results for classes of GNNs in a natural way. Our approach provides a toolbox with which GNN architecture designers can analyze the separation power of their GNNs, without needing to know the intricacies of the WL-tests. We also provide insights in what is needed to boost the separation power of GNNs.
翻訳日:2022-04-14 09:14:03 公開日:2022-04-10
# (参考訳) DTとVARを用いたIoT対応物理位置モニタリングの最適化 [全文訳有]

Optimization of IoT-Enabled Physical Location Monitoring Using DT and VAR ( http://arxiv.org/abs/2204.04664v1 )

ライセンス: CC BY 4.0
Ajitkumar Sureshrao Shitole, Manoj Himmatrao Devare(参考訳) 本研究は、センサデータを取得し、物理的領域をリアルタイムに顔認識して奇妙な状況を見つけ、クライアントにアラームメールを送り、環境の潜在的な不運を避けるための修正行動を行うIoTの強化を示す。 センサデータをローカルシステムとGoDaddy Cloudにプッシュすると、カメラが物理的位置監視システムを最適化するために人を検出すると、エッジ計算を使用してクラウドに帯域幅とストレージコストを削減できる。 この研究は、決定木(DT)とランダム森林が、センサデータを用いて人を予測するために、合理的に類似したマクロ平均f1スコアを与えることを明らかにした。 実験の結果、DTは3つの物理的位置のクラウドデータセットの最も信頼性の高い予測モデルであり、83.99%、88.92%、そして80.97%の精度でタイムスタンプを使用する人を予測している。 本研究は,温度,湿度,光依存抵抗,ガス時系列の予測に適度な根平均二乗誤差を与えるベクトル自己回帰を用いた多変量時系列予測についても述べる。

This study shows an enhancement of IoT that gets sensor data and performs real-time face recognition to screen physical areas to find strange situations and send an alarm mail to the client to make remedial moves to avoid any potential misfortune in the environment. Sensor data is pushed onto the local system and GoDaddy Cloud whenever the camera detects a person to optimize the physical location monitoring system by reducing the bandwidth requirement and storage cost onto the cloud using edge computation. The study reveals that decision tree (DT) and random forest give reasonably similar macro average f1-scores to predict a person using sensor data. Experimental results show that DT is the most reliable predictive model for the cloud datasets of three different physical locations to predict a person using timestamp with an accuracy of 83.99%, 88.92%, and 80.97%. This study also explains multivariate time series prediction using vector auto regression that gives reasonably good root mean squared error to predict temperature, humidity, light-dependent resistor, and gas time series.
翻訳日:2022-04-14 09:12:53 公開日:2022-04-10
# (参考訳) ラベル比較によるアクティブラーニング [全文訳有]

Active Learning with Label Comparisons ( http://arxiv.org/abs/2204.04670v1 )

ライセンス: CC BY 4.0
Gal Yona, Shay Moran, Gal Elidan, Amir Globerson(参考訳) 教師付き学習は通常、真のラベルの手動アノテーションに依存する。 潜在的なクラスが多数存在する場合、ヒトのアノテータにとって最良のクラスを探すことは禁じられる。 一方、2つの候補ラベルを比較することは、しばしば容易である。 このようなペアワイズによる監督に注目し,学習,特にアクティブラーニングにおいて,どのように効果的に活用できるかを問う。 この文脈でいくつかの洞察力のある結果が得られる。 原則として、$k$のラベルを見つけることは$k-1$のアクティブクエリでできる。 このアプローチが準最適である自然なクラスが存在し、より比較効率の良いアクティブラーニングスキームが存在することを示す。 我々の分析における重要な要素は、真の分布の「ラベル近傍グラフ」であり、決定境界を共有する場合、2つのクラスの間にエッジを持つ。 また,pac設定では,ペアワイズ比較では,最悪の場合,サンプルの複雑さが向上しないことを示した。 実験により理論結果を補完し,標本複雑性に対する近傍グラフの効果を明らかにした。

Supervised learning typically relies on manual annotation of the true labels. When there are many potential classes, searching for the best one can be prohibitive for a human annotator. On the other hand, comparing two candidate labels is often much easier. We focus on this type of pairwise supervision and ask how it can be used effectively in learning, and in particular in active learning. We obtain several insightful results in this context. In principle, finding the best of $k$ labels can be done with $k-1$ active queries. We show that there is a natural class where this approach is sub-optimal, and that there is a more comparison-efficient active learning scheme. A key element in our analysis is the "label neighborhood graph" of the true distribution, which has an edge between two classes if they share a decision boundary. We also show that in the PAC setting, pairwise comparisons cannot provide improved sample complexity in the worst case. We complement our theoretical results with experiments, clearly demonstrating the effect of the neighborhood graph on sample complexity.
翻訳日:2022-04-14 08:48:13 公開日:2022-04-10
# (参考訳) MA-Dreamer:共有イマジネーションによるコーディネーションとコミュニケーション [全文訳有]

MA-Dreamer: Coordination and communication through shared imagination ( http://arxiv.org/abs/2204.04687v1 )

ライセンス: CC BY 4.0
Kenzo Lobos-Tsunekawa, Akshay Srinivasan, Michael Spranger(参考訳) マルチエージェントrlは、個々のエージェントが認識する環境の非定常性のため困難である。 理論的には、REINFORCE推定器を用いた健全な手法はその高分散によって阻害されるが、値関数に基づく手法は、エージェント間通信のような状況のアドホックな処理から生じる問題に影響を受ける。 MADDPGのような手法は、中央集権的な批評家などの要求により、さらに制約される。 これらの問題に対処するために,エージェント中心およびグローバルな環境の差別化可能なモデルを用いたモデルベース手法MA-Dreamerを提案する。 モデルトレーニングのみを非政治的に行うため、エージェント間コミュニケーション/コーディネートや'言語出現'を真っ向から扱うことができる。 2つのサッカーゲームにおけるMA-Dreamerと他の手法との比較を行った。 実験の結果,長期の話者-リスナータスクと強い部分観測性を持つ協調ゲームにおいて,MA-Dreamerは協調を効果的に活用する解を見出した。 より緩やかで一般的な条件下でのコーディネーションとコミュニケーションを効果的に達成することにより、アウトメソッドはより複雑な問題の研究と人口ベースの訓練の扉を開く。

Multi-agent RL is rendered difficult due to the non-stationary nature of environment perceived by individual agents. Theoretically sound methods using the REINFORCE estimator are impeded by its high-variance, whereas value-function based methods are affected by issues stemming from their ad-hoc handling of situations like inter-agent communication. Methods like MADDPG are further constrained due to their requirement of centralized critics etc. In order to address these issues, we present MA-Dreamer, a model-based method that uses both agent-centric and global differentiable models of the environment in order to train decentralized agents' policies and critics using model-rollouts a.k.a `imagination'. Since only the model-training is done off-policy, inter-agent communication/coordi nation and `language emergence' can be handled in a straight-forward manner. We compare the performance of MA-Dreamer with other methods on two soccer-based games. Our experiments show that in long-term speaker-listener tasks and in cooperative games with strong partial-observabilit y, MA-Dreamer finds a solution that makes effective use of coordination, whereas competing methods obtain marginal scores and fail outright, respectively. By effectively achieving coordination and communication under more relaxed and general conditions, out method opens the door to the study of more complex problems and population-based training.
翻訳日:2022-04-14 08:25:48 公開日:2022-04-10
# BABD: アドレス行動パターン分析のためのBitcoinアドレス行動データセット

BABD: A Bitcoin Address Behavior Dataset for Address Behavior Pattern Analysis ( http://arxiv.org/abs/2204.05746v1 )

ライセンス: Link先を確認
Yuexin Xiang, Wei Ren, Hang Gao, Ding Bao, Yuchen Lei, Tiantian Li, Qingqing Yang, Wenmao Liu, Tianqing Zhu, and Kim-Kwang Raymond Choo(参考訳) 暗号通貨はもはやダークネット上でのサイバー犯罪活動に好まれる選択肢ではない。 これは部分的には、公開台帳上のトランザクションレコードの記録にアクセス可能な、基盤となる台帳に関連する透明性によるものだ。 本稿では,2019年7月12日から2021年5月26日までにBitcoin取引からなるデータセットを構築した。 このデータセット(以下babd-13と呼ぶ)は、13種類のbitcoinアドレス、148の機能を持つ5つの指標、544,462のラベル付きデータを含んでいる。 次に、提案するデータセットを一般的な機械学習モデル、すなわちk-nearest neighborsアルゴリズム、決定木、ランダムフォレスト、多層パーセプトロン、xgboost上で使用する。 その結果,提案するデータセットにおける機械学習モデルの精度は93.24%から96.71%であった。 また、提案した特徴とそれらの関係を実験から分析し、特定のBitcoinアドレスノード(刑事捜査に関連する既知のトランザクションなど)から始まる有向不均一なマルチグラフによって構築されたBitcoinトランザクショングラフ全体からk-hopサブグラフを抽出するk-hopサブグラフ生成アルゴリズムを提案する。

Cryptocurrencies are no longer just the preferred option for cybercriminal activities on darknets, due to the increasing adoption in mainstream applications. This is partly due to the transparency associated with the underpinning ledgers, where any individual can access the record of a transaction record on the public ledger. In this paper, we build a dataset comprising Bitcoin transactions between 12 July 2019 and 26 May 2021. This dataset (hereafter referred to as BABD-13) contains 13 types of Bitcoin addresses, 5 categories of indicators with 148 features, and 544,462 labeled data. We then use our proposed dataset on common machine learning models, namely: k-nearest neighbors algorithm, decision tree, random forest, multilayer perceptron, and XGBoost. The results show that the accuracy rates of these machine learning models on our proposed dataset are between 93.24% and 96.71%. We also analyze the proposed features and their relationships from the experiments, and propose a k-hop subgraph generation algorithm to extract a k-hop subgraph from the entire Bitcoin transaction graph constructed by the directed heterogeneous multigraph starting from a specific Bitcoin address node (e.g., a known transaction associated with a criminal investigation).
翻訳日:2022-04-13 14:36:19 公開日:2022-04-10
# (参考訳) 小量子コンピュータ上のハイパースペクトル画像のコアセット [全文訳有]

Coreset of Hyperspectral Images on Small Quantum Computer ( http://arxiv.org/abs/2204.04691v1 )

ライセンス: CC BY 4.0
Soronzonbold Otgonbaatar, Mihai Datcu, Beg\"um Demir(参考訳) 機械学習(ML)技術は、大きなリモートセンシング(RS)データを分析・処理するために使用され、有名なML技術はサポートベクトルマシン(SVM)である。 SVMは二次プログラミング(QP)問題であり、D波量子アニール(D-Wave quantum annealer、D-Wave QA)はこのQP問題を従来のコンピュータよりも効率的に解くことを約束する。 しかし、D-Wave QAは入力キュービットが少ないため、直接SVMを解くことはできない。 したがって、この小さなD-Wave QA上でSVMをトレーニングするために、与えられたEOデータのコアセット(データセットのコア)を使用します。 coresetはオリジナルデータセットの小さな、代表的な重み付きサブセットであり、トレーニングモデルでは、オリジナルのデータセットを使用するのとは対照的に、coresetを使用して競合クラスを生成する。 Kullback-Leibler (KL) 分散測定を用いて, 元のデータセットとコアセットの近接性を測定した。 さらに、D-Wave QAと従来の手法の両方を用いてコアセットデータに基づいてSVMを訓練した。 コアセットは、元のデータセットを非常に小さなklダイバージェンス測度で特徴付けると結論づける。 さらに,本論文では,元のデータとコアセットの近接性を示すために,KL分散結果を示す。 実用的なRSデータとして、アメリカ・インディアンパインのハイパースペクトル画像(HSI)を用いる。

Machine Learning (ML) techniques are employed to analyze and process big Remote Sensing (RS) data, and one well-known ML technique is a Support Vector Machine (SVM). An SVM is a quadratic programming (QP) problem, and a D-Wave quantum annealer (D-Wave QA) promises to solve this QP problem more efficiently than a conventional computer. However, the D-Wave QA cannot solve directly the SVM due to its very few input qubits. Hence, we use a coreset ("core of a dataset") of given EO data for training an SVM on this small D-Wave QA. The coreset is a small, representative weighted subset of an original dataset, and any training models generate competitive classes by using the coreset in contrast to by using its original dataset. We measured the closeness between an original dataset and its coreset by employing a Kullback-Leibler (KL) divergence measure. Moreover, we trained the SVM on the coreset data by using both a D-Wave QA and a conventional method. We conclude that the coreset characterizes the original dataset with very small KL divergence measure. In addition, we present our KL divergence results for demonstrating the closeness between our original data and its coreset. As practical RS data, we use Hyperspectral Image (HSI) of Indian Pine, USA.
翻訳日:2022-04-13 11:37:03 公開日:2022-04-10
# (参考訳) Grey Wolf Optimization (GWO) を用いた効率的なパターンマイニング畳み込みニューラルネットワーク(CNN)アルゴリズム [全文訳有]

An Efficient Pattern Mining Convolution Neural Network (CNN) algorithm with Grey Wolf Optimization (GWO) ( http://arxiv.org/abs/2204.04704v1 )

ライセンス: CC0 1.0
Aatif Jamshed, Bhawna Mallick, Rajendra Kumar Bharti(参考訳) 動的画像フレームデータセットの特徴解析の自動化は、正規クラスと異常クラスの強度マッピングの複雑さを扱う。 しきい値に基づくデータクラスタリングと特徴分析は、異なる画像フレームデータタイプのためのマルチパターンで画像フレームのコンポーネントを学ぶために反復モデルを必要とする。 本稿では,grey wolf optimization (gwo) アルゴリズムにより最適化されたcpwt(convoluted pattern of wavelet transform)特徴ベクトルに基づくcnnを用いた特徴解析手法の新たなモデルを提案する。 当初、画像フレームは、ノイズを低減し、平滑化を施す画像フレームに中央フィルタを適用して正規化される。 そこから、エッジ情報は、画像フレーム内の明るいスポットの境界領域を表す。 ニューラルネットワークに基づく画像フレーム分類は、画像フレームピクセルをクラスタ化するデータセットの最小限のトレーニングで、機能の繰り返し学習を実行する。 ウェーブレット変換法の複雑なモデルに基づいて,フィルタ画像フレームの特徴を特徴抽出モデルの異なるパターンで解析した。 これらの特徴は、その空間的およびテクスチャ的パターンにおける異なる種類の画像フレームを表す。 畳み込みニューラルネットワーク(CNN)分類器は、特徴を分析し、画像フレームデータセットのアクションラベルを分類する。 このプロセスは、トレーニングデータセットの最小数で分類を強化する。 従来の最先端手法との比較により,提案手法の性能を検証できる。

Automation of feature analysis in the dynamic image frame dataset deals with complexity of intensity mapping with normal and abnormal class. The threshold-based data clustering and feature analysis requires iterative model to learn the component of image frame in multi-pattern for different image frame data type. This paper proposed a novel model of feature analysis method with the CNN based on Convoluted Pattern of Wavelet Transform (CPWT) feature vectors that are optimized by Grey Wolf Optimization (GWO) algorithm. Initially, the image frame gets normalized by applying median filter to the image frame that reduce the noise and apply smoothening on it. From that, the edge information represents the boundary region of bright spot in the image frame. Neural network-based image frame classification performs repeated learning of the feature with minimum training of dataset to cluster the image frame pixels. Features of the filtered image frame was analyzed in different pattern of feature extraction model based on the convoluted model of wavelet transformation method. These features represent the different class of image frame in spatial and textural pattern of it. Convolutional Neural Network (CNN) classifier supports to analyze the features and classify the action label for the image frame dataset. This process enhances the classification with minimum number of training dataset. The performance of this proposed method can be validated by comparing with traditional state-of-art methods.
翻訳日:2022-04-13 11:29:44 公開日:2022-04-10
# (参考訳) バイオメディカル・ファクトイド質問応答のためのデータ強化 [全文訳有]

Data Augmentation for Biomedical Factoid Question Answering ( http://arxiv.org/abs/2204.04711v1 )

ライセンス: CC BY 4.0
Dimitris Pappas and Prodromos Malakasiotis and Ion Androutsopoulos(参考訳) 本研究では,7つのデータ拡張法(da)の効果について,特にトレーニングインスタンスの取得が困難である生体医学領域に着目して検討した。 我々は,BioASQの課題から得られたデータを用いて,人工バイオメディカルマシン読解データセットから得られた学習例,あるいは後方翻訳,情報検索,ワード2vec埋め込みに基づく単語置換,あるいはマスク付き言語モデリング,質問生成,あるいは追加コンテキストで与えられた文節の拡張による学習例を実験した。 daは、大規模な事前トレーニングされたトランスフォーマーを使用しても、非常に大きなパフォーマンス向上をもたらす可能性があることを示す。 最も単純なdaメソッドの1つは、Word2vecベースの単語置換であり、最もよく実行され、推奨される。 人工トレーニングインスタンスとコードをリリースしています。

We study the effect of seven data augmentation (da) methods in factoid question answering, focusing on the biomedical domain, where obtaining training instances is particularly difficult. We experiment with data from the BioASQ challenge, which we augment with training instances obtained from an artificial biomedical machine reading comprehension dataset, or via back-translation, information retrieval, word substitution based on word2vec embeddings, or masked language modeling, question generation, or extending the given passage with additional context. We show that da can lead to very significant performance gains, even when using large pre-trained Transformers, contributing to a broader discussion of if/when da benefits large pre-trained models. One of the simplest da methods, word2vec-based word substitution, performed best and is recommended. We release our artificial training instances and code.
翻訳日:2022-04-13 11:16:27 公開日:2022-04-10
# (参考訳) 地域参照のマッチングによる画像調和

Image Harmonization by Matching Regional References ( http://arxiv.org/abs/2204.04715v1 )

ライセンス: CC BY 4.0
Ziyue Zhu, Zhao Zhang, Zheng Lin, Ruiqi Wu, Zhi Chai, Chun-Le Guo(参考訳) 合成画像における視覚的整合性を実現するため、最近の画像調和法は、通常、グローバル背景の出現パターンを要約し、位置差のないグローバルフォアグラウンドに適用する。 しかし、実際の画像では、異なる領域の外観(照明、色温度、彩度、色合い、テクスチャなど)が著しく異なる場合がある。 したがって、グローバルに外観を転送する従来の方法は最適ではない。 この問題を解決するために,まず前景と背景の内容を照合し,その内容に関連した背景領域の出現に応じて各前景の位置を適応的に調整する。 さらに, 予測残差を用いて外観を調整し, 合成前景を用いて画像詳細を保存した残余再構成戦略を考案する。 広範な実験により本手法の有効性が実証された。 ソースコードは一般公開される予定だ。

To achieve visual consistency in composite images, recent image harmonization methods typically summarize the appearance pattern of global background and apply it to the global foreground without location discrepancy. However, for a real image, the appearances (illumination, color temperature, saturation, hue, texture, etc) of different regions can vary significantly. So previous methods, which transfer the appearance globally, are not optimal. Trying to solve this issue, we firstly match the contents between the foreground and background and then adaptively adjust every foreground location according to the appearance of its content-related background regions. Further, we design a residual reconstruction strategy, that uses the predicted residual to adjust the appearance, and the composite foreground to reserve the image details. Extensive experiments demonstrate the effectiveness of our method. The source code will be available publicly.
翻訳日:2022-04-13 10:47:43 公開日:2022-04-10
# (参考訳) TOV:自己教師型学習による光リモートセンシング画像理解のためのオリジナルビジョンモデル

TOV: The Original Vision Model for Optical Remote Sensing Image Understanding via Self-supervised Learning ( http://arxiv.org/abs/2204.04716v1 )

ライセンス: CC BY-SA 4.0
Chao Tao, Ji Qia, Guo Zhang, Qing Zhu, Weipeng Lu, Haifeng Li(参考訳) ラベルなしおよびタスク非依存の方法で人間の視覚ではなく、教師付きデータ依存およびタスク依存の方法でモデルをトレーニングすることで、リモートセンシングイメージ理解(rsiu)を適切な方法で実現するか? 我々は、より望ましいRSIUモデルが、より広範囲のRSIUタスクにまたがる一般化を実現するために、外在的な人間ラベルよりも、データから本質的な構造で訓練されるべきであると主張している。 本仮説では, リモートセンシングにより, テキストbf{T}he \textbf{O}riginal \textbf{V}ision Model (TOV) を提案した。 ヒューマンライクな自己教師あり学習(SSL)パスに沿った大規模な未ラベルの光学データによって訓練されたTOVモデルは、シーン分類、オブジェクト検出、セマンティックセグメンテーションを含む様々なRSIUタスクに容易に適応でき、支配的なImageNetの教師あり事前訓練手法と、最近提案されたSSL事前訓練手法を12の公開ベンチマークのほとんどで上回る。 さらに, RSIUのTOVモデル構築における2つの要因の影響を解析し, 異なるデータサンプリング手法を用いることによる影響や, 自己監督最適化における学習経路の選択などを検討した。 ラベルフリーでタスク非依存な方法で訓練された一般的なモデルは、RSIUの次のパラダイムであり、この研究から得られた知見がRSIUのオリジナルビジョンモデルの開発を促進することを願っている。

Do we on the right way for remote sensing image understanding (RSIU) by training models via supervised data-dependent and task-dependent way, instead of human vision in a label-free and task-independent way? We argue that a more desirable RSIU model should be trained with intrinsic structure from data rather that extrinsic human labels to realize generalizability across a wide range of RSIU tasks. According to this hypothesis, we proposed \textbf{T}he \textbf{O}riginal \textbf{V}ision model (TOV) in remote sensing filed. Trained by massive unlabeled optical data along a human-like self-supervised learning (SSL) path that is from general knowledge to specialized knowledge, TOV model can be easily adapted to various RSIU tasks, including scene classification, object detection, and semantic segmentation, and outperforms dominant ImageNet supervised pretrained method as well as two recently proposed SSL pretrained methods on majority of 12 publicly available benchmarks. Moreover, we analyze the influences of two key factors on the performance of building TOV model for RSIU, including the influence of using different data sampling methods and the selection of learning paths during self-supervised optimization. We believe that a general model which is trained by a label-free and task-independent way may be the next paradigm for RSIU and hope the insights distilled from this study can help to foster the development of an original vision model for RSIU.
翻訳日:2022-04-13 10:46:53 公開日:2022-04-10
# (参考訳) モデルミスマッチを用いたオンライン勾配降下型反復学習制御の後悔解析 [全文訳有]

Regret Analysis of Online Gradient Descent-based Iterative Learning Control with Model Mismatch ( http://arxiv.org/abs/2204.04722v1 )

ライセンス: CC BY 4.0
Efe C. Balta, Andrea Iannelli, Roy S. Smith, John Lygeros(参考訳) 反復学習制御(ilc)では、所望の基準軌道に向けてシステムを制御することを目的として、部分的モデル知識と過去の測定に基づいて、各イテレーションでフィードフォワード制御アクションのシーケンスを生成する。 ここでは、コスト関数の部分的知識しか持たない最適化問題の系列を解くことによって、意思決定者が順次決定を行うオンライン学習タスクとして構成されている。 この関係を確立したことにより,オンライン学習における標準的尺度である動的かつ静的な後悔の設定において,不正確な勾配情報を用いたオンライン・グラデーション・ディセント・スキームの性能を解析した。 本手法の基本限界と適応機構との統合についてさらに検討し, ベンチマークirc問題に対する数値シミュレーションを行った。

In Iterative Learning Control (ILC), a sequence of feedforward control actions is generated at each iteration on the basis of partial model knowledge and past measurements with the goal of steering the system toward a desired reference trajectory. This is framed here as an online learning task, where the decision-maker takes sequential decisions by solving a sequence of optimization problems having only partial knowledge of the cost functions. Having established this connection, the performance of an online gradient-descent based scheme using inexact gradient information is analyzed in the setting of dynamic and static regret, standard measures in online learning. Fundamental limitations of the scheme and its integration with adaptation mechanisms are further investigated, followed by numerical simulations on a benchmark ILC problem.
翻訳日:2022-04-13 10:45:34 公開日:2022-04-10
# (参考訳) 深部非剛性構造から運動へ:シーケンスからシーケンスへの変換の観点から [全文訳有]

Deep Non-rigid Structure-from-Motio n: A Sequence-to-Sequence Translation Perspective ( http://arxiv.org/abs/2204.04730v1 )

ライセンス: CC BY 4.0
Hui Deng and Tong Zhang and Yuchao Dai and Jiawei Shi and Yiran Zhong and Hongdong Li(参考訳) 個々の2次元フレームから非剛体形状とカメラポーズを直接回帰することは、非剛体構造運動(NRSfM)問題に不適である。 このフレーム・バイ・フレーム3D再構成パイプラインは、NRSfMの本質的な時空間特性、すなわち入力された2Dシーケンスから全体の3Dシーケンスを再構築する。 本稿では,入力された2次元フレームシーケンスを全体として捉え,変形する3次元非剛体形状配列を再構成する,シーケンス・ツー・シーケンス変換の観点から深部NASfMをモデル化する。 まず1つのフレームから初期非剛体形状とカメラの動きを推定するために形状運動予測器を適用する。 次に,カメラの動作や複雑な非剛性形状をモデル化するコンテキストモデリングモジュールを提案する。 深層フレームワーク内でのグローバルな構造制約を強制することの難しさに対処するため,自己表現層を多面的注意と遅延正則化に置き換えて,エンドツーエンドのバッチワイズトレーニングを可能にすることを提案する。 Human3.6M、CMU Mocap、InterHandといったさまざまなデータセットに対する実験結果は、我々のフレームワークの優位性を証明している。 コードは公開されます

Directly regressing the non-rigid shape and camera pose from the individual 2D frame is ill-suited to the Non-Rigid Structure-from-Motio n (NRSfM) problem. This frame-by-frame 3D reconstruction pipeline overlooks the inherent spatial-temporal nature of NRSfM, i.e., reconstructing the whole 3D sequence from the input 2D sequence. In this paper, we propose to model deep NRSfM from a sequence-to-sequence translation perspective, where the input 2D frame sequence is taken as a whole to reconstruct the deforming 3D non-rigid shape sequence. First, we apply a shape-motion predictor to estimate the initial non-rigid shape and camera motion from a single frame. Then we propose a context modeling module to model camera motions and complex non-rigid shapes. To tackle the difficulty in enforcing the global structure constraint within the deep framework, we propose to impose the union-of-subspace structure by replacing the self-expressiveness layer with multi-head attention and delayed regularizers, which enables end-to-end batch-wise training. Experimental results across different datasets such as Human3.6M, CMU Mocap and InterHand prove the superiority of our framework. The code will be made publicly available
翻訳日:2022-04-13 09:59:36 公開日:2022-04-10
# (参考訳) reduce model jitter: 運用環境におけるセマンティックパーサの安定した再トレーニング [全文訳有]

Reducing Model Jitter: Stable Re-training of Semantic Parsers in Production Environments ( http://arxiv.org/abs/2204.04735v1 )

ライセンス: CC BY 4.0
Christopher Hidey, Fei Liu, Rahul Goel(参考訳) 現代のディープラーニングシステムのトレーニングは、異なるランダムシードを使用することで、同じデータとハイパーパラメータを使用してトレーニングした場合でも、モデルパフォーマンスのばらつきにつながる可能性がある。 この現象をモデルジッタと呼びます この問題は、しばしばプロダクション環境で悪化し、ノイズの多いデータでモデルが再トレーニングされる。 本研究は,対話型セマンティックパーサに着目した安定的再学習の問題に取り組む。 まず,モデル合意メトリックを導入し,データセットのノイズとモデルサイズによる変動を示すことで,モデルジッタ問題を定量化する。 次に, センシングや蒸留などの様々なジッタ低減技術の有効性を示す。 最後に,このような技術間の実践的トレードオフについて議論し,資源利用のわずかな増加だけで,意味解析システムにおけるジッタ削減の観点から,共蒸留がスイートスポットであることを示す。

Retraining modern deep learning systems can lead to variations in model performance even when trained using the same data and hyper-parameters by simply using different random seeds. We call this phenomenon model jitter. This issue is often exacerbated in production settings, where models are retrained on noisy data. In this work we tackle the problem of stable retraining with a focus on conversational semantic parsers. We first quantify the model jitter problem by introducing the model agreement metric and showing the variation with dataset noise and model sizes. We then demonstrate the effectiveness of various jitter reduction techniques such as ensembling and distillation. Lastly, we discuss practical trade-offs between such techniques and show that co-distillation provides a sweet spot in terms of jitter reduction for semantic parsing systems with only a modest increase in resource usage.
翻訳日:2022-04-13 09:41:01 公開日:2022-04-10
# (参考訳) 破壊的キャラクタ: サブワードは、結局mrlsにとって十分か? [全文訳有]

Breaking Character: Are Subwords Good Enough for MRLs After All? ( http://arxiv.org/abs/2204.04748v1 )

ライセンス: CC0 1.0
Omri Keren, Tal Avinari, Reut Tsarfaty, Omer Levy(参考訳) 大規模事前学習言語モデル(plm)は、通常、事前訓練や推論の前に入力文字列を連続したサブワードにトークン化する。 しかし、過去の研究では、このサブワードトークン化の形式は形態的にリッチな言語(MRL)の処理には不十分であると主張している。 単語ピースの代わりに文字列よりもBERTスタイルのマスキング言語モデルを事前学習することで、この仮説を再考する。 本稿では,3つの高度に複雑で曖昧なMRL(ヘブライ語,トルコ語,アラビア語)のサブワードをベースとした,TavBERTと呼ばれる同時代のPLMと比較し,形態的および意味的タスクでそれらをテストする。 以上の結果から,TavBERT は表層レベルのタスク '`a la POS タグ付けと全形態的曖昧さを軽度に改善する一方で,サブワードベースの PLM は,名前付きエンティティ認識や抽出質問応答などのセマンティックタスクにおいて有意に高い性能を発揮することがわかった。 これらの結果は、MRLを含む多くの言語において、意味のあるモデリング仮定としてサブワードトークン化の可能性を示し(再)確認する。

Large pretrained language models (PLMs) typically tokenize the input string into contiguous subwords before any pretraining or inference. However, previous studies have claimed that this form of subword tokenization is inadequate for processing morphologically-rich languages (MRLs). We revisit this hypothesis by pretraining a BERT-style masked language model over character sequences instead of word-pieces. We compare the resulting model, dubbed TavBERT, against contemporary PLMs based on subwords for three highly complex and ambiguous MRLs (Hebrew, Turkish, and Arabic), testing them on both morphological and semantic tasks. Our results show, for all tested languages, that while TavBERT obtains mild improvements on surface-level tasks \`a la POS tagging and full morphological disambiguation, subword-based PLMs achieve significantly higher performance on semantic tasks, such as named entity recognition and extractive question answering. These results showcase and (re)confirm the potential of subword tokenization as a reasonable modeling assumption for many languages, including MRLs.
翻訳日:2022-04-13 09:30:01 公開日:2022-04-10
# (参考訳) 不確実性下における最適化におけるロカフェル緩和--漸近的排他的定式化

Rockafellian Relaxation in Optimization under Uncertainty: Asymptotically Exact Formulations ( http://arxiv.org/abs/2204.04762v1 )

ライセンス: CC BY 4.0
Louis L. Chen and Johannes O. Royset(参考訳) 実際には、データ不足と疑わしい仮定のために、最適化モデルはしばしば避けられない不正確な問題を引き起こす。 伝統的に、これはリスクベースのロバストな定式化と「保守的な」決定に特に重点を置いていた。 対照的に,rockafellianリラクゼーションに基づく「最適化」フレームワークを開発し,元の決定空間上だけでなく,モデル摂動の選択と協調して最適化を行う。 この枠組みにより,2段階確率最適化の領域から,連続性特性を欠いた確率関数,期待制約,外れ値解析を伴わずに,曖昧な確率分布を持つ問題に対処できる。 また、分布の収束が期待の収束を保証するのに失敗する確率最適化の根本的な困難を回避できる。 この枠組みは、特定の設定で現れる「負の」正規化の解釈とともに、厳密で漸近的に正確なロカフェリア人の新しい概念に焦点を当てている。 本稿では,phi-divergenceの役割を説明し,分布の変化に伴う収束率を調べ,一階最適条件の拡張を検討する。 主な発展は、凸性、滑らか性、さらには目的関数の連続性に関する仮定を含まないことである。

In practice, optimization models are often prone to unavoidable inaccuracies due to lack of data and dubious assumptions. Traditionally, this placed special emphasis on risk-based and robust formulations, and their focus on "conservative" decisions. We develop, in contrast, an "optimistic" framework based on Rockafellian relaxations in which optimization is conducted not only over the original decision space but also jointly with a choice of model perturbation. The framework enables us to address challenging problems with ambiguous probability distributions from the areas of two-stage stochastic optimization without relatively complete recourse, probability functions lacking continuity properties, expectation constraints, and outlier analysis. We are also able to circumvent the fundamental difficulty in stochastic optimization that convergence of distributions fails to guarantee convergence of expectations. The framework centers on the novel concepts of exact and asymptotically exact Rockafellians, with interpretations of "negative" regularization emerging in certain settings. We illustrate the role of Phi-divergence, examine rates of convergence under changing distributions, and explore extensions to first-order optimality conditions. The main development is free of assumptions about convexity, smoothness, and even continuity of objective functions.
翻訳日:2022-04-13 09:18:30 公開日:2022-04-10
# (参考訳) 連続学習のための情報理論オンライン記憶選択 [全文訳有]

Information-theoreti c Online Memory Selection for Continual Learning ( http://arxiv.org/abs/2204.04763v1 )

ライセンス: CC BY 4.0
Shengyang Sun, Daniele Calandriello, Huiyi Hu, Ang Li, Michalis Titsias(参考訳) タスクフリー連続学習における課題は、データストリームから代表的リプレイメモリをオンライン選択することである。 本研究では,情報理論的な観点からオンラインメモリ選択問題について検討する。 最も多くの情報を集めるために、情報ポイントを選択し、アウトリーチを避けるために、 \textit{surprise} と \textit{learnability} の基準を提案する。 階数 1 の行列構造を用いて,基準を効率的に計算するためのベイズモデルを提案する。 これらの基準は、オンラインメモリ選択のための欲求アルゴリズムにおける情報的ポイントの選択を促進することを実証する。 さらに,記憶の更新タイミングである \textit{the timing to update the memory} の重要性を明らかにすることで,情報量の高い選択点間のサンプリングを行う確率的情報理論的貯留層サンプリング器(infors)を提案する。 貯水池サンプリングと比較すると、InfoRSはデータの不均衡に対する堅牢性を改善している。 最後に、連続学習ベンチマークに対する経験的性能は、その効率性と有効性を示す。

A challenging problem in task-free continual learning is the online selection of a representative replay memory from data streams. In this work, we investigate the online memory selection problem from an information-theoreti c perspective. To gather the most information, we propose the \textit{surprise} and the \textit{learnability} criteria to pick informative points and to avoid outliers. We present a Bayesian model to compute the criteria efficiently by exploiting rank-one matrix structures. We demonstrate that these criteria encourage selecting informative points in a greedy algorithm for online memory selection. Furthermore, by identifying the importance of \textit{the timing to update the memory}, we introduce a stochastic information-theoreti c reservoir sampler (InfoRS), which conducts sampling among selective points with high information. Compared to reservoir sampling, InfoRS demonstrates improved robustness against data imbalance. Finally, empirical performances over continual learning benchmarks manifest its efficiency and efficacy.
翻訳日:2022-04-13 09:17:22 公開日:2022-04-10
# (参考訳) スパイキングニューラルネットワークにおける電力指向型故障インジェクション攻撃の解析 [全文訳有]

Analysis of Power-Oriented Fault Injection Attacks on Spiking Neural Networks ( http://arxiv.org/abs/2204.04768v1 )

ライセンス: CC BY 4.0
Karthikeyan Nagarajan, Junde Li, Sina Sayyah Ensan, Mohammad Nasim Imtiaz Khan, Sachhidh Kannan, and Swaroop Ghosh(参考訳) ディープニューラルネットワーク(DNN)の代替手段として,スパイキングニューラルネットワーク(SNN)が急速に普及している。 DNNと比較して、SNNは計算能力が高く、エネルギー効率も優れている。 snnは、一見エキサイティングだが、セキュリティに敏感な資産(例えば、ニューロン閾値電圧)と、敵が悪用できる脆弱性(例えば、ニューロン閾値電圧変化に対する分類精度の感度)を含んでいる。 本研究では, アナログニューロンを用いたSNNにおいて, スパイク振幅やニューロン膜閾値電位などの重要なトレーニングパラメータに, 外部電源とレーザー誘起局所電源を用いた大域的障害注入攻撃について検討した。 また、電力ベースの攻撃が個々のSNN層に与える影響を0%(攻撃なし)から100%(攻撃対象層全体)で評価した。 数値分類タスクにおける攻撃の影響を調査し,最悪の場合,分類精度が85.65%低下することを発見した。 また,電力指向攻撃の影響を受けないロバストな電流ドライバ設計,ニューロンコンポーネントの回路サイズの改善,無視可能な領域と25%の電力オーバーヘッドを犠牲にして,敵対的精度の低下を低減・回復する防御策を提案する。 また,1%の電力と領域のオーバーヘッドを有するダミーニューロンを用いた電圧障害検出システムを提案する。

Spiking Neural Networks (SNN) are quickly gaining traction as a viable alternative to Deep Neural Networks (DNN). In comparison to DNNs, SNNs are more computationally powerful and provide superior energy efficiency. SNNs, while exciting at first appearance, contain security-sensitive assets (e.g., neuron threshold voltage) and vulnerabilities (e.g., sensitivity of classification accuracy to neuron threshold voltage change) that adversaries can exploit. We investigate global fault injection attacks by employing external power supplies and laser-induced local power glitches to corrupt crucial training parameters such as spike amplitude and neuron's membrane threshold potential on SNNs developed using common analog neurons. We also evaluate the impact of power-based attacks on individual SNN layers for 0% (i.e., no attack) to 100% (i.e., whole layer under attack). We investigate the impact of the attacks on digit classification tasks and find that in the worst-case scenario, classification accuracy is reduced by 85.65%. We also propose defenses e.g., a robust current driver design that is immune to power-oriented attacks, improved circuit sizing of neuron components to reduce/recover the adversarial accuracy degradation at the cost of negligible area and 25% power overhead. We also present a dummy neuron-based voltage fault injection detection system with 1% power and area overhead.
翻訳日:2022-04-13 08:46:10 公開日:2022-04-10
# (参考訳) コード混合臨床文書の粗粒化脱同定のための小節間クロスリンガルトランスファー [全文訳有]

Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of Code-Mixed Clinical Texts ( http://arxiv.org/abs/2204.04775v1 )

ライセンス: CC BY 4.0
Saadullah Amin, Noon Pokaratsiri Goldstein, Morgan Kelly Wixted, Alejandro Garc\'ia-Rudolph, Catalina Mart\'inez-Costa, G\"unter Neumann(参考訳) キュレートされた構造化された知識を提供するデジタル医療システムの進歩にもかかわらず、重要な情報の多くは、まだラベルなしおよび未構造化の臨床テキストの大量に存在する。 これらのテキストは、しばしば保護された健康情報(phi)を含み、下流アプリケーションのための情報抽出ツールに晒され、患者の識別を危険にさらす。 非同一化の既存の作品では、英語で大規模な注釈付きコーパスを使用するが、実世界の多言語環境では適さないことが多い。 事前学習型言語モデル(LM)は低リソース環境での言語間移動に大きな可能性を示している。 本研究では,NERにおけるLMの多言語間転写特性を実証的に示すとともに,脳卒中領域におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために応用する。 我々はゴールド評価データセットをアノテートして、数百のラベル付きサンプルをトレーニングに使用した少数のショット設定性能を評価する。 本モデルでは,Multilingual BERT (Devlin et al., 2019) を MEDDOCAN (Marimon et al., 2019) コーパスから適用した場合の金評価値の0ショットF1スコアを73.7%から91.2%に改善する。 サンプル外テスト集合に一般化すると、最良モデルは人間の評価f1-スコア97.2%を達成する。

Despite the advances in digital healthcare systems offering curated structured knowledge, much of the critical information still lies in large volumes of unlabeled and unstructured clinical texts. These texts, which often contain protected health information (PHI), are exposed to information extraction tools for downstream applications, risking patient identification. Existing works in de-identification rely on using large-scale annotated corpora in English, which often are not suitable in real-world multilingual settings. Pre-trained language models (LM) have shown great potential for cross-lingual transfer in low-resource settings. In this work, we empirically show the few-shot cross-lingual transfer property of LMs for named entity recognition (NER) and apply it to solve a low-resource and real-world challenge of code-mixed (Spanish-Catalan) clinical notes de-identification in the stroke domain. We annotate a gold evaluation dataset to assess few-shot setting performance where we only use a few hundred labeled examples for training. Our model improves the zero-shot F1-score from 73.7% to 91.2% on the gold evaluation set when adapting Multilingual BERT (mBERT) (Devlin et al., 2019) from the MEDDOCAN (Marimon et al., 2019) corpus with our few-shot cross-lingual target corpus. When generalized to an out-of-sample test set, the best model achieves a human-evaluation F1-score of 97.2%.
翻訳日:2022-04-13 08:35:02 公開日:2022-04-10
# (参考訳) 精密健康におけるマルチモーダル機械学習

Multimodal Machine Learning in Precision Health ( http://arxiv.org/abs/2204.04777v1 )

ライセンス: CC BY 4.0
Adrienne Kline, Hanyin Wang, Yikuan Li, Saya Dennis, Meghan Hutch, Zhenxing Xu, Fei Wang, Feixiong Cheng and Yuan Luo(参考訳) 機械学習と人工知能は、健康分野の問題に取り組むために頻繁に活用されているため、臨床的な意思決定支援に利用することへの関心が高まっている。 電子健康記録データのような単一のモーダルデータでは、歴史的にそうである。 異なるデータの融合による機械学習の計算分野において、予測を改善し、臨床専門家による意思決定のマルチモーダルな性質に類似させようと試みている。 本総説は, この分野を要約し, 今後の研究に欠かせない話題を特定するものである。 PRISMA(Preferred Reporting Items for Systematic Review and Meta-Analyses)拡張によるScoping Reviewsによるマルチモーダルデータ融合の評価を行った。 コンテンツ分析と文献検索を組み合わせて,2011年から2021年にかけてPubMed, Google Scholar, IEEEXploreの検索文字列とデータベースを構築した。 125記事の最終セットが分析に含まれていた。 マルチモーダル手法を用いた最も一般的な健康領域は神経学と腫瘍学であった。 しかし、現在の用途には幅広いものがある。 情報融合の最も一般的な形態は初期の融合であった。 特に、不均一なデータ融合を行う予測性能が向上した。 論文の欠如は、明確な臨床展開戦略とfda承認ツールの追求であった。 これらの知見は、健康診断・予後問題に適用されるマルチモーダルデータ融合に関する現在の文献の地図を提供する。 マルチモーダル機械学習は、ユニモーダルな手法に対する推定においてより堅牢であるが、そのスケーラビリティと情報結合の時間的消費の性質に欠点がある。

As machine learning and artificial intelligence are more frequently being leveraged to tackle problems in the health sector, there has been increased interest in utilizing them in clinical decision-support. This has historically been the case in single modal data such as electronic health record data. Attempts to improve prediction and resemble the multimodal nature of clinical expert decision-making this has been met in the computational field of machine learning by a fusion of disparate data. This review was conducted to summarize this field and identify topics ripe for future research. We conducted this review in accordance with the PRISMA (Preferred Reporting Items for Systematic reviews and Meta-Analyses) extension for Scoping Reviews to characterize multi-modal data fusion in health. We used a combination of content analysis and literature searches to establish search strings and databases of PubMed, Google Scholar, and IEEEXplore from 2011 to 2021. A final set of 125 articles were included in the analysis. The most common health areas utilizing multi-modal methods were neurology and oncology. However, there exist a wide breadth of current applications. The most common form of information fusion was early fusion. Notably, there was an improvement in predictive performance performing heterogeneous data fusion. Lacking from the papers were clear clinical deployment strategies and pursuit of FDA-approved tools. These findings provide a map of the current literature on multimodal data fusion as applied to health diagnosis/prognosis problems. Multi-modal machine learning, while more robust in its estimations over unimodal methods, has drawbacks in its scalability and the time-consuming nature of information concatenation.
翻訳日:2022-04-13 08:18:33 公開日:2022-04-10
# (参考訳) False Sense of Security の測定 [全文訳有]

Measuring the False Sense of Security ( http://arxiv.org/abs/2204.04778v1 )

ライセンス: CC BY 4.0
Carlos Gomes(参考訳) 近年, 敵の防御策として, 勾配マスキングが有効であることを示す論文がいくつかある。 この現象に依存する防御は失敗と見なされ、容易に破ることができる。 それにもかかわらず、勾配マスキングの現象を計測し、その範囲を異なるネットワークで比較する方法についてはほとんど研究されていない。 本研究では, メンシュアビリティのレンズ下での勾配マスキングについて検討し, 二元現象であるという考えから脱却する。 そこで我々は,いくつかの指標を提案し,異なる勾配マスキングの程度を示すと疑われた防御実験を行った。 これらは強力な攻撃よりも計算量的に安価であり、モデル間の比較が可能であり、特定のモデルに対するテーラーメイド攻撃の大規模な投資を必要としない。 以上の結果から,異なるネットワーク間における勾配マスキングの程度の測定に成功している指標を明らかにした。

Recently, several papers have demonstrated how widespread gradient masking is amongst proposed adversarial defenses. Defenses that rely on this phenomenon are considered failed, and can easily be broken. Despite this, there has been little investigation into ways of measuring the phenomenon of gradient masking and enabling comparisons of its extent amongst different networks. In this work, we investigate gradient masking under the lens of its mensurability, departing from the idea that it is a binary phenomenon. We propose and motivate several metrics for it, performing extensive empirical tests on defenses suspected of exhibiting different degrees of gradient masking. These are computationally cheaper than strong attacks, enable comparisons between models, and do not require the large time investment of tailor-made attacks for specific models. Our results reveal metrics that are successful in measuring the extent of gradient masking across different networks
翻訳日:2022-04-13 08:17:27 公開日:2022-04-10
# (参考訳) 局所遷移下における固定水平拘束確率的最短経路問題の完全多項式時間近似法 [全文訳有]

A Fully Polynomial Time Approximation Scheme for Fixed-Horizon Constrained Stochastic Shortest Path Problem under Local Transitions ( http://arxiv.org/abs/2204.04780v1 )

ライセンス: CC BY 4.0
Majid Khonji(参考訳) 固定水平制約付き確率的最短経路問題 (C-SSP) は、特定の操作制約の下で確率的環境を計画するための形式主義である。 Chance-Constrained SSP (CC-SSP) は、多くの安全クリティカルなアプリケーションで望まれる制約違反の確率を制限できる変種である。 この研究は、(C)C-SSPの重要な変種を局所遷移の下で考慮し、状態到達性が特定の局所性を示すような幅広いSSP問題を捉える。 一定の数の州だけがその後の州を共有できる。 (C)C-SSPは2の計画地平線であってもNP-Hardである。 そこで本研究では, (c)c-ssp に対する多項式時間近似スキームを提案する。 このようなアルゴリズムは理論上達成可能な最善の近似アルゴリズムである

The fixed-horizon constrained stochastic shortest path problem (C-SSP) is a formalism for planning in stochastic environments under certain operating constraints. Chance-Constrained SSP (CC-SSP) is a variant that allows bounding the probability of constraint violation, which is desired in many safety-critical applications. This work considers an important variant of (C)C-SSP under local transition, capturing a broad class of SSP problems where state reachability exhibit a certain locality. Only a constant number of states can share some subsequent states. (C)C-SSP under local transition is NP-Hard even for a planning horizon of two. In this work, we propose a fully polynomial-time approximation scheme for (C)C-SSP that computes (near) optimal deterministic policies. Such an algorithm is the best approximation algorithm attainable in theory
翻訳日:2022-04-13 08:02:27 公開日:2022-04-10
# (参考訳) 低ランクおよびモデル非依存表現を用いた時間知識グラフ推論 [全文訳有]

Temporal Knowledge Graph Reasoning with Low-rank and Model-agnostic Representations ( http://arxiv.org/abs/2204.04783v1 )

ライセンス: CC BY 4.0
Ioannis Dikeoulias, Saadullah Amin, G\"unter Neumann(参考訳) 時間的知識グラフ補完(TKGC)は、正確だが欠落した情報による知識の完成をターゲットとして、事象や時間的知識グラフを推論する一般的なアプローチとなっている。 この文脈でテンソル分解は、実体と関係の間の相互作用をうまくモデル化した。 静的知識グラフ補完の有効性は,低ランクテンソル分解モデルlowferのパラメータ効率と時間対応拡張であるtime-lowferの導入を動機付ける。 時間を表現するための現在のアプローチのいくつかの制限に留意し、時間特徴のサイクル認識型時間符号化方式を提案する。 我々は,時間に敏感なデータ処理に着目した統合時間知識グラフ埋め込みフレームワークに本手法を実装した。 実験の結果,提案手法は2つのベンチマークにおいて最先端のセマンティクスマッチングモデルと同等以上の性能を示した。

Temporal knowledge graph completion (TKGC) has become a popular approach for reasoning over the event and temporal knowledge graphs, targeting the completion of knowledge with accurate but missing information. In this context, tensor decomposition has successfully modeled interactions between entities and relations. Their effectiveness in static knowledge graph completion motivates us to introduce Time-LowFER, a family of parameter-efficient and time-aware extensions of the low-rank tensor factorization model LowFER. Noting several limitations in current approaches to represent time, we propose a cycle-aware time-encoding scheme for time features, which is model-agnostic and offers a more generalized representation of time. We implement our methods in a unified temporal knowledge graph embedding framework, focusing on time-sensitive data processing. The experiments show that our proposed methods perform on par or better than the state-of-the-art semantic matching models on two benchmarks.
翻訳日:2022-04-13 07:43:11 公開日:2022-04-10
# (参考訳) 強化学習を用いた最適電力効率トレードオフを用いたブラックボックス量子熱機械の駆動 [全文訳有]

Driving black-box quantum thermal machines with optimal power/efficiency trade-offs using reinforcement learning ( http://arxiv.org/abs/2204.04785v1 )

ライセンス: CC BY 4.0
Paolo Andrea Erdman, Frank No\'e(参考訳) 非平衡開量子システムの最適制御は困難な課題であるが、既存の量子情報処理技術を改善する上で重要な役割を担っている。 量子熱エンジンと冷蔵庫の効率と電力の最適トレードオフである平衡外熱力学サイクルを同定するために,強化学習に基づく汎用モデルフリーフレームワークを提案する。 この方法は量子熱機械の知識もシステムモデルも量子状態の知識も必要としない。 代わりに、熱流束のみを観測するので、シミュレーションと実験装置の両方に適用できる。 量子摩擦を減少させる非直観的な制御シーケンスを同定し,文献に提案されている先行サイクルを上回らせること,及び,最適化オットーサイクルを上回る精巧な構造を持つサイクルを求める熱エンジンの2つのシステムにおいて,電力と効率のパレート最適トレードオフを同定する手法を検証した。

The optimal control of non-equilibrium open quantum systems is a challenging task but has a key role in improving existing quantum information processing technologies. We introduce a general model-free framework based on Reinforcement Learning to identify out-of-equilibrium thermodynamic cycles that are Pareto optimal trade-offs between power and efficiency for quantum heat engines and refrigerators. The method does not require any knowledge of the quantum thermal machine, nor of the system model, nor of the quantum state. Instead, it only observes the heat fluxes, so it is both applicable to simulations and experimental devices. We test our method identifying Pareto-optimal trade-offs between power and efficiency in two systems: an experimentally realistic refrigerator based on a superconducting qubit, where we identify non-intuitive control sequences that reduce quantum friction and outperform previous cycles proposed in literature; and a heat engine based on a quantum harmonic oscillator, where we find cycles with an elaborate structure that outperform the optimized Otto cycle.
翻訳日:2022-04-13 07:29:40 公開日:2022-04-10
# (参考訳) ジレンマ:自己教師形とトランスフォーマーによるテクスチャ学習 [全文訳有]

DILEMMA: Self-Supervised Shape and Texture Learning with Transformers ( http://arxiv.org/abs/2204.04788v1 )

ライセンス: CC BY 4.0
Sepehr Sameni, Simon Jenni, Paolo Favaro(参考訳) 形状バイアスを持つディープニューラルネットワークは、形状バイアスを持つモデルよりもより高度な一般化能力を示すと信じられている。 しかし,既存の形状バイアス尺度は一般化の安定な予測因子ではないことを実験的に示し,テクスチャ識別を犠牲にすべきではないと主張する。 そこで本稿では,自己教師型学習による学習モデルにおいて,形状とテクスチャの識別性を明示的に向上する擬似タスクを提案する。 この目的のために、入力トークンと不正な位置埋め込みの組み合わせを検出するためにViTを訓練する。 テクスチャの識別を維持するため、vitはmocoでも学生教師アーキテクチャで訓練され、追加学習可能なクラストークンに対して対照的な損失を与える。 我々は提案手法をDILEMMAと呼び,MAsked入力による不正確な位置EMベディングの検出を行う。 いくつかのデータセットを微調整し,MoCoV3とDINOより優れていることを示す。 さらに,ダウンストリームタスクが(yoga-82のポーズデータセットのように)形状に強く依存している場合,事前トレーニングされた機能によって,事前作業よりも大きな利益が得られることを示す。 コードは出版時に公開される。

There is a growing belief that deep neural networks with a shape bias may exhibit better generalization capabilities than models with a texture bias, because shape is a more reliable indicator of the object category. However, we show experimentally that existing measures of shape bias are not stable predictors of generalization and argue that shape discrimination should not come at the expense of texture discrimination. Thus, we propose a pseudo-task to explicitly boost both shape and texture discriminability in models trained via self-supervised learning. For this purpose, we train a ViT to detect which input token has been combined with an incorrect positional embedding. To retain texture discrimination, the ViT is also trained as in MoCo with a student-teacher architecture and a contrastive loss over an extra learnable class token. We call our method DILEMMA, which stands for Detection of Incorrect Location EMbeddings with MAsked inputs. We evaluate our method through fine-tuning on several datasets and show that it outperforms MoCoV3 and DINO. Moreover, we show that when downstream tasks are strongly reliant on shape (such as in the YOGA-82 pose dataset), our pre-trained features yield a significant gain over prior work. Code will be released upon publication.
翻訳日:2022-04-13 06:49:38 公開日:2022-04-10
# 確率的家系の効率的な再構築:理論から実践へ

Efficient Reconstruction of Stochastic Pedigrees: Some Steps From Theory to Practice ( http://arxiv.org/abs/2204.04573v1 )

ライセンス: Link先を確認
Elchanan Mossel, David Vulakh(参考訳) 現存する人口では、現存する個人は先祖の血統にどの程度の情報を提供しているか。 kim, mossel, ramnarayan and turner (2020) による最近の研究は、ランダムな交配、固定長継承ブロック、そして十分に大きな人口を含む多くの単純な仮定の下でこの問題を研究した。 これらの条件下では、平均子孫数が十分に大きな定数であれば、REC-GENと命名したアルゴリズムにより、家系構造と遺伝的含量の大部分を回収できることを示した。 モデルに基づいて生成されたシミュレーションデータに対してREC-GENの性能を検討することに興味がある。 最初のステップとして,アルゴリズムの実行時間を改善する。 しかし,アルゴリズムの高速バージョンでさえ,2世代以上の家系を復元する際のシミュレーションではうまくいかないことが観察された。 これは、シミュレーションされたデータであっても、アルゴリズムが実行できる任意の設定において、インブリードが存在するためであると主張する。 この主張を支持するために,祖先再構成と呼ばれるアルゴリズムの主ステップが,交配を伴わないがランダムな交配個体群では不十分な理想化環境で正確に実行されることを示す。 REC-GENの粗悪な振る舞いを克服するために,我々のシミュレーションにおいて,近縁関係を考慮し,より優れた性能を発揮するBreief-Propagationベースのヒューリスティックを導入する。

In an extant population, how much information do extant individuals provide on the pedigree of their ancestors? Recent work by Kim, Mossel, Ramnarayan and Turner (2020) studied this question under a number of simplifying assumptions, including random mating, fixed length inheritance blocks and sufficiently large founding population. They showed that under these conditions if the average number of offspring is a sufficiently large constant, then it is possible to recover a large fraction of the pedigree structure and genetic content by an algorithm they named REC-GEN. We are interested in studying the performance of REC-GEN on simulated data generated according to the model. As a first step, we improve the running time of the algorithm. However, we observe that even the faster version of the algorithm does not do well in any simulations in recovering the pedigree beyond 2 generations. We claim that this is due to the inbreeding present in any setting where the algorithm can be run, even on simulated data. To support the claim we show that a main step of the algorithm, called ancestral reconstruction, performs accurately in a idealized setting with no inbreeding but performs poorly in random mating populations. To overcome the poor behavior of REC-GEN we introduce a Belief-Propagation based heuristic that accounts for the inbreeding and performs much better in our simulations.
翻訳日:2022-04-12 19:04:24 公開日:2022-04-10
# 極低リソース並列データを用いたセルフ・スーパービジョンオーディオ・テキスト事前学習

Self-Supervised Audio-and-Text Pre-training with Extremely Low-Resource Parallel Data ( http://arxiv.org/abs/2204.04645v1 )

ライセンス: Link先を確認
Yu Kang, Tianqiao Liu, Hang Li, Yang Hao, Wenbiao Ding(参考訳) 近年,音声とテキストのマルチモーダル事前学習が有効であることが証明され,下流音声理解タスクの性能が大幅に向上した。 しかし、これらの最先端の事前学習されたオーディオテキストモデルは、大量の並列オーディオとテキストデータを提供する場合にのみ機能するので、ユニモーダルコーパスに富むが並列クロスモーダルコーパスに乏しい多くの言語で問題が発生する。 本稿では,低リソースの並列データと余分な非並列ユニモーダルデータを用いた音声テキストマルチモーダルモデルの事前学習が可能かどうかを検討する。 プリトレーニングフレームワークは,(1)モーダル内デノージング自動エンコーディング (idae) であり,ノイズの多いバージョンから入力テキスト (audio) 表現を再構築できる。 2)入力テキスト(オーディオ)のノイズバージョンと対応する変換された雑音音声特徴(テキスト埋め込み)の両方を考慮し、入力テキスト(オーディオ)を再構築するために予め訓練されたクロスモーダル・デノイジング・オートエンコーディング(cdae)。 (3) 原音(テキスト)とそれに対応するテキストの埋め込み(音声特徴)を反復的に翻訳する反復Denoising Process (IDP) は,前回のイテレーションから新しいノイズの少ないテキスト埋め込み(音声特徴)に変換される。 我々は,CDAE と IDP の2つのユニモーダルエンコーダと CDAE と IDP のクロスモーダルエンコーダからなるバックボーンモデルとして,デュアルモーダルトランスを適応させる。 提案手法は,完全並列データ上で事前学習したモデルと比較して,複数のダウンストリーム音声理解タスクにおいて同等の性能を達成し,提案手法の大きな可能性を示す。 私たちのコードは、 \url{https://github.com/k arlyukang/low-resour ce-multimodal-pre-tr aining}で利用可能です。

Multimodal pre-training for audio-and-text has recently been proved to be effective and has significantly improved the performance of many downstream speech understanding tasks. However, these state-of-the-art pre-training audio-text models work well only when provided with large amount of parallel audio-and-text data, which brings challenges on many languages that are rich in unimodal corpora but scarce of parallel cross-modal corpus. In this paper, we investigate whether it is possible to pre-train an audio-text multimodal model with extremely low-resource parallel data and extra non-parallel unimodal data. Our pre-training framework consists of the following components: (1) Intra-modal Denoising Auto-Encoding (IDAE), which is able to reconstruct input text (audio) representations from a noisy version of itself. (2) Cross-modal Denoising Auto-Encoding (CDAE), which is pre-trained to reconstruct the input text (audio), given both a noisy version of the input text (audio) and the corresponding translated noisy audio features (text embeddings). (3) Iterative Denoising Process (IDP), which iteratively translates raw audio (text) and the corresponding text embeddings (audio features) translated from previous iteration into the new less-noisy text embeddings (audio features). We adapt a dual cross-modal Transformer as our backbone model which consists of two unimodal encoders for IDAE and two cross-modal encoders for CDAE and IDP. Our method achieves comparable performance on multiple downstream speech understanding tasks compared with the model pre-trained on fully parallel data, demonstrating the great potential of the proposed method. Our code is available at: \url{https://github.com/K arlYuKang/Low-Resour ce-Multimodal-Pre-tr aining}.
翻訳日:2022-04-12 19:04:00 公開日:2022-04-10
# サイドチャネル分解のための構成とコレクション係数

Configuration and Collection Factors for Side-Channel Disassembly ( http://arxiv.org/abs/2204.04766v1 )

ライセンス: Link先を確認
Random Gwinn, Mark Matties, Aviel D. Rubin(参考訳) サイドチャネル分析には、無数の用途、方法論、チャンネルが研究されている。 しかし、具体的な実装上の考慮は、しばしば公表されない。 本稿では,入力電圧,シャント抵抗,サンプルレート,マイクロコントローラクロック周波数などのテスト構成と収集パラメータと,その側チャネル解析性能への影響について検討する。 分析ユースケースはマイクロコントローラの電源サイドチャネルを用いた命令分解と分類である。 ATmega328PマイクロコントローラとAVR命令セットのサブセットがデバイスアンダーテスト(DUT)として実験に使用される。 時系列畳み込みニューラルネットワーク(CNN)を用いて、クロックサイクルの忠実度における分類性能を評価する。 構成パラメータと収集パラメータは,特にSNR(Instruction-Trac e's signal to noise ratio)の影響を受け,性能に有意な影響を及ぼすと結論付けた。 さらに、サイドチャネルの分解には、nyquistレートをはるかに上回るデータ収集と分析が必要となる。 また,1khmのシャントと250-500MSa/sのサンプル電圧を持つ7V入力電圧が最適性能を示し,リターンの低下や高レベルの劣化が認められた。

Myriad uses, methodologies, and channels have been explored for side-channel analysis. However, specific implementation considerations are often unpublished. This paper explores select test configuration and collection parameters, such as input voltage, shunt resistance, sample rate, and microcontroller clock frequency, along with their impact on side-channel analysis performance. The analysis use case considered is instruction disassembly and classification using the microcontroller power side-channel. An ATmega328P microcontroller and a subset of the AVR instruction set are used in the experiments as the Device Under Test (DUT). A time-series convolutional neural network (CNN) is used to evaluate classification performance at clock-cycle fidelity. We conclude that configuration and collection parameters have a meaningful impact on performance, especially where the instruction-trace&#x 27;s signal to noise ratio (SNR) is impacted. Additionally, data collection and analysis well above the Nyquist rate is required for side-channel disassembly. We also found that 7V input voltage with 1 kiloohm shunt and a sample rate of 250-500 MSa/s provided optimal performance in our application, with diminishing returns or in some cases degradation at higher levels.
翻訳日:2022-04-12 19:03:27 公開日:2022-04-10
# 無線ネットワーク上での動的ディジタル双対のエッジ連続学習

Edge Continual Learning for Dynamic Digital Twins over Wireless Networks ( http://arxiv.org/abs/2204.04795v1 )

ライセンス: Link先を確認
Omar Hashash, Christina Chaccour, Walid Saad(参考訳) デジタル双生児(dts)は現実世界とメタバースの間の重要な関係を構成する。 これら2つの世界間の強固な接続を保証するため、dtsは実際のエンティティとデジタルエンティティの同期を保ちながら、物理アプリケーションの正確な表現を維持する必要がある。 本稿では,物理的双生児(PT)とそれに対応するサイバー双生児(CT)との親和性を,最大限の同期を維持しつつ正確にモデル化する,新しいエッジ連続学習フレームワークを提案する。 特に、CTは無線ネットワークエッジのディープニューラルネットワーク(DNN)としてシミュレートされ、上皮学的にダイナミックな環境を横断する自律走行車両をモデル化する。 vehicular PTは各エピソードの駆動ポリシーを更新するため、CTはDNNモデルをPTに同時に適応させる必要があり、非同期化のギャップが生じる。 DTの履歴認識性を考慮すると、モデル更新プロセスは、遭遇した全エピソードと対応する非同期時間に対する損失関数を最小化することを目的として、二重目的最適化問題として提案される。 非同期化時間は連続時間を超えて増加し続けており、非同期化時間を制限するためにDT履歴を規則化する弾性重み統合(EWC)技術が提案されている。 さらに, EWC正則化項の進行に伴う塑性-安定性のトレードオフに対処するため, DTの歴史的エピソード間の公平な実行を考慮した改良EWC法を採用した。 最終的に,提案するフレームワークは,破滅的忘れ込みに対して頑健な,正確かつ同期的なCTモデルを実現する。 シミュレーションの結果, 最小の非同期時間を確保しつつ90%の精度が得られることがわかった。

Digital twins (DTs) constitute a critical link between the real-world and the metaverse. To guarantee a robust connection between these two worlds, DTs should maintain accurate representations of the physical applications, while preserving synchronization between real and digital entities. In this paper, a novel edge continual learning framework is proposed to accurately model the evolving affinity between a physical twin (PT) and its corresponding cyber twin (CT) while maintaining their utmost synchronization. In particular, a CT is simulated as a deep neural network (DNN) at the wireless network edge to model an autonomous vehicle traversing an episodically dynamic environment. As the vehicular PT updates its driving policy in each episode, the CT is required to concurrently adapt its DNN model to the PT, which gives rise to a de-synchronization gap. Considering the history-aware nature of DTs, the model update process is posed a dual objective optimization problem whose goal is to jointly minimize the loss function over all encountered episodes and the corresponding de-synchronization time. As the de-synchronization time continues to increase over sequential episodes, an elastic weight consolidation (EWC) technique that regularizes the DT history is proposed to limit de-synchronization time. Furthermore, to address the plasticity-stability tradeoff accompanying the progressive growth of the EWC regularization terms, a modified EWC method that considers fair execution between the historical episodes of the DTs is adopted. Ultimately, the proposed framework achieves a simultaneously accurate and synchronous CT model that is robust to catastrophic forgetting. Simulation results show that the proposed solution can achieve an accuracy of 90 % while guaranteeing a minimal desynchronization time.
翻訳日:2022-04-12 19:01:58 公開日:2022-04-10
# 学習スキームにおける損失関数への応用による実数次全変動

Real order total variation with applications to the loss functions in learning schemes ( http://arxiv.org/abs/2204.04582v1 )

ライセンス: Link先を確認
Pan Liu, Xin Yang Lu, Kunlun He(参考訳) 損失関数は、バイレベルトレーニングスキームや機械学習など、現代的なデータ駆動アプローチにおいて不可欠な部分である。 本稿では,リーマン・リウヴィル (R-L) 分数微分によって定義される半ノルムの$TV^r$, $r\in \mathbb{R}^+$を,$r$-次(an)-等方的全変分からなる損失関数を提案する。 このような損失関数の関数と微分$r$の順序の両方に関して、下半連続性やコンパクト性のような重要な理論的性質の研究に焦点をあてる。

Loss function are an essential part in modern data-driven approach, such as bi-level training scheme and machine learnings. In this paper we propose a loss function consisting of a $r$-order (an)-isotropic total variation semi-norms $TV^r$, $r\in \mathbb{R}^+$, defined via the Riemann-Liouville (R-L) fractional derivative. We focus on studying key theoretical properties, such as the lower semi-continuity and compactness with respect to both the function and the order of derivative $r$, of such loss functions.
翻訳日:2022-04-12 18:10:11 公開日:2022-04-10
# グラフからDAGへ:低複雑さモデルとスケーラブルアルゴリズム

From graphs to DAGs: a low-complexity model and a scalable algorithm ( http://arxiv.org/abs/2204.04644v1 )

ライセンス: Link先を確認
Shuyu Dong, Mich\`ele Sebag(参考訳) 有向非巡回グラフ(DAG)の学習は、確率的および因果的モデリングのコアにおける重要な課題として知られている。 NoTears の (Zheng et al., 2018) アプローチは、行列指数的トレース $\mathrm{tr}(\exp(\cdot))$ を含む微分可能な関数を通じて、連続最適化により DAG を学ぶ方法を開くが、$O(d^3)$ はノード数$d$の複雑さを持つ。 本稿では,低ランク行列因数分解とDAGの連続的な最適化のためのスペース化機構を組み合わせたLoRAM for Low-Rank Additive Modelを提案する。 このアプローチの主な貢献は、モデルの低ランク性を利用した効率的な勾配近似法と、グラフ行列からDAG行列空間への射影の計算への直接的な応用である。 提案手法は,NoTearsと同じDAG特性関数を扱いながら,立方体複雑性から二次複雑性への還元を実現し,投影問題に対して数千ノードまで容易にスケールアップできる。 実験により,LRAMは,スパース行列の精度が極めて低下し,低ランク成分のランク選択に対する感度が低かったため,最先端のモデルと比較して桁違いの効率向上が達成された。

Learning directed acyclic graphs (DAGs) is long known a critical challenge at the core of probabilistic and causal modeling. The NoTears approach of (Zheng et al., 2018), through a differentiable function involving the matrix exponential trace $\mathrm{tr}(\exp(\cdot))$, opens up a way to learning DAGs via continuous optimization, though with a $O(d^3)$ complexity in the number $d$ of nodes. This paper presents a low-complexity model, called LoRAM for Low-Rank Additive Model, which combines low-rank matrix factorization with a sparsification mechanism for the continuous optimization of DAGs. The main contribution of the approach lies in an efficient gradient approximation method leveraging the low-rank property of the model, and its straightforward application to the computation of projections from graph matrices onto the DAG matrix space. The proposed method achieves a reduction from a cubic complexity to quadratic complexity while handling the same DAG characteristic function as NoTears, and scales easily up to thousands of nodes for the projection problem. The experiments show that the LoRAM achieves efficiency gains of orders of magnitude compared to the state-of-the-art at the expense of a very moderate accuracy loss in the considered range of sparse matrices, and with a low sensitivity to the rank choice of the model's low-rank component.
翻訳日:2022-04-12 18:09:58 公開日:2022-04-10
# 旅行方向の深部検出による単一360{\deg}画像からの断面積予測

Intersection Prediction from Single 360{\deg} Image via Deep Detection of Possible Direction of Travel ( http://arxiv.org/abs/2204.04634v1 )

ライセンス: Link先を確認
Naoki Sugimoto, Satoshi Ikehata, Kiyoharu Aizawa(参考訳) movie-mapは、ユーザーをシミュレートした歩行体験で結びつけるインタラクティブなファーストパーソンビューマップであり、360{\deg}ビデオセグメントを、視聴者の移動方向に応じてシームレスに接続される交通交差点で区切る。 しかし、多数の交差する道路がある広い都市部では、手動交差点のセグメンテーションにはかなりの人的努力が必要となる。 したがって、360{\deg}ビデオからの交差点の自動識別は、映画マップのスケールアップにおいて重要な問題である。 本稿では,360{\deg}ビデオにおける個々のフレームとの交差を識別する新しい手法を提案する。 360{\deg}画像の入力として交叉識別を標準バイナリ分類タスクとして定式化する代わりに、様々な種類の交叉を処理するためにニューラルネットワークによって検出された単一の360{\deg}画像から、8方向に投影された視点画像における移動可能な方向数(pdot)に基づいて交叉を識別する。 本研究では,学校キャンパス,ダウンタウン,郊外,チャイナタウンなど各地から360{\deg}ビデオが収集された訓練・評価のための大規模360{\deg}画像交差点識別(iii360)データセットを構築し,pdotに基づく手法が88\%精度を達成できることを実証した。 ソースコードと部分データセットは、論文が公開された後、コミュニティで共有される。

Movie-Map, an interactive first-person-view map that engages the user in a simulated walking experience, comprises short 360{\deg} video segments separated by traffic intersections that are seamlessly connected according to the viewer's direction of travel. However, in wide urban-scale areas with numerous intersecting roads, manual intersection segmentation requires significant human effort. Therefore, automatic identification of intersections from 360{\deg} videos is an important problem for scaling up Movie-Map. In this paper, we propose a novel method that identifies an intersection from individual frames in 360{\deg} videos. Instead of formulating the intersection identification as a standard binary classification task with a 360{\deg} image as input, we identify an intersection based on the number of the possible directions of travel (PDoT) in perspective images projected in eight directions from a single 360{\deg} image detected by the neural network for handling various types of intersections. We constructed a large-scale 360{\deg} Image Intersection Identification (iii360) dataset for training and evaluation where 360{\deg} videos were collected from various areas such as school campus, downtown, suburb, and china town and demonstrate that our PDoT-based method achieves 88\% accuracy, which is significantly better than that achieved by the direct naive binary classification based method. The source codes and a partial dataset will be shared in the community after the paper is published.
翻訳日:2022-04-12 17:41:25 公開日:2022-04-10
# 2020年代のカウント: ディープ・クラウド・カウンティング・アプローチにおけるバインディング表現と包括的パフォーマンス対策

Counting in the 2020s: Binned Representations and Inclusive Performance Measures for Deep Crowd Counting Approaches ( http://arxiv.org/abs/2204.04653v1 )

ライセンス: Link先を確認
Sravya Vardhani Shivapuja, Ashwin Gopinath, Ayush Gupta, Ganesh Ramakrishnan, Ravi Kiran Sarvadevabhatla(参考訳) 一般的な群集カウントデータセットのデータ分布は、通常、重く尾ばいで不連続である。 このスキューは、深い群衆カウントアプローチのパイプライン内のすべてのステージに影響する。 特に、これらの手法は許容できないほど大きな標準偏差Wrt統計測度(MSE, MAE)を示す。 このような懸念に包括的に対処するために、我々は2つの基本的な貢献をする。 まず、データセットスキューの知識に対応するために、トレーニングパイプラインを変更します。 原理的かつバランスの取れたミニバッチサンプリングを実現するために,新しいスムーズなベイズビンニング手法を提案する。 より具体的には,既存の計算深層ネットワークに容易に組み込むことができ,ビンアウェア最適化を促進する新しいコスト関数を提案する。 第2の貢献として,より包括的なパフォーマンス指標を導入し,ディープネットワークのさまざまな比較パフォーマンス側面に光を当てる。 また,新たに提案した性能対策の優位性を維持していることを示す。 全体として、我々のコントリビューションは、クラウドカウントアプローチにおけるパフォーマンスの実用的で詳細な評価を可能にする。

The data distribution in popular crowd counting datasets is typically heavy tailed and discontinuous. This skew affects all stages within the pipelines of deep crowd counting approaches. Specifically, the approaches exhibit unacceptably large standard deviation wrt statistical measures (MSE, MAE). To address such concerns in a holistic manner, we make two fundamental contributions. Firstly, we modify the training pipeline to accommodate the knowledge of dataset skew. To enable principled and balanced minibatch sampling, we propose a novel smoothed Bayesian binning approach. More specifically, we propose a novel cost function which can be readily incorporated into existing crowd counting deep networks to encourage bin-aware optimization. As the second contribution, we introduce additional performance measures which are more inclusive and throw light on various comparative performance aspects of the deep networks. We also show that our binning-based modifications retain their superiority wrt the newly proposed performance measures. Overall, our contributions enable a practically useful and detail-oriented characterization of performance for crowd counting approaches.
翻訳日:2022-04-12 17:40:57 公開日:2022-04-10
# ビジュアルダイアログにおけるマルチストラクチャ・コモンセンス知識を用いた推論

Reasoning with Multi-Structure Commonsense Knowledge in Visual Dialog ( http://arxiv.org/abs/2204.04680v1 )

ライセンス: Link先を確認
Shunyu Zhang, Xiaoze Jiang, Zequn Yang, Tao Wan, Zengchang Qin(参考訳) 視覚ダイアログは、エージェントが画像に接地した人間と会話することを必要とする。 視覚ダイアログに関する多くの研究は、画像のダイアログ履歴や内容の理解に焦点を合わせているが、多くの共通性が要求される質問は無視されている。 これらのシナリオの処理は、コモンセンス優先を必要とする論理的推論に依存する。 歴史とイメージを補完する関連するコモンセンスの知識をいかに捉えるかは、依然として重要な課題である。 本稿では,多構造コモンセンス知識(rmk)を用いた推論による新しいモデルを提案する。 本モデルでは,外部知識を文レベルの事実とグラフレベルの事実で表現し,対話履歴と画像の組み合わせのシナリオに適切に適合させる。 これらの多構造表現に加えて,本モデルは関連する知識を取り込み,グラフベースインタラクションとトランスフォーマーベースの融合を通じて,ビジョンやセマンティック機能に組み込むことができる。 VisDial v1.0 と VisDialCK データセットの実験結果と解析により,提案モデルが比較手法を効果的に上回ることを示す。

Visual Dialog requires an agent to engage in a conversation with humans grounded in an image. Many studies on Visual Dialog focus on the understanding of the dialog history or the content of an image, while a considerable amount of commonsense-required questions are ignored. Handling these scenarios depends on logical reasoning that requires commonsense priors. How to capture relevant commonsense knowledge complementary to the history and the image remains a key challenge. In this paper, we propose a novel model by Reasoning with Multi-structure Commonsense Knowledge (RMK). In our model, the external knowledge is represented with sentence-level facts and graph-level facts, to properly suit the scenario of the composite of dialog history and image. On top of these multi-structure representations, our model can capture relevant knowledge and incorporate them into the vision and semantic features, via graph-based interaction and transformer-based fusion. Experimental results and analysis on VisDial v1.0 and VisDialCK datasets show that our proposed model effectively outperforms comparative methods.
翻訳日:2022-04-12 17:40:40 公開日:2022-04-10
# 農業における画像拡張のためのジェネレーティブ・アドバイサル・ネットワーク:システムレビュー

Generative Adversarial Networks for Image Augmentation in Agriculture: A Systematic Review ( http://arxiv.org/abs/2204.04707v1 )

ライセンス: Link先を確認
Ebenezer Olaniyi, Dong Chen, Yuzhen Lu, Yanbo Huang(参考訳) 農業画像解析では,生物多様性や非構造環境の課題が存在する場合,視覚認識タスク(画像分類,セグメンテーション,物体検出,局所化など)を満足するために最適なモデル性能が追求されている。 しかし、大規模でバランスの取れた画像データセットは、高度で高性能なモデルの開発を加速させるのにしばしば困難である。 ディープラーニングによる人工知能が農業イメージの分析とモデリングに影響を与えているため、データ拡張は、トレーニングデータセットをアルゴリズム的に拡張することで、データ準備のための手作業を削減すると同時に、モデルパフォーマンスを向上させる上で重要な役割を果たす。 2014年にコンピュータビジョンコミュニティで発明されたGAN(Generative Adversarial Network)は、従来のデータ拡張技術以外にも、優れたデータ表現を学習し、非常に現実的なサンプルを生成する新しいアプローチスイートを提供する。 2017年以降、農業における画像増強や合成のためのGANの研究が成長し、モデル性能が向上した。 本稿では, GAN アーキテクチャの進化を概観するとともに, 植物健康, 雑草, 果実, 養殖, 牧草, 植物育種, 植物育種, 植物育種, および, 果実の欠陥検出のための様々なビジョンタスクを含む, 農業への応用の体系的レビュー(https://github.com/ Derekabc/GANs-Agricu lture)を行った。 GANの課題と機会を今後の研究のために論じる。

In agricultural image analysis, optimal model performance is keenly pursued for better fulfilling visual recognition tasks (e.g., image classification, segmentation, object detection and localization), in the presence of challenges with biological variability and unstructured environments. Large-scale, balanced and ground-truthed image datasets, however, are often difficult to obtain to fuel the development of advanced, high-performance models. As artificial intelligence through deep learning is impacting analysis and modeling of agricultural images, data augmentation plays a crucial role in boosting model performance while reducing manual efforts for data preparation, by algorithmically expanding training datasets. Beyond traditional data augmentation techniques, generative adversarial network (GAN) invented in 2014 in the computer vision community, provides a suite of novel approaches that can learn good data representations and generate highly realistic samples. Since 2017, there has been a growth of research into GANs for image augmentation or synthesis in agriculture for improved model performance. This paper presents an overview of the evolution of GAN architectures followed by a systematic review of their application to agriculture (https://github.com/ Derekabc/GANs-Agricu lture), involving various vision tasks for plant health, weeds, fruits, aquaculture, animal farming, plant phenotyping as well as postharvest detection of fruit defects. Challenges and opportunities of GANs are discussed for future research.
翻訳日:2022-04-12 17:40:24 公開日:2022-04-10
# 条件付きGANによるマルチラベル臨床時系列生成

Multi-Label Clinical Time-Series Generation via Conditional GAN ( http://arxiv.org/abs/2204.04797v1 )

ライセンス: Link先を確認
Chang Lu, Chandan K. Reddy, Ping Wang, Dong Nie, Yue Ning(参考訳) 電子健康記録(EHR)の幅広い応用により、表現学習、臨床イベント予測、表現型化といった様々なタスクにおいて、EHRデータを分析するための深層学習法が採用されている。 しかし、プライバシーの制約により、EHRへのアクセス制限はディープラーニング研究のボトルネックとなっている。 近年, GAN(Generative Adversarial Network)は, EHRデータの生成に成功している。 しかしながら、不均衡データセットが与えられた時系列のEHRや異常な疾患の生成など、高品質なEHR生成には依然として課題がある。 本稿では,ehrデータを生成し,稀な疾患発生の質も同時に向上させるマルチラベル時系列gan (mtgan) を提案する。 MTGANのジェネレータは、スムーズな条件行列を持つゲートリカレントユニット(GRU)を使用して、配列と異常な疾患を生成する。 批評家はワッサースタイン距離を用いてスコアを与え、データと時間的特徴の両方を考慮して合成サンプルから実際のサンプルを認識する。 また,実データに対する時間的特徴を算出し,gan学習を安定させるトレーニング戦略を提案する。 さらに,複数の統計指標と予測タスクを設計し,生成されたデータを評価する。 実験結果から, MTGANの生合成データの品質と, 現実的なシーケンシャルEHRデータ生成効果, 特に非一般的な疾患に対する有効性が確認された。

With wide applications of electronic health records (EHR), deep learning methods have been adopted to analyze EHR data on various tasks such as representation learning, clinical event prediction, and phenotyping. However, due to privacy constraints, limited access to EHR becomes a bottleneck for deep learning research. Recently, generative adversarial networks (GANs) have been successful in generating EHR data. However, there are still challenges in high-quality EHR generation, including generating time-series EHR and uncommon diseases given imbalanced datasets. In this work, we propose a Multi-label Time-series GAN (MTGAN) to generate EHR data and simultaneously improve the quality of uncommon disease generation. The generator of MTGAN uses a gated recurrent unit (GRU) with a smooth conditional matrix to generate sequences and uncommon diseases. The critic gives scores using Wasserstein distance to recognize real samples from synthetic samples by considering both data and temporal features. We also propose a training strategy to calculate temporal features for real data and stabilize GAN training. Furthermore, we design multiple statistical metrics and prediction tasks to evaluate the generated data. Experimental results demonstrate the quality of the synthetic data and the effectiveness of MTGAN in generating realistic sequential EHR data, especially for uncommon diseases.
翻訳日:2022-04-12 17:01:42 公開日:2022-04-10
# 時間系列における主曲線に基づく分類器と類似性に基づく選択サンプリングについて

On Principal Curve-Based Classifiers and Similarity-Based Selective Sampling in Time-Series ( http://arxiv.org/abs/2204.04620v1 )

ライセンス: Link先を確認
Aref Hakimzadeh, Koorush Ziarati, Mohammad Taheri(参考訳) 時間拡張の概念を考えると、リカレントニューラルネットワークにはいくつかの大きな問題がある。 入力データポイント間の時間変化は、繰り返し発生するニューラルネットワークアーキテクチャのパフォーマンス低下を引き起こす。 主曲線に基づく分類器は、任意の種類の時間スパンの変動を扱うことができる。 言い換えると、主曲線に基づく分類器は時間の相対性を保持し、ニューラルネットワークアーキテクチャはこの時間特性に違反する。 一方,オンライン監視装置のラベル付けコストや問題点を考えると,ラベルを知っていれば分類器の性能が向上するデータポイントを探索するアルゴリズムが考えられる。 現在の選択的サンプリングアルゴリズムは,提案アルゴリズムのランダム性により信頼性に欠ける。 本稿では,モデル定義における主曲線を構築ブロックとして用いることにより,同じ計算ステップを持つ分類器と決定論的選択サンプリングアルゴリズムを提案する。

Considering the concept of time-dilation, there exist some major issues with recurrent neural Architectures. Any variation in time spans between input data points causes performance attenuation in recurrent neural network architectures. Principal curve-based classifiers have the ability of handling any kind of variation in time spans. In other words, principal curve-based classifiers preserve the relativity of time while neural network architecture violates this property of time. On the other hand, considering the labeling costs and problems in online monitoring devices, there should be an algorithm that finds the data points which knowing their labels will cause in better performance of the classifier. Current selective sampling algorithms have lack of reliability due to the randomness of the proposed algorithms. This paper proposes a classifier and also a deterministic selective sampling algorithm with the same computational steps, both by use of principal curve as their building block in model definition.
翻訳日:2022-04-12 16:31:11 公開日:2022-04-10
# 顔と時空間関連クラスタリングによる教師なしマンガキャラクタ再同定

Unsupervised Manga Character Re-identification via Face-body and Spatial-temporal Associated Clustering ( http://arxiv.org/abs/2204.04621v1 )

ライセンス: Link先を確認
Zhimin Zhang, Zheng Wang, Wei Hu(参考訳) 近年では電子漫画が飛躍的に伸びている。 マンガ研究の急激な需要と大量の未ラベルマンガデータに直面する中で,教師なしマンガキャラクタ再同定という新たな課題を提起した。 しかし、マンガの芸術的表現と様式的制限は再同定問題に多くの課題をもたらす。 コンテンツに関連した特徴がクラスタリングに役立つという考えから着想を得て,FSAC (Face-body and Spatial-temporal Associated Clustering Method) を提案する。 顔体組み合わせモジュールにおいて、画像の整合性を利用して、芸術的創造における誇張や変形などの問題を解決するために、顔体グラフを構築する。 空間-時間関係補正モジュールでは,文字の出現特性を分析し,時間空間関連三重項損失を設計し,クラスタリングを微調整する。 109巻のマンガブックデータセットに関する広範囲な実験により,教師なしマンガキャラクタ再同定における手法の優位性が検証された。

In the past few years, there has been a dramatic growth in e-manga (electronic Japanese-style comics). Faced with the booming demand for manga research and the large amount of unlabeled manga data, we raised a new task, called unsupervised manga character re-identification. However, the artistic expression and stylistic limitations of manga pose many challenges to the re-identification problem. Inspired by the idea that some content-related features may help clustering, we propose a Face-body and Spatial-temporal Associated Clustering method (FSAC). In the face-body combination module, a face-body graph is constructed to solve problems such as exaggeration and deformation in artistic creation by using the integrity of the image. In the spatial-temporal relationship correction module, we analyze the appearance features of characters and design a temporal-spatial-rel ated triplet loss to fine-tune the clustering. Extensive experiments on a manga book dataset with 109 volumes validate the superiority of our method in unsupervised manga character re-identification.
翻訳日:2022-04-12 16:30:59 公開日:2022-04-10
# Stripformer: 高速画像処理のためのストリップトランス

Stripformer: Strip Transformer for Fast Image Deblurring ( http://arxiv.org/abs/2204.04627v1 )

ライセンス: Link先を確認
Fu-Jen Tsai, Yan-Tsung Peng, Yen-Yu Lin, Chung-Chi Tsai, and Chia-Wen Lin(参考訳) ダイナミックシーンで撮影された画像には、望ましくない動きのぼやけが含まれ、視覚品質が著しく低下する可能性がある。 このようなぼやけは、しばしば方向的かつ一様でない短距離の領域特異的な平滑化アーティファクトを引き起こす。 コンピュータビジョンと画像処理タスクにおけるトランスフォーマーの現在の成功に触発されて、水平方向と垂直方向のイメージ特徴を重み付けして、異なる方向のぼやけたパターンをキャッチするトランスフォーマーベースのアーキテクチャであるStripformerを開発した。 斜め内層と斜め間層を積み重ねて、ぼやけた大きさを見せる。 様々な方向や大きさの領域固有のぼやけたパターンの検出に加えて、Stripformerはトークン効率とパラメータ効率の変換モデルであり、バニラ変圧器よりもメモリ使用量や計算コストをはるかに少なくするが、膨大なトレーニングデータに頼ることなくよりうまく動作する。 実験結果から,Stripformerは動的シーン劣化における最先端モデルに対して良好に機能することが示された。

Images taken in dynamic scenes may contain unwanted motion blur, which significantly degrades visual quality. Such blur causes short- and long-range region-specific smoothing artifacts that are often directional and non-uniform, which is difficult to be removed. Inspired by the current success of transformers on computer vision and image processing tasks, we develop, Stripformer, a transformer-based architecture that constructs intra- and inter-strip tokens to reweight image features in the horizontal and vertical directions to catch blurred patterns with different orientations. It stacks interlaced intra-strip and inter-strip attention layers to reveal blur magnitudes. In addition to detecting region-specific blurred patterns of various orientations and magnitudes, Stripformer is also a token-efficient and parameter-efficient transformer model, demanding much less memory usage and computation cost than the vanilla transformer but works better without relying on tremendous training data. Experimental results show that Stripformer performs favorably against state-of-the-art models in dynamic scene deblurring.
翻訳日:2022-04-12 16:30:42 公開日:2022-04-10
# コンステンシー:コンクリート骨材粒子の半超高速分割のための学習事例表現

ConsInstancy: Learning Instance Representations for Semi-Supervised Panoptic Segmentation of Concrete Aggregate Particles ( http://arxiv.org/abs/2204.04635v1 )

ライセンス: Link先を確認
Max Coenen and Tobias Schack and Dries Beyer and Christian Heipke and Michael Haist(参考訳) 本稿では,半教師付き学習のための新しい手法であるconsinstancy regularizationに基づく半教師付きパンオプティカルセグメンテーション法を提案する。 セグメンテーションのパフォーマンスを改善するために、予測インスタンス表現とトレーニング中のセグメンテーション間の一貫性を強制することで、完全に非遅延のデータを活用する。 この目的のために,完全畳み込みネットワーク (fcn) を通じて,一つの簡単なフォワードパスで予測可能な新しいタイプのインスタンス表現を提案し,パンオプティカルセグメンテーションのための便利で簡単なトレインフレームワークを提供する。 より具体的には、中間表現としての3次元インスタンス配向写像と最終表現としての2つの相補的距離変換写像の予測を提案し、汎視セグメンテーションに対する一意なインスタンス表現を提供する。 筆者らは本手法の有効性を実証し, 半教師付きセグメンテーションにおける最先端手法の成果を上回って, 硬質化とフレッシュコンクリートの2つの難解なデータセットで本手法を検証した。 特に, 半教師付きアプローチで完全にラベル付けされていないデータを活用することで, 達成された総合的精度(OA)が最大5%向上することを示し, ラベル付きデータのみを用いた完全に教師付きトレーニングを行った。 さらに、最先端の半教師付き手法によって達成されたOAを最大1.5%超えた。

We present a semi-supervised method for panoptic segmentation based on ConsInstancy regularisation, a novel strategy for semi-supervised learning. It leverages completely unlabelled data by enforcing consistency between predicted instance representations and semantic segmentations during training in order to improve the segmentation performance. To this end, we also propose new types of instance representations that can be predicted by one simple forward path through a fully convolutional network (FCN), delivering a convenient and simple-to-train framework for panoptic segmentation. More specifically, we propose the prediction of a three-dimensional instance orientation map as intermediate representation and two complementary distance transform maps as final representation, providing unique instance representations for a panoptic segmentation. We test our method on two challenging data sets of both, hardened and fresh concrete, the latter being proposed by the authors in this paper demonstrating the effectiveness of our approach, outperforming the results achieved by state-of-the-art methods for semi-supervised segmentation. In particular, we are able to show that by leveraging completely unlabeled data in our semi-supervised approach the achieved overall accuracy (OA) is increased by up to 5% compared to an entirely supervised training using only labeled data. Furthermore, we exceed the OA achieved by state-of-the-art semi-supervised methods by up to 1.5%.
翻訳日:2022-04-12 16:30:22 公開日:2022-04-10
# fashionformer:人間のファッションセグメンテーションと認識のためのシンプルで効果的で統一されたベースライン

Fashionformer: A simple, Effective and Unified Baseline for Human Fashion Segmentation and Recognition ( http://arxiv.org/abs/2204.04654v1 )

ライセンス: Link先を確認
Shilin Xu, Xiangtai Li, Jingbo Wang, Guangliang Cheng, Yunhai Tong, Dacheng Tao(参考訳) 人間のファッション理解は、現実世界のアプリケーションに使用できる包括的な情報を持っているため、重要なコンピュータビジョンタスクである。 本研究では,人間のファッションセグメンテーションと属性認識の融合に着目した。 従来のマルチヘッド予測問題として各タスクを個別にモデル化する作業とは対照的に,この2つのタスクを視覚トランスフォーマーモデリングによって1つの統一モデルでブリッジすることで,各タスクのメリットを享受する。 特に,セグメンテーションのためのオブジェクトクエリと属性予測のための属性クエリを紹介する。 クエリと対応する機能の両方は、マスク予測を通じてリンクすることができる。 次に,分離した問合せ表現を学習するために,2ストリームの問合せ学習フレームワークを採用する。 属性ストリームのために,よりきめ細かい特徴を探索する新しいマルチレイヤレンダリングモジュールを設計する。 デコーダの設計はDETRと同一の精神を持ち、提案手法であるFahsionformerを命名する。 Fashionpedia、ModaNet、Deepfashionを含む3つの人間のファッションデータセットに関する大規模な実験は、我々のアプローチの有効性を示している。 特に、同じバックボーンを持つメソッドは、セグメンテーションと属性認識の両方に対して、 \textit{a joint metric (ap$^{\text{mask}}_{\text{iou+f}_1}$) の場合、以前のものに比べて10%の改善を達成している。 我々の知る限りでは、人間のファッション分析のための最初の統合されたエンドツーエンドのビジョントランスフォーマーフレームワークである。 ファッション分析のための新しいフレキシブルベースラインとして,このシンプルで効果的な方法が期待できる。 コードはhttps://github.com/x ushilin1/fashionform erで入手できる。

Human fashion understanding is one important computer vision task since it has the comprehensive information that can be used for real-world applications. In this work, we focus on joint human fashion segmentation and attribute recognition. Contrary to the previous works that separately model each task as a multi-head prediction problem, our insight is to bridge these two tasks with one unified model via vision transformer modeling to benefit each task. In particular, we introduce the object query for segmentation and the attribute query for attribute prediction. Both queries and their corresponding features can be linked via mask prediction. Then we adopt a two-stream query learning framework to learn the decoupled query representations. For attribute stream, we design a novel Multi-Layer Rendering module to explore more fine-grained features. The decoder design shares the same spirits with DETR, thus we name the proposed method Fahsionformer. Extensive experiments on three human fashion datasets including Fashionpedia, ModaNet and Deepfashion illustrate the effectiveness of our approach. In particular, our method with the same backbone achieve relative 10% improvements than previous works in case of \textit{a joint metric ( AP$^{\text{mask}}_{\text{IoU+F}_1}$) for both segmentation and attribute recognition}. To the best of our knowledge, we are the first unified end-to-end vision transformer framework for human fashion analysis. We hope this simple yet effective method can serve as a new flexible baseline for fashion analysis. Code will be available at https://github.com/x ushilin1/FashionForm er.
翻訳日:2022-04-12 16:29:59 公開日:2022-04-10
# Panoptic-PartFormer: Panoptic Part Segmentation のための統一モデル学習

Panoptic-PartFormer: Learning a Unified Model for Panoptic Part Segmentation ( http://arxiv.org/abs/2204.04655v1 )

ライセンス: Link先を確認
Xiangtai Li, Shilin Xu, Yibo Yang.Guangliang Cheng, Yunhai Tong, Dacheng Tao(参考訳) panoptic part segmentation (pps) は、panoptic segmentationとpart segmentationを1つのタスクに統合することを目的としている。 従来の作業では、主に分離したアプローチを使用して、共有計算やタスクアソシエーションを行なわずに、個別に処理、処理、部分予測を行います。 本研究は,Panoptic-PartFormer というエンドツーエンド統合手法を設計し,これらのタスクをアーキテクチャレベルで統一することを目的とする。 特に、視覚トランスフォーマーの最近の進歩に動機づけられ、物、物、部品をオブジェクトクエリとしてモデル化し、3つの予測すべてを統一マスク予測と分類問題として最適化するために直接学習します。 分離されたデコーダを設計し,それぞれ部分特徴とモノ/スタッフ特徴を生成する。 次に,全ての問合せと対応する特徴を活用して,協調的かつ反復的に推論を行うことを提案する。 最終的なマスクは、クエリと対応する特徴の間の内部積を介して取得することができる。 広範なアブレーション研究と分析により,本手法の有効性が証明された。 私たちのPanoptic-PartFormerは、少なくとも70%のGFlopsと50%のパラメータが減少するCityscapes PPSとPascal Context PPSデータセットの両方で、最先端の成果を達成する。 特に、Pascal Context PPSデータセットにSwin Transformerを採用したことで、ResNet50のバックボーンが3.4%改善され、10%改善されました。 最善の知識として、我々は \textit{a unified and end-to-end transformerモデルを通じてpps問題を解決する最初の人物です。 その有効性と概念的単純さを考えると、我々のpanoptic-partformerは良いベースラインとなり、ppsの将来の統一研究に役立つことを願っています。 私たちのコードとモデルはhttps://github.com/l xtgh/panoptic-partfo rmerで利用可能です。

Panoptic Part Segmentation (PPS) aims to unify panoptic segmentation and part segmentation into one task. Previous work mainly utilizes separated approaches to handle thing, stuff, and part predictions individually without performing any shared computation and task association. In this work, we aim to unify these tasks at the architectural level, designing the first end-to-end unified method named Panoptic-PartFormer. In particular, motivated by the recent progress in Vision Transformer, we model things, stuff, and part as object queries and directly learn to optimize the all three predictions as unified mask prediction and classification problem. We design a decoupled decoder to generate part feature and thing/stuff feature respectively. Then we propose to utilize all the queries and corresponding features to perform reasoning jointly and iteratively. The final mask can be obtained via inner product between queries and the corresponding features. The extensive ablation studies and analysis prove the effectiveness of our framework. Our Panoptic-PartFormer achieves the new state-of-the-art results on both Cityscapes PPS and Pascal Context PPS datasets with at least 70% GFlops and 50% parameters decrease. In particular, we get 3.4% relative improvements with ResNet50 backbone and 10% improvements after adopting Swin Transformer on Pascal Context PPS dataset. To the best of our knowledge, we are the first to solve the PPS problem via \textit{a unified and end-to-end transformer model. Given its effectiveness and conceptual simplicity, we hope our Panoptic-PartFormer can serve as a good baseline and aid future unified research for PPS. Our code and models will be available at https://github.com/l xtGH/Panoptic-PartFo rmer.
翻訳日:2022-04-12 16:29:34 公開日:2022-04-10
# Video K-Net:ビデオセグメンテーションのためのシンプルで強力で統一されたベースライン

Video K-Net: A Simple, Strong, and Unified Baseline for Video Segmentation ( http://arxiv.org/abs/2204.04656v1 )

ライセンス: Link先を確認
Xiangtai Li, Wenwei Zhang, Jiangmiao Pang, Kai Chen, Guangliang Cheng, Yunhai Tong, Chen Change Loy(参考訳) 本稿では,完全エンドツーエンドの映像パノプティファイションのための,シンプルで強力で統一されたフレームワークであるVideo K-Netを提案する。 K-Netは、学習可能なカーネルのグループを通じてイメージセグメンテーションを統一する手法である。 オブジェクトの外観やコンテキストをエンコードするK-Netのこれらの学習可能なカーネルは、ビデオフレーム間で自然に同一のインスタンスを関連付けることができる。 この観察によって動機づけられたVideo K-Netは、単純なカーネルベースの外観モデリングと時間的カーネル間相互作用を備えたビデオにおいて、"ings"と"stuff"を同時にセグメントし、追跡することを学ぶ。 シンプルさにもかかわらず、Citscapes-VPSとKITTI-STEPでは、ベルやホイッスルを使わずに、最先端のビデオパノプティクスのセグメンテーション結果が得られる。 特にKITTI-STEPでは、従来の方法に比べて12%近く改善されている。 また、ビデオセマンティックセグメンテーションの一般化を検証し、VSPWデータセット上で様々なベースラインを2\%向上させる。 さらに、K-Netをビデオインスタンスセグメンテーション用のクリップレベルビデオフレームワークに拡張し、ResNet50バックボーンで40.5\%、YouTube-2019バリデーションセットでSwin-baseで51.5\%mAPを得る。 このシンプルで効果的な方法が、ビデオセグメンテーションの新しい柔軟なベースラインとなることを願っています。 コードもモデルもhttps://github.com/l xtgh/video-k-netでリリース

This paper presents Video K-Net, a simple, strong, and unified framework for fully end-to-end video panoptic segmentation. The method is built upon K-Net, a method that unifies image segmentation via a group of learnable kernels. We observe that these learnable kernels from K-Net, which encode object appearances and contexts, can naturally associate identical instances across video frames. Motivated by this observation, Video K-Net learns to simultaneously segment and track "things" and "stuff" in a video with simple kernel-based appearance modeling and cross-temporal kernel interaction. Despite the simplicity, it achieves state-of-the-art video panoptic segmentation results on Citscapes-VPS and KITTI-STEP without bells and whistles. In particular on KITTI-STEP, the simple method can boost almost 12\% relative improvements over previous methods. We also validate its generalization on video semantic segmentation, where we boost various baselines by 2\% on the VSPW dataset. Moreover, we extend K-Net into clip-level video framework for video instance segmentation where we obtain 40.5\% for ResNet50 backbone and 51.5\% mAP for Swin-base on YouTube-2019 validation set. We hope this simple yet effective method can serve as a new flexible baseline in video segmentation. Both code and models are released at https://github.com/l xtGH/Video-K-Net
翻訳日:2022-04-12 16:29:00 公開日:2022-04-10
# NAN:バースト消音用ノイズ対応NeRF

NAN: Noise-Aware NeRFs for Burst-Denoising ( http://arxiv.org/abs/2204.04668v1 )

ライセンス: Link先を確認
Naama Pearl, Tali Treibitz, Simon Korman(参考訳) 計算写真は携帯電話や小型カメラに固有の感度問題を克服するのに役立ちます。 バーストデノゲーションにおける大きな課題は、単純な動きや前処理で整列する能力というより単純な仮定でこれまで処理されてきたピクセルの不一致に対処することである。 このような仮定は、大きな動きと高いレベルのノイズの存在下では現実的ではない。 物理に基づくノベルビューレンダリングのために提案されたNeural Radiance Fields (NeRF) は,バーストデノゲーションのための強力なフレームワークとして機能することを示す。 NeRFは複数の画像からの情報を統合することでノイズを処理できる固有の能力を持っているが、理想の撮像条件に適した画素演算に基づいて構築されるため、その処理には制限がある。 私たちのアプローチはnanと呼ばれ、nerfsの視点間情報と空間情報を活用してノイズに対処する。 バーストデノゲーションの最先端の結果を達成し、特に非常に高い騒音の下で大きな動きや閉塞に対処することに成功している。 nerfを加速する急速な進歩により、挑戦的な環境において、強力なプラットフォームを提供することができる。

Burst denoising is now more relevant than ever, as computational photography helps overcome sensitivity issues inherent in mobile phones and small cameras. A major challenge in burst-denoising is in coping with pixel misalignment, which was so far handled with rather simplistic assumptions of simple motion, or the ability to align in pre-processing. Such assumptions are not realistic in the presence of large motion and high levels of noise. We show that Neural Radiance Fields (NeRFs), originally suggested for physics-based novel-view rendering, can serve as a powerful framework for burst denoising. NeRFs have an inherent capability of handling noise as they integrate information from multiple images, but they are limited in doing so, mainly since they build on pixel-wise operations which are suitable to ideal imaging conditions. Our approach, termed NAN, leverages inter-view and spatial information in NeRFs to better deal with noise. It achieves state-of-the-art results in burst denoising and is especially successful in coping with large movement and occlusions, under very high levels of noise. With the rapid advances in accelerating NeRFs, it could provide a powerful platform for denoising in challenging environments.
翻訳日:2022-04-12 16:28:32 公開日:2022-04-10
# 画像復元のための簡易ベースライン

Simple Baselines for Image Restoration ( http://arxiv.org/abs/2204.04676v1 )

ライセンス: Link先を確認
Liangyu Chen, Xiaojie Chu, Xiangyu Zhang, Jian Sun(参考訳) 近年,画像修復の分野では大きな進歩があったが,最新技術(SOTA)手法のシステム複雑性も増大しており,簡便な解析や比較を妨げている可能性がある。 本稿では,SOTA法を超越した計算効率の簡単なベースラインを提案する。 さらにベースラインを単純化するため,sgmoid,relu,gelu,so ftmaxなどの非線形活性化関数は不要であることを明らかにした。 したがって、ベースラインから非線形活性化自由ネットワーク、すなわちNAFNetを導出する。 SOTAの結果は、GoProの33.69dB PSNR(画像劣化)、計算コストのわずか8.4%のSOTA 0.38dB、SIDDの40.30dB PSNR(画像劣化)、計算コストの半分未満のSOTA 0.28dBといった、様々な挑戦的なベンチマークで達成されている。 コードと事前訓練されたモデルはhttps://github.com/m egvii-research/NAFNe tで公開される。

Although there have been significant advances in the field of image restoration recently, the system complexity of the state-of-the-art (SOTA) methods is increasing as well, which may hinder the convenient analysis and comparison of methods. In this paper, we propose a simple baseline that exceeds the SOTA methods and is computationally efficient. To further simplify the baseline, we reveal that the nonlinear activation functions, e.g. Sigmoid, ReLU, GELU, Softmax, etc. are not necessary: they could be replaced by multiplication or removed. Thus, we derive a Nonlinear Activation Free Network, namely NAFNet, from the baseline. SOTA results are achieved on various challenging benchmarks, e.g. 33.69 dB PSNR on GoPro (for image deblurring), exceeding the previous SOTA 0.38 dB with only 8.4% of its computational costs; 40.30 dB PSNR on SIDD (for image denoising), exceeding the previous SOTA 0.28 dB with less than half of its computational costs. The code and the pretrained models will be released at https://github.com/m egvii-research/NAFNe t.
翻訳日:2022-04-12 16:28:07 公開日:2022-04-10
# rgb-d fusionを用いたスケール不変意味セグメンテーション

Scale Invariant Semantic Segmentation with RGB-D Fusion ( http://arxiv.org/abs/2204.04679v1 )

ライセンス: Link先を確認
Mohammad Dawud Ansari, Alwi Husada and Didier Stricker(参考訳) 本稿では,rgb-d画像を用いたスケール不変意味セグメンテーションのためのニューラルネットワークアーキテクチャを提案する。 我々は、カラー画像以外の追加のモダリティとして深度情報を利用する。 特に、カメラからの被写体の距離によって異なるスケールの被写体で構成される屋外シーンにおいて。 近距離オブジェクトは、遠距離オブジェクトよりもはるかに多くのピクセルから構成される。 本研究では,RGBデータに深度情報を組み込んで画素単位のセマンティックセグメンテーションを行い,屋外シーンにおける異なるスケールオブジェクトに対処する。 私たちはRGBベースラインとしてよく知られたDeepLab-v2(ResNet-10 1)モデルに対応しています。 深度画像は別個の分岐を持つ追加入力として別々に渡される。 色分枝と深度画像枝の中間特徴写像は、新しい融合ブロックを用いて融合される。 我々のモデルはコンパクトであり、他のRGBモデルにも容易に適用できる。 挑戦的なデータセットであるCityscapesについて、定性的かつ定量的な評価を行う。 得られた結果は最先端技術に匹敵する。 さらに,自己記録した実データを用いて評価を行った。 基礎的真理を持つ運転シーンの広範な評価の揺らぎとして,人気のある車両シミュレーションプロジェクトcarlaを用いた合成データセットを作成した。 実データと合成データから得られた結果は,本手法の有効性を示している。

In this paper, we propose a neural network architecture for scale-invariant semantic segmentation using RGB-D images. We utilize depth information as an additional modality apart from color images only. Especially in an outdoor scene which consists of different scale objects due to the distance of the objects from the camera. The near distance objects consist of significantly more pixels than the far ones. We propose to incorporate depth information to the RGB data for pixel-wise semantic segmentation to address the different scale objects in an outdoor scene. We adapt to a well-known DeepLab-v2(ResNet-10 1) model as our RGB baseline. Depth images are passed separately as an additional input with a distinct branch. The intermediate feature maps of both color and depth image branch are fused using a novel fusion block. Our model is compact and can be easily applied to the other RGB model. We perform extensive qualitative and quantitative evaluation on a challenging dataset Cityscapes. The results obtained are comparable to the state-of-the-art. Additionally, we evaluated our model on a self-recorded real dataset. For the shake of extended evaluation of a driving scene with ground truth we generated a synthetic dataset using popular vehicle simulation project CARLA. The results obtained from the real and synthetic dataset shows the effectiveness of our approach.
翻訳日:2022-04-12 16:27:47 公開日:2022-04-10
# CholecTriplet2021: 外科的三重項認識のためのベンチマーク課題

CholecTriplet2021: A benchmark challenge for surgical action triplet recognition ( http://arxiv.org/abs/2204.04746v1 )

ライセンス: Link先を確認
Chinedu Innocent Nwoye, Deepak Alapatt, Tong Yu, Armine Vardazaryan, Fangfang Xia, Zixuan Zhao, Tong Xia, Fucang Jia, Yuxuan Yang, Hao Wang, Derong Yu, Guoyan Zheng, Xiaotian Duan, Neil Getty, Ricardo Sanchez-Matilla, Maria Robu, Li Zhang, Huabin Chen, Jiacheng Wang, Liansheng Wang, Bokai Zhang, Beerend Gerats, Sista Raviteja, Rachana Sathish, Rong Tao, Satoshi Kondo, Winnie Pang, Hongliang Ren, Julian Ronald Abbing, Mohammad Hasan Sarhan, Sebastian Bodenstedt, Nithya Bhasker, Bruno Oliveira, Helena R. Torres, Li Ling, Finn Gaida, Tobias Czempiel, Jo\~ao L. Vila\c{c}a, Pedro Morais, Jaime Fonseca, Ruby Mae Egging, Inge Nicole Wijma, Chen Qian, Guibin Bian, Zhen Li, Velmurugan Balasubramanian, Debdoot Sheet, Imanol Luengo, Yuanbo Zhu, Shuai Ding, Jakob-Anton Aschenbrenner, Nicolas Elini van der Kar, Mengya Xu, Mobarakol Islam, Lalithkumar Seenivasan, Alexander Jenke, Danail Stoyanov, Didier Mutter, Pietro Mascagni, Barbara Seeliger, Cristians Gonzalez, Nicolas Padoy(参考訳) 手術室における文脈対応意思決定支援は、手術ワークフロー分析からのリアルタイムフィードバックを活用して、手術の安全性と効率性を高めることができる。 既存の作品の多くは、フェーズ、ステップ、イベントなどの粗いレベルの手術活動を認識しており、手術活動に関する詳細なインタラクションは残っていないが、手術室でより有用なai支援のために必要である。 Instrument, verb, target>コンビネーションのトリプレットとして外科的行動を認識することは,手術ビデオにおける活動に関する包括的詳細を提供する。 腹腔鏡下手術における三肢の認識のためにMICCAI 2021で組織された内視鏡的視力障害であるColecTriplet2021を提案する。 このチャレンジは、アクショントリプル情報で注釈付けされた大規模なColecT50データセットへのプライベートアクセスを許可した。 本稿では,この課題において,参加者が提案する最先端のディープラーニング手法のセットアップと評価について述べる。 チャレンジオーガナイザの合計4つのベースライン手法と、競技チームによる19の新たなディープラーニングアルゴリズムが提示され、手術ビデオから直接手術アクショントリプレットを認識し、平均平均精度(mAP)は4.2%から38.1%である。 本研究は,提案手法により得られた結果の意義を解析し,それら間の方法論的比較を行い,詳細な結果分析を行い,新しいアンサンブル法を提案する。 外科的ワークフロー分析はまだ未解決であり,手術におけるAIの発展に最も重要となる微細な外科的活動認識の今後の研究の方向性が注目されている。

Context-aware decision support in the operating room can foster surgical safety and efficiency by leveraging real-time feedback from surgical workflow analysis. Most existing works recognize surgical activities at a coarse-grained level, such as phases, steps or events, leaving out fine-grained interaction details about the surgical activity; yet those are needed for more helpful AI assistance in the operating room. Recognizing surgical actions as triplets of <instrument, verb, target> combination delivers comprehensive details about the activities taking place in surgical videos. This paper presents CholecTriplet2021: an endoscopic vision challenge organized at MICCAI 2021 for the recognition of surgical action triplets in laparoscopic videos. The challenge granted private access to the large-scale CholecT50 dataset, which is annotated with action triplet information. In this paper, we present the challenge setup and assessment of the state-of-the-art deep learning methods proposed by the participants during the challenge. A total of 4 baseline methods from the challenge organizers and 19 new deep learning algorithms by competing teams are presented to recognize surgical action triplets directly from surgical videos, achieving mean average precision (mAP) ranging from 4.2% to 38.1%. This study also analyzes the significance of the results obtained by the presented approaches, performs a thorough methodological comparison between them, in-depth result analysis, and proposes a novel ensemble method for enhanced recognition. Our analysis shows that surgical workflow analysis is not yet solved, and also highlights interesting directions for future research on fine-grained surgical activity recognition which is of utmost importance for the development of AI in surgery.
翻訳日:2022-04-12 16:27:32 公開日:2022-04-10
# クロスビュー画像検索を超えて:衛星画像を用いた高精度車両位置推定

Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization Using Satellite Image ( http://arxiv.org/abs/2204.04752v1 )

ライセンス: Link先を確認
Yujiao Shi and Hongdong Li(参考訳) 本稿では,地上画像と架空衛星地図をマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。 既存の手法では、この問題をクロスビュー画像検索として扱うことが多く、学習した深い特徴を用いて地上レベルのクエリ画像を衛星マップのパーティション(例えば小さなパッチ)にマッチさせる。 これらの方法により、衛星地図の分割密度(しばしば10メートル順)によって位置推定精度が制限される。 本稿では,従来の画像検索の知恵を離れて,高精度な局所化を実現する新しい解を提案する。 重要なアイデアは、タスクをポーズ推定として定式化し、ニューラルネットワークベースの最適化によって解決することです。 具体的には、地上画像と衛星画像から頑健な特徴を抽出する2枝のCNNを設計する。 広大なクロスビュー領域のギャップを埋めるために、相対的なカメラポーズに基づいて、衛星マップからグランドビューに特徴を投影する幾何投影モジュールを使用します。 投影された特徴と観測された特徴の差を最小限に抑えるため、最適なカメラのポーズを反復的に検索するために微分可能なレバンス・マルカート({LM})モジュールを用いる。 パイプライン全体が微分可能で、エンドツーエンドで動作する。 標準自動運転車のローカライズデータセットに関する広範囲な実験により,提案手法の優位性が確認された。 例えば、40m×40mの広い領域におけるカメラ位置の粗い推定から始めると、その80%の確率で、新しいKITTIクロスビューデータセットにおいて、横方向の位置誤差が5m以内になる。

This paper addresses the problem of vehicle-mounted camera localization by matching a ground-level image with an overhead-view satellite map. Existing methods often treat this problem as cross-view image retrieval, and use learned deep features to match the ground-level query image to a partition (eg, a small patch) of the satellite map. By these methods, the localization accuracy is limited by the partitioning density of the satellite map (often in the order of tens meters). Departing from the conventional wisdom of image retrieval, this paper presents a novel solution that can achieve highly-accurate localization. The key idea is to formulate the task as pose estimation and solve it by neural-net based optimization. Specifically, we design a two-branch {CNN} to extract robust features from the ground and satellite images, respectively. To bridge the vast cross-view domain gap, we resort to a Geometry Projection module that projects features from the satellite map to the ground-view, based on a relative camera pose. Aiming to minimize the differences between the projected features and the observed features, we employ a differentiable Levenberg-Marquardt ({LM}) module to search for the optimal camera pose iteratively. The entire pipeline is differentiable and runs end-to-end. Extensive experiments on standard autonomous vehicle localization datasets have confirmed the superiority of the proposed method. Notably, e.g., starting from a coarse estimate of camera location within a wide region of 40m x 40m, with an 80% likelihood our method quickly reduces the lateral location error to be within 5m on a new KITTI cross-view dataset.
翻訳日:2022-04-12 16:27:05 公開日:2022-04-10
# ビデオハイライト検出のための画素レベル判別の学習

Learning Pixel-Level Distinctions for Video Highlight Detection ( http://arxiv.org/abs/2204.04615v1 )

ライセンス: Link先を確認
Fanyue Wei, Biao Wang, Tiezheng Ge, Yuning Jiang, Wen Li, Lixin Duan(参考訳) ビデオハイライト検出の目的は、長いビデオから最も魅力的なセグメントを選択し、ビデオの最も興味深い部分を描くことだ。 既存の手法は通常、各セグメントにハイライトスコアを割り当てるモデルを学ぶために、異なるビデオセグメント間の関係をモデル化することに焦点を当てるが、これらの手法は個々のセグメント内のコンテキスト依存を明示的に考慮していない。 この目的のために,映像ハイライト検出を改善するために,画素レベルの区別を学ぶことを提案する。 このピクセルレベルの区別は、あるビデオの各ピクセルが興味深いセクションに属しているかどうかを示す。 このような微妙な区別をモデル化する利点は2つある。 まず、このフレームの前のコンテンツとこのフレームの周りのコンテンツの両方に、一フレーム内のピクセルの区別が強く依存するため、一つのビデオにおけるコンテンツの時間的・空間的関係を利用することができる。 第2に、ピクセルレベルの区別を学ぶことで、ハイライトセグメントのどのコンテンツが人々を惹きつけるかに関するビデオハイライトタスクのよい説明が得られます。 本研究では,3次元畳み込みニューラルネットワークを活用し,時間的文脈情報を利用するエンコーダ・デコーダネットワークの設計を行い,さらに,視覚的サリエンシーを利用して空間的識別をモデル化する。 3つの公開ベンチマークにおける最先端のパフォーマンスは、ビデオハイライト検出のためのフレームワークの有効性を明確に検証する。

The goal of video highlight detection is to select the most attractive segments from a long video to depict the most interesting parts of the video. Existing methods typically focus on modeling relationship between different video segments in order to learning a model that can assign highlight scores to these segments; however, these approaches do not explicitly consider the contextual dependency within individual segments. To this end, we propose to learn pixel-level distinctions to improve the video highlight detection. This pixel-level distinction indicates whether or not each pixel in one video belongs to an interesting section. The advantages of modeling such fine-level distinctions are two-fold. First, it allows us to exploit the temporal and spatial relations of the content in one video, since the distinction of a pixel in one frame is highly dependent on both the content before this frame and the content around this pixel in this frame. Second, learning the pixel-level distinction also gives a good explanation to the video highlight task regarding what contents in a highlight segment will be attractive to people. We design an encoder-decoder network to estimate the pixel-level distinction, in which we leverage the 3D convolutional neural networks to exploit the temporal context information, and further take advantage of the visual saliency to model the spatial distinction. State-of-the-art performance on three public benchmarks clearly validates the effectiveness of our framework for video highlight detection.
翻訳日:2022-04-12 16:03:40 公開日:2022-04-10
# 統計学者のためのプライベートシークエンシャル仮説テスト:プライバシ、エラー率、サンプルサイズ

Private Sequential Hypothesis Testing for Statisticians: Privacy, Error Rates, and Sample Size ( http://arxiv.org/abs/2204.04597v1 )

ライセンス: Link先を確認
Wanrong Zhang, Yajun Mei, Rachel Cummings(参考訳) 逐次仮説テスト問題は、サンプルサイズが事前に固定されていない統計分析のクラスである。 代わりに、決定プロセスは、ある停止基準が満たされるまで、代替仮説をヌル仮説に対してテストするためのリアルタイムな決定を行うために、順次新しい観察を行う。 シーケンシャル仮説テストの多くの一般的な応用において、データは高度に敏感であり、プライバシー保護を必要とする可能性がある。例えば、シーケンシャル仮説テストは臨床試験で使用されており、医師は患者からのデータを順次収集し、いつ患者をリクルートし、治療が有効かどうかを決定する必要がある。 差分プライバシーの分野は、強力なプライバシー保証を備えたデータ分析ツールを提供するために開発され、マシンラーニングや統計処理に広く適用されてきた。 本研究では,Renyi差分プライバシ(差分プライバシ)と呼ばれる,わずかに異なる差分プライバシの下での逐次仮説テスト問題について検討する。 我々は,Wald's Sequential Probability Ratio Test (SPRT)に基づく新たなプライベートアルゴリズムを提案する。 我々は,I型とII型の誤差で測定された統計的性能と,期待される標本サイズに関する理論的解析を行った。 また、いくつかの合成データベース上で理論結果を実証的に検証し、我々のアルゴリズムが実際によく動作することを示す。 古典的な固定的なサンプル設定のみに焦点を当てたこれまでのプライベート仮説テストと異なり、シーケンシャルな設定の結果として結論がより早く到達し、追加のサンプルを収集するコストが削減される。

The sequential hypothesis testing problem is a class of statistical analyses where the sample size is not fixed in advance. Instead, the decision-process takes in new observations sequentially to make real-time decisions for testing an alternative hypothesis against a null hypothesis until some stopping criterion is satisfied. In many common applications of sequential hypothesis testing, the data can be highly sensitive and may require privacy protection; for example, sequential hypothesis testing is used in clinical trials, where doctors sequentially collect data from patients and must determine when to stop recruiting patients and whether the treatment is effective. The field of differential privacy has been developed to offer data analysis tools with strong privacy guarantees, and has been commonly applied to machine learning and statistical tasks. In this work, we study the sequential hypothesis testing problem under a slight variant of differential privacy, known as Renyi differential privacy. We present a new private algorithm based on Wald's Sequential Probability Ratio Test (SPRT) that also gives strong theoretical privacy guarantees. We provide theoretical analysis on statistical performance measured by Type I and Type II error as well as the expected sample size. We also empirically validate our theoretical results on several synthetic databases, showing that our algorithms also perform well in practice. Unlike previous work in private hypothesis testing that focused only on the classical fixed sample setting, our results in the sequential setting allow a conclusion to be reached much earlier, and thus saving the cost of collecting additional samples.
翻訳日:2022-04-12 15:59:37 公開日:2022-04-10
# 価値計算の欠如に対するガウス過程

Gaussian Processes for Missing Value Imputation ( http://arxiv.org/abs/2204.04648v1 )

ライセンス: Link先を確認
Bahram Jafrasteh, Daniel Hern\'andez-Lobato, Sim\'on Pedro Lubi\'an-L\'opez, Isabel Benavente-Fern\' ;andez(参考訳) 多くの実生活データセットでは欠落値が一般的である。 しかし、現在の機械学習手法のほとんどは、欠落した値を処理できない。 これは、事前に説明すべきであることを意味する。 ガウス過程(英: Gaussian Processs、GP)は、厳密な不確実性推定とスパース近似と確率的変分推論スケールを組み合わせた非パラメトリックモデルである。 スパースGPは、欠落したデータの予測分布を計算するのに使うことができる。 本稿では,各次元の欠落値を予測するために,他の次元の変数すべてを用いて,スパースgpsの階層的構成を示す。 我々はこの手法を欠落GP (MGP) と呼ぶ。 MGPは同時に訓練され、観測された全ての欠落した値をインプットすることができる。 具体的には、他の欠落した値の計算に使用される各欠落値の予測分布を出力する。 MGPを1つのプライベート臨床データセットと4つのUCIデータセットで評価した。 我々は,MGPの性能を,スパースGPとディープGPに基づく変種を含む,他の最先端手法と比較した。 その結果, MGPの性能は有意に向上した。

Missing values are common in many real-life datasets. However, most of the current machine learning methods can not handle missing values. This means that they should be imputed beforehand. Gaussian Processes (GPs) are non-parametric models with accurate uncertainty estimates that combined with sparse approximations and stochastic variational inference scale to large data sets. Sparse GPs can be used to compute a predictive distribution for missing data. Here, we present a hierarchical composition of sparse GPs that is used to predict missing values at each dimension using all the variables from the other dimensions. We call the approach missing GP (MGP). MGP can be trained simultaneously to impute all observed missing values. Specifically, it outputs a predictive distribution for each missing value that is then used in the imputation of other missing values. We evaluate MGP in one private clinical data set and four UCI datasets with a different percentage of missing values. We compare the performance of MGP with other state-of-the-art methods for imputing missing values, including variants based on sparse GPs and deep GPs. The results obtained show a significantly better performance of MGP.
翻訳日:2022-04-12 15:59:10 公開日:2022-04-10
# 言語行動からのパーソナリティ検出を推し進める: トランスフォーマーが心理言語学的特徴のテキスト輪郭と出会う

Pushing on Personality Detection from Verbal Behavior: A Transformer Meets Text Contours of Psycholinguistic Features ( http://arxiv.org/abs/2204.04629v1 )

ライセンス: Link先を確認
Elma Kerz, Yu Qiao, Sourabh Zanwar, Daniel Wiechmann(参考訳) パーソナリティ心理学、コンピュータサイエンス、言語学の交差点における研究は、最近、言語使用からパーソナリティをモデル化し予測することに集中している。 テキストデータから人格特性を予測する2つの大きな改善点を報告する:(1)我々の知識に対して、理論に基づく最も包括的な精神言語学的特徴セット、(2)事前学習されたトランスフォーマー言語モデルBERTと双方向長短期記憶(BLSTM)ネットワークを統合したハイブリッドモデル。 我々は、BLSTMモデル(注意と注意)と、トランスフォーマーモデルから事前訓練された言語表現を応用するための2つの手法、すなわち「機能ベース」と「ファインチューニング」を実験する。 我々は,2つのパーソナリティの有力な理論モデルであるbig five essayデータセットとmbti kaggleデータセットを対象とした2つのベンチマークデータセットで構築したモデルの性能評価を行った。 私たちのモデルは、同じデータセット上の既存の作業よりも優れています。 具体的には,Essayデータセットでは2.9%,Kaggle MBTIデータセットでは8.28%の分類精度向上を実現している。 さらに,それぞれの性格予測モデルにおいて,異なるカテゴリーの心理言語学的特徴の影響を定量化するアブレーション実験を行った。

Research at the intersection of personality psychology, computer science, and linguistics has recently focused increasingly on modeling and predicting personality from language use. We report two major improvements in predicting personality traits from text data: (1) to our knowledge, the most comprehensive set of theory-based psycholinguistic features and (2) hybrid models that integrate a pre-trained Transformer Language Model BERT and Bidirectional Long Short-Term Memory (BLSTM) networks trained on within-text distributions ('text contours') of psycholinguistic features. We experiment with BLSTM models (with and without Attention) and with two techniques for applying pre-trained language representations from the transformer model - 'feature-based' and 'fine-tuning'. We evaluate the performance of the models we built on two benchmark datasets that target the two dominant theoretical models of personality: the Big Five Essay dataset and the MBTI Kaggle dataset. Our results are encouraging as our models outperform existing work on the same datasets. More specifically, our models achieve improvement in classification accuracy by 2.9% on the Essay dataset and 8.28% on the Kaggle MBTI dataset. In addition, we perform ablation experiments to quantify the impact of different categories of psycholinguistic features in the respective personality prediction models.
翻訳日:2022-04-12 15:52:35 公開日:2022-04-10
# UniDU: 統合生成対話理解フレームワークを目指して

UniDU: Towards A Unified Generative Dialogue Understanding Framework ( http://arxiv.org/abs/2204.04637v1 )

ライセンス: Link先を確認
Zhi Chen, Lu Chen, Bei Chen, Libo Qin, Yuncong Liu, Su Zhu, Jian-Guang Lou, Kai Yu(参考訳) 事前訓練された言語モデルの開発により、対話理解(DU)の方向性において顕著な成功を収めた。 しかし、現在の du アプローチは、異なる du タスク間の共有知識を考慮せずに、個々の du タスクに対して個別にモデルを採用するだけである。 本稿では,一元的対話理解フレームワークであるUniDUについて検討し,DUタスク間の情報交換を実現する。 具体的には、DUタスクを統一生成パラダイムに再構成する。 さらに,各タスクの異なるトレーニングデータを検討するために,統一モデルをバランスよく最適化するためのモデル非依存なトレーニング戦略も導入する。 本研究は,対話要約,対話完了,スロット充填,意図検出,対話状態追跡という5つの基本課題にまたがる10の対話理解データセットの実験を行う。 提案したUniDUフレームワークは5つのタスクすべてにおいてタスク固有のよく設計されたメソッドよりも優れている。 さらに、影響要因を研究するための総合的な分析実験を行う。 また,提案手法は,未知対話領域において有望な性能が得られることを示す。

With the development of pre-trained language models, remarkable success has been witnessed in dialogue understanding (DU) direction. However, the current DU approaches just employ an individual model for each DU task, independently, without considering the shared knowledge across different DU tasks. In this paper, we investigate a unified generative dialogue understanding framework, namely UniDU, to achieve information exchange among DU tasks. Specifically, we reformulate the DU tasks into unified generative paradigm. In addition, to consider different training data for each task, we further introduce model-agnostic training strategy to optimize unified model in a balanced manner. We conduct the experiments on ten dialogue understanding datasets, which span five fundamental tasks: dialogue summary, dialogue completion, slot filling, intent detection and dialogue state tracking. The proposed UniDU framework outperforms task-specific well-designed methods on all 5 tasks. We further conduct comprehensive analysis experiments to study the effect factors. The experimental results also show that the proposed method obtains promising performance on unseen dialogue domain.
翻訳日:2022-04-12 15:49:45 公開日:2022-04-10
# 並列BERTディープニューラルネットワークを用いたフェイクニュース検出

Fake news detection using parallel BERT deep neural networks ( http://arxiv.org/abs/2204.04793v1 )

ライセンス: Link先を確認
Mahmood Farokhian, Vahid Rafe, Hadi Veisi(参考訳) フェイクニュースは、ソーシャルネットワークやメディアにとってますます難しい課題だ。 偽ニュースの検出は長年にわたって問題視されてきたが、ソーシャルネットワークの進化と近年のニュース拡散のスピード向上が再び検討されている。 この問題にはいくつかのアプローチがあり、そのうちの1つはディープニューラルネットワークを用いたテキストスタイルに基づく偽ニュースの検出である。 近年では、自然言語処理に最もよく使われているのがトランスフォーマーを用いたトランスファー学習である。 BERTは多くのNLPベンチマークで他のモデルを上回っている最も有望なトランスフォーマーの1つである。 本稿では,2つの並列BERTネットワークを用いて全文ニュース記事の真偽検出を行うMWPBertを紹介する。 BERTネットワークの1つはニュースヘッドラインをエンコードし、もう1つはニュースボディをエンコードする。 BERTネットワークの入力長は制限され一定であり、ニュース本体は通常長文であるので、ニューステキスト全体をBERTに入力することはできない。 そこで,maxworthアルゴリズムを用いて,ファクトチェックに有用なニューステキストの部分を選択し,bertネットワークに入力した。 最後に、2つのBERTネットワークの出力を出力ネットワークにエンコードしてニュースを分類する。 実験の結果,提案モデルが従来のモデルよりも精度と性能面で優れていた。

Fake news is a growing challenge for social networks and media. Detection of fake news always has been a problem for many years, but after the evolution of social networks and increasing speed of news dissemination in recent years has been considered again. There are several approaches to solving this problem, one of which is to detect fake news based on its text style using deep neural networks. In recent years, one of the most used forms of deep neural networks for natural language processing is transfer learning with transformers. BERT is one of the most promising transformers who outperforms other models in many NLP benchmarks. This article, we introduce MWPBert, which uses two parallel BERT networks to perform veracity detection on full-text news articles. One of the BERT networks encodes news headline, and another encodes news body. Since the input length of the BERT network is limited and constant and the news body is usually a long text, we cannot fed the whole news text into the BERT. Therefore, using the MaxWorth algorithm, we selected the part of the news text that is more valuable for fact-checking, and fed it into the BERT network. Finally, we encode the output of the two BERT networks to an output network to classify the news. The experiment results showed that the proposed model outperformed previous models in terms of accuracy and other performance measures.
翻訳日:2022-04-12 15:49:30 公開日:2022-04-10
# DISK: 単語問題生成のためのドメイン制約付きインスタンススケッチ

DISK: Domain-constrained Instance Sketch for Math Word Problem Generation ( http://arxiv.org/abs/2204.04686v1 )

ライセンス: Link先を確認
Tianyang Cao, Shuang Zeng, Xiaodan Xu, Mairgup Mansur, Baobao Chang(参考訳) 数学語問題 (MWP) は、数学方程式の基礎となる論理を反映したコヒーレントな物語である。 成功したMWP生成は数学問題の記述を自動化することができる。 以前の手法では、主に非フレキシブルな事前定義テンプレートに基づいたmwpテキストを生成する。 本稿では,数学方程式からmwpテキストを生成するためのニューラルモデルを提案する。 まず、ドメイン知識に基づいて条件付けられたマッチングモデルを取り込んで、ドメインがドメイン要約器で抽出された潜在変数である基底と最も一致するmwpインスタンスを取得する。 次に,検索したMWPインスタンスからQCG(Quantity Cell Graph)を構築することにより,実世界のシナリオの理解を改善し,ドメイン制約のあるインスタンススケッチを導出して生成を誘導する。 さらに、qcgは方程式エンコーダと相互作用し、数学のトークン(量や変数など)とmwpテキストのアライメントを強化する。 教育用MWPセットの実験と実証分析により,自動評価指標と人的評価指標の両方において,本モデルが優れた性能を発揮することが示された。

A math word problem (MWP) is a coherent narrative which reflects the underlying logic of math equations. Successful MWP generation can automate the writing of mathematics questions. Previous methods mainly generate MWP text based on inflexible pre-defined templates. In this paper, we propose a neural model for generating MWP text from math equations. Firstly, we incorporate a matching model conditioned on the domain knowledge to retrieve a MWP instance which is most consistent with the ground-truth, where the domain is a latent variable extracted with a domain summarizer. Secondly, by constructing a Quantity Cell Graph (QCG) from the retrieved MWP instance and reasoning over it, we improve the model's comprehension of real-world scenarios and derive a domain-constrained instance sketch to guide the generation. Besides, the QCG also interacts with the equation encoder to enhance the alignment between math tokens (e.g., quantities and variables) and MWP text. Experiments and empirical analysis on educational MWP set show that our model achieves impressive performance in both automatic evaluation metrics and human evaluation metrics.
翻訳日:2022-04-12 15:43:23 公開日:2022-04-10
# 進行的自己蒸留によるロバストなクロスモーダル表現学習

Robust Cross-Modal Representation Learning with Progressive Self-Distillation ( http://arxiv.org/abs/2204.04588v1 )

ライセンス: Link先を確認
Alex Andonian, Shixing Chen, Raffay Hamid(参考訳) CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多の対応を効果的に考慮していない。 そこで本研究では, 逐次自己蒸留とソフトイメージテキストアライメントを用いて, 雑音データからロバスト表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しい学習フレームワークを提案する。 我々のモデルは,各ミニバッチにおける画像とキャプションのサブセットに対するソフトアライメントターゲットを動的に生成するために,独自の知識を抽出し,パラメータを更新する。 14のベンチマークデータセットにわたる大規模な評価では、私たちのメソッドは、複数の設定でCLIPよりも一貫して優れています。 (a)ゼロショット分類 (b)直線プローブ移動、及び (c)計算コストの増大を伴わない画像テキスト検索。 ImageNet-based robustness test-bed を用いて解析した結果,本手法はImageNet-trained model と CLIP 自体と比較して,自然分布シフトに対して有効なロバスト性を提供することがわかった。 最後に、2桁のサイズのデータセットによる事前トレーニングは、CLIPに対する改善が、多数のトレーニング例でスケールする傾向にあることを示している。

The learning objective of vision-language approach of CLIP does not effectively account for the noisy many-to-many correspondences found in web-harvested image captioning datasets, which contributes to its compute and data inefficiency. To address this challenge, we introduce a novel training framework based on cross-modal contrastive learning that uses progressive self-distillation and soft image-text alignments to more efficiently learn robust representations from noisy data. Our model distills its own knowledge to dynamically generate soft-alignment targets for a subset of images and captions in every minibatch, which are then used to update its parameters. Extensive evaluation across 14 benchmark datasets shows that our method consistently outperforms its CLIP counterpart in multiple settings, including: (a) zero-shot classification, (b) linear probe transfer, and (c) image-text retrieval, without incurring added computational cost. Analysis using an ImageNet-based robustness test-bed reveals that our method offers better effective robustness to natural distribution shifts compared to both ImageNet-trained models and CLIP itself. Lastly, pretraining with datasets spanning two orders of magnitude in size shows that our improvements over CLIP tend to scale with number of training examples.
翻訳日:2022-04-12 15:02:19 公開日:2022-04-10
# FOSTER: クラス増分学習のための機能強化と圧縮

FOSTER: Feature Boosting and Compression for Class-Incremental Learning ( http://arxiv.org/abs/2204.04662v1 )

ライセンス: Link先を確認
Fu-Yun Wang, Da-Wei Zhou, Han-Jia Ye, De-Chuan Zhan(参考訳) 常に変化するこの世界で、新しい概念を継続的に学ぶ能力は必要です。 しかし、ディープニューラルネットワークは、新しいカテゴリを学ぶ際に破滅的な忘れに苦しむ。 この現象を緩和する多くの研究が提案されているが、そのほとんどは安定性と塑性のジレンマに陥るか、計算やストレージのオーバーヘッドが多すぎる。 目標と現在の近似関数の間の残差に徐々に収まる勾配向上アルゴリズムに着想を得て,新たな2段階学習パラダイムFOSTERを提案し,新しいカテゴリを適応的に学習することを可能にする。 具体的には、まずターゲットの残差と元のモデルに適合するように、新しいモジュールを動的に拡張する。 次に, 1つのバックボーンモデルを維持するため, 有効蒸留法により, 冗長パラメータと特徴次元を除去する。 CIFAR-100, ImageNet-100/1000の異なる設定でFOSTERを検証した。 実験結果から,本手法は最先端性能を実現することが示された。

The ability to learn new concepts continually is necessary in this ever-changing world. However, deep neural networks suffer from catastrophic forgetting when learning new categories. Many works have been proposed to alleviate this phenomenon, whereas most of them either fall into the stability-plasticity dilemma or take too much computation or storage overhead. Inspired by the gradient boosting algorithm to gradually fit the residuals between the target and the current approximation function, we propose a novel two-stage learning paradigm FOSTER, empowering the model to learn new categories adaptively. Specifically, we first dynamically expand new modules to fit the residuals of the target and the original model. Next, we remove redundant parameters and feature dimensions through an effective distillation strategy to maintain the single backbone model. We validate our method FOSTER on CIFAR-100, ImageNet-100/1000 under different settings. Experimental results show that our method achieves state-of-the-art performance.
翻訳日:2022-04-12 15:01:57 公開日:2022-04-10
# pedcc-lossに基づく分類器の効率的な分散検出

Effective Out-of-Distribution Detection in Classifier Based on PEDCC-Loss ( http://arxiv.org/abs/2204.04665v1 )

ライセンス: Link先を確認
Qiuyu Zhu, Guohui Zheng, Yingying Yan(参考訳) ディープニューラルネットワークは、オープン世界での自信過剰な問題に苦しんでいる。つまり、分類器は、分散(ood)サンプルに対する自信と誤った予測をもたらす可能性がある。 したがって、人工知能のセキュリティ上の配慮に基づき、トレーニング分布から遠ざかってこれらのサンプルを検出することは、緊急かつ困難な課題である。 ニューラルネットワークに基づく現在の多くの手法は主に温度スケーリングや入力前処理のような複雑な処理戦略に依存しており、良好な結果が得られる。 本稿では,pedcc-lossを用いた分散サンプルの検出手法を提案する。 PEDCC(Predefined Evenly-Distribution Class Centroids)分類器によって出力される信頼スコアの性質を数学的に解析し、より効果的なスコア関数を構築し、分布内(ID)と分布外(out-of-distriion)を区別する。 この方法では、入力サンプルを前処理する必要がなく、アルゴリズムの計算負担が軽減される。 実験により,OOD検出性能が向上することが確認された。

Deep neural networks suffer from the overconfidence issue in the open world, meaning that classifiers could yield confident, incorrect predictions for out-of-distribution (OOD) samples. Thus, it is an urgent and challenging task to detect these samples drawn far away from training distribution based on the security considerations of artificial intelligence. Many current methods based on neural networks mainly rely on complex processing strategies, such as temperature scaling and input preprocessing, to obtain satisfactory results. In this paper, we propose an effective algorithm for detecting out-of-distribution examples utilizing PEDCC-Loss. We mathematically analyze the nature of the confidence score output by the PEDCC (Predefined Evenly-Distribution Class Centroids) classifier, and then construct a more effective scoring function to distinguish in-distribution (ID) and out-of-distribution. In this method, there is no need to preprocess the input samples and the computational burden of the algorithm is reduced. Experiments demonstrate that our method can achieve better OOD detection performance.
翻訳日:2022-04-12 15:01:43 公開日:2022-04-10
# DualPrompt:リハーサルなし連続学習のための補足プロンプト

DualPrompt: Complementary Prompting for Rehearsal-free Continual Learning ( http://arxiv.org/abs/2204.04799v1 )

ライセンス: Link先を確認
Zifeng Wang, Zizhao Zhang, Sayna Ebrahimi, Ruoxi Sun, Han Zhang, Chen-Yu Lee, Xiaoqi Ren, Guolong Su, Vincent Perot, Jennifer Dy, Tomas Pfister(参考訳) 継続的学習は、1つのモデルが破滅的な忘れることなく一連のタスクを学習できるようにすることを目的としている。 トップパフォーマンスメソッドは通常、過去の経験リプレイのサンプルを保存するためにリハーサルバッファを必要とするが、プライバシとメモリの制約のため、実用的価値は制限される。 本研究では,従来の例をバッファリングすることなく,事前学習したモデルに順次到着するタスクを適切に学習するために,プロンプトと呼ばれるパラメータセットを学習する,シンプルで効果的なフレームワークであるDualPromptを提案する。 dualpromptは、事前学習されたバックボーンに補完的なプロンプトをアタッチする新しいアプローチを示し、タスク不変とタスク固有の"インストラクション"の学習として目標を定式化する。 広範な実験的検証により、dualpromptは挑戦的なクラスインクリメンタル設定の下で常に最先端のパフォーマンスを設定する。 特に、DualPromptは、比較的大きなバッファサイズを持つ最近の高度な連続学習手法よりも優れている。 さらに,リハーサルフリー連続学習研究の一般化を支援する,より挑戦的なベンチマークであるsplit imagenet-rも導入する。 ソースコードはhttps://github.com/g oogle-research/l2pで入手できる。

Continual learning aims to enable a single model to learn a sequence of tasks without catastrophic forgetting. Top-performing methods usually require a rehearsal buffer to store past pristine examples for experience replay, which, however, limits their practical value due to privacy and memory constraints. In this work, we present a simple yet effective framework, DualPrompt, which learns a tiny set of parameters, called prompts, to properly instruct a pre-trained model to learn tasks arriving sequentially without buffering past examples. DualPrompt presents a novel approach to attach complementary prompts to the pre-trained backbone, and then formulates the objective as learning task-invariant and task-specific "instructions". With extensive experimental validation, DualPrompt consistently sets state-of-the-art performance under the challenging class-incremental setting. In particular, DualPrompt outperforms recent advanced continual learning methods with relatively large buffer sizes. We also introduce a more challenging benchmark, Split ImageNet-R, to help generalize rehearsal-free continual learning research. Source code is available at https://github.com/g oogle-research/l2p.
翻訳日:2022-04-12 15:01:22 公開日:2022-04-10
# SplitNets: ヘッドマウントシステム上での効率的な分散コンピューティングのためのニューラルネットワーク設計

SplitNets: Designing Neural Architectures for Efficient Distributed Computing on Head-Mounted Systems ( http://arxiv.org/abs/2204.04705v1 )

ライセンス: Link先を確認
Xin Dong, Barbara De Salvo, Meng Li, Chiao Liu, Zhongnan Qu, H.T. Kung and Ziyun Li(参考訳) 我々は、DNNと対応するネットワークの分割を設計し、DNNのワークロードをカメラセンサーに分散し、ヘッドマウントデバイスに集中集約器を配置し、所定のハードウェアリソース制約下での推測精度とレイテンシにおいてシステム性能目標を満たす。 計算,通信,性能の最適なバランスを実現するため,分割対応のニューラルネットワーク検索フレームワークであるSplitNetsを導入し,モデル設計,分割,通信削減を同時に行う。 さらに、複数のカメラセンサからの入力を最適性能とシステム効率で融合させる学習のためのマルチビューシステムにも拡張する。 本研究では,imagenet上のシングルビューシステムおよびマルチビューシステムに対するスプリットネットを3d分類で検証し,既存のアプローチと比較して,スプリットネットフレームワークが最先端(sota)性能とシステムレイテンシを実現することを示す。

We design deep neural networks (DNNs) and corresponding networks' splittings to distribute DNNs' workload to camera sensors and a centralized aggregator on head mounted devices to meet system performance targets in inference accuracy and latency under the given hardware resource constraints. To achieve an optimal balance among computation, communication, and performance, a split-aware neural architecture search framework, SplitNets, is introduced to conduct model designing, splitting, and communication reduction simultaneously. We further extend the framework to multi-view systems for learning to fuse inputs from multiple camera sensors with optimal performance and systemic efficiency. We validate SplitNets for single-view system on ImageNet as well as multi-view system on 3D classification, and show that the SplitNets framework achieves state-of-the-art (SOTA) performance and system latency compared with existing approaches.
翻訳日:2022-04-12 14:56:02 公開日:2022-04-10
# モーションコントラスト知覚を用いた自己教師付き映像表現学習

Self-Supervised Video Representation Learning with Motion-Contrastive Perception ( http://arxiv.org/abs/2204.04607v1 )

ライセンス: Link先を確認
Jinyu Liu, Ying Cheng, Yuejie Zhang, Rui-Wei Zhao, Rui Feng(参考訳) 視覚のみの自己教師型学習は,映像表現学習において大きな進歩を遂げた。 既存の関連手法は、コントラスト学習を利用したり、特定のプリテキストタスクを設計することで、モデルにビデオ表現の学習を促す。 しかし、一部のモデルは背景に焦点を当てる可能性が高いため、ビデオ表現の学習には重要ではない。 この問題を軽減するために,より詳細な動特性情報を得るために,長距離残余フレームという新しい視点を提案する。 そこで本研究では,映像中の変化領域に着目して汎用的な映像表現を学習するために,運動情報知覚 (mip) とコントラストインスタンス知覚 (cip) という2つの分枝からなるモーションコントラスト知覚ネットワーク (mcpnet) を提案する。 具体的には、MIPブランチは、きめ細かい動きの特徴を学習することを目的としており、CIPブランチは、各インスタンスの全体的な意味情報を学ぶために対照的な学習を行う。 2つのベンチマークデータセット UCF-101 と HMDB-51 を用いた実験により,本手法が現在最先端の視覚のみの自己監督手法より優れていることが示された。

Visual-only self-supervised learning has achieved significant improvement in video representation learning. Existing related methods encourage models to learn video representations by utilizing contrastive learning or designing specific pretext tasks. However, some models are likely to focus on the background, which is unimportant for learning video representations. To alleviate this problem, we propose a new view called long-range residual frame to obtain more motion-specific information. Based on this, we propose the Motion-Contrastive Perception Network (MCPNet), which consists of two branches, namely, Motion Information Perception (MIP) and Contrastive Instance Perception (CIP), to learn generic video representations by focusing on the changing areas in videos. Specifically, the MIP branch aims to learn fine-grained motion features, and the CIP branch performs contrastive learning to learn overall semantics information for each instance. Experiments on two benchmark datasets UCF-101 and HMDB-51 show that our method outperforms current state-of-the-art visual-only self-supervised approaches.
翻訳日:2022-04-12 14:37:12 公開日:2022-04-10
# 私の運転観察モデルは自信過剰か? 信頼度・信頼度評価のための入力誘導校正ネットワーク

Is my Driver Observation Model Overconfident? Input-guided Calibration Networks for Reliable and Interpretable Confidence Estimates ( http://arxiv.org/abs/2204.04674v1 )

ライセンス: Link先を確認
Alina Roitberg, Kunyu Peng, David Schneider, Kailun Yang, Marios Koulakis, Manuel Martinez, Rainer Stiefelhagen(参考訳) 運転観察モデルは完璧な条件下で展開されることは滅多にない。 実際には、照明、カメラ配置、タイプは訓練中に存在するものと異なり、予期せぬ行動はいつでも起こる。 ステアリングホイールの後ろの人間を観察すると、より直感的な人間の車間相互作用とより安全な運転につながるが、認識アルゴリズムは正しい運転状態を予測するだけでなく、現実的で解釈可能な信頼度測定によって予測品質を決定する必要がある。 信頼性の高い不確実性推定は信頼の構築に不可欠であり、実際の運転システムに活動認識ネットワークを展開する上で深刻な障害となる。 本研究では,現代のドライバ観測モデルの信頼度が,正しい結果の確率に実際に合致するかどうかを初めて検証し,生のニューラルネットワークに基づくアプローチが予測品質を著しく過大評価する傾向があることを示す。 信頼度値と実際の不確実性との相違を正すために,我々は2つの戦略を検討する。 まず,画像分類における信頼度校正のための温度スケーリング法を用いて,運転者の観察によく使用される2つの行動認識モデルを強化する。 次に,入力誘導(キャリング)によるキャリブレーション動作認識を提案する。ビデオ表現による信頼性のスケーリングを学ぶために,追加のニューラルネットワークを活用する新しいアプローチである。 Drive&Actデータセットの大規模な実験では、どちらの戦略もモデルの信頼性を劇的に向上させ、CARINGモデルはオリジナルのアーキテクチャと温度スケーリングの強化の両方に優れており、最良の不確実性評価につながっている。

Driver observation models are rarely deployed under perfect conditions. In practice, illumination, camera placement and type differ from the ones present during training and unforeseen behaviours may occur at any time. While observing the human behind the steering wheel leads to more intuitive human-vehicle-intera ction and safer driving, it requires recognition algorithms which do not only predict the correct driver state, but also determine their prediction quality through realistic and interpretable confidence measures. Reliable uncertainty estimates are crucial for building trust and are a serious obstacle for deploying activity recognition networks in real driving systems. In this work, we for the first time examine how well the confidence values of modern driver observation models indeed match the probability of the correct outcome and show that raw neural network-based approaches tend to significantly overestimate their prediction quality. To correct this misalignment between the confidence values and the actual uncertainty, we consider two strategies. First, we enhance two activity recognition models often used for driver observation with temperature scaling-an off-the-shelf method for confidence calibration in image classification. Then, we introduce Calibrated Action Recognition with Input Guidance (CARING)-a novel approach leveraging an additional neural network to learn scaling the confidences depending on the video representation. Extensive experiments on the Drive&Act dataset demonstrate that both strategies drastically improve the quality of model confidences, while our CARING model out-performs both, the original architectures and their temperature scaling enhancement, leading to best uncertainty estimates.
翻訳日:2022-04-12 14:36:50 公開日:2022-04-10
# 差別化可能なアーキテクチャ探索のロバスト性,効率性,多様性の向上

Enhancing the Robustness, Efficiency, and Diversity of Differentiable Architecture Search ( http://arxiv.org/abs/2204.04681v1 )

ライセンス: Link先を確認
Chao Li, Jia Ning, Han Hu, Kun He(参考訳) 微分可能なアーキテクチャ探索(DARTS)は、その単純さと効率の大幅な向上により、多くの注目を集めている。 しかし、スキップ接続の過剰な蓄積は長期の弱い安定性と低ロバスト性に苦しむ。 多くの作業は、指示器や手動設計によるスキップ接続の蓄積を制限するが、これらの方法は閾値や人間の優先に影響を受けやすい。 本研究では,操作空間からのスキップ接続を除去する,より微妙で直接的なアプローチを提案する。 次に,アダプティブチャネル割り当て戦略を導入することで,dartsフレームワークを再設計し,評価段階におけるスキップ接続を自動的に補充し,スキップ接続の欠如による性能低下を解消する。 提案手法はACA-DRATS(Adaptive-C hannel-Allocation-DA RTS)と呼ばれ,操作強度の不整合を排除し,アーキテクチャの多様性を大幅に拡張する。 私たちのフレームワークの下では、より小さな検索スペースを探求し続け、imagenetデータセット全体を直接検索します。 実験の結果, ACA-DRATSは探索安定性を向上し, DARTSを10倍以上高速化し, 精度も向上した。

Differentiable architecture search (DARTS) has attracted much attention due to its simplicity and significant improvement in efficiency. However, the excessive accumulation of the skip connection makes it suffer from long-term weak stability and low robustness. Many works attempt to restrict the accumulation of skip connections by indicators or manual design, however, these methods are susceptible to thresholds and human priors. In this work, we suggest a more subtle and direct approach that removes skip connections from the operation space. Then, by introducing an adaptive channel allocation strategy, we redesign the DARTS framework to automatically refill the skip connections in the evaluation stage, resolving the performance degradation caused by the absence of skip connections. Our method, dubbed Adaptive-Channel-All ocation-DARTS (ACA-DRATS), could eliminate the inconsistency in operation strength and significantly expand the architecture diversity. We continue to explore smaller search space under our framework, and offer a direct search on the entire ImageNet dataset. Experiments show that ACA-DRATS improves the search stability and significantly speeds up DARTS by more than ten times while yielding higher accuracy.
翻訳日:2022-04-12 14:36:25 公開日:2022-04-10
# マルチモーダルドライバ動作理解のための決定レベル融合の比較解析

A Comparative Analysis of Decision-Level Fusion for Multimodal Driver Behaviour Understanding ( http://arxiv.org/abs/2204.04734v1 )

ライセンス: Link先を確認
Alina Roitberg, Kunyu Peng, Zdravko Marinov, Constantin Seibold, David Schneider, Rainer Stiefelhagen(参考訳) 車両キャビン内の視覚認識は、より安全な運転とより直感的な人間と車両の相互作用をもたらすが、そのようなシステムは、非常に限られた身体の視認性と照明の変化に対処しながら、ドライバーの行動の異なる粒度を捉える必要があるため、重大な障害に直面している。 異なるセンサの予測結果が異なるモダリティ特有の強みと弱みのために互いに補完する。 以前公開されたフレームワークでは、いくつかのレイトフュージョンメソッドが検討されているが、異なるアーキテクチャバックボーンとビルディングブロックを常に備えており、選択したレイトフュージョン戦略自体の役割を分離することが非常に困難である。 本稿では,ビデオベースのドライバ観察における決定レベルの遅延融合の異なるパラダイムの実証評価を行う。 評価基準とベンチマーク設定に基づいて評価したドライバー観察の文脈において、スコア平均化(英語版)と未検討(ランクレベルの融合(英語版)など)の両方に人気がある単一モード分類器の結果を結合する7つの異なるメカニズムを比較した。 これは、融合スキーム選択のためのガイダンスを提供することを目的として、車両内のマルチモーダル予測器の成果を融合する戦略に関する最初の体系的な研究である。

Visual recognition inside the vehicle cabin leads to safer driving and more intuitive human-vehicle interaction but such systems face substantial obstacles as they need to capture different granularities of driver behaviour while dealing with highly limited body visibility and changing illumination. Multimodal recognition mitigates a number of such issues: prediction outcomes of different sensors complement each other due to different modality-specific strengths and weaknesses. While several late fusion methods have been considered in previously published frameworks, they constantly feature different architecture backbones and building blocks making it very hard to isolate the role of the chosen late fusion strategy itself. This paper presents an empirical evaluation of different paradigms for decision-level late fusion in video-based driver observation. We compare seven different mechanisms for joining the results of single-modal classifiers which have been both popular, (e.g. score averaging) and not yet considered (e.g. rank-level fusion) in the context of driver observation evaluating them based on different criteria and benchmark settings. This is the first systematic study of strategies for fusing outcomes of multimodal predictors inside the vehicles, conducted with the goal to provide guidance for fusion scheme selection.
翻訳日:2022-04-12 14:36:06 公開日:2022-04-10
# MedDistant19: 遠隔監視バイオメディカル関係抽出のためのベンチマーク

MedDistant19: A Challenging Benchmark for Distantly Supervised Biomedical Relation Extraction ( http://arxiv.org/abs/2204.04779v1 )

ライセンス: Link先を確認
Saadullah Amin, Pasquale Minervini, David Chang, G\"unter Neumann, Pontus Stenetorp(参考訳) バイオメディカル領域における関係抽出は、ラベル付きデータの欠如と高いアノテーションコストのため、ドメインの専門家を必要とするため困難である。 遠隔監視は、知識グラフと生テキストを自動でペアリングすることで、注釈付きデータの不足に対処する方法として一般的に用いられる。 Distantly Supervised Biomedical Relation extract (Bio-DSRE)モデルは、いくつかのベンチマークで非常に正確な結果が得られるように見える。 しかし,タスクの難易度を考慮し,このような印象的な結果の有効性について検討した。 amin et al. (2020) と hogan et al. (2021) が使用したデータセットを調査し, トレーニングと評価の関係は, 一度解決すれば, モデルの精度を最大71%低下させた。 さらに,負のサンプル作成や冗長な関係の不適切な処理など,データ構築プロセスにいくつかの矛盾があることに気付いた。 meddistant19はメドラインの抽象概念を広く使われているsnomed clinical terms (snomed ct) 知識ベースと整合させることで得られた新しいベンチマークデータセットである。 我々は, AUCを55.4%, 49.8%の文・バッグレベルで達成する最先端モデルをいくつか実験し, 改善の余地がまだたくさんあることを示した。

Relation Extraction in the biomedical domain is challenging due to the lack of labeled data and high annotation costs, needing domain experts. Distant supervision is commonly used as a way to tackle the scarcity of annotated data by automatically pairing knowledge graph relationships with raw texts. Distantly Supervised Biomedical Relation Extraction (Bio-DSRE) models can seemingly produce very accurate results in several benchmarks. However, given the challenging nature of the task, we set out to investigate the validity of such impressive results. We probed the datasets used by Amin et al. (2020) and Hogan et al. (2021) and found a significant overlap between training and evaluation relationships that, once resolved, reduced the accuracy of the models by up to 71%. Furthermore, we noticed several inconsistencies with the data construction process, such as creating negative samples and improper handling of redundant relationships. We mitigate these issues and present MedDistant19, a new benchmark dataset obtained by aligning the MEDLINE abstracts with the widely used SNOMED Clinical Terms (SNOMED CT) knowledge base. We experimented with several state-of-the-art models achieving an AUC of 55.4% and 49.8% at sentence- and bag-level, showing that there is still plenty of room for improvement.
翻訳日:2022-04-12 14:33:33 公開日:2022-04-10
# 漁業の指数平均化の再考

Rethinking Exponential Averaging of the Fisher ( http://arxiv.org/abs/2204.04718v1 )

ライセンス: Link先を確認
Constantin Octavian Puiu(参考訳) 機械学習(ML)の最適化において、曲率行列(CM)推定が局所的な推定(EA-CMアルゴリズムを適用)の指数平均(EA)に依存するのが典型的である。 このアプローチは正当化の原則はほとんどないが、実際によく使われる。 本稿では,ea-cmアルゴリズムと「二次正規化モデルの和」との関係について述べる。 アウトライン接続により、最適化の観点からea-cmアルゴリズムが何をしているかを理解することができます。 確立された接続から一般化し,新しいアルゴリズムファミリーKL-Divergence Wake-Regularized Models (KLD-WRM)を提案する。 KLD-WRMの3つの実用的なインスタンス化を行い、K-FACより優れた数値結果を示す。

In optimization for Machine learning (ML), it is typical that curvature-matrix (CM) estimates rely on an exponential average (EA) of local estimates (giving EA-CM algorithms). This approach has little principled justification, but is very often used in practice. In this paper, we draw a connection between EA-CM algorithms and what we call a "Wake of Quadratic regularized models". The outlined connection allows us to understand what EA-CM algorithms are doing from an optimization perspective. Generalizing from the established connection, we propose a new family of algorithms, "KL-Divergence Wake-Regularized Models" (KLD-WRM). We give three different practical instantiations of KLD-WRM, and show numerical results where we outperform K-FAC.
翻訳日:2022-04-12 14:27:27 公開日:2022-04-10
# 不完全観測帯域におけるグリーディ政策の最悪の性能

Worst-case Performance of Greedy Policies in Bandits with Imperfect Context Observations ( http://arxiv.org/abs/2204.04773v1 )

ライセンス: Link先を確認
Hongju Park and Mohamad Kazem Shirani Faradonbeh(参考訳) 文脈帯域は、時間変化成分を持つ環境における不確実性の下での逐次決定のための標準モデルである。 この設定では、各バンディットアームの期待される報酬は、未知のパラメータの内部積と、そのアームのコンテキストベクトルからなり、ランダムな誤差で摂動する。 古典的設定は、完全に観察された文脈に大きく依存するが、不完全に観察された文脈的バンディットのよりリッチなモデルの研究は未熟である。 この研究は、パラメータと観測されていないコンテキストの現在の推定値が対応する真の値と一致するかのように行動をとるグレディ強化学習ポリシーを考察する。 非漸近的な最悪の後悔は、時間軸や失敗確率と対数的に増大する一方、腕の数と線形にスケールする。 以上のグリーディ政策の効率を示す数値解析も提供する。

Contextual bandits are canonical models for sequential decision-making under uncertainty in environments with time-varying components. In this setting, the expected reward of each bandit arm consists of the inner product of an unknown parameter and the context vector of that arm, perturbed with a random error. The classical setting heavily relies on fully observed contexts, while study of the richer model of imperfectly observed contextual bandits is immature. This work considers Greedy reinforcement learning policies that take actions as if the current estimates of the parameter and of the unobserved contexts coincide with the corresponding true values. We establish that the non-asymptotic worst-case regret grows logarithmically with the time horizon and the failure probability, while it scales linearly with the number of arms. Numerical analysis showcasing the above efficiency of Greedy policies is also provided.
翻訳日:2022-04-12 14:27:11 公開日:2022-04-10
# ソス! エゴセントリック行動認識における処理対象の集合上の自己教師付き学習

SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric Action Recognition ( http://arxiv.org/abs/2204.04796v1 )

ライセンス: Link先を確認
Victor Escorcia, Ricardo Guerrero, Xiatian Zhu, Brais Martinez(参考訳) ビデオデータからエゴセントリックなアクション認識モデルを学ぶことは、背景の邪魔者(例えば、無関係なオブジェクト)のために難しい。 したがって、オブジェクト情報をアクションモデルに統合することは有益である。 既存の方法は、しばしばシーン内のオブジェクトを識別し、表現するためにジェネリックオブジェクト検出器を利用する。 しかし、いくつかの重要な問題が残っている。 良いオブジェクト表現を学ぶには、ターゲットドメイン(データセット)に対して良い品質のオブジェクトクラスアノテーションが必要である。 さらに、以前のメソッドでは、既存のアクションモデルを深く結合し、オブジェクト表現と共同で再トレーニングする必要があります。 両制約を克服するために,既製の手対象接触検出器によって検出されたビデオオブジェクト領域から,汎用オブジェクトの接触(OIC)表現モデルを事前学習するためのSOS(Self-Supervised Learning Over Sets)を導入する。 従来の自己教師あり学習のように物体領域を個別に拡張するのではなく、行動過程を一意な時空間連続性を持つ自然データ変換の手段として捉え、ビデオ単位のオブジェクト集合に固有の関係性を利用する。 EPIC-KITCHENS-100とEGTEAの2つのデータセットに対する大規模な実験により、OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させることが示された。

Learning an egocentric action recognition model from video data is challenging due to distractors (e.g., irrelevant objects) in the background. Further integrating object information into an action model is hence beneficial. Existing methods often leverage a generic object detector to identify and represent the objects in the scene. However, several important issues remain. Object class annotations of good quality for the target domain (dataset) are still required for learning good object representation. Besides, previous methods deeply couple the existing action models and need to retrain them jointly with object representation, leading to costly and inflexible integration. To overcome both limitations, we introduce Self-Supervised Learning Over Sets (SOS), an approach to pre-train a generic Objects In Contact (OIC) representation model from video object regions detected by an off-the-shelf hand-object contact detector. Instead of augmenting object regions individually as in conventional self-supervised learning, we view the action process as a means of natural data transformations with unique spatio-temporal continuity and exploit the inherent relationships among per-video object sets. Extensive experiments on two datasets, EPIC-KITCHENS-100 and EGTEA, show that our OIC significantly boosts the performance of multiple state-of-the-art video classification models.
翻訳日:2022-04-12 13:53:33 公開日:2022-04-10
# Decay No More: ソーシャルな意味を学ぶための永続的なTwitterデータセット

Decay No More: A Persistent Twitter Dataset for Learning Social Meaning ( http://arxiv.org/abs/2204.04611v1 )

ライセンス: Link先を確認
Chiyu Zhang, Muhammad Abdul-Mageed, El Moatez Billah Nagoudi(参考訳) ソーシャルメディアの普及に伴い、多くの研究がソーシャルメディアを利用して、社会的意味理解システムを開発するためのデータセットを構築している。 Twitterの一般的な場合、ほとんどの研究者はプラットフォームのデータ配信ポリシーのため、実際のテキスト内容なしでツイートIDを配布している。 問題のひとつは、ポストが時間とともにアクセス不能になり、不公平な比較とソーシャルメディア研究の時間的偏見につながることだ。 データ崩壊のこの課題を軽減するために、パラフレーズモデルを用いて、新しい社会意味のための英語Twitterデータセット(PTSM)を提案する。 PTSMは17ドルのソーシャル意味データセットと10ドルのタスクカテゴリで構成されている。 我々は2つのSOTA事前訓練言語モデルを用いて実験を行い、PTSMが実際のツイートをパラフレーズに置き換え、性能損失を極端に抑えることを示した。

With the proliferation of social media, many studies resort to social media to construct datasets for developing social meaning understanding systems. For the popular case of Twitter, most researchers distribute tweet IDs without the actual text contents due to the data distribution policy of the platform. One issue is that the posts become increasingly inaccessible over time, which leads to unfair comparisons and a temporal bias in social media research. To alleviate this challenge of data decay, we leverage a paraphrase model to propose a new persistent English Twitter dataset for social meaning (PTSM). PTSM consists of $17$ social meaning datasets in $10$ categories of tasks. We experiment with two SOTA pre-trained language models and show that our PTSM can substitute the actual tweets with paraphrases with marginal performance loss.
翻訳日:2022-04-12 13:50:36 公開日:2022-04-10
# 線形複雑化ランダム自己注意機構

Linear Complexity Randomized Self-attention Mechanism ( http://arxiv.org/abs/2204.04667v1 )

ライセンス: Link先を確認
Lin Zheng, Chong Wang and Lingpeng Kong(参考訳) 近年,指数核を線形化することにより,線形時間と空間複雑性におけるソフトマックス注意を近似するランダム特徴注意法(rfas)が提案されている。 本稿では,RFAを自己正規化重要サンプルとして再キャストすることで,そのような近似のバイアスを理解する新しい視点を提案する。 この視点は、ランダムアテンション (RA) と呼ばれるソフトマックスアテンション全体に対する 'emph{unbiased} 推定器にさらに光を放つ。 RAは、クエリ固有の分布を通して正のランダムな特徴を構築し、近似の忠実度を大幅に改善するが、2次複雑性を示す。 RAの表現性とRFAの効率を組み合わせることで、線形ランダム化注意(LARA)と呼ばれる新しい線形複雑自己注意機構を開発する。 様々な領域にわたる大規模な実験により、RAとLARAはRFAの性能を大幅に改善することを示した。

Recently, random feature attentions (RFAs) are proposed to approximate the softmax attention in linear time and space complexity by linearizing the exponential kernel. In this paper, we first propose a novel perspective to understand the bias in such approximation by recasting RFAs as self-normalized importance samplers. This perspective further sheds light on an \emph{unbiased} estimator for the whole softmax attention, called randomized attention (RA). RA constructs positive random features via query-specific distributions and enjoys greatly improved approximation fidelity, albeit exhibiting quadratic complexity. By combining the expressiveness in RA and the efficiency in RFA, we develop a novel linear complexity self-attention mechanism called linear randomized attention (LARA). Extensive experiments across various domains demonstrate that RA and LARA significantly improve the performance of RFAs by a substantial margin.
翻訳日:2022-04-12 13:33:03 公開日:2022-04-10
# FedCorr:ラベルノイズ補正のための多段階フェデレーション学習

FedCorr: Multi-Stage Federated Learning for Label Noise Correction ( http://arxiv.org/abs/2204.04677v1 )

ライセンス: Link先を確認
Jingyi Xu, Zihan Chen, Tony Q.S. Quek, Kai Fong Ernest Chong(参考訳) Federated Learning(FL)は、クライアントがグローバルモデルの共同トレーニングを可能にする、プライバシ保護の分散学習パラダイムである。 実世界のfl実装では、クライアントデータはラベルノイズを持ち、異なるクライアントはラベルノイズレベルが大きく異なる可能性がある。 ラベルノイズに対処するための集中学習手法は存在するが、FLにおけるクライアントデータセットのサイズやデータプライバシ要件が典型的に小さいため、FL設定における異種ラベルノイズにはうまく対応していない。 本稿では,クライアントデータのプライバシを維持しつつ,ローカルクライアントのノイズモデルを前提にすることなく,flにおける異種ラベルノイズに対処する汎用マルチステージフレームワークである$\texttt{fedcorr}$を提案する。 特に、(1)$\texttt{fedcorr}$は、すべてのクライアントで独立に測定されたモデル予測部分空間の次元を利用して、ノイズの多いクライアントを動的に識別し、サンプル当たりの損失に基づいてノイズの多いクライアント上の不正確なラベルを特定する。 データの不均一性に対処し、トレーニング安定性を高めるために、推定局所雑音レベルに基づく適応的局所近位正規化項を提案する。 2) 特定されたクリーンクライアントのグローバルモデルをさらに微調整し, 微調整後の残雑音クライアントのノイズラベルを補正する。 3) 最後に,すべてのクライアントに通常のトレーニングを適用し,すべてのローカルデータをフル活用する。 CIFAR-10/100において合成ラベルノイズと実世界のノイズデータセットであるCloting1Mを用いて行われた実験は、$\texttt{FedCorr}$がラベルノイズに対して堅牢であり、複数のノイズレベルにおいて最先端の手法を大幅に上回ることを示した。

Federated learning (FL) is a privacy-preserving distributed learning paradigm that enables clients to jointly train a global model. In real-world FL implementations, client data could have label noise, and different clients could have vastly different label noise levels. Although there exist methods in centralized learning for tackling label noise, such methods do not perform well on heterogeneous label noise in FL settings, due to the typically smaller sizes of client datasets and data privacy requirements in FL. In this paper, we propose $\texttt{FedCorr}$, a general multi-stage framework to tackle heterogeneous label noise in FL, without making any assumptions on the noise models of local clients, while still maintaining client data privacy. In particular, (1) $\texttt{FedCorr}$ dynamically identifies noisy clients by exploiting the dimensionalities of the model prediction subspaces independently measured on all clients, and then identifies incorrect labels on noisy clients based on per-sample losses. To deal with data heterogeneity and to increase training stability, we propose an adaptive local proximal regularization term that is based on estimated local noise levels. (2) We further finetune the global model on identified clean clients and correct the noisy labels for the remaining noisy clients after finetuning. (3) Finally, we apply the usual training on all clients to make full use of all local data. Experiments conducted on CIFAR-10/100 with federated synthetic label noise, and on a real-world noisy dataset, Clothing1M, demonstrate that $\texttt{FedCorr}$ is robust to label noise and substantially outperforms the state-of-the-art methods at multiple noise levels.
翻訳日:2022-04-12 13:31:34 公開日:2022-04-10
# 教師付き学習における効率的な表現識別に向けて

Towards efficient representation identification in supervised learning ( http://arxiv.org/abs/2204.04606v1 )

ライセンス: Link先を確認
Kartik Ahuja, Divyat Mahajan, Vasilis Syrgkanis, Ioannis Mitliagkas(参考訳) 人間は複雑な感覚入力(画像やテキストなど)を、多くの監督なしで単純な変化の要因(形や色など)に分解する能力を持っている。 この能力は、以下の問題を解決するための多くの作業にインスピレーションを与えている。 非線形独立成分分析に関する文献には、この否定的な結果がいくつかあるが、データ生成過程や適切な帰納バイアスに関する知識がなければ、この反転は不可能である。 近年、構造的前提の下での絡み合いについて、例えば、条件付き独立な要因となる補助情報にアクセスできた場合など、多くの進歩がなされている。 しかし、既存の作業には多くの補助情報が必要であり、例えば教師付き分類では、ラベルクラスの数は、変動のすべての要因の総次元に少なくとも等しいべきであると規定している。 この作業では、これらの仮定から離れて、次のように尋ねます。 イ 補助情報が変動の要因について条件付き独立性を提供しない場合、どうゆがめることができるか。 b) 絡み合うのに必要な補助情報量を減らすことができるか。 補助情報が条件付き独立性を保証することができないモデルのクラスに対して、補助情報次元が真の潜在表現の次元よりもはるかに小さい場合でも、解離(広範囲)が可能であることを理論的および実験的に示す。

Humans have a remarkable ability to disentangle complex sensory inputs (e.g., image, text) into simple factors of variation (e.g., shape, color) without much supervision. This ability has inspired many works that attempt to solve the following question: how do we invert the data generation process to extract those factors with minimal or no supervision? Several works in the literature on non-linear independent component analysis have established this negative result; without some knowledge of the data generation process or appropriate inductive biases, it is impossible to perform this inversion. In recent years, a lot of progress has been made on disentanglement under structural assumptions, e.g., when we have access to auxiliary information that makes the factors of variation conditionally independent. However, existing work requires a lot of auxiliary information, e.g., in supervised classification, it prescribes that the number of label classes should be at least equal to the total dimension of all factors of variation. In this work, we depart from these assumptions and ask: a) How can we get disentanglement when the auxiliary information does not provide conditional independence over the factors of variation? b) Can we reduce the amount of auxiliary information required for disentanglement? For a class of models where auxiliary information does not ensure conditional independence, we show theoretically and experimentally that disentanglement (to a large extent) is possible even when the auxiliary information dimension is much less than the dimension of the true latent representation.
翻訳日:2022-04-12 13:09:42 公開日:2022-04-10