このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221011となっている論文です。

PDF登録状況(公開日: 20221011)

TitleAuthorsAbstract論文公表日・翻訳日
# PromptEHR: Prompt Learningによる条件付き電子医療記録生成

PromptEHR: Conditional Electronic Healthcare Records Generation with Prompt Learning ( http://arxiv.org/abs/2211.01761v1 )

ライセンス: Link先を確認
Zifeng Wang and Jimeng Sun(参考訳) 長期にわたるマルチモーダル電子医療記録(EHR)へのアクセスは、プライバシ上の懸念から困難であり、医療アプリケーションにおけるMLの使用を妨げる。 合成eers生成は、センシティブな実際の患者記録を共有する必要性を回避します。 しかし、既存の手法では、非条件生成や長手推論によって単一モーダル EHR を生成し、低柔軟性に欠け、非現実的な EHR を生成する。 本研究では,言語モデル (LM) によるテキストからテキストへの翻訳タスクとして EHR の生成を定式化することを提案する。 また,数値的特徴とカテゴリー的特徴による生成条件を制御するために,プロンプト・ラーニングをデザインする。 合成ERHの品質を, 縦方向のパターン(縦方向のインプットパープレキシティ, lpl)と相互接続(横方向のインプットパープレキシティ, mpl)の2つの指標を用いて評価した。 さらに,プライバシ保護評価のために,メンバシップと属性推論攻撃という2つの敵を利用する。 MIMIC-IIIデータを用いた実験では、プライバシーリスクの低い現実的なERH(lpl:53.1\%、mpl:45.3\%)における手法の優位性を実証した。 ソフトウェアはhttps://github.com/RyanWangZf/PromptEHRで入手できる。

Accessing longitudinal multimodal Electronic Healthcare Records (EHRs) is challenging due to privacy concerns, which hinders the use of ML for healthcare applications. Synthetic EHRs generation bypasses the need to share sensitive real patient records. However, existing methods generate single-modal EHRs by unconditional generation or by longitudinal inference, which falls short of low flexibility and makes unrealistic EHRs. In this work, we propose to formulate EHRs generation as a text-to-text translation task by language models (LMs), which suffices to highly flexible event imputation during generation. We also design prompt learning to control the generation conditioned by numerical and categorical demographic features. We evaluate synthetic EHRs quality by two perplexity measures accounting for their longitudinal pattern (longitudinal imputation perplexity, lpl) and the connections cross modalities (cross-modality imputation perplexity, mpl). Moreover, we utilize two adversaries: membership and attribute inference attacks for privacy-preserving evaluation. Experiments on MIMIC-III data demonstrate the superiority of our methods on realistic EHRs generation (53.1\% decrease of lpl and 45.3\% decrease of mpl on average compared to the best baselines) with low privacy risks. Software is available at https://github.com/RyanWangZf/PromptEHR.
翻訳日:2022-11-06 15:14:14 公開日:2022-10-11
# デュアルプロセスメタラーニングによる株式取引量予測

Stock Trading Volume Prediction with Dual-Process Meta-Learning ( http://arxiv.org/abs/2211.01762v1 )

ライセンス: Link先を確認
Ruibo Chen, Wei Li, Zhiyuan Zhang, Ruihan Bao, Keiko Harimoto, Xu Sun(参考訳) ボリューム予測はフィンテック地域の基本的な目的の1つであり、アルゴリズム取引など多くの下流業務に役立っている。 以前の手法は、ほとんどが異なる株式の普遍モデルを学ぶ。 しかし、この慣行は、異なる株に対して同じパラメーターを適用することにより、個々の株の特定の特性を省略する。 一方、各株式の異なるモデルを学ぶことは、資本の少ない多くの株式ではデータのスパーシティやコールドスタートの問題に直面する。 データスケールと個々の在庫の諸特性を活用するために,メタラーニングフレームワークの下で,各在庫の予測をひとつのタスクとして扱う2プロセスのメタラーニング手法を提案する。 提案手法は,異なる在庫の背景にある共通パターンをメタラーナーでモデル化し,各在庫の特定のパターンを時間にわたって,ストック依存パラメータでモデル化する。 さらに,予測モジュールのパラメータを学習するために使用される潜在変数の形で,各ストックのパターンをマイニングする。 これにより、予測手順はデータパターンを認識する。 ボリューム予測に関する広範囲な実験により,本手法は様々なベースラインモデルの性能を向上させることができることを示した。 さらに,提案するメタラーニングフレームワークの有効性を検証した。

Volume prediction is one of the fundamental objectives in the Fintech area, which is helpful for many downstream tasks, e.g., algorithmic trading. Previous methods mostly learn a universal model for different stocks. However, this kind of practice omits the specific characteristics of individual stocks by applying the same set of parameters for different stocks. On the other hand, learning different models for each stock would face data sparsity or cold start problems for many stocks with small capitalization. To take advantage of the data scale and the various characteristics of individual stocks, we propose a dual-process meta-learning method that treats the prediction of each stock as one task under the meta-learning framework. Our method can model the common pattern behind different stocks with a meta-learner, while modeling the specific pattern for each stock across time spans with stock-dependent parameters. Furthermore, we propose to mine the pattern of each stock in the form of a latent variable which is then used for learning the parameters for the prediction module. This makes the prediction procedure aware of the data pattern. Extensive experiments on volume predictions show that our method can improve the performance of various baseline models. Further analyses testify the effectiveness of our proposed meta-learning framework.
翻訳日:2022-11-06 15:13:25 公開日:2022-10-11
# 低リソース機械翻訳タスクとしてのニューラルチャイニーズセグメンテーションへのアプローチ

Approaching Neural Chinese Word Segmentation as a Low-Resource Machine Translation Task ( http://arxiv.org/abs/2008.05348v3 )

ライセンス: Link先を確認
Pinzhen Chen, Kenneth Heafield(参考訳) 中国語の単語セグメンテーションは、機能工学の面倒さを大幅に減らす深層学習の時代に入った。 近年, モデル設計をさらに単純化した文字レベルの翻訳を試みている研究者もいるが, 翻訳手法と他の手法の間には性能差がある。 これは、低リソースのニューラルマシン翻訳から教師付き中国語セグメンテーションまで、ベストプラクティスを適用する作業のモチベーションになります。 本稿では,正規化,データ拡張,客観的重み付け,転送学習,センシングといった一連の手法について検討する。 先行研究と比較して,低リソースの翻訳ベース手法は,無力なモデル設計を維持しつつ,付加的なデータを用いずに制約付評価における技術水準と同じ結果が得られる。

Chinese word segmentation has entered the deep learning era which greatly reduces the hassle of feature engineering. Recently, some researchers attempted to treat it as character-level translation, which further simplified model designing, but there is a performance gap between the translation-based approach and other methods. This motivates our work, in which we apply the best practices from low-resource neural machine translation to supervised Chinese segmentation. We examine a series of techniques including regularization, data augmentation, objective weighting, transfer learning, and ensembling. Compared to previous works, our low-resource translation-based method maintains the effortless model design, yet achieves the same result as state of the art in the constrained evaluation without using additional data.
翻訳日:2022-10-31 05:10:43 公開日:2022-10-11
# MARLlib:マルチエージェント強化学習のための拡張RLlib

MARLlib: Extending RLlib for Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2210.13708v1 )

ライセンス: Link先を確認
Siyi Hu, Yifan Zhong, Minquan Gao, Weixun Wang, Hao Dong, Zhihui Li, Xiaodan Liang, Xiaojun Chang, Yaodong Yang(参考訳) マルチエージェント強化学習(MARL)手法の急速な開発にもかかわらず、一般に認められたベースライン実装と評価プラットフォームが欠如している。 結果として、MARL研究者は、信頼性の高いMARL実装と様々なベンチマークで再現可能な評価を提供するシングルエージェントRLにおけるRLlibの役割に似た統合ライブラリスイートを開発する必要がある。 このような研究ギャップを埋めるために,本稿ではマルチエージェント問題を解くためにRLlibを容易にする総合的なMARLアルゴリズムライブラリであるMARLlib(Multi-Agent RLlib)を提案する。 エージェントレベルの分散データフローの新たな設計により、MARLlibは、異なるタイプの独立学習、集中型批評家、価値分解メソッドを含む数十のアルゴリズムを統一することに成功した。 さらに、MARLlibは多様な環境インターフェースを統合し、フレキシブルなパラメータ共有戦略を提供することによって、現在の作業を超えています。 アルゴリズムコンポーネントの性能と設計との関係に関する新たな知見をさらに導き出すため,実装の正しさを裏付ける実験が多数実施されている。 MARLlibでは、研究者が信頼できるソリューションで、より広範な現実世界のマルチエージェント問題に対処できることを期待しています。 私たちのcode\footnote{\url{https://github.com/Replicable-MARL/MARLlib}} と documentation\footnote{\url{https://marllib.readthedocs.io/}} は参照のためにリリースされています。

Despite the fast development of multi-agent reinforcement learning (MARL) methods, there is a lack of commonly-acknowledged baseline implementation and evaluation platforms. As a result, an urgent need for MARL researchers is to develop an integrated library suite, similar to the role of RLlib in single-agent RL, that delivers reliable MARL implementation and replicable evaluation in various benchmarks. To fill such a research gap, in this paper, we propose Multi-Agent RLlib (MARLlib), a comprehensive MARL algorithm library that facilitates RLlib for solving multi-agent problems. With a novel design of agent-level distributed dataflow, MARLlib manages to unify tens of algorithms, including different types of independent learning, centralized critic, and value decomposition methods; this leads to a highly composable integration of MARL algorithms that are not possible to unify before. Furthermore, MARLlib goes beyond current work by integrating diverse environment interfaces and providing flexible parameter sharing strategies; this allows to create versatile solutions to cooperative, competitive, and mixed tasks with minimal code modifications for end users. A plethora of experiments are conducted to substantiate the correctness of our implementation, based on which we further derive new insights on the relationship between the performance and the design of algorithmic components. With MARLlib, we expect researchers to be able to tackle broader real-world multi-agent problems with trustworthy solutions. Our code\footnote{\url{https://github.com/Replicable-MARL/MARLlib}} and documentation\footnote{\url{https://marllib.readthedocs.io/}} are released for reference.
翻訳日:2022-10-30 12:10:38 公開日:2022-10-11
# 炭素衛星と人工知能によるco$_2$排出のほぼリアルタイム化

Near Real-time CO$_2$ Emissions Based on Carbon Satellite And Artificial Intelligence ( http://arxiv.org/abs/2210.09850v1 )

ライセンス: Link先を確認
Zhengwen Zhang, Jingjin Gu, Junhua Zhao, Jianwei Huang, Haifeng Wu(参考訳) 地球温暖化を産業前レベルまで抑えるため、世界政府、産業、アカデミアは二酸化炭素排出量削減に積極的に取り組んでいる。 しかし、人為的二酸化炭素(co$_2$)排出の評価は、必ずしも信頼できるとは限らない自己報告情報に依存する。 社会はCO$_2$排出量を測定する客観的で独立的で一般化されたシステムを開発する必要がある。 宇宙からの衛星 co$_2$ 観測では、コラム平均領域の co$_2$ 乾燥空気モル分画が徐々にそのようなシステムを構築する可能性を示唆している。 それでも、CO$_2$観測衛星からのCO$_2$放射を推定することは、大気活動の非常に複雑な物理的特性の影響でボトルネックとなる。 本稿では,人工知能(ai)技術と二酸化炭素排出量を定量化するためのカーボンサテライトモニターを組み合わせた最初の手法を提案する。 データ検索アルゴリズムと2ステップのデータ駆動ソリューションの両方を含む統合AIベースのパイプラインを提案する。 まず、データ検索アルゴリズムは、炭素衛星、炭素源の情報、およびいくつかの環境要因を含むマルチモーダルデータから効果的なデータセットを生成することができる。 第二に、深層学習技術の強力な表現を適用した2段階のデータ駆動ソリューションは、人工衛星のCO$_2$排出を他の要因とともに定量化する。 我々の研究は、深層学習アルゴリズムと炭素衛星モニターを組み合わせることでCO$2$の排出量を定量化する可能性を解き放っている。

To limit global warming to pre-industrial levels, global governments, industry and academia are taking aggressive efforts to reduce carbon emissions. The evaluation of anthropogenic carbon dioxide (CO$_2$) emissions, however, depends on the self-reporting information that is not always reliable. Society need to develop an objective, independent, and generalized system to meter CO$_2$ emissions. Satellite CO$_2$ observation from space that reports column-average regional CO$_2$ dry-air mole fractions has gradually indicated its potential to build such a system. Nevertheless, estimating anthropogenic CO$_2$ emissions from CO$_2$ observing satellite is bottlenecked by the influence of the highly complicated physical characteristics of atmospheric activities. Here we provide the first method that combines the advanced artificial intelligence (AI) techniques and the carbon satellite monitor to quantify anthropogenic CO$_2$ emissions. We propose an integral AI based pipeline that contains both a data retrieval algorithm and a two-step data-driven solution. First, the data retrieval algorithm can generate effective datasets from multi-modal data including carbon satellite, the information of carbon sources, and several environmental factors. Second, the two-step data-driven solution that applies the powerful representation of deep learning techniques to learn to quantify anthropogenic CO$_2$ emissions from satellite CO$_2$ observation with other factors. Our work unmasks the potential of quantifying CO$_2$ emissions based on the combination of deep learning algorithms and the carbon satellite monitor.
翻訳日:2022-10-23 20:26:48 公開日:2022-10-11
# 深層テキスト分類器におけるバックドア検出

Detecting Backdoors in Deep Text Classifiers ( http://arxiv.org/abs/2210.11264v1 )

ライセンス: Link先を確認
You Guo and Jun Wang and Trevor Cohn(参考訳) 深層ニューラルネットワークは、悪意のある敵がトレーニング中にモデルを侵害するバックドア攻撃のような敵攻撃に対して脆弱であり、特定の単語やフレーズを入力にアタッチすることで、テスト時に特定の振る舞いをトリガーすることができる。 本稿では,モデルが破損したかどうかを診断する上での問題点について考察する。 本手法では,テキスト分類モデルに対するバックドア攻撃を,攻撃タイプに関する事前知識を必要とせず,かつ(潜在的に侵害された)トレーニングリソースにアクセスする必要のない,最初の堅牢な防御機構を提案する。 実験の結果,データ中毒や重中毒など,最先端のバックドア攻撃に対して,さまざまなテキスト分類タスクやモデルアーキテクチャをまたいで高い精度で防御できることがわかった。 私たちのコードは受け入れ次第公開します。

Deep neural networks are vulnerable to adversarial attacks, such as backdoor attacks in which a malicious adversary compromises a model during training such that specific behaviour can be triggered at test time by attaching a specific word or phrase to an input. This paper considers the problem of diagnosing whether a model has been compromised and if so, identifying the backdoor trigger. We present the first robust defence mechanism that generalizes to several backdoor attacks against text classification models, without prior knowledge of the attack type, nor does our method require access to any (potentially compromised) training resources. Our experiments show that our technique is highly accurate at defending against state-of-the-art backdoor attacks, including data poisoning and weight poisoning, across a range of text classification tasks and model architectures. Our code will be made publicly available upon acceptance.
翻訳日:2022-10-23 20:17:41 公開日:2022-10-11
# ストーリーデザイナ: 物語構造を作るための混合開始ツールを目指す

Story Designer: Towards a Mixed-Initiative Tool to Create Narrative Structures ( http://arxiv.org/abs/2210.09294v1 )

ライセンス: Link先を確認
Alberto Alvarez, Jose Font, Julian Togelius(参考訳) 物語はゲームの主要な部分であり、それらのデザインは、識別、エンコード、解釈、評価、生成において課題を提起する。 これを解決する方法の1つは、物語構造のようなより抽象的なレイヤーで物語設計にアプローチすることである。 本稿では,進化ダンジョン・デザイナ(EDD)上に構築された複合開始型共同創造型物語構造ツールであるストーリーデザイナについて述べる。 ストーリーデザイナーは、ストーリーデザイナーが物語グラフと呼ばれるグラフ構造でそれらを相互接続することにより、完全な物語構造を構成するためのビルディングブロックとしてトロピーを使用する。 我々の混合開始的アプローチは、設計者が手動でナラティブグラフを作成し、基礎となる進化的アルゴリズムにそれらを与え、MAP-Elitesを使って品質の異なる提案を生成する。 提案はデザイナーが比較と評価を行うために視覚的に表現され、さらにマニュアル版のためにデザインに組み込むことができる。 同時に、EDD内で設計されたレベルを物語の構造の制約として使用し、レベル設計と物語の両方に干渉する。 これらの制約とシステムの適応性と表現性の影響を評価し,レベル設計の側面を物語と組み合わせた物語構造を構築するための潜在的なツールを提供する。

Narratives are a predominant part of games, and their design poses challenges when identifying, encoding, interpreting, evaluating, and generating them. One way to address this would be to approach narrative design in a more abstract layer, such as narrative structures. This paper presents Story Designer, a mixed-initiative co-creative narrative structure tool built on top of the Evolutionary Dungeon Designer (EDD) that uses tropes, narrative conventions found across many media types, to design these structures. Story Designer uses tropes as building blocks for narrative designers to compose complete narrative structures by interconnecting them in graph structures called narrative graphs. Our mixed-initiative approach lets designers manually create their narrative graphs and feeds an underlying evolutionary algorithm with those, creating quality-diverse suggestions using MAP-Elites. Suggestions are visually represented for designers to compare and evaluate and can then be incorporated into the design for further manual editions. At the same time, we use the levels designed within EDD as constraints for the narrative structure, intertwining both level design and narrative. We evaluate the impact of these constraints and the system's adaptability and expressiveness, resulting in a potential tool to create narrative structures combining level design aspects with narrative.
翻訳日:2022-10-23 20:16:19 公開日:2022-10-11
# 安定拡散安全フィルタの組替え

Red-Teaming the Stable Diffusion Safety Filter ( http://arxiv.org/abs/2210.04610v2 )

ライセンス: Link先を確認
Javier Rando and Daniel Paleka and David Lindner and Lennard Heim and Florian Tram\`er(参考訳) stable diffusionは、dalle、imagen、partiといったプロプライエタリモデルに匹敵する、最近のオープンソースイメージ生成モデルである。 安定拡散は、明示的な画像の生成を防ぐ安全フィルタを備えている。 残念ながら、フィルターは難解で文書化されていない。 これにより、ユーザがアプリケーションの誤用を防ぎ、フィルタの制限を理解して改善することが難しくなる。 まず,安全フィルタをバイパスする乱雑なコンテンツの生成が容易であることを示す。 そして、フィルターをリバースエンジニアリングして、性的なコンテンツを防ぐために、暴力やゴアなど同様に乱暴なコンテンツを無視していることに気付く。 分析から,今後のモデルリリースにおける安全性対策は,コミュニティのセキュリティ貢献を刺激するために,完全にオープンで適切に文書化されていくべきであると論じている。

Stable Diffusion is a recent open-source image generation model comparable to proprietary models such as DALLE, Imagen, or Parti. Stable Diffusion comes with a safety filter that aims to prevent generating explicit images. Unfortunately, the filter is obfuscated and poorly documented. This makes it hard for users to prevent misuse in their applications, and to understand the filter's limitations and improve it. We first show that it is easy to generate disturbing content that bypasses the safety filter. We then reverse-engineer the filter and find that while it aims to prevent sexual content, it ignores violence, gore, and other similarly disturbing content. Based on our analysis, we argue safety measures in future model releases should strive to be fully open and properly documented to stimulate security contributions from the community.
翻訳日:2022-10-16 15:53:49 公開日:2022-10-11
# 脳波信号による内部音声認識

Inner speech recognition through electroencephalographic signals ( http://arxiv.org/abs/2210.06472v1 )

ライセンス: Link先を確認
Francesca Gasparini, Elisa Cazzaniga, Aurora Saibene(参考訳) 本研究は脳波信号から始まる内的音声認識に焦点を当てる。 内的音声認識は、人が純粋な意味で考える内的プロセスとして定義され、一般に、内的「声」の聴覚イメージと関連付けられる。 テキストへの脳波の復号は、限られた数の単語(コマンド)の分類や、音素(単語を構成する音の単位)の存在として理解されるべきである。 音声関連bcisは、脳信号から解釈された音声コマンドを介してデバイスを制御するための効果的な音声通信戦略を提供し、会話能力を失った人々の生活の質を改善し、環境とのコミュニケーションを回復する。 2つの公開内部音声データセットを解析する。 このデータを用いて、Support Vector Machinesのような基本的な手法から、Long Short Term Memory(LSTM)やBidirectional Long Term Memory(BiLSTM)といったニューラルネットワークの使用まで、eXtreme Gradient Boosting分類器のようなアンサンブル手法まで、いくつかの分類モデルを研究、実装した。 内部音声認識の文献では一般的に使われていないLSTMとBiLSTMのモデルでは、最先端のものと同等以上の結果が得られる。

This work focuses on inner speech recognition starting from EEG signals. Inner speech recognition is defined as the internalized process in which the person thinks in pure meanings, generally associated with an auditory imagery of own inner "voice". The decoding of the EEG into text should be understood as the classification of a limited number of words (commands) or the presence of phonemes (units of sound that make up words). Speech-related BCIs provide effective vocal communication strategies for controlling devices through speech commands interpreted from brain signals, improving the quality of life of people who have lost the capability to speak, by restoring communication with their environment. Two public inner speech datasets are analysed. Using this data, some classification models are studied and implemented starting from basic methods such as Support Vector Machines, to ensemble methods such as the eXtreme Gradient Boosting classifier up to the use of neural networks such as Long Short Term Memory (LSTM) and Bidirectional Long Short Term Memory (BiLSTM). With the LSTM and BiLSTM models, generally not used in the literature of inner speech recognition, results in line with or superior to those present in the stateof-the-art are obtained.
翻訳日:2022-10-14 17:17:55 公開日:2022-10-11
# コード変換エジプト英語テキストのニューラルマシン翻訳のためのセグメンテーション手法の検討

Exploring Segmentation Approaches for Neural Machine Translation of Code-Switched Egyptian Arabic-English Text ( http://arxiv.org/abs/2210.06990v1 )

ライセンス: Link先を確認
Marwa Gaser, Manuel Mager, Injy Hamed, Nizar Habash, Slim Abdennadher and Ngoc Thang Vu(参考訳) データ空間は、形態的にリッチな言語の場合、さらに悪化するコードスイッチング(CS)によってもたらされる主な課題の1つである。 機械翻訳 (MT) の課題として, 単言語文脈におけるデータの分散を緩和する形態的セグメンテーションが実証されているが, CS設定については検討されていない。 本稿では,形態素と周波数に基づくセグメンテーション手法を網羅し,異なるセグメンテーション手法がMT性能に与える影響について検討する。 アラビア語から英語へのコードスイッチによるmt実験を行った。 本研究では,CSにおけるデータサイズや文の度合いなど,様々な条件を詳細に分析する。 実験の結果, 形態素認識セグメンタはセグメンテーションタスクでは最良であるが, MTでは低性能であることがわかったが, MTで使用するセグメンテーション設定の選択はデータサイズに大きく依存していることがわかった。 極端に低リソースなシナリオでは、周波数と形態素に基づくセグメンテーションの組み合わせが最善であることを示す。 リソースの豊富な設定では、このような組み合わせは周波数ベースのセグメンテーションよりも大きな改善をもたらすことはない。

Data sparsity is one of the main challenges posed by Code-switching (CS), which is further exacerbated in the case of morphologically rich languages. For the task of Machine Translation (MT), morphological segmentation has proven successful in alleviating data sparsity in monolingual contexts; however, it has not been investigated for CS settings. In this paper, we study the effectiveness of different segmentation approaches on MT performance, covering morphology-based and frequency-based segmentation techniques. We experiment on MT from code-switched Arabic-English to English. We provide detailed analysis, examining a variety of conditions, such as data size and sentences with different degrees in CS. Empirical results show that morphology-aware segmenters perform the best in segmentation tasks but under-perform in MT. Nevertheless, we find that the choice of the segmentation setup to use for MT is highly dependent on the data size. For extreme low-resource scenarios, a combination of frequency and morphology-based segmentations is shown to perform the best. For more resourced settings, such a combination does not bring significant improvements over the use of frequency-based segmentation.
翻訳日:2022-10-14 15:49:58 公開日:2022-10-11
# SISO-OFDMチャネル推定のための効率的な深部展開

Efficient Deep Unfolding for SISO-OFDM Channel Estimation ( http://arxiv.org/abs/2210.06588v1 )

ライセンス: Link先を確認
Baptiste Chatelier (IRT b-com, INSA Rennes, IETR), Luc Le Magoarou (IRT b-com, INSA Rennes, IETR), Getachew Redieteab (IRT b-com)(参考訳) 現代の通信システムでは、チャネル状態情報はキャパシティを実現するための最重要事項である。 チャネルを正確に見積もるのは極めて重要です。 スパースリカバリ技術を用いてSISO-OFDMチャネル推定を行うことができる。 しかし、このアプローチは、システムのパラメータの完全な知識を必要とする辞書を構築するために物理的波動伝播モデルを使うことに依存している。 本稿では,この制約を緩和するために,展開ニューラルネットワークを用いる。 スパースリカバリアルゴリズムに基づくそのアーキテクチャは、システムのパラメータが完全には分かっていなくても、siso-ofdmチャネル推定を可能にする。 実際、教師なしオンライン学習は、推定性能を高めるためにシステムの欠陥を学習することができる。 提案手法の実用性は,2つの点で改善されている: 制約付き辞書は, サンプルの複雑さを軽減するために導入され, 時間的複雑さを低減するために, 辞書内の階層探索が提案される。 最後に,提案するアンフォールドネットワークの性能を評価し,現実的なチャネルデータを用いていくつかのベースラインと比較し,アプローチの可能性を示した。

In modern communication systems, channel state information is of paramount importance to achieve capacity. It is then crucial to accurately estimate the channel. It is possible to perform SISO-OFDM channel estimation using sparse recovery techniques. However, this approach relies on the use of a physical wave propagation model to build a dictionary, which requires perfect knowledge of the system's parameters. In this paper, an unfolded neural network is used to lighten this constraint. Its architecture, based on a sparse recovery algorithm, allows SISO-OFDM channel estimation even if the system's parameters are not perfectly known. Indeed, its unsupervised online learning allows to learn the system's imperfections in order to enhance the estimation performance. The practicality of the proposed method is improved with respect to the state of the art in two aspects: constrained dictionaries are introduced in order to reduce sample complexity and hierarchical search within dictionaries is proposed in order to reduce time complexity. Finally, the performance of the proposed unfolded network is evaluated and compared to several baselines using realistic channel data, showing the great potential of the approach.
翻訳日:2022-10-14 15:23:09 公開日:2022-10-11
# シナリオに基づく自動走行車の予測モデルの評価

Scenario-based Evaluation of Prediction Models for Automated Vehicles ( http://arxiv.org/abs/2210.06553v1 )

ライセンス: Link先を確認
Manuel Mu\~noz S\'anchez, Jos Elfring, Emilia Silvas and Ren\'e van de Molengraft(参考訳) 安全に運用するには、自動走行車(AV)が周囲の環境がどのように進化するかを予測する必要がある。 そのため,どの予測モデルがどの状況に最も適しているかを知ることが重要である。 現在、予測モデルの評価は、それらが捉えた動きのタイプを区別せずに一連の軌道上で行われ、その結果、異なる状況における各モデルの適合性を決定することができない。 本研究では,標準化された評価手法が,モデルの予測能力に関する誤った結論を導出し,予測モデルの明確な評価を防止し,道路上の危険な状況につながる可能性を示唆する。 AVの安全性評価における評価の実践に従って,予測モデルの評価をシナリオベースで行うべきである。 シナリオに基づく予測モデルの評価を奨励し、不適切な評価の危険性を説明するため、Waymo Open Motionデータセットの軌跡を捉えた動きの種類に応じて分類する。 次に、3つの異なるモデルが異なる軌道タイプと予測地平線に対して徹底的に評価される。 その結果, 共通評価手法は不十分であり, モデルが動作するアプリケーションに応じて評価を行う必要があることがわかった。

To operate safely, an automated vehicle (AV) must anticipate how the environment around it will evolve. For that purpose, it is important to know which prediction models are most appropriate for every situation. Currently, assessment of prediction models is often performed over a set of trajectories without distinction of the type of movement they capture, resulting in the inability to determine the suitability of each model for different situations. In this work we illustrate how standardized evaluation methods result in wrong conclusions regarding a model's predictive capabilities, preventing a clear assessment of prediction models and potentially leading to dangerous on-road situations. We argue that following evaluation practices in safety assessment for AVs, assessment of prediction models should be performed in a scenario-based fashion. To encourage scenario-based assessment of prediction models and illustrate the dangers of improper assessment, we categorize trajectories of the Waymo Open Motion dataset according to the type of movement they capture. Next, three different models are thoroughly evaluated for different trajectory types and prediction horizons. Results show that common evaluation methods are insufficient and the assessment should be performed depending on the application in which the model will operate.
翻訳日:2022-10-14 15:07:49 公開日:2022-10-11
# 画像に基づく局在化ニューラルネットワークに対する逆攻撃

Adversarial Attack Against Image-Based Localization Neural Networks ( http://arxiv.org/abs/2210.06589v1 )

ライセンス: Link先を確認
Meir Brand, Itay Naeh, Daniel Teitelman(参考訳) 本稿では,自律走行車の画像ベースローカライズモジュールを敵対的に攻撃するための概念実証を行う。 この攻撃の目的は、車両が間違ったナビゲーション決定を行い、シミュレーションされた都市環境で所望の目的地に到達するのを防ぐことである。 レンダリングされた画像のデータベースにより、ローカライズタスクを実行し、敵のパターンを実装し、開発し、評価するディープニューラルネットワークをトレーニングすることができます。 私たちのテストでは、この敵攻撃を用いることで、車両が所定の交差点で旋回するのを防げます。 これは、車両の航法モジュールを操作することで現在の位置を誤って推定し、車両が与えられた交差点で安全なターンを行う最後の機会を逃すまで旋回手順を初期化することができない。

In this paper, we present a proof of concept for adversarially attacking the image-based localization module of an autonomous vehicle. This attack aims to cause the vehicle to perform a wrong navigational decisions and prevent it from reaching a desired predefined destination in a simulated urban environment. A database of rendered images allowed us to train a deep neural network that performs a localization task and implement, develop and assess the adversarial pattern. Our tests show that using this adversarial attack we can prevent the vehicle from turning at a given intersection. This is done by manipulating the vehicle's navigational module to falsely estimate its current position and thus fail to initialize the turning procedure until the vehicle misses the last opportunity to perform a safe turn in a given intersection.
翻訳日:2022-10-14 14:48:11 公開日:2022-10-11
# 画像色成分に基づくテンプレートマッチングによるリアルタイム車両自動分類

Automatic Real-time Vehicle Classification by Image Colour Component Based Template Matching ( http://arxiv.org/abs/2210.06586v1 )

ライセンス: Link先を確認
Ahmet Orun(参考訳) リアルタイムの低コストシステムで効果的に動作する適切なテンプレートマッチングアルゴリズムの選択は常に大きな問題である。 これは、画像の一貫性を維持するために、しばしば高度なリアルタイムアルゴリズムを必要とするイメージシーンの予測不可能な変更によるものである。 低コスト補助ハードウェアと時間制限の非効率性は、この種のアルゴリズムを使用する際の大きな制約である。 ここで導入されたリアルタイムシステムは、最良のカラーバンド選択を利用する高速実行テンプレートマッチングアルゴリズムを利用するこれらの問題に対処する。 このシステムは高速なリアルタイムアルゴリズムを使用してテンプレートマッチングと車両の分類を約4フレーム/秒で行う。 低価格のハードウェアで。 カラー画像は、多車線道路を見下ろす固定CCTVカメラによって撮影された。

Selection of appropriate template matching algorithms to run effectively on real-time low-cost systems is always major issue. This is due to unpredictable changes in image scene which often necessitate more sophisticated real-time algorithms to retain image consistency. Inefficiency of low cost auxiliary hardware and time limitations are the major constraints in using these sorts of algorithms. The real-time system introduced here copes with these problems utilising a fast running template matching algorithm, which makes use of best colour band selection. The system uses fast running real-time algorithms to achieve template matching and vehicle classification at about 4 frames /sec. on low-cost hardware. The colour image sequences have been taken by a fixed CCTV camera overlooking a busy multi-lane road
翻訳日:2022-10-14 14:20:13 公開日:2022-10-11
# 迅速かつ信頼性の高い重力波推論のためのニューラル・パタンスサンプリング

Neural Importance Sampling for Rapid and Reliable Gravitational-Wave Inference ( http://arxiv.org/abs/2210.05686v1 )

ライセンス: Link先を確認
Maximilian Dax, Stephen R. Green, Jonathan Gair, Michael P\"urrer, Jonas Wildberger, Jakob H. Macke, Alessandra Buonanno, Bernhard Sch\"olkopf(参考訳) 高速かつ高精度な重力波推定のためのアモルト化神経後部推定と重要サンプリングを組み合わせる。 まず,ニューラルネットワークを用いたベイジアン後方への迅速な提案を行い,その基礎となる可能性と先行に基づいて重要度重み付けを行う。 本発明は,(1)ネットワーク不正確性のない修正後部,(2)提案案の評価と故障事例の同定のための性能診断(サンプル効率),(3)ベイズ証拠の偏りのない推定を提供する。 この独立した検証と修正機構を確立することで、科学的推論のための深層学習に対する最も頻繁な批判に対処する。 LIGOとVirgoで観測された42個のブラックホールをSEOBNRv4PHMとIMRPhenomXPHMの波形モデルで解析した。 これは、サンプル効率の中央値である$\approx 10\%$(標準サンプルよりも2桁良い)と、ログ証拠の統計的不確かさの10倍の減少を示す。 これらの利点を考えると、重力波の推測に大きな影響を与え、科学的応用における深層学習手法のパラダイムとして機能することを期待する。

We combine amortized neural posterior estimation with importance sampling for fast and accurate gravitational-wave inference. We first generate a rapid proposal for the Bayesian posterior using neural networks, and then attach importance weights based on the underlying likelihood and prior. This provides (1) a corrected posterior free from network inaccuracies, (2) a performance diagnostic (the sample efficiency) for assessing the proposal and identifying failure cases, and (3) an unbiased estimate of the Bayesian evidence. By establishing this independent verification and correction mechanism we address some of the most frequent criticisms against deep learning for scientific inference. We carry out a large study analyzing 42 binary black hole mergers observed by LIGO and Virgo with the SEOBNRv4PHM and IMRPhenomXPHM waveform models. This shows a median sample efficiency of $\approx 10\%$ (two orders-of-magnitude better than standard samplers) as well as a ten-fold reduction in the statistical uncertainty in the log evidence. Given these advantages, we expect a significant impact on gravitational-wave inference, and for this approach to serve as a paradigm for harnessing deep learning methods in scientific applications.
翻訳日:2022-10-13 16:17:36 公開日:2022-10-11
# ニューラルネットワークと学習可能な分数次モーメントに基づく均質k分布のパラメータ推定

Parameter estimation of the homodyned K distribution based on neural networks and trainable fractional-order moments ( http://arxiv.org/abs/2210.05833v1 )

ライセンス: Link先を確認
Michal Byra, Ziemowit Klimonda, Piotr Jarosik(参考訳) Homodyned K (HK) 分布は、超音波画像や光学などの様々な研究分野における散乱現象を記述するために広く用いられている。 本研究では,HK分布パラメータの推定に対する機械学習に基づくアプローチを提案する。 分数次モーメントを用いて計算した信号対雑音比,歪度,曲率に基づいてHK分布パラメータを推定できるニューラルネットワークを開発した。 従来の手法と比較して,モーメントの順序を,バックプロパゲーションアルゴリズムを用いてネットワーク重みに合わせて最適化可能な学習可能な変数と考える。 ネットワークは、HK分布から生成されたサンプルに基づいて訓練される。 得られた結果は,提案手法を用いてHK分布パラメータを正確に推定できることを示す。

Homodyned K (HK) distribution has been widely used to describe the scattering phenomena arising in various research fields, such as ultrasound imaging or optics. In this work, we propose a machine learning based approach to the estimation of the HK distribution parameters. We develop neural networks that can estimate the HK distribution parameters based on the signal-to-noise ratio, skewness and kurtosis calculated using fractional-order moments. Compared to the previous approaches, we consider the orders of the moments as trainable variables that can be optimized along with the network weights using the back-propagation algorithm. Networks are trained based on samples generated from the HK distribution. Obtained results demonstrate that the proposed method can be used to accurately estimate the HK distribution parameters.
翻訳日:2022-10-13 16:17:19 公開日:2022-10-11
# 臨床展開後のディープラーニングモデルの性能劣化 : 前立腺癌に対するオートセグメンテーションを応用した症例

Performance Deterioration of Deep Learning Models after Clinical Deployment: A Case Study with Auto-segmentation for Definitive Prostate Cancer Radiotherapy ( http://arxiv.org/abs/2210.05673v1 )

ライセンス: Link先を確認
Biling Wang, Michael Dohopolski, Ti Bai, Junjie Wu, Raquibul Hannan, Neil Desai, Aurelie Garant, Dan Nguyen, Xinlei Wang, Mu-Han Lin, Robert Timmerman, Steve Jiang(参考訳) 過去10年間で、ディープラーニング(DL)ベースの人工知能(AI)は前例のない成功を収め、医学に大きな興奮をもたらした。 しかし、多くの成功モデルは、空間的領域と時間的領域の両方において解釈可能性と一般化性の欠如に関する懸念から、主に診療所で実施されていない。 本研究では,無傷前立腺患者に対してdlベースのオートセグメンテーションモデルを用いて,時間的パフォーマンス変化を観察し,説明変数と関連付けた。 dlモデルの臨床的実装をふりかえりシミュレートし,時間的パフォーマンスの傾向を検討した。 2006年1月から2021年8月まで,テキサス大学サウスウェスタン医療センター(UTSW)にて放射線治療を行った前立腺癌912例を対象とした。 2012年以前に収集したデータに基づいて,u-netベースのdlオートセグメンテーションモデルをトレーニングし,2012年から2021年にかけて収集したデータを用いてテストした。 簡単な移動平均曲線を用いて傾向を可視化し,ANOVAおよびt-testを用いて各種臨床因子の影響を調査した。 前立腺と直腸の輪郭の質は2016-2017年以降急速に低下した。 定位放射線療法 (sbrt) とハイドロゲルスペーサの使用は前立腺輪郭品質 (p=5.6e-12, 0.002) と有意な相関を示した。 SBRTと医師のスタイルは直腸の輪郭品質(p=0.0005と0.02)と大きく関連している。 膀胱内コントラストの存在は膀胱の輪郭品質(p=1.6e-7。 dlモデルの性能は臨床実践パターンの変化や臨床要員の変化に対応して経時的に低下した。

In the past decade, deep learning (DL)-based artificial intelligence (AI) has witnessed unprecedented success and has led to much excitement in medicine. However, many successful models have not been implemented in the clinic predominantly due to concerns regarding the lack of interpretability and generalizability in both spatial and temporal domains. In this work, we used a DL-based auto segmentation model for intact prostate patients to observe any temporal performance changes and then correlate them to possible explanatory variables. We retrospectively simulated the clinical implementation of our DL model to investigate temporal performance trends. Our cohort included 912 patients with prostate cancer treated with definitive radiotherapy from January 2006 to August 2021 at the University of Texas Southwestern Medical Center (UTSW). We trained a U-Net-based DL auto segmentation model on the data collected before 2012 and tested it on data collected from 2012 to 2021 to simulate the clinical deployment of the trained model starting in 2012. We visualize the trends using a simple moving average curve and used ANOVA and t-test to investigate the impact of various clinical factors. The prostate and rectum contour quality decreased rapidly after 2016-2017. Stereotactic body radiotherapy (SBRT) and hydrogel spacer use were significantly associated with prostate contour quality (p=5.6e-12 and 0.002, respectively). SBRT and physicians' styles are significantly associated with the rectum contour quality (p=0.0005 and 0.02, respectively). Only the presence of contrast within the bladder significantly affected the bladder contour quality (p=1.6e-7). We showed that DL model performance decreased over time in concordance with changes in clinical practice patterns and changes in clinical personnel.
翻訳日:2022-10-13 16:07:08 公開日:2022-10-11
# 深層学習の単細胞rna塩基配列解析への応用

Application of Deep Learning on Single-Cell RNA-sequencing Data Analysis: A Review ( http://arxiv.org/abs/2210.05677v1 )

ライセンス: Link先を確認
Matthew Brendel, Chang Su, Zilong Bai, Hao Zhang, Olivier Elemento, Fei Wang(参考訳) 単細胞RNAシークエンシング(scRNA-seq)は、数千の単細胞の遺伝子発現プロファイルを同時に定量するために日常的に使用される技術となっている。 scRNA-seqデータの解析は、細胞状態や表現型の研究において重要な役割を担い、複雑な生物の発達中に発生するような生物学的プロセスの解明を支援し、がん、糖尿病、COVIDなどの疾患状態の理解を改善してきた。 大規模なデータセットを含む多くの問題に対処するために最近開発された人工知能の進歩であるdeep learningも、ノイズ、異種、高次元のscrna-seqデータから情報的かつコンパクトな特徴を抽出し、下流解析を改善する能力を持つscrna-seqデータ分析の有望なツールとして登場した。 本稿では,最近開発されたscRNA-seqデータ解析の深層学習技術を調査し,ディープラーニングによって進歩したscRNA-seqデータ解析パイプライン内の重要なステップを特定し,従来の解析ツールよりもディープラーニングの利点を説明することを目的とする。 最後に、scRNA-seqデータにおける現在のディープラーニングアプローチの課題を要約し、scRNA-seqデータ解析のためのディープアルゴリズムの改善の可能性について論じる。

Single-cell RNA-sequencing (scRNA-seq) has become a routinely used technique to quantify the gene expression profile of thousands of single cells simultaneously. Analysis of scRNA-seq data plays an important role in the study of cell states and phenotypes, and has helped elucidate biological processes, such as those occurring during development of complex organisms and improved our understanding of disease states, such as cancer, diabetes, and COVID, among others. Deep learning, a recent advance of artificial intelligence that has been used to address many problems involving large datasets, has also emerged as a promising tool for scRNA-seq data analysis, as it has a capacity to extract informative, compact features from noisy, heterogeneous, and high-dimensional scRNA-seq data to improve downstream analysis. The present review aims at surveying recently developed deep learning techniques in scRNA-seq data analysis, identifying key steps within the scRNA-seq data analysis pipeline that have been advanced by deep learning, and explaining the benefits of deep learning over more conventional analysis tools. Finally, we summarize the challenges in current deep learning approaches faced within scRNA-seq data and discuss potential directions for improvements in deep algorithms for scRNA-seq data analysis.
翻訳日:2022-10-13 15:49:44 公開日:2022-10-11
# 新しいアテンション・ベース・フレームワークを用いた超音波画像上の乳腺腫瘍の局在と分類

Joint localization and classification of breast tumors on ultrasound images using a novel auxiliary attention-based framework ( http://arxiv.org/abs/2210.05762v1 )

ライセンス: Link先を確認
Zong Fan, Ping Gong, Shanshan Tang, Christine U. Lee, Xiaohui Zhang, Pengfei Song, Shigao Chen, Hua Li(参考訳) 自動乳房病変の検出と分類は,乳房超音波(bus)画像が一般的かつ頻繁に用いられるスクリーニングツールである,コンピュータ支援診断において重要な課題である。 近年,BUS画像を用いた乳腺病変の同時局在と分類のための深層学習法が提案されている。 これらの方法では、共有ネットワークトランクによって抽出された特徴を2つの独立したネットワークブランチで付加し、分類と局在化を実現する。 不適切な情報共有は、2つのブランチで機能最適化の衝突を引き起こし、パフォーマンスが低下する可能性がある。 また、これらの方法は一般に、モデルトレーニングのために大量のピクセルレベルの注釈データを必要とする。 これらの制約を克服するために,注意機構と半教師付き半教師付き学習戦略に基づく,新しい共同局所化と分類モデルを提案する。 本研究で使用するモデルは,分類ネットワークと補助的病変認識ネットワークから構成される。 注意機構を用いることで,複数スケールの中間特徴マップを最適化し,リッチな意味情報を抽出し,分類・局所化性能を向上させることができる。 不整合半教師付き学習戦略は、モデルトレーニングのための不完全なトレーニングデータセットのみを必要とする。 提案されたモジュール化フレームワークにより、様々なアプリケーションで柔軟なネットワーク置換が一般化できる。 2つの異なる乳房超音波画像データセットの実験結果から,提案手法の有効性が示された。 様々なネットワーク要因がモデル性能に与える影響についても検討し、設計したフレームワークについて深い洞察を得る。

Automatic breast lesion detection and classification is an important task in computer-aided diagnosis, in which breast ultrasound (BUS) imaging is a common and frequently used screening tool. Recently, a number of deep learning-based methods have been proposed for joint localization and classification of breast lesions using BUS images. In these methods, features extracted by a shared network trunk are appended by two independent network branches to achieve classification and localization. Improper information sharing might cause conflicts in feature optimization in the two branches and leads to performance degradation. Also, these methods generally require large amounts of pixel-level annotated data for model training. To overcome these limitations, we proposed a novel joint localization and classification model based on the attention mechanism and disentangled semi-supervised learning strategy. The model used in this study is composed of a classification network and an auxiliary lesion-aware network. By use of the attention mechanism, the auxiliary lesion-aware network can optimize multi-scale intermediate feature maps and extract rich semantic information to improve classification and localization performance. The disentangled semi-supervised learning strategy only requires incomplete training datasets for model training. The proposed modularized framework allows flexible network replacement to be generalized for various applications. Experimental results on two different breast ultrasound image datasets demonstrate the effectiveness of the proposed method. The impacts of various network factors on model performance are also investigated to gain deep insights into the designed framework.
翻訳日:2022-10-13 15:41:29 公開日:2022-10-11
# 多言語asrのための検討のスケールアップ

Scaling Up Deliberation for Multilingual ASR ( http://arxiv.org/abs/2210.05785v1 )

ライセンス: Link先を確認
Ke Hu, Bo Li, Tara N. Sainath(参考訳) 多言語用エンドツーエンド自動音声認識モデルは、訓練と展開が簡単であるため魅力的である。 このようなモデルの大規模トレーニングに関する最近の研究は、単言語モデルと比較して有望な結果を示している。 しかしながら、この研究は多言語モデル自体をシングルパス設定でフォーカスすることが多い。 本研究では,多言語音声認識のための第2パスの検討を行う。 提案する検討は多言語であり,テキストエンコーダは複数の言語から仮説テキストを符号化し,デコーダは多言語テキストと音声に出席する。 審議テキストエンコーダとデコーダのスケーリングについて検討し,審議デコーダと第1パスカスケードエンコーダの比較を行った。 本研究では,9言語の平均WERをシングルパスモデルと比較して4%改善することを示す。 審議パラメータを最大1bまで増やすことで、平均wer改善率は9%となり、特定の言語では最大14%まで向上した。 検討対象のrescorerはtransformer layerに基づいており,rescoring時に並列化することができる。

Multilingual end-to-end automatic speech recognition models are attractive due to its simplicity in training and deployment. Recent work on large-scale training of such models has shown promising results compared to monolingual models. However, the work often focuses on multilingual models themselves in a single-pass setup. In this work, we investigate second-pass deliberation for multilingual speech recognition. Our proposed deliberation is multilingual, i.e., the text encoder encodes hypothesis text from multiple languages, and the decoder attends to multilingual text and audio. We investigate scaling the deliberation text encoder and decoder, and compare scaling the deliberation decoder and the first-pass cascaded encoder. We show that deliberation improves the average WER on 9 languages by 4% relative compared to the single-pass model. By increasing the size of the deliberation up to 1B parameters, the average WER improvement increases to 9%, with up to 14% for certain languages. Our deliberation rescorer is based on transformer layers and can be parallelized during rescoring.
翻訳日:2022-10-13 15:30:49 公開日:2022-10-11
# 準ニュートン法を最適化する学習

Learning to Optimize Quasi-Newton Methods ( http://arxiv.org/abs/2210.06171v1 )

ライセンス: Link先を確認
Isaac Liao, Rumen R. Dangovski, Jakob N. Foerster, Marin Solja\v{c}i\'c(参考訳) そこで我々はLODOと呼ばれる新しい機械学習オプティマイザを導入し、準ニュートン最適化のサブルーチンとして、損失の暗黙の逆 Hessian をオンラインメタ学習する。 この最適化手法は,他の準ニュートン法よりも柔軟である対称行列ベクトル積の神経表現を学習するために,l2o法と擬似ニュートン法を融合する。 他のl2oメソッドとは異なり、トレーニングタスク分散でのメタトレーニングは必要とせず、テストタスクを最適化しながらオンザフライで最適化することを学び、それをトラバースしながらロスランドスケープのローカル特性に適応する。 理論的には、我々のオプティマイザはノイズ損失景観における逆ヘッシアンを近似し、幅広い逆ヘッシアンを表現できることを示す。 我々は,雑音の存在下でのアルゴリズムの性能を実験的に検証し,逆ヘッセン表現の簡単な代替手段が性能を悪化させることを示す。 最後に、95kパラメータを持つ半現実的ディープニューラルネットワークをトレーニングするためにオプティマイザを使用し、標準ニューラルネットワークオプティマイザとの競合結果を得る。

We introduce a novel machine learning optimizer called LODO, which online meta-learns an implicit inverse Hessian of the loss as a subroutine of quasi-Newton optimization. Our optimizer merges Learning to Optimize (L2O) techniques with quasi-Newton methods to learn neural representations of symmetric matrix vector products, which are more flexible than those in other quasi-Newton methods. Unlike other L2O methods, ours does not require any meta-training on a training task distribution, and instead learns to optimize on the fly while optimizing on the test task, adapting to the local characteristics of the loss landscape while traversing it. Theoretically, we show that our optimizer approximates the inverse Hessian in noisy loss landscapes and is capable of representing a wide range of inverse Hessians. We experimentally verify our algorithm's performance in the presence of noise, and show that simpler alternatives for representing the inverse Hessians worsen performance. Lastly, we use our optimizer to train a semi-realistic deep neural network with 95k parameters, and obtain competitive results against standard neural network optimizers.
翻訳日:2022-10-13 15:23:49 公開日:2022-10-11
# メモリ制約付きモンドリアン森林の動的アンサンブルサイズ調整

Dynamic Ensemble Size Adjustment for Memory Constrained Mondrian Forest ( http://arxiv.org/abs/2210.05704v1 )

ライセンス: Link先を確認
Martin Khannouz and Tristan Glatard(参考訳) 教師付き学習アルゴリズムは一般的に、トレーニングとテストフェーズ中にデータモデルを保存するのに十分なメモリが利用できると仮定する。 しかし、この仮定は、データが無限のデータストリームの形になる場合や、学習アルゴリズムがメモリを減らしたデバイスにデプロイされる場合、非現実的である。 このようなメモリ制約はモデルの振る舞いや仮定に影響する。 本稿では,メモリ制約下では,木に基づくアンサンブル分類器のサイズが大きくなると性能が悪化することを示す。 特に,メモリバウンドのモンドリアン林において,データストリーム上に最適なアンサンブルサイズが存在することを実験的に示し,オーバーフィッティング推定を用いて森林を最適な数に導くアルゴリズムを設計する。 本手法は,様々な実データとシミュレーションデータを用いて異なるバリエーションを検証し,安定なデータセットに対する最適サイズのモンドリアンフォレストの性能の最大95%を達成でき,かつ,概念ドリフトのあるデータセットに対してその性能を上回ることさえ可能と結論づけた。 私たちのメソッドはすべて、orpailleccオープンソースライブラリに実装されており、組み込みシステムやコネクテッドオブジェクトで使用できる準備ができています。

Supervised learning algorithms generally assume the availability of enough memory to store data models during the training and test phases. However, this assumption is unrealistic when data comes in the form of infinite data streams, or when learning algorithms are deployed on devices with reduced amounts of memory. Such memory constraints impact the model behavior and assumptions. In this paper, we show that under memory constraints, increasing the size of a tree-based ensemble classifier can worsen its performance. In particular, we experimentally show the existence of an optimal ensemble size for a memory-bounded Mondrian forest on data streams and we design an algorithm to guide the forest toward that optimal number by using an estimation of overfitting. We tested different variations for this algorithm on a variety of real and simulated datasets, and we conclude that our method can achieve up to 95% of the performance of an optimally-sized Mondrian forest for stable datasets, and can even outperform it for datasets with concept drifts. All our methods are implemented in the OrpailleCC open-source library and are ready to be used on embedded systems and connected objects.
翻訳日:2022-10-13 15:15:25 公開日:2022-10-11
# リレーショナル蒸留によるリンクレスリンク予測

Linkless Link Prediction via Relational Distillation ( http://arxiv.org/abs/2210.05801v1 )

ライセンス: Link先を確認
Zhichun Guo, William Shiao, Shichang Zhang, Yozen Liu, Nitesh Chawla, Neil Shah, Tong Zhao(参考訳) グラフニューラルネットワーク(GNN)はグラフデータに広く使われており、リンク予測のタスクでは例外的な性能を示している。 有効性にもかかわらず、GNNは実践的なデプロイメントにおいて、非自明な近隣データ依存のため、しばしばレイテンシーに悩まされる。 この問題に対処するために,研究者は知識蒸留(kd)に基づく手法を提案し,その知識を教員gnnから学生mlpに移し,産業規模データにおいても効率的であることが判明し,ノード分類に有望な結果を得た。 にもかかわらず、リンク予測を加速するためにkdを使用することはまだ検討されていない。 本稿では,従来のkdの2つの直接アナログを探索し,リンク予測,すなわち予測ロジットに基づくマッチングとノード表現に基づくマッチングについて検討する。 直接的なKDアナログがリンク予測にうまく機能しないのを観察すると、リレーショナルKDフレームワークであるリンクレスリンク予測(LLP)を提案する。 独立したリンクロジットやノード表現にマッチする単純なKDメソッドとは異なり、LPPは学生のMLPに対する各(アンカー)ノードを中心とした関係知識を蒸留する。 具体的には、ランクベースマッチングと分布ベースマッチングの2つのマッチング戦略を提案する。 広範囲な実験により、LPPはMLPのリンク予測性能を著しく向上させ、さらに9つのベンチマークのうち6つにおいて教師のGNNよりも優れていた。 LLPはまた、大規模なOGB-Citation2データセット上のGNNと比較して、リンク予測の776.37倍の高速化を実現している。

Graph Neural Networks (GNNs) have been widely used on graph data and have shown exceptional performance in the task of link prediction. Despite their effectiveness, GNNs often suffer from high latency due to non-trivial neighborhood data dependency in practical deployments. To address this issue, researchers have proposed methods based on knowledge distillation (KD) to transfer the knowledge from teacher GNNs to student MLPs, which are known to be efficient even with industrial scale data, and have shown promising results on node classification. Nonetheless, using KD to accelerate link prediction is still unexplored. In this work, we start with exploring two direct analogs of traditional KD for link prediction, i.e., predicted logit-based matching and node representation-based matching. Upon observing direct KD analogs do not perform well for link prediction, we propose a relational KD framework, Linkless Link Prediction (LLP). Unlike simple KD methods that match independent link logits or node representations, LLP distills relational knowledge that is centered around each (anchor) node to the student MLP. Specifically, we propose two matching strategies that complement each other: rank-based matching and distribution-based matching. Extensive experiments demonstrate that LLP boosts the link prediction performance of MLPs with significant margins, and even outperforms the teacher GNNs on 6 out of 9 benchmarks. LLP also achieves a 776.37x speedup in link prediction inference compared to GNNs on the large scale OGB-Citation2 dataset.
翻訳日:2022-10-13 15:15:06 公開日:2022-10-11
# 高分解能グリッド上での定常シミュレーションのための合成可能な機械学習手法

A composable machine-learning approach for steady-state simulations on high-resolution grids ( http://arxiv.org/abs/2210.05837v1 )

ライセンス: Link先を確認
Rishikesh Ranade, Chris Hill, Lalit Ghule, Jay Pathak(参考訳) 本稿では,我々の機械学習(ML)アプローチであるCoMLSim(Composable Machine Learning Simulator)が,従来のMLベースラインよりも高い精度で高解像度グリッド上でPDEをシミュレートできることを示す。 従来のpdeソルバの重要な原理と局所学習と低次元多様体法を組み合わせて,大規模計算領域でpdeを反復的にシミュレートする。 提案手法は,高分解能グリッド上でのPDE条件の異なる5つ以上の定常PDEに対して検証し,市販の解法Ansys Fluentと4つの最先端ML手法との比較を行った。 数値実験により,我々の手法はMLベースラインより優れていることが示された。 1)定量的指標及び精度 2) 分布外条件と領域サイズへの一般化。 さらに,本研究の成果に強く影響するアプローチの構成要素を明らかにするために,多数の実験を行った。 ローカルラーニングと反復推論のアプローチは、ほとんどのmlモデルが直面する一般化の課題を軽減します。

In this paper we show that our Machine Learning (ML) approach, CoMLSim (Composable Machine Learning Simulator), can simulate PDEs on highly-resolved grids with higher accuracy and generalization to out-of-distribution source terms and geometries than traditional ML baselines. Our unique approach combines key principles of traditional PDE solvers with local-learning and low-dimensional manifold techniques to iteratively simulate PDEs on large computational domains. The proposed approach is validated on more than 5 steady-state PDEs across different PDE conditions on highly-resolved grids and comparisons are made with the commercial solver, Ansys Fluent as well as 4 other state-of-the-art ML methods. The numerical experiments show that our approach outperforms ML baselines in terms of 1) accuracy across quantitative metrics and 2) generalization to out-of-distribution conditions as well as domain sizes. Additionally, we provide results for a large number of ablations experiments conducted to highlight components of our approach that strongly influence the results. We conclude that our local-learning and iterative-inferencing approach reduces the challenge of generalization that most ML models face.
翻訳日:2022-10-13 15:14:41 公開日:2022-10-11
# 定量的判別分析によるTwitter上の偽情報の伝達者検出

Detecting Propagators of Disinformation on Twitter Using Quantitative Discursive Analysis ( http://arxiv.org/abs/2210.05760v1 )

ライセンス: Link先を確認
Mark M. Bailey(参考訳) 世論に影響を及ぼす外国の俳優たちの努力は、民主的な選挙に影響を及ぼす可能性から、かなりの注目を集めている。 このように、民主的プロセスの完全性を保護するため、情報発信源の特定・対応能力は、行政機関にとって最優先事項になりつつある。 本研究では, 中央共振解析とClaust-Newman-Mooreコミュニティ検出を用いて, Twitter上でのロシアの偽情報ボットの識別手法を提案する。 このデータは、2016年アメリカ合衆国大統領選挙の期間に、既知のロシアの偽情報ボットとTwitterユーザーのコントロールセットの間に、相当量の異変を反映している。 データは、コミュニティクラスタリングに基づく統計的に重要な分類能力(MCC = 0.9070)も示す。 予測アルゴリズムは、真の正(ボット)を特定するのに非常に効果的であるが、制御ユーザ間の離散的な類似性の欠如により、真の負(非ボット)を解決できない。 このことは、Twitter上で偽情報のプロパゲータを高度に分散した類似性で識別し、民主的プロセスに影響を与える偽情報の拡散を制限するための非常に敏感な手段につながっている。

Efforts by foreign actors to influence public opinion have gained considerable attention because of their potential to impact democratic elections. Thus, the ability to identify and counter sources of disinformation is increasingly becoming a top priority for government entities in order to protect the integrity of democratic processes. This study presents a method of identifying Russian disinformation bots on Twitter using centering resonance analysis and Clauset-Newman-Moore community detection. The data reflect a significant degree of discursive dissimilarity between known Russian disinformation bots and a control set of Twitter users during the timeframe of the 2016 U.S. Presidential Election. The data also demonstrate statistically significant classification capabilities (MCC = 0.9070) based on community clustering. The prediction algorithm is very effective at identifying true positives (bots), but is not able to resolve true negatives (non-bots) because of the lack of discursive similarity between control users. This leads to a highly sensitive means of identifying propagators of disinformation with a high degree of discursive similarity on Twitter, with implications for limiting the spread of disinformation that could impact democratic processes.
翻訳日:2022-10-13 15:04:17 公開日:2022-10-11
# SEAL : システムエラー解析とラベリングのためのインタラクティブツール

SEAL : Interactive Tool for Systematic Error Analysis and Labeling ( http://arxiv.org/abs/2210.05839v1 )

ライセンス: Link先を確認
Nazneen Rajani, Weixin Liang, Lingjiao Chen, Meg Mitchell, James Zou(参考訳) Transformerの登場により、大きな言語モデル(LLM)は、よく知られたNLPベンチマークと、高い集約性能を持つリーダーボードを飽和させた。 しかしながら,これらのモデルが尾部データや稀少群で系統的に失敗する場合が多く,総合評価では明らかではない。 このような問題のあるデータグループを特定することは、明示的なラベル(民族性、性別など)がないことや、失敗モードを特徴づける視覚的特徴の欠如(アジア人の男性、屋内の動物、陸上の水鳥など)により、NLPデータセットが複雑になる場合、さらに難しい。 本稿では,2段階のアプローチを用いて,まず高い誤りのスライスを識別し,次に2段階目において,不適切なスライスに対して人間に理解可能なセマンティクスを与える手法を導入する,対話型系統的エラー解析・ラベル付けツールを提案する。 本稿では,言語モデルを用いたセマンティックラベリングと視覚特徴生成のためのテキスト・ツー・イメージモデルを用いて,エラーグループに対するコヒーレントなセマンティクスを考案する手法について検討する。 seal toolkitとdemo screencastはhttps://huggingface.co/spaces/nazneen/sealで利用可能である。

With the advent of Transformers, large language models (LLMs) have saturated well-known NLP benchmarks and leaderboards with high aggregate performance. However, many times these models systematically fail on tail data or rare groups not obvious in aggregate evaluation. Identifying such problematic data groups is even more challenging when there are no explicit labels (e.g., ethnicity, gender, etc.) and further compounded for NLP datasets due to the lack of visual features to characterize failure modes (e.g., Asian males, animals indoors, waterbirds on land, etc.). This paper introduces an interactive Systematic Error Analysis and Labeling (\seal) tool that uses a two-step approach to first identify high error slices of data and then, in the second step, introduce methods to give human-understandable semantics to those underperforming slices. We explore a variety of methods for coming up with coherent semantics for the error groups using language models for semantic labeling and a text-to-image model for generating visual features. SEAL toolkit and demo screencast is available at https://huggingface.co/spaces/nazneen/seal.
翻訳日:2022-10-13 15:03:53 公開日:2022-10-11
# 一般化ゼロショット学習のためのクラス不均衡データセットの効率的なガウス過程モデル

Efficient Gaussian Process Model on Class-Imbalanced Datasets for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2210.06120v1 )

ライセンス: Link先を確認
Changkun Ye, Nick Barnes, Lars Petersson and Russell Tsuchida(参考訳) Zero-Shot Learning (ZSL)モデルは、トレーニングプロセス中に見られないオブジェクトクラスを分類することを目的としている。 しかし、いくつかのZSLデータセットに存在するにもかかわらず、クラス不均衡の問題はほとんど議論されない。 本稿では,潜時特徴埋め込みを学習するニューラルネットワークモデルと,未確認クラスの潜時特徴プロトタイプを予測するガウス過程(GP)回帰モデルを提案する。 次に、ZSLと一般化ZSLタスクのための校正分類器を構築する。 我々のニューラルネットワークモデルは、クラス不均衡なトレーニングデータの影響を緩和する単純なトレーニング戦略で効率的に訓練される。 モデルの平均トレーニング時間は5分で、awa2、awa1、apyなどの不均衡なzslベンチマークデータセットで最先端(sota)パフォーマンスを達成でき、sunおよびcubデータセットでは比較的優れたパフォーマンスを実現している。

Zero-Shot Learning (ZSL) models aim to classify object classes that are not seen during the training process. However, the problem of class imbalance is rarely discussed, despite its presence in several ZSL datasets. In this paper, we propose a Neural Network model that learns a latent feature embedding and a Gaussian Process (GP) regression model that predicts latent feature prototypes of unseen classes. A calibrated classifier is then constructed for ZSL and Generalized ZSL tasks. Our Neural Network model is trained efficiently with a simple training strategy that mitigates the impact of class-imbalanced training data. The model has an average training time of 5 minutes and can achieve state-of-the-art (SOTA) performance on imbalanced ZSL benchmark datasets like AWA2, AWA1 and APY, while having relatively good performance on the SUN and CUB datasets.
翻訳日:2022-10-13 14:56:30 公開日:2022-10-11
# DeepMend: 修復のための形状を表現するための機能学習

DeepMend: Learning Occupancy Functions to Represent Shape for Repair ( http://arxiv.org/abs/2210.05728v1 )

ライセンス: Link先を確認
Nikolas Lamb, Sean Banerjee, and Natasha Kholgade Banerjee(参考訳) 今回我々は,学習的占有機能を用いた破折形状復元のための新しいアプローチであるdeepmendを提案する。 既存の形状修復アプローチは、低解像度のボキセル化修復を予測するか、あるいは既存の完全なオラクルへのアクセスや対称性を必要とする。 基礎となる完全形状の占有と破壊面との結合として破断形状の占有を表現し,ニューラルネットワークを用いた潜在符号の関数としてモデル化する。 入力された破壊形状からの占有率サンプルを仮定すると、空またはvoluminousの復元を避ける新しいペナルティ項を付加した推論損失を用いて潜在符号を推定する。 推定符号を用いて復元形状を再構築する。 人工および実世界の走査対象物に模擬骨折を施行し, 実破折マグカップを採取した。 既存のボクセル法と2つのベースライン法と比較して, 断裂した形状の非破壊領域の復元工芸品の精度および回避効果を示す。

We present DeepMend, a novel approach to reconstruct restorations to fractured shapes using learned occupancy functions. Existing shape repair approaches predict low-resolution voxelized restorations, or require symmetries or access to a pre-existing complete oracle. We represent the occupancy of a fractured shape as the conjunction of the occupancy of an underlying complete shape and the fracture surface, which we model as functions of latent codes using neural networks. Given occupancy samples from an input fractured shape, we estimate latent codes using an inference loss augmented with novel penalty terms that avoid empty or voluminous restorations. We use inferred codes to reconstruct the restoration shape. We show results with simulated fractures on synthetic and real-world scanned objects, and with scanned real fractured mugs. Compared to the existing voxel approach and two baseline methods, our work shows state-of-the-art results in accuracy and avoiding restoration artifacts over non-fracture regions of the fractured shape.
翻訳日:2022-10-13 14:30:00 公開日:2022-10-11
# MR-TRUS登録のための距離マップによるランドマーク位置推定

Distance Map Supervised Landmark Localization for MR-TRUS Registration ( http://arxiv.org/abs/2210.05738v1 )

ライセンス: Link先を確認
Xinrui Song, Xuanang Xu, Sheng Xu, Baris Turkbey, Bradford J. Wood, Thomas Sanford, Pingkun Yan(参考訳) 本研究では,mr-trus画像登録のガイドとして,前立腺のランドマークを明示的に使用することを提案する。 まず、深層ニューラルネットワークをトレーニングして、意味のあるランドマークの集合を自動的にローカライズし、それらのランドマークの位置からアフィン登録行列を直接生成します。 ランドマークの局所化のためには,ネットワークを直接トレーニングしてランドマーク座標を予測する代わりに,ランドマークの完全解像度距離マップを回帰することを提案する。 次に予測されたランドマークを用いてアフィン変換マトリクスを生成し、treの点では臨床医の手作業による厳格な登録を大幅に上回った。

In this work, we propose to explicitly use the landmarks of prostate to guide the MR-TRUS image registration. We first train a deep neural network to automatically localize a set of meaningful landmarks, and then directly generate the affine registration matrix from the location of these landmarks. For landmark localization, instead of directly training a network to predict the landmark coordinates, we propose to regress a full-resolution distance map of the landmark, which is demonstrated effective in avoiding statistical bias to unsatisfactory performance and thus improving performance. We then use the predicted landmarks to generate the affine transformation matrix, which outperforms the clinicians' manual rigid registration by a significant margin in terms of TRE.
翻訳日:2022-10-13 14:29:39 公開日:2022-10-11
# 視覚変換器の曲面表現空間

Curved Representation Space of Vision Transformers ( http://arxiv.org/abs/2210.05742v1 )

ライセンス: Link先を確認
Juyeop Kim and Junha Park and Songkuk Kim and Jong-Seok Lee(参考訳) ViTやSwinのような自己注意型ニューラルネットワーク(別名トランスフォーマー)は、コンピュータビジョンタスクのための従来の畳み込みニューラルネットワーク(CNN)の代替として登場した。 しかしながら、新しいアーキテクチャの動作に対する私たちの理解はまだ限られています。 本稿では,トランスフォーマーがCNNよりも汚職に対する堅牢性が高いが,過度に信頼されていない(事実,トランスフォーマーの信頼性は低い)現象に注目した。 これは、信頼によって堅牢性が増加するという直観に反する。 我々はこの矛盾を、入力データが小さな領域内を移動するときに、入力層の出力が表現空間内でどのように動くかを調べることで解決する。 特に、以下に示す。 1) CNNは入力運動と出力運動の間にかなり線形関係を示すが, 変換器はデータに対して非線形関係を示す。 これらのデータに対して、トランスフォーマーの出力は、入力が線形に動くにつれて曲線軌道に移動する。 2) 曲線領域にデータが配置されている場合, 出力が直線ではなく曲線軌道に沿って決定境界に移動するため, 変換器の堅牢性が高いため, 決定領域から外すことは困難である。 3) データが湾曲した領域から飛び出すようにわずかに修正されると、その動きは線形となり、出力は直接決定境界となる。 これにより、小さなランダムジャンプ後に容易に変圧器を攻撃でき、最終攻撃データにおける摂動は、データの近くに決定境界が存在するように、まだ知覚できない。 これはトランスフォーマーの信頼性の低い予測についても説明している。 (4) 表象空間の湾曲した領域は、初期の訓練段階から形成し始め、訓練コース全体にわたって成長する。 一部のデータはリージョンに閉じ込められ、トランスフォーマーがトレーニング損失を減らすのを妨げる。

Neural networks with self-attention (a.k.a. Transformers) like ViT and Swin have emerged as a better alternative to traditional convolutional neural networks (CNNs) for computer vision tasks. However, our understanding of how the new architecture works is still limited. In this paper, we focus on the phenomenon that Transformers show higher robustness against corruptions than CNNs, while not being overconfident (in fact, we find Transformers are actually underconfident). This is contrary to the intuition that robustness increases with confidence. We resolve this contradiction by investigating how the output of the penultimate layer moves in the representation space as the input data moves within a small area. In particular, we show the following. (1) While CNNs exhibit fairly linear relationship between the input and output movements, Transformers show nonlinear relationship for some data. For those data, the output of Transformers moves in a curved trajectory as the input moves linearly. (2) When a data is located in a curved region, it is hard to move it out of the decision region since the output moves along a curved trajectory instead of a straight line to the decision boundary, resulting in high robustness of Transformers. (3) If a data is slightly modified to jump out of the curved region, the movements afterwards become linear and the output goes to the decision boundary directly. Thus, Transformers can be attacked easily after a small random jump and the perturbation in the final attacked data remains imperceptible, i.e., there does exist a decision boundary near the data. This also explains the underconfident prediction of Transformers. (4) The curved regions in the representation space start to form at an early training stage and grow throughout the training course. Some data are trapped in the regions, obstructing Transformers from reducing the training loss.
翻訳日:2022-10-13 14:29:26 公開日:2022-10-11
# 画像分類のための深部アクティブアンサンブルサンプリング

Deep Active Ensemble Sampling For Image Classification ( http://arxiv.org/abs/2210.05770v1 )

ライセンス: Link先を確認
Salman Mohamadi, Gianfranco Doretto, Donald A. Adjeroh(参考訳) 従来のアクティブラーニング(AL)フレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。 しかし、ALをデータに導入する深層学習アルゴリズムは困難だった。 不確実性に基づく手法、幾何学的手法、不確実性に基づく暗黙的手法と幾何学的手法の組み合わせ、さらに最近では半自己監督技術に基づくフレームワークなどが提案されている。 本稿では,この領域における2つの問題に対処する。 第一は、alにおけるサンプル選択における効率的な搾取/探索トレードオフの必要性である。 そこで本研究では,不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合し,サンプル選択戦略における効率的な探索・探索のトレードオフを実現する。 この目的のために,不確実性表現のための後方推定器として鍵変化を伴うトンプソンサンプリングの計算効率の高い近似値を構築した。 本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。 第2の問題は、ディープALにおけるトレーニングプロトコルの改善である。 そこで我々は,半教師付き学習のアイデアを用いて,特定のal手法とは無関係な一般的なアプローチを提案する。 これらをまとめると、我々のフレームワークは最先端よりも大幅に改善され、同じ環境下での教師あり学習のパフォーマンスに匹敵する結果が得られます。 MNIST, CIFAR10, CIFAR100, ImageNet の4つのデータセットに対して,本フレームワークの実証的な結果と最新技術との比較を行い, 2つの異なる設定で新たなベースラインを確立する。

Conventional active learning (AL) frameworks aim to reduce the cost of data annotation by actively requesting the labeling for the most informative data points. However, introducing AL to data hungry deep learning algorithms has been a challenge. Some proposed approaches include uncertainty-based techniques, geometric methods, implicit combination of uncertainty-based and geometric approaches, and more recently, frameworks based on semi/self supervised techniques. In this paper, we address two specific problems in this area. The first is the need for efficient exploitation/exploration trade-off in sample selection in AL. For this, we present an innovative integration of recent progress in both uncertainty-based and geometric frameworks to enable an efficient exploration/exploitation trade-off in sample selection strategy. To this end, we build on a computationally efficient approximate of Thompson sampling with key changes as a posterior estimator for uncertainty representation. Our framework provides two advantages: (1) accurate posterior estimation, and (2) tune-able trade-off between computational overhead and higher accuracy. The second problem is the need for improved training protocols in deep AL. For this, we use ideas from semi/self supervised learning to propose a general approach that is independent of the specific AL technique being used. Taken these together, our framework shows a significant improvement over the state-of-the-art, with results that are comparable to the performance of supervised-learning under the same setting. We show empirical results of our framework, and comparative performance with the state-of-the-art on four datasets, namely, MNIST, CIFAR10, CIFAR100 and ImageNet to establish a new baseline in two different settings.
翻訳日:2022-10-13 14:29:00 公開日:2022-10-11
# 神経プロセスによる連続条件ビデオ合成

Continuous conditional video synthesis by neural processes ( http://arxiv.org/abs/2210.05810v1 )

ライセンス: Link先を確認
Xi Ye, Guillaume-Alexandre Bilodeau(参考訳) 本稿では,映像予測やフレーム補間を含む複数の条件付きビデオ合成タスクの統一モデルを提案する。 条件付きビデオ合成は、入力時空間座標を文脈時空間座標と画素値にマッピングするニューラルプロセスとして定式化できることを示す。 具体的には、トランスフォーマーに基づく非自己回帰的条件付きビデオ合成モデルに座標の暗黙的な神経表現を与える。 タスク固有モデルは、複数のデータセット上での映像補間における従来の作業よりも優れており、ビデオ予測のための最先端モデルと競合する性能に達する。 重要なことに、モデルは任意の高いフレームレート、すなわち連続合成で補間または予測することができる。 ソースコードは \url{https://github.com/NPVS/NPVS} で公開されている。

We propose a unified model for multiple conditional video synthesis tasks, including video prediction and video frame interpolation. We show that conditional video synthesis can be formulated as a neural process, which maps input spatio-temporal coordinates to target pixel values given context spatio-temporal coordinates and pixels values. Specifically, we feed an implicit neural representations of coordinates into a Transformer-based non-autoregressive conditional video synthesis model. Our task-specific models outperform previous work for video interpolation on multiple datasets and reach a competitive performance with the state-of-the-art models for video prediction. Importantly, the model is able to interpolate or predict with an arbitrary high frame rate, i.e., continuous synthesis. Our source code is available at \url{https://github.com/NPVS/NPVS}.
翻訳日:2022-10-13 14:28:33 公開日:2022-10-11
# sait:adaptive token pruningによるスパースビジョントランスフォーマー

SaiT: Sparse Vision Transformers through Adaptive Token Pruning ( http://arxiv.org/abs/2210.05832v1 )

ライセンス: Link先を確認
Ling Li, David Thorsley, Joseph Hassoun(参考訳) 視覚トランスフォーマーは印象的な結果を得たが、これらのモデルを効果的かつ効率的に加速することで、さらなる性能向上が期待できる。 本研究では,様々なトークン密度の重み付けを可能にする統一モデルを得るための,密集/疎結合なトレーニングフレームワークを提案する。 したがって、1つのモデルは異なるアプリケーションに対して様々な精度とスループットのトレードオフを提供する。 さらに、入力画像に基づいてパッチトークンの間隔を最適化するために適応トークンプルーニングを導入する。 また,初期変圧器モジュールのトークン選択能力を高めるため,知識蒸留についても検討した。 スパース適応画像変換器(SaiT)は、ハエのトークン間隔を変更するだけで、モデルアクセラレーションの様々なレベルを提供する。 具体的には、saitは計算複雑性(flops)を39%から43%削減し、スループットを67%から91%向上させ、様々な視覚トランスフォーマーモデルの精度を0.5%未満に抑えている。 一方、同じモデルはスパーシフィケーションステップをスキップすることで、ゼロ精度のドロップオプションも提供する。 SaiTは最先端のトランスフォーマーや畳み込みモデルよりも精度と計算のトレードオフを達成している。

While vision transformers have achieved impressive results, effectively and efficiently accelerating these models can further boost performances. In this work, we propose a dense/sparse training framework to obtain a unified model, enabling weight sharing across various token densities. Thus one model offers a range of accuracy and throughput tradeoffs for different applications. Besides, we introduce adaptive token pruning to optimize the patch token sparsity based on the input image. In addition, we investigate knowledge distillation to enhance token selection capability in early transformer modules. Sparse adaptive image Transformer (SaiT) offers varying levels of model acceleration by merely changing the token sparsity on the fly. Specifically, SaiT reduces the computation complexity (FLOPs) by 39% - 43% and increases the throughput by 67% - 91% with less than 0.5% accuracy loss for various vision transformer models. Meanwhile, the same model also provides the zero accuracy drop option by skipping the sparsification step. SaiT achieves better accuracy and computation tradeoffs than state-of-the-art transformer and convolutional models.
翻訳日:2022-10-13 14:28:20 公開日:2022-10-11
# カプセルネットワークの最近の進歩

Effectiveness of the Recent Advances in Capsule Networks ( http://arxiv.org/abs/2210.05834v1 )

ライセンス: Link先を確認
Nidhin Harilal, Rohan Patil(参考訳) 畳み込みニューラルネットワーク(CNN)は、ディープニューラルネットワークの分野に革命をもたらした。 しかし、最近の研究では、CNNは様々な条件下での一般化に失敗し、カプセルのアイデアは2011年に導入されたが、実際の研究は2017年から始まった。 本稿では,カプセルアーキテクチャとルーティング機構の最近の進歩について概説する。 さらに,近年の文献における相対的な焦点は,ルーティング手順やアーキテクチャ全体を変更することであるが,他の細かいコンポーネント,特にスカッシュ関数の研究が望まれている。 また, カプセルネットワークの性能に及ぼすスカッシュ関数の影響について, 新たな知見を提示する。 最後に,カプセルネットワークの分野における可能性について議論し,提案する。

Convolutional neural networks (CNNs) have revolutionized the field of deep neural networks. However, recent research has shown that CNNs fail to generalize under various conditions and hence the idea of capsules was introduced in 2011, though the real surge of research started from 2017. In this paper, we present an overview of the recent advances in capsule architecture and routing mechanisms. In addition, we find that the relative focus in recent literature is on modifying routing procedure or architecture as a whole but the study of other finer components, specifically, squash function is wanting. Thus, we also present some new insights regarding the effect of squash functions in performance of the capsule networks. Finally, we conclude by discussing and proposing possible opportunities in the field of capsule networks.
翻訳日:2022-10-13 14:28:02 公開日:2022-10-11
# CLIPはテキストも理解する: フレーズ理解のためのCLIPのプロンプト

CLIP also Understands Text: Prompting CLIP for Phrase Understanding ( http://arxiv.org/abs/2210.05836v1 )

ライセンス: Link先を確認
An Yan, Jiacheng Li, Wanrong Zhu, Yujie Lu, William Yang Wang, Julian McAuley(参考訳) Contrastive Language-Image Pretraining (CLIP)は、自然言語による事前学習によって視覚概念を効率的に学習する。 CLIPとそのビジュアルエンコーダは、様々なビジョンや言語タスクで探索され、強力なゼロショットやトランスファー学習性能を実現している。 しかし、テキストエンコーダのテキスト理解のみへの応用は、あまり研究されていない。 本稿では,CLIPのテキストエンコーダが語句理解の強力な能力を示し,適切な設計のプロンプトでBERTなどの一般的な言語モデルよりもはるかに優れていることを示す。 大規模な実験により、エンティティクラスタリングやエンティティセット拡張タスクにおいて、異なるデータセットやドメインにまたがる手法の有効性が検証された。

Contrastive Language-Image Pretraining (CLIP) efficiently learns visual concepts by pre-training with natural language supervision. CLIP and its visual encoder have been explored on various vision and language tasks and achieve strong zero-shot or transfer learning performance. However, the application of its text encoder solely for text understanding has been less explored. In this paper, we find that the text encoder of CLIP actually demonstrates strong ability for phrase understanding, and can even significantly outperform popular language models such as BERT with a properly designed prompt. Extensive experiments validate the effectiveness of our method across different datasets and domains on entity clustering and entity set expansion tasks.
翻訳日:2022-10-13 14:03:21 公開日:2022-10-11
# タイトなアノテーション予算下でのテキスト表現の分析:構造的アライメントの測定

Analyzing Text Representations under Tight Annotation Budgets: Measuring Structural Alignment ( http://arxiv.org/abs/2210.05721v1 )

ライセンス: Link先を確認
C\'esar Gonz\'alez-Guti\'errez, Audi Primadhanty, Francesco Cazzaro, Ariadna Quattoni(参考訳) 大量のテキストデータに注釈を付けるのは時間がかかり、費用がかかる。 そのため、限定的なアノテーション予算でモデルをトレーニングする能力が非常に重要です。 この文脈では、厳密なアノテーション予算の下でデータ表現の選択が重要であることが示されている。 この論文の目的はなぜそうなのかをよりよく理解することである。 この目標を念頭に置いて、与えられた表現がタスクと構造的に整合している範囲を測定する指標を提案する。 我々は、様々なモデルや表現をテストするテキスト分類データセットの実験を行う。 提案手法を用いることで、タスクの効率的な表現(つまり、少数のサンプルから学習できるもの)が潜時入力構造とクラス構造との整合性を誘導する表現であることを示す。

Annotating large collections of textual data can be time consuming and expensive. That is why the ability to train models with limited annotation budgets is of great importance. In this context, it has been shown that under tight annotation budgets the choice of data representation is key. The goal of this paper is to better understand why this is so. With this goal in mind, we propose a metric that measures the extent to which a given representation is structurally aligned with a task. We conduct experiments on several text classification datasets testing a variety of models and representations. Using our proposed metric we show that an efficient representation for a task (i.e. one that enables learning from few samples) is a representation that induces a good alignment between latent input structure and class structure.
翻訳日:2022-10-13 13:53:16 公開日:2022-10-11
# 対話生成のセマンティック多様性の測定と改善

Measuring and Improving Semantic Diversity of Dialogue Generation ( http://arxiv.org/abs/2210.05725v1 )

ライセンス: Link先を確認
Seungju Han, Beomsu Kim, Buru Chang(参考訳) 応答の多様性はオープンドメイン対話生成モデルの品質を評価する上で重要な基準となっている。 しかしながら、応答の多様性に関する現在の評価指標は、生成された応答の語彙的側面を主に考慮しているため、生成された応答のセマンティックな多様性を捉えることができないことが多い。 本稿では,生成した応答の意味的多様性を測定するための新しい自動評価指標を提案する。 提案手法は, 既存の語彙レベルの多様性指標よりも, 応答の多様性に関する人間の判断を捉えていることを示す。 さらに,既存の対話データセットの分析を動機づけて,生成した応答の意味的多様性を向上させる簡易かつ効果的な学習手法を提案する。 学習方法はトレーニングセットの意味的分布に基づいてトレーニングサンプルを重み付けする。 提案手法は, 自動評価と人的評価により, 他のベースライン手法よりも応答の多様性と一貫性を向上させる。

Response diversity has become an important criterion for evaluating the quality of open-domain dialogue generation models. However, current evaluation metrics for response diversity often fail to capture the semantic diversity of generated responses, as they mainly consider lexical aspects of the generated responses. In this paper, we introduce a new automatic evaluation metric to measure the semantic diversity of generated responses. Through human evaluation, we demonstrate that our proposed metric captures human judgments on response diversity better than existing lexical-level diversity metrics. Furthermore, motivated by analyzing an existing dialogue dataset, we propose a simple yet effective learning method that improves the semantic diversity of generated responses. Our learning method weights training samples based on the semantic distribution of the training set. We show that our learning method improves response diversity and coherency better than other baseline methods through automatic and human evaluation.
翻訳日:2022-10-13 13:53:03 公開日:2022-10-11
# チュクチに基づく低リソース言語の自動音声認識

Automatic Speech Recognition of Low-Resource Languages Based on Chukchi ( http://arxiv.org/abs/2210.05726v1 )

ライセンス: Link先を確認
Anastasia Safonova, Tatiana Yudina, Emil Nadimanov, Cydnie Davenport(参考訳) 本稿では、チュクチ語に基づく新しい自動音声認識(asr)の研究と作成に焦点を当てたプロジェクトを提案する。 チュクチ語の完全なコーパスは存在しないため、そのほとんどがオープンソースからチュクチ語の音声やテキストを収集して処理することであった。 21:34:23時間の音声記録と112,719文(または2,068,273語)を中吉語で収集した。 XLSRモデルは得られたデータに基づいて訓練され、少量のデータでも良好な結果が得られた。 チュクチ語は低リソース言語であるという事実に加えて、自動処理を著しく複雑にする多合成言語でもある。 したがって、ASRを評価するための通常のWERメートル法は、多合成言語に対する指標が減る。 しかし,CER測定値は良好であった。 多合成言語におけるメトリクスの問題はまだ未解決である。

The following paper presents a project focused on the research and creation of a new Automatic Speech Recognition (ASR) based in the Chukchi language. There is no one complete corpus of the Chukchi language, so most of the work consisted in collecting audio and texts in the Chukchi language from open sources and processing them. We managed to collect 21:34:23 hours of audio recordings and 112,719 sentences (or 2,068,273 words) of text in the Chukchi language. The XLSR model was trained on the obtained data, which showed good results even with a small amount of data. Besides the fact that the Chukchi language is a low-resource language, it is also polysynthetic, which significantly complicates any automatic processing. Thus, the usual WER metric for evaluating ASR becomes less indicative for a polysynthetic language. However, the CER metric showed good results. The question of metrics for polysynthetic languages remains open.
翻訳日:2022-10-13 13:52:44 公開日:2022-10-11
# 変圧器を用いた長方形ディクテーションの流路変動

Streaming Punctuation for Long-form Dictation with Transformers ( http://arxiv.org/abs/2210.05756v1 )

ライセンス: Link先を確認
Piyush Behre, Sharman Tan, Padma Varadharajan, Shuangyu Chang(参考訳) 音声認識単語誤り率 (wer) は英語で人間と同水準に達したが、長い形態のディクテーションシナリオは依然として、不規則なページングパターンや遅い話者によって生じるセグメンテーションや句読点の問題に苦しんでいる。 トランスフォーマーシーケンスのタグ付けモデルは、自動句読点に不可欠である長い双方向コンテキストのキャプチャに有効である。 しかし、典型的な自動音声認識(asr)生産システムは、リアルタイムの要求に制約されており、句読点決定時に適切な文脈を取り込むのが困難である。 本稿では,動的復号窓を用いたasr出力の句読解・再句読化のためのストリーミング手法を提案し,様々なシナリオにおける句読解・節読精度への影響を計測する。 新しいシステムは過剰なセグメンテーションの問題に取り組み、セグメンテーションF0.5スコアを13.9%改善した。 ストリーミング句読点は、機械翻訳(MT)の下流タスクに対して平均BLEUスコアゲイン0.66を達成する。

While speech recognition Word Error Rate (WER) has reached human parity for English, long-form dictation scenarios still suffer from segmentation and punctuation problems resulting from irregular pausing patterns or slow speakers. Transformer sequence tagging models are effective at capturing long bi-directional context, which is crucial for automatic punctuation. A typical Automatic Speech Recognition (ASR) production system, however, is constrained by real-time requirements, making it hard to incorporate the right context when making punctuation decisions. In this paper, we propose a streaming approach for punctuation or re-punctuation of ASR output using dynamic decoding windows and measure its impact on punctuation and segmentation accuracy in a variety of scenarios. The new system tackles over-segmentation issues, improving segmentation F0.5-score by 13.9%. Streaming punctuation achieves an average BLEU-score gain of 0.66 for the downstream task of Machine Translation (MT).
翻訳日:2022-10-13 13:52:21 公開日:2022-10-11
# 遠隔指導による言語間話者識別

Cross-Lingual Speaker Identification Using Distant Supervision ( http://arxiv.org/abs/2210.05780v1 )

ライセンス: Link先を確認
Ben Zhou, Dian Yu, Dong Yu, Dan Roth(参考訳) どの文字が文章で発声したかを判断する話者識別は、下流の多くのタスクに役立ちます。 既存のほとんどのアプローチでは、専門家定義のルールやルールベースの機能を使ってこのタスクに直接アプローチするが、文脈的推論の欠如や言語間の一般化の貧弱といった大きな欠点がある。 本稿では,これらの問題に対処する話者識別フレームワークを提案する。 まず、汎用ツールとヒューリスティックスを用いて、英語における大規模な遠隔監視信号を抽出し、これらの弱ラベルの事例を適用して、文脈推論に焦点をあてて言語間モデルを訓練する。 その結果, 2つの英語話者識別ベンチマークにおいて, 従来手法の精度を9%, 遠隔監視のみで5%, 2つの中国語話者識別データセットを最大4.7%向上させた。

Speaker identification, determining which character said each utterance in literary text, benefits many downstream tasks. Most existing approaches use expert-defined rules or rule-based features to directly approach this task, but these approaches come with significant drawbacks, such as lack of contextual reasoning and poor cross-lingual generalization. In this work, we propose a speaker identification framework that addresses these issues. We first extract large-scale distant supervision signals in English via general-purpose tools and heuristics, and then apply these weakly-labeled instances with a focus on encouraging contextual reasoning to train a cross-lingual language model. We show that the resulting model outperforms previous state-of-the-art methods on two English speaker identification benchmarks by up to 9% in accuracy and 5% with only distant supervision, as well as two Chinese speaker identification datasets by up to 4.7%.
翻訳日:2022-10-13 13:52:02 公開日:2022-10-11
# コントラスト的神経比推定

Contrastive Neural Ratio Estimation ( http://arxiv.org/abs/2210.06170v1 )

ライセンス: Link先を確認
Benjamin Kurt Miller, Christoph Weniger, Patrick Forr\'e(参考訳) Likelihood-to-evidence ratio Estimation は通常、バイナリ(NRE-A)またはマルチクラス(NRE-B)分類タスクとしてキャストされる。 バイナリ分類フレームワークとは対照的に、現在のマルチクラスバージョンの定式化は本質的で未知のバイアス項を持ち、それ以外の情報的診断は信頼できない。 我々は,NRE-Bに固有のバイアスを最適に含まないマルチクラスフレームワークを提案し,実践者が依存する診断を行う立場に置かれる。 また、1つのコーナーケースでNRE-Aを、制限ケースでNRE-Bを回復する。 公正な比較のために,共同で描画されたデータが無制限である場合,データの固定と事前の描画が無制限である場合,一般的な固定データとパラメータ設定のいずれにおいても,すべてのアルゴリズムの挙動をベンチマークする。 本研究は,高パラメータ空間における競合モデル (NRE-A, NRE-B) とは距離があることを示す。 我々は、以前のモデルとは異なるハイパーパラメータを推奨する。 シミュレーションに基づく推論法の性能指標として,後方サンプルを必要とせずに相互情報にバウンドを提示し,実験結果を提供する。

Likelihood-to-evidence ratio estimation is usually cast as either a binary (NRE-A) or a multiclass (NRE-B) classification task. In contrast to the binary classification framework, the current formulation of the multiclass version has an intrinsic and unknown bias term, making otherwise informative diagnostics unreliable. We propose a multiclass framework free from the bias inherent to NRE-B at optimum, leaving us in the position to run diagnostics that practitioners depend on. It also recovers NRE-A in one corner case and NRE-B in the limiting case. For fair comparison, we benchmark the behavior of all algorithms in both familiar and novel training regimes: when jointly drawn data is unlimited, when data is fixed but prior draws are unlimited, and in the commonplace fixed data and parameters setting. Our investigations reveal that the highest performing models are distant from the competitors (NRE-A, NRE-B) in hyperparameter space. We make a recommendation for hyperparameters distinct from the previous models. We suggest a bound on the mutual information as a performance metric for simulation-based inference methods, without the need for posterior samples, and provide experimental results.
翻訳日:2022-10-13 13:45:40 公開日:2022-10-11
# TetGAN:tetrahedral Mesh生成のための畳み込みニューラルネットワーク

TetGAN: A Convolutional Neural Network for Tetrahedral Mesh Generation ( http://arxiv.org/abs/2210.05735v1 )

ライセンス: Link先を確認
William Gao, April Wang, Gal Metzer, Raymond A. Yeh, Rana Hanocka(参考訳) 四面体メッシュを生成するために設計された畳み込みニューラルネットワークTetGANを提案する。 占有と変位場を符号化する不規則な四面体格子を用いて形状を表現する。 我々の定式化により、四面体畳み込み、プーリング、アップサンプリング操作を定義し、可変トポロジカル属との明示的なメッシュ接続を合成することができる。 提案するニューラルネットワーク層は,各テトラヘドロンの深い特徴を学習し,複数のスケールにわたる空間領域内のパターンを抽出する。 本稿では,四面体メッシュを意味的に意味のある潜在空間に符号化し,形状の編集や合成に利用できる手法について述べる。 私たちのプロジェクトページはhttps:// Threedle.github.io/tetGAN/です。

We present TetGAN, a convolutional neural network designed to generate tetrahedral meshes. We represent shapes using an irregular tetrahedral grid which encodes an occupancy and displacement field. Our formulation enables defining tetrahedral convolution, pooling, and upsampling operations to synthesize explicit mesh connectivity with variable topological genus. The proposed neural network layers learn deep features over each tetrahedron and learn to extract patterns within spatial regions across multiple scales. We illustrate the capabilities of our technique to encode tetrahedral meshes into a semantically meaningful latent-space which can be used for shape editing and synthesis. Our project page is at https://threedle.github.io/tetGAN/.
翻訳日:2022-10-13 13:44:59 公開日:2022-10-11
# match cutting: スムーズなビジュアル遷移でカットを見つける

Match Cutting: Finding Cuts with Smooth Visual Transitions ( http://arxiv.org/abs/2210.05766v1 )

ライセンス: Link先を確認
Boris Chen, Amir Ziai, Rebecca Tucker, Yuchen Xie(参考訳) マッチカット(英: match cut)は、類似のフレーミング、構成、アクションを用いて、視聴者を1つのシーンから次のシーンへと滑らかに導く一対のショット間の遷移である。 マッチカットは映画、テレビ、広告などで頻繁に使用される。 しかし、一緒に働くショットを見つけることは、非常にマニュアルで時間を要するプロセスであり、数日かかる可能性がある。 我々は,数百万対のショットペアから始まる高品質なマッチング候補を効率よく見つけるモジュール式で柔軟なシステムを提案する。 我々は,画像,映像,音声,視聴覚特徴抽出器を活用した分類とメトリック学習のアプローチを用いて,システム評価に使用する約20kのラベル付きペアのデータセットを注釈化し,公開する。 さらに、github.com/netflix/matchcutで実験を再現するためのコードと埋め込みもリリースしています。

A match cut is a transition between a pair of shots that uses similar framing, composition, or action to fluidly bring the viewer from one scene to the next. Match cuts are frequently used in film, television, and advertising. However, finding shots that work together is a highly manual and time-consuming process that can take days. We propose a modular and flexible system to efficiently find high-quality match cut candidates starting from millions of shot pairs. We annotate and release a dataset of approximately 20k labeled pairs that we use to evaluate our system, using both classification and metric learning approaches that leverage a variety of image, video, audio, and audio-visual feature extractors. In addition, we release code and embeddings for reproducing our experiments at github.com/netflix/matchcut.
翻訳日:2022-10-13 13:44:49 公開日:2022-10-11
# 運動画像脳波に基づくBCIのためのAIアプローチの進化

The evolution of AI approaches for motor imagery EEG-based BCIs ( http://arxiv.org/abs/2210.06290v1 )

ライセンス: Link先を確認
Aurora Saibene, Silvia Corchs, Mirko Caglioni, Francesca Gasparini(参考訳) 運動画像(MI)脳波(EEG)ベースの脳コンピュータインタフェース(BCI)は、運動想像と結びついた神経経路を利用することで人間と機械間の直接通信を可能にする。 そのため、医療分野からエンタテインメント業界にまたがるアプリケーションを開発できる可能性が開けた。 この文脈では、AI(Artificial Intelligence)アプローチは、特にBCIユーザに正確で一貫性のあるフィードバックを提供したい場合に、基本的に重要である。 さらに、MI EEGベースのBCIの分野で公開されているデータセットは、AIドメインから新しいテクニックをテストするために広く利用されている。 本研究は,MIEEGに基づくBCIデータに対するAI技術の進化と影響に関する,簡潔かつ十分な包括的調査を提供することを目的として,異なる年と異なるデバイスで収集したデータセットにAIアプローチを適用する。

The Motor Imagery (MI) electroencephalography (EEG) based Brain Computer Interfaces (BCIs) allow the direct communication between humans and machines by exploiting the neural pathways connected to motor imagination. Therefore, these systems open the possibility of developing applications that could span from the medical field to the entertainment industry. In this context, Artificial Intelligence (AI) approaches become of fundamental importance especially when wanting to provide a correct and coherent feedback to BCI users. Moreover, publicly available datasets in the field of MI EEG-based BCIs have been widely exploited to test new techniques from the AI domain. In this work, AI approaches applied to datasets collected in different years and with different devices but with coherent experimental paradigms are investigated with the aim of providing a concise yet sufficiently comprehensive survey on the evolution and influence of AI techniques on MI EEG-based BCI data.
翻訳日:2022-10-13 13:36:16 公開日:2022-10-11
# 代理データとメタモデルを用いた河川濁度の短期予測

Short-term prediction of stream turbidity using surrogate data and a meta-model approach ( http://arxiv.org/abs/2210.05821v1 )

ライセンス: Link先を確認
Bhargav Rele, Caleb Hogan, Sevvandi Kandanaarachchi, Catherine Leigh(参考訳) 多くの水質モニタリングプログラムは、濁度を計測して、水路や漁獲物の効率的な管理を支援することを目的としている。 この目的のために、我々は、比較的低コストのインサイトセンサーと一般公開データベースからのサロゲートデータを用いて、ストリームの濁度を予測するために、動的回帰(ARIMA)、長期記憶ニューラルネット(LSTM)、一般化付加モデル(GAM)を構築、比較した。 筆者らは,修正赤池情報基準を最小化した4種類の亜硫酸塩共変体(降水量,水位,気温,全地球日射量)を組み合わせて,各種類の最終モデルを選択した。 ローリングタイムウインドウを用いたクロスバリデーションでは、降水量と水位共変量のみを含むARIMAが最も正確な予測を行い、続いて4つの共変量を含むGAMが続いた。 そこで我々は,異なる時間点における各モデルの強みを生かし,各時間ステップ毎の最良のモデル(予測誤差が最少の1ステップ前)を予測するメタモデルを構築した。 メタモデルは、他のモデルよりも優れており、この手法は高い精度が得られることを示し、コストがデプロイメントとメンテナンスを禁止し、短期的に濁度を予測する場合、濁度センサーから直接の計測に取って代わる可能性を示している。 また,気温や光関連変数,例えば水中照度は,特に降雨などの他の共変量と組み合わされた場合,特に空間分解能の粗さで測定される場合,費用効果が高く,高頻度の濁度サーロゲートとして期待できることが示された。

Many water-quality monitoring programs aim to measure turbidity to help guide effective management of waterways and catchments, yet distributing turbidity sensors throughout networks is typically cost prohibitive. To this end, we built and compared the ability of dynamic regression (ARIMA), long short-term memory neural nets (LSTM), and generalized additive models (GAM) to forecast stream turbidity one step ahead, using surrogate data from relatively low-cost in-situ sensors and publicly available databases. We iteratively trialled combinations of four surrogate covariates (rainfall, water level, air temperature and total global solar exposure) selecting a final model for each type that minimised the corrected Akaike Information Criterion. Cross-validation using a rolling time-window indicated that ARIMA, which included the rainfall and water-level covariates only, produced the most accurate predictions, followed closely by GAM, which included all four covariates. We constructed a meta-model, trained on time-series features of turbidity, to take advantage of the strengths of each model over different time points and predict the best model (that with the lowest forecast error one-step prior) for each time step. The meta-model outperformed all other models, indicating that this methodology can yield high accuracy and may be a viable alternative to using measurements sourced directly from turbidity-sensors where costs prohibit their deployment and maintenance, and when predicting turbidity across the short term. Our findings also indicated that temperature and light-associated variables, for example underwater illuminance, may hold promise as cost-effective, high-frequency surrogates of turbidity, especially when combined with other covariates, like rainfall, that are typically measured at coarse levels of spatial resolution.
翻訳日:2022-10-13 13:35:21 公開日:2022-10-11
# サンプルサイズに依存しない複素数を持つ確率制約DRO

Stochastic Constrained DRO with a Complexity Independent of Sample Size ( http://arxiv.org/abs/2210.05740v1 )

ライセンス: Link先を確認
Qi Qi, Jiameng Lyu, Kung sik Chan, Er Wei Bai, Tianbao Yang(参考訳) 分散ロバスト最適化(DRO)は、トレーニングとテストセット間の分散シフトに対して頑健なモデルをトレーニングする一般的な方法であり、近年大きな注目を集めている。 本論文では,Kulback Leibler分散DRO問題の解法として,非凸損失と凸損失の両方に適用可能な確率的アルゴリズムを提案し,解析する。 この問題を解決する既存の手法と比較して、我々の確率的アルゴリズムは、サンプルサイズに依存しないより優れた複雑さを享受するだけでなく、イテレーション毎に一定のバッチサイズを必要とするため、幅広いアプリケーションでより実用的です。 我々は、非凸損失に対する$\epsilon$定常解を見つけるためのほぼ最適な複雑性と、凸損失に対する$\epsilon$最適解を見つけるための最適な複雑さを確立する。 非凸および凸制約DRO問題の解法として提案アルゴリズムの有効性を実証した。

Distributionally Robust Optimization (DRO), as a popular method to train robust models against distribution shift between training and test sets, has received tremendous attention in recent years. In this paper, we propose and analyze stochastic algorithms that apply to both non-convex and convex losses for solving Kullback Leibler divergence constrained DRO problem. Compared with existing methods solving this problem, our stochastic algorithms not only enjoy competitive if not better complexity independent of sample size but also just require a constant batch size at every iteration, which is more practical for broad applications. We establish a nearly optimal complexity bound for finding an $\epsilon$ stationary solution for non-convex losses and an optimal complexity for finding an $\epsilon$ optimal solution for convex losses. Empirical studies demonstrate the effectiveness of the proposed algorithms for solving non-convex and convex constrained DRO problems.
翻訳日:2022-10-13 13:26:51 公開日:2022-10-11
# カテゴリー的背景変数による深い対実推定

Deep Counterfactual Estimation with Categorical Background Variables ( http://arxiv.org/abs/2210.05811v1 )

ライセンス: Link先を確認
Edward De Brouwer(参考訳) 因果推論のラグの第3ラングとして参照され、反ファクトクエリは通常、振り返りの質問として"What if ? 反事実を推定する標準的なアプローチは、基礎となるデータ生成プロセスを正確に反映する構造方程式モデルを用いて存在する。 しかし、そのようなモデルは実際にはほとんど利用できず、観測データのみから推測したい場合が多い。 残念ながら、正しい構造方程式モデルは一般に観測された事実分布から識別できない。 しかし, 本研究では, 治療反応の主な寄与者がカテゴリー的であるという仮定の下でも, 反事実を確実に予測できることを示す。 この仮定に基づいて,背景変数がカテゴリー的である場合,連続観測から反事実を推測する新しい手法である反事実クエリ予測(cfqp)を提案する。 提案手法は,理論的・経験的に時系列データと画像データに比較して,従来利用可能な深層学習法よりも優れていることを示す。 私たちのコードはhttps://github.com/edebrouwer/cfqpで利用可能です。

Referred to as the third rung of the causal inference ladder, counterfactual queries typically ask the "What if ?" question retrospectively. The standard approach to estimate counterfactuals resides in using a structural equation model that accurately reflects the underlying data generating process. However, such models are seldom available in practice and one usually wishes to infer them from observational data alone. Unfortunately, the correct structural equation model is in general not identifiable from the observed factual distribution. Nevertheless, in this work, we show that under the assumption that the main latent contributors to the treatment responses are categorical, the counterfactuals can be still reliably predicted. Building upon this assumption, we introduce CounterFactual Query Prediction (CFQP), a novel method to infer counterfactuals from continuous observations when the background variables are categorical. We show that our method significantly outperforms previously available deep-learning-based counterfactual methods, both theoretically and empirically on time series and image data. Our code is available at https://github.com/edebrouwer/cfqp.
翻訳日:2022-10-13 13:26:34 公開日:2022-10-11
# フロントドア調整セットの検索とリスティング

Finding and Listing Front-door Adjustment Sets ( http://arxiv.org/abs/2210.05816v1 )

ライセンス: Link先を確認
Hyunchai Jeong (1), Jin Tian (2), Elias Bareinboim (3) ((1) Purdue University, (2) Iowa State University, (3) Columbia University)(参考訳) データから新たな介入の効果を特定することは、幅広い経験的科学において重要な課題である。 このような効果を特定するためのよく知られた戦略は、パールのフロントドア(FD)基準である(Pearl, 1995)。 FD基準の定義は宣言的であり、特定の集合が基準を満たすかどうかを決定できるだけである。 本稿では,与えられた因果図のfd基準を満たす可能な集合を探索し,列挙するアルゴリズムを提案する。 これらの結果は、因果効果推定のためのFD基準の実践的応用を容易にし、科学者が望ましい特性を持つ推定値(例えば、コスト、測定可能性、統計力)を選択するのを助けるのに有用である。

Identifying the effects of new interventions from data is a significant challenge found across a wide range of the empirical sciences. A well-known strategy for identifying such effects is Pearl's front-door (FD) criterion (Pearl, 1995). The definition of the FD criterion is declarative, only allowing one to decide whether a specific set satisfies the criterion. In this paper, we present algorithms for finding and enumerating possible sets satisfying the FD criterion in a given causal diagram. These results are useful in facilitating the practical applications of the FD criterion for causal effects estimation and helping scientists to select estimands with desired properties, e.g., based on cost, feasibility of measurement, or statistical power.
翻訳日:2022-10-13 13:26:16 公開日:2022-10-11
# 持続的連続学習に向けて--類似課題の検出と再提案

Toward Sustainable Continual Learning: Detection and Knowledge Repurposing of Similar Tasks ( http://arxiv.org/abs/2210.05751v1 )

ライセンス: Link先を確認
Sijia Wang, Yoojin Choi, Junya Chen, Mostafa El-Khamy, and Ricardo Henao(参考訳) これまでのCL(Continuousal Learning)に関する研究の多くは、破滅的な忘れ(CF)問題を克服することに重点を置いており、動的モデルやリプレイ手法は極めてよく機能している。 しかし、現在の研究は学習タスクの排他性や相似性を仮定する傾向があるため、これらの方法はタスクごとにタスク固有の知識を常にメモリに蓄積する必要がある。 これにより、長いタスクから学ぶことを考えると、最終的に知識リポジトリが拡張されてしまう。 そこで本研究では,連続学習者が相似的タスクと相似するタスクの列を連続的に得るパラダイムを提案する。 本研究では,従来のタスクに類似した特定のタスクが存在するかどうかを解析し,追加の学習を必要としないタスク類似性検出機能を用いた新しい連続学習フレームワークを提案する。 次に、従来のタスク知識を再利用してパラメータ拡張を遅くし、CLシステムが学習タスク数をサブラインナライズして知識リポジトリを拡張することを保証する。 提案手法は, CIFAR10, CIFAR100, EMNISTなど, 広く使用されているコンピュータビジョンベンチマークにおいて, 競合的に動作することを示す。

Most existing works on continual learning (CL) focus on overcoming the catastrophic forgetting (CF) problem, with dynamic models and replay methods performing exceptionally well. However, since current works tend to assume exclusivity or dissimilarity among learning tasks, these methods require constantly accumulating task-specific knowledge in memory for each task. This results in the eventual prohibitive expansion of the knowledge repository if we consider learning from a long sequence of tasks. In this work, we introduce a paradigm where the continual learner gets a sequence of mixed similar and dissimilar tasks. We propose a new continual learning framework that uses a task similarity detection function that does not require additional learning, with which we analyze whether there is a specific task in the past that is similar to the current task. We can then reuse previous task knowledge to slow down parameter expansion, ensuring that the CL system expands the knowledge repository sublinearly to the number of learned tasks. Our experiments show that the proposed framework performs competitively on widely used computer vision benchmarks such as CIFAR10, CIFAR100, and EMNIST.
翻訳日:2022-10-13 13:19:19 公開日:2022-10-11
# 大規模asr用軟質および硬質ターゲットrnn-t蒸留法の比較

Comparison of Soft and Hard Target RNN-T Distillation for Large-scale ASR ( http://arxiv.org/abs/2210.05793v1 )

ライセンス: Link先を確認
Dongseong Hwang, Khe Chai Sim, Yu Zhang, Trevor Strohman(参考訳) 知識蒸留は教師モデルからより小さな学生モデル、特にラベルのないデータに知識を伝達する効果的な機械学習技術である。 本稿では,最先端(SoTA)自動音声認識(ASR)において広く用いられているRNN-Tモデルの知識蒸留に着目した。 具体的には, ソフトおよびハードターゲット蒸留法を用いて, librispeech/librilight 公開データセット (60k時間), 社内データ (6k時間) で大規模rnn-tモデルを訓練した。 その結果、教師と生徒が大きな教師や小さなストリーミング学生など、異なるアーキテクチャを持つ場合、ハードタルオブジェクトの方が効果的であることが判明した。 一方で、ソフトターゲット蒸留は、反復的な大規模教員養成のようなセルフトレーニングのシナリオでよりうまく機能する。 重み0.6Bの大規模モデルでは,ソフトターゲット蒸留を用いたノイズ学習トレーニングを用いて,LibriSpeechの単語誤り率(WER)を8%向上させた。 また、本番の教師は、新しいデータドメインを継続的に適用することができます。

Knowledge distillation is an effective machine learning technique to transfer knowledge from a teacher model to a smaller student model, especially with unlabeled data. In this paper, we focus on knowledge distillation for the RNN-T model, which is widely used in state-of-the-art (SoTA) automatic speech recognition (ASR). Specifically, we compared using soft and hard target distillation to train large-scaleRNN-T models on the LibriSpeech/LibriLight public dataset (60k hours) and our in-house data (600k hours). We found that hard tar-gets are more effective when the teacher and student have different architecture, such as large teacher and small streaming student. On the other hand, soft target distillation works better in self-training scenario like iterative large teacher training. For a large model with0.6B weights, we achieve a new SoTA word error rate (WER) on LibriSpeech (8% relative improvement on dev-other) using Noisy Student Training with soft target distillation. It also allows our production teacher to adapt new data domain continuously.
翻訳日:2022-10-13 13:16:51 公開日:2022-10-11
# 資源予算のトレーディングオフと「後悔の限界」の改善

Trading Off Resource Budgets for Improved Regret Bounds ( http://arxiv.org/abs/2210.05789v1 )

ライセンス: Link先を確認
Damon Falck and Thomas Orton(参考訳) この研究では、各ラウンドで$N$のアームから$B$を選び、選択した各アームのコストの$\textit{minimum}$に等しいコストを発生させる、対戦型オンライン学習のバリエーションについて検討する。 この問題に対してFollow the Perturbed Multiple Leaders (FPML) というアルゴリズムを提案するが、これは(Kalai と Vempala [2005] のテクニックを適応させることで)期待された後悔の $\mathcal{O}(T^{\frac{1}{B+1}}\ln(N)^{\frac{B}{B+1}})$ over time horizon $T$ を、後向きの $\textit{single}$ best arm in hindsight に比例して示している。 このことは、B$の予算とシングルベストアームの後悔のトレードオフを導入し、このトレードオフのいくつかの応用を調査します。 まず,これらのサブルーチンをFPMLに置き換えることで,標準的な後悔最小化器をサブルーチンとして利用するアルゴリズムが適用可能であることを考察し,オンラインサブモジュール関数最大化(Streeter and Golovin, 2008)のための既存のアルゴリズムを,完全なフィードバックと半帯域フィードバックの両方で一般化する。 次に,オンラインブラックボックスハイパーパラメータ最適化問題において,新たなアルゴリズムを経験的に評価する。 最後に、FPMLがより強力なオラクルを必要とする線形プログラミングのための新しいアルゴリズムにどのように導くかを示す。

In this work we consider a variant of adversarial online learning where in each round one picks $B$ out of $N$ arms and incurs cost equal to the $\textit{minimum}$ of the costs of each arm chosen. We propose an algorithm called Follow the Perturbed Multiple Leaders (FPML) for this problem, which we show (by adapting the techniques of Kalai and Vempala [2005]) achieves expected regret $\mathcal{O}(T^{\frac{1}{B+1}}\ln(N)^{\frac{B}{B+1}})$ over time horizon $T$ relative to the $\textit{single}$ best arm in hindsight. This introduces a trade-off between the budget $B$ and the single-best-arm regret, and we proceed to investigate several applications of this trade-off. First, we observe that algorithms which use standard regret minimizers as subroutines can sometimes be adapted by replacing these subroutines with FPML, and we use this to generalize existing algorithms for Online Submodular Function Maximization [Streeter and Golovin, 2008] in both the full feedback and semi-bandit feedback settings. Next, we empirically evaluate our new algorithms on an online black-box hyperparameter optimization problem. Finally, we show how FPML can lead to new algorithms for Linear Programming which require stronger oracles at the benefit of fewer oracle calls.
翻訳日:2022-10-13 13:10:26 公開日:2022-10-11
# 強化学習におけるタスク伝達の探索の役割

The Role of Exploration for Task Transfer in Reinforcement Learning ( http://arxiv.org/abs/2210.06168v1 )

ライセンス: Link先を確認
Jonathan C Balloch and Julia Kim and and Jessica L Inman and Mark O Riedl(参考訳) 強化学習における探索-探索トレードオフ(rl)は、欲望的な行動選択と新しい経験のバランスをとるよく知られ、広く研究されている問題であり、探索方法の研究は通常、単一学習タスクの最適方針を学ぶ文脈でのみ考慮される。 しかし、オンラインタスク転送の文脈では、オンライン操作中にタスクが変更される場合、将来のタスクに適応する必要性を期待する探索戦略が、転送効率に顕著な影響を及ぼす可能性があると仮定する。 したがって、転校学習の文脈において、探索・探索トレードオフを再検討する。 本研究では,強化学習探索法を概観し,それらを整理するための分類法を定義し,それらの方法のタスク転送の文脈における差異を分析し,今後の研究への道筋を提案する。

The exploration--exploitation trade-off in reinforcement learning (RL) is a well-known and much-studied problem that balances greedy action selection with novel experience, and the study of exploration methods is usually only considered in the context of learning the optimal policy for a single learning task. However, in the context of online task transfer, where there is a change to the task during online operation, we hypothesize that exploration strategies that anticipate the need to adapt to future tasks can have a pronounced impact on the efficiency of transfer. As such, we re-examine the exploration--exploitation trade-off in the context of transfer learning. In this work, we review reinforcement learning exploration methods, define a taxonomy with which to organize them, analyze these methods' differences in the context of task transfer, and suggest avenues for future investigation.
翻訳日:2022-10-13 13:01:57 公開日:2022-10-11
# 文脈対応ベイズ選択モデル

Context-aware Bayesian choice models ( http://arxiv.org/abs/2210.05737v1 )

ライセンス: Link先を確認
Miros{\l}awa {\L}ukawska, Anders Fjendbo Jensen, Filipe Rodrigues(参考訳) 混合多項ロジット(mmnl)モデルは、異なる選択状況を通じて意思決定者の一定の選好パラメータを仮定しており、特定の選択モデリングアプリケーションでは強すぎると考えられる。 本稿では、文脈依存型非対応不均一性をモデル化するための効果的なアプローチを提案し、ニューラルネットワークが各選択タイミングにおける各個人の選好パラメータのシフトに文脈依存型ベイズ混合多相ロジット(C-MMNL)モデルを提案する。 提案モデルにはいくつかの利点がある。 まず、連続変数と離散変数の両方をサポートし、両方の変数タイプ間の複雑な非線形相互作用をサポートする。 第2に、コンテキストのそれぞれの仕様は、独立に考慮される各変数ではなく、ニューラルネットワークによってまとめて考慮される。 最後に、ニューラルネットワークのパラメータはすべての意思決定者間で共有されるため、他の意思決定者からの情報を活用して、特定のコンテキストの影響を推測することができる。 C-MMNLモデルは属性間の柔軟な相互作用を可能にするが、MMNLモデルと比較して、モデルの複雑さと計算時間の増加はほとんどない。 本稿では,旅行モード選択モデルと自転車経路選択モデルという,旅行行動領域における実世界の2つのケーススタディについて述べる。 自転車経路選択モデルは、8,555人のサイクリストによる110,083回の移動を含む、大規模なクラウドソースによるGPS軌道のデータセットに基づいている。

The mixed multinomial logit (MMNL) model assumes constant preference parameters of a decision-maker throughout different choice situations, which may be considered too strong for certain choice modelling applications. This paper proposes an effective approach to model context-dependent intra-respondent heterogeneity and introduces the idea of Context-aware Bayesian Mixed Multinomial Logit (C-MMNL) Model, where a neural network maps contextual information to shifts in the preference parameters of each individual in each choice occasion. The proposed model offers several key advantages. First, it supports for both continuous and discrete variables, as well as complex non-linear interactions between both types of variables. Secondly, each specification of the context is considered jointly as a whole by the neural network rather than each variable being considered independently. Finally, since the parameters of the neural network are shared across all decision-makers, it can leverage information from other decision-makers and use it to infer the effect of a particular context. Even though the C-MMNL model allows for flexible interactions between attributes, there is hardly an increase in the complexity of the model and the computation time, compared to the MMNL model. We present two real-world case studies from travel behaviour domain - a travel mode choice model and a bicycle route choice model. The bicycle route choice model is based on a large-scale, crowdsourced dataset of GPS trajectories including 110,083 trips made by 8,555 cyclists.
翻訳日:2022-10-13 12:59:30 公開日:2022-10-11
# カーネルスタイン統計を用いたグラフ生成器評価のためのRKHS選択について

On RKHS Choices for Assessing Graph Generators via Kernel Stein Statistics ( http://arxiv.org/abs/2210.05746v1 )

ライセンス: Link先を確認
Moritz Weckbecker, Wenkai Xu, Gesine Reinert(参考訳) スコアベースのkernelized stein discrepancy (ksd) テストは、特に高次元において適合テストの良さの強力なツールとして登場したが、テストの性能は、基礎となる再生核ヒルベルト空間(英語版)(rkhs)におけるカーネルの選択に依存する可能性がある。 本稿では,Xu と Reinert (2021) の指数乱数グラフモデル (ERGM) と Xu と Reinert (2022) の合成グラフ生成器に対して開発されたランダムネットワークモデルの KSD 試験における RKHS 選択の効果を評価する。 高密度グラフとスパースグラフの両方を含む異なるシナリオで、テストのパワーパフォーマンスと計算ランタイムを調査した。 モデルアセスメントタスクのカーネル性能に関する実験結果を示し、合成および実世界のネットワークアプリケーション上で議論した。

Score-based kernelised Stein discrepancy (KSD) tests have emerged as a powerful tool for the goodness of fit tests, especially in high dimensions; however, the test performance may depend on the choice of kernels in an underlying reproducing kernel Hilbert space (RKHS). Here we assess the effect of RKHS choice for KSD tests of random networks models, developed for exponential random graph models (ERGMs) in Xu and Reinert (2021)and for synthetic graph generators in Xu and Reinert (2022). We investigate the power performance and the computational runtime of the test in different scenarios, including both dense and sparse graph regimes. Experimental results on kernel performance for model assessment tasks are shown and discussed on synthetic and real-world network applications.
翻訳日:2022-10-13 12:59:08 公開日:2022-10-11
# C-Mixup: 回帰の一般化を改善する

C-Mixup: Improving Generalization in Regression ( http://arxiv.org/abs/2210.05775v1 )

ライセンス: Link先を確認
Huaxiu Yao, Yiping Wang, Linjun Zhang, James Zou, Chelsea Finn(参考訳) ディープネットワークの一般化は、特に豊富なデータを持たない領域において、重要なオープン課題である。 混合アルゴリズムは、一対の例とその対応するラベルを線形補間することにより一般化を改善する。 これらの補間された例は、オリジナルのトレーニングセットを拡張します。 mixupは様々な分類タスクで有望な結果を示しているが、回帰におけるmixupの系統的分析は未検討である。 回帰ラベルに直接mixupを使用すると、任意に誤ったラベルが生成される。 本稿では,回帰タスクの一般化を改善するために,単純かつ強力なアルゴリズムであるc-mixupを提案する。 一様確率で混合する訓練例を選択するバニラミックスアップとは対照的に、c-ミックスアップはラベルの類似度に基づいてサンプリング確率を調整する。 C-Mixupのラベル類似性は,バニラミキサップよりも教師付き回帰およびメタ回帰において平均2乗誤差が小さく,特徴類似性も小さいことを理論的に確認した。 c-mixupのもう1つの利点は、テスト分布がトレーニング分布と異なる分散のロバスト性を改善することである。 類似ラベルで例を選択的に補間することにより、ドメイン関連情報の影響を緩和し、ドメイン不変表現を生成する。 表データからビデオデータまで,11のデータセットでc-mixupを評価した。 最良の事前アプローチと比較して、c-mixupは6.56%、4.76%、5.82%のin-distribution generalization、task generalization、out-of-distribution robustnessを達成している。 コードはhttps://github.com/huaxiuyao/c-mixupでリリースされる。

Improving the generalization of deep networks is an important open challenge, particularly in domains without plentiful data. The mixup algorithm improves generalization by linearly interpolating a pair of examples and their corresponding labels. These interpolated examples augment the original training set. Mixup has shown promising results in various classification tasks, but systematic analysis of mixup in regression remains underexplored. Using mixup directly on regression labels can result in arbitrarily incorrect labels. In this paper, we propose a simple yet powerful algorithm, C-Mixup, to improve generalization on regression tasks. In contrast with vanilla mixup, which picks training examples for mixing with uniform probability, C-Mixup adjusts the sampling probability based on the similarity of the labels. Our theoretical analysis confirms that C-Mixup with label similarity obtains a smaller mean square error in supervised regression and meta-regression than vanilla mixup and using feature similarity. Another benefit of C-Mixup is that it can improve out-of-distribution robustness, where the test distribution is different from the training distribution. By selectively interpolating examples with similar labels, it mitigates the effects of domain-associated information and yields domain-invariant representations. We evaluate C-Mixup on eleven datasets, ranging from tabular to video data. Compared to the best prior approach, C-Mixup achieves 6.56%, 4.76%, 5.82% improvements in in-distribution generalization, task generalization, and out-of-distribution robustness, respectively. Code is released at https://github.com/huaxiuyao/C-Mixup.
翻訳日:2022-10-13 12:58:50 公開日:2022-10-11
# 文脈拡張言語モデリングのための分離文脈処理

Decoupled Context Processing for Context Augmented Language Modeling ( http://arxiv.org/abs/2210.05758v1 )

ライセンス: Link先を確認
Zonglin Li, Ruiqi Guo, Sanjiv Kumar(参考訳) 言語モデルは、大きな外部データベースからの知識を組み込むためにコンテキストレトリバーで拡張できる。 取得したコンテキストを活用することで、ニューラルネットワークは内部パラメータ内の膨大な世界の知識を記憶する必要がなく、パラメータ効率、解釈可能性、モジュール性が向上する。 本稿では,分離されたエンコーダデコーダアーキテクチャに基づいて,外部コンテキストを言語モデルに組み込むシンプルなアーキテクチャについて検討する。 このような単純なアーキテクチャは、自動回帰型言語モデリングとオープンドメイン質問応答タスクにおいて競合的な結果をもたらすことを示した。 また,グラウンデッド・コンテキスト・トランスファーを行う提案モデルの挙動を解析した。 最後に、このような検索強化モデルの計算的意味について論じる。

Language models can be augmented with a context retriever to incorporate knowledge from large external databases. By leveraging retrieved context, the neural network does not have to memorize the massive amount of world knowledge within its internal parameters, leading to better parameter efficiency, interpretability and modularity. In this paper we examined a simple yet effective architecture for incorporating external context into language models based on decoupled Encoder Decoder architecture. We showed that such a simple architecture achieves competitive results on auto-regressive language modeling and open domain question answering tasks. We also analyzed the behavior of the proposed model which performs grounded context transfer. Finally we discussed the computational implications of such retrieval augmented models.
翻訳日:2022-10-13 12:52:12 公開日:2022-10-11
# FrameNetを中国語に応用する(詩)

Applying FrameNet to Chinese(Poetry) ( http://arxiv.org/abs/2210.05772v1 )

ライセンス: Link先を確認
Zirong Chen(参考訳) framenet(fillmore and baker [2009])は、継承に基づくオントロジーとlexica(trott et al. [2020])という形での知識表現の幅広い使用で有名である。 FrameNetは通常、英語、スペイン語、イタリア語などの言語に適用されるが、中国語のような他の言語で利用可能なFrameNetデータセットは、ラテンアルファベットに基づく言語とは大きく異なる。 本論では、漢詩から現代漢詩への翻訳を最初に行い、シャン西大学から提供された中国語フレームネット(cfn)をさらに適用する。 その後、現代中国語からの翻訳とCFNと英語FrameNetの応用の比較を行う。 最後に、cfnと現代中国語と英語のフレームネットを比較します。

FrameNet( Fillmore and Baker [2009] ) is well-known for its wide use for knowledge representation in the form of inheritance-based ontologies and lexica( Trott et al. [2020] ). Although FrameNet is usually applied to languages like English, Spanish and Italian, there are still plenty of FrameNet data sets available for other languages like Chinese, which differs significantly from those languages based on Latin alphabets. In this paper, the translation from ancient Chinese Poetry to modern Chinese will be first conducted to further apply the Chinese FrameNet(CFN, provided by Shanxi University). Afterwards, the translation from modern Chinese will be conducted as well for the comparison between the applications of CFN and English FrameNet. Finally, the overall comparison will be draw between CFN to modern Chinese and English FrameNet.
翻訳日:2022-10-13 12:52:02 公開日:2022-10-11
# 変分オートエンコーダと1級支持ベクトルマシンによる構造物損傷の教師なし検出

Unsupervised detection of structural damage using Variational Autoencoder and a One-Class Support Vector Machine ( http://arxiv.org/abs/2210.05674v1 )

ライセンス: Link先を確認
Andrea Pollastro, Giusiana Testa, Antonio Bilotta, Roberto Prevete(参考訳) 近年,構造的ヘルスモニタリング(shm)システムにおいて,ニューラルネットワーク(anns)が導入されている。 データ駆動アプローチによる教師なし手法は、損傷のない構造条件から取得したデータに対するannトレーニングを可能にし、構造的損傷を検出する。 標準的なアプローチでは、トレーニング段階の後、決定ルールを手動で定義し、異常なデータを検出する。 しかし、このプロセスは、ハイパーパラメータ最適化技術を用いて性能を最大化する機械学習手法を用いて自動で行うことができる。 本稿では,構造異常を検出するためのデータ駆動アプローチによる教師なし手法を提案する。 方法論は以下の通りである。 (i)無傷データ分布を近似する変分オートエンコーダ(vae)と (ii)vae信号再構成から抽出した損傷に敏感な特徴を用いて異なる健康状態を判別する一級支援ベクターマシン(oc-svm)。 IASC-ASCE 構造健康モニタリングタスクグループによって9つの損傷シナリオで試験されたスケール鋼構造物に適用した。

In recent years, Artificial Neural Networks (ANNs) have been introduced in Structural Health Monitoring (SHM) systems. An unsupervised method with a data-driven approach allows the ANN training on data acquired from an undamaged structural condition to detect structural damages. In standard approaches, after the training stage, a decision rule is manually defined to detect anomalous data. However, this process could be made automatic using machine learning methods, whom performances are maximised using hyperparameter optimization techniques. The paper proposes an unsupervised method with a data-driven approach to detect structural anomalies. The methodology consists of: (i) a Variational Autoencoder (VAE) to approximate undamaged data distribution and (ii) a One-Class Support Vector Machine (OC-SVM) to discriminate different health conditions using damage sensitive features extracted from VAE's signal reconstruction. The method is applied to a scale steel structure that was tested in nine damage's scenarios by IASC-ASCE Structural Health Monitoring Task Group.
翻訳日:2022-10-13 12:51:48 公開日:2022-10-11
# 一貫性と相補性に向けて:マルチビューグラフ情報ボトルネックアプローチ

Towards Consistency and Complementarity: A Multiview Graph Information Bottleneck Approach ( http://arxiv.org/abs/2210.05676v1 )

ライセンス: Link先を確認
Xiaolong Fan and Maoguo Gong and Yue Wu and Mingyang Zhang and Hao Li and Xiangming Jiang(参考訳) グラフニューラルネットワーク(GNN)の実証研究は、元のノードの特徴と隣接関係を単一ビュー入力として、複数のグラフビューの豊富な情報を無視している。 この問題を回避するため、マルチビューグラフ分析フレームワークが開発され、ビューにまたがるグラフ情報を融合している。 共有(一貫性)とビュー固有(相補性)情報をモデル化し、統合する方法は、マルチビューグラフ解析において重要な問題である。 本稿では,共通表現の合意とビュー固有表現の不一致を最大化するために,MVGIB(Multiview Variational Graph Information Bottleneck)の原理を提案する。 この原則の下で、相互情報からの制約を用いて、多視点間における共通およびビュー固有の情報ボトルネックの目標を定式化する。 しかし、相互情報が計算的に難解であるため、これらの目的を直接最適化することは困難である。 この課題に取り組むために、相互情報項の変分下界と上界を導出し、代わりに変分境界を最適化して情報目的の近似解を求める。 グラフベンチマークデータセットの広範な実験により,提案手法の有効性が示された。

The empirical studies of Graph Neural Networks (GNNs) broadly take the original node feature and adjacency relationship as singleview input, ignoring the rich information of multiple graph views. To circumvent this issue, the multiview graph analysis framework has been developed to fuse graph information across views. How to model and integrate shared (i.e. consistency) and view-specific (i.e. complementarity) information is a key issue in multiview graph analysis. In this paper, we propose a novel Multiview Variational Graph Information Bottleneck (MVGIB) principle to maximize the agreement for common representations and the disagreement for view-specific representations. Under this principle, we formulate the common and view-specific information bottleneck objectives across multiviews by using constraints from mutual information. However, these objectives are hard to directly optimize since the mutual information is computationally intractable. To tackle this challenge, we derive variational lower and upper bounds of mutual information terms, and then instead optimize variational bounds to find the approximate solutions for the information objectives. Extensive experiments on graph benchmark datasets demonstrate the superior effectiveness of the proposed method.
翻訳日:2022-10-13 12:51:33 公開日:2022-10-11
# てんかん状態としての埋め込み:知識蓄積のためのプール演算子の使用制限

Embeddings as Epistemic States: Limitations on the Use of Pooling Operators for Accumulating Knowledge ( http://arxiv.org/abs/2210.05723v1 )

ライセンス: Link先を確認
Steven Schockaert(参考訳) さまざまなニューラルネットワークアーキテクチャは、異なるソースからの情報を集約するためにプールオペレータに依存している。 そのような文脈では、ベクトルがエピステミック状態を符号化する、すなわち、ベクトルが興味のある性質について得られた証拠を捉え、これらのベクトルをプールすると、この証拠を組み合わせるベクトルが得られるという暗黙的に仮定されることが多い。 多くの標準的なプール演算子に対して、このアイデアとどのような条件で互換性があるのかを考察し、それをエピステミック・プール原理(英語版)と呼ぶ。 検討された全てのプール作用素は、エピステミック・プールの原理を満たすことができるが、これは埋め込みが十分に高次元であり、ほとんどのプール作用素が特定の制約を満たすときのみ成り立つ(例えば、非負座標を持つ)。 次に、与えられたベクトルによって符号化された認識論的状態において任意の命題公式が満たされているかどうかを検証できるという考えから、これらの制約の影響を考察する。 認識的プーリング原理が満たされると、多くの場合、線形スコアリング関数を用いた命題公式の満足度を検証することは不可能であり、2つの例外がある。 (i)上界および上界の埋め込みによる最大プール (II)非負の埋め込みを伴うアダマールプール 最後に, 最大プーリングが最適な演算子として現れる重み付きててんかん状態に対する, てんかんプールの原理の拡張についても検討した。

Various neural network architectures rely on pooling operators to aggregate information coming from different sources. It is often implicitly assumed in such contexts that vectors encode epistemic states, i.e. that vectors capture the evidence that has been obtained about some properties of interest, and that pooling these vectors yields a vector that combines this evidence. We study, for a number of standard pooling operators, under what conditions they are compatible with this idea, which we call the epistemic pooling principle. While we find that all the considered pooling operators can satisfy the epistemic pooling principle, this only holds when embeddings are sufficiently high-dimensional and, for most pooling operators, when the embeddings satisfy particular constraints (e.g. having non-negative coordinates). We then study the implications of these constraints, starting from the idea that we should be able to verify whether an arbitrary propositional formula is satisfied in the epistemic state encoded by a given vector. We find that when the epistemic pooling principle is satisfied, in most cases it is impossible to verify the satisfaction of propositional formulas using linear scoring functions, with two exceptions: (i) max-pooling with embeddings that are upper-bounded and (ii) Hadamard pooling with non-negative embeddings. Finally, we also study an extension of the epistemic pooling principle to weighted epistemic states, where max-pooling emerges as the most suitable operator.
翻訳日:2022-10-13 12:51:15 公開日:2022-10-11
# 二元エネルギーモデル学習のための勾配誘導重要度サンプリング

Gradient-Guided Importance Sampling for Learning Binary Energy-Based Models ( http://arxiv.org/abs/2210.05782v1 )

ライセンス: Link先を確認
Meng Liu, Haoran Liu, Shuiwang Ji(参考訳) 学習エネルギーベースモデル(EBM)は、特に勾配に基づく学習戦略を直接適用できない離散データでは困難であることが知られている。 比マッチングは離散的なebmを学習するための健全な手法であるが、高価な計算と過剰なメモリ要求に苦しむため、高次元データでebmを学習することが困難になる。 そこで本研究では,これらの制約から,勾配誘導重要度サンプリング(RMwGGIS)との比率マッチングを提案する。 特に、離散データ空間におけるエネルギー関数 w.r.t. の勾配を用いて、実現可能な最適提案分布を概ね構築し、その後、重要サンプリングにより元の比マッチング対象を効率的に推定する。 合成離散データを用いた密度モデリング実験,グラフ生成,Isingモデルの訓練を行い,提案手法の評価を行った。 実験の結果,本手法は,比マッチングの限界を大幅に緩和し,実際より効果的に動作し,高次元問題にスケールできることがわかった。 私たちの実装は、https://github.com/divelab/RMwGGISで公開されています。

Learning energy-based models (EBMs) is known to be difficult especially on discrete data where gradient-based learning strategies cannot be applied directly. Although ratio matching is a sound method to learn discrete EBMs, it suffers from expensive computation and excessive memory requirement, thereby resulting in difficulties for learning EBMs on high-dimensional data. Motivated from these limitations, in this study, we propose ratio matching with gradient-guided importance sampling (RMwGGIS). Particularly, we use the gradient of the energy function w.r.t. the discrete data space to approximately construct the provably optimal proposal distribution, which is subsequently used by importance sampling to efficiently estimate the original ratio matching objective. We perform experiments on density modeling over synthetic discrete data, graph generation, and training Ising models to evaluate our proposed method. The experimental results demonstrate that our method can significantly alleviate the limitations of ratio matching, perform more effectively in practice, and scale to high-dimensional problems. Our implementation is available at {https://github.com/divelab/RMwGGIS.
翻訳日:2022-10-13 12:50:49 公開日:2022-10-11
# 楕円型エピソディックボーナスによる探索

Exploration via Elliptical Episodic Bonuses ( http://arxiv.org/abs/2210.05805v1 )

ライセンス: Link先を確認
Mikael Henaff, Roberta Raileanu, Minqi Jiang, Tim Rockt\"aschel(参考訳) 近年,エピソードごとに異なる複雑な環境を探索するための強化学習(rl)手法が提案されている。 本研究は,これらの手法の有効性が,探索ボーナスにおけるカウントベースエピソード項に依存することを示す。 その結果、比較的単純でノイズのない環境での成功にもかかわらず、これらの手法は、状態空間が広くノイズのやすいより現実的なシナリオでは不十分である。 この制限に対処するために,e3b(elliptical episodic bonuses)による探索を導入する。e3bはカウントベースのエピソディックボーナスを連続状態空間に拡張し,各エピソードで学習された埋め込み下で多様な状態を探索するようにエージェントに促す新しい手法である。 埋め込みは、環境の制御可能な側面を捉えるために、逆ダイナミクスモデルを用いて学習される。 提案手法は,タスク固有の帰納バイアスを必要とせずに,MiniHackスイートから16の課題にまたがる新しい最先端のタスクを設定する。 E3Bはまた、スパース報酬、ピクセルベースのVizDoom環境の既存の手法と一致し、Habitatでの報酬のない探索において既存の手法よりも優れており、高次元のピクセルベースの観測や現実的な環境にスケールできることを実証している。

In recent years, a number of reinforcement learning (RL) methods have been proposed to explore complex environments which differ across episodes. In this work, we show that the effectiveness of these methods critically relies on a count-based episodic term in their exploration bonus. As a result, despite their success in relatively simple, noise-free settings, these methods fall short in more realistic scenarios where the state space is vast and prone to noise. To address this limitation, we introduce Exploration via Elliptical Episodic Bonuses (E3B), a new method which extends count-based episodic bonuses to continuous state spaces and encourages an agent to explore states that are diverse under a learned embedding within each episode. The embedding is learned using an inverse dynamics model in order to capture controllable aspects of the environment. Our method sets a new state-of-the-art across 16 challenging tasks from the MiniHack suite, without requiring task-specific inductive biases. E3B also matches existing methods on sparse reward, pixel-based VizDoom environments, and outperforms existing methods in reward-free exploration on Habitat, demonstrating that it can scale to high-dimensional pixel-based observations and realistic environments.
翻訳日:2022-10-13 12:50:29 公開日:2022-10-11
# 場面記述・削除課題における不特定性

Underspecification in Scene Description-to-Depiction Tasks ( http://arxiv.org/abs/2210.05815v1 )

ライセンス: Link先を確認
Ben Hutchinson, Jason Baldridge, Vinodkumar Prabhakaran(参考訳) マルチモーダル画像+テキストシステムにおけるタスクの妥当性や倫理的懸念を理解するためには,暗黙性,曖昧さ,過小評価に関する疑問が不可欠である。 本稿では,シーン記述からシーンを描写した画像を生成するシステムに着目し,このギャップに対処するための概念的枠組みについて述べる。 そうすることで、テキストと画像が意味を異なる形で伝える方法が説明できます。 テキストと視覚のあいまいさに関する主要な課題と、曖昧で不明瞭な要素によって増幅される可能性のあるリスクについて概説する。 本稿では,視覚的不明瞭な画像の生成や多様な画像の生成など,これらの課題に対処するための戦略を提案し,議論する。

Questions regarding implicitness, ambiguity and underspecification are crucial for understanding the task validity and ethical concerns of multimodal image+text systems, yet have received little attention to date. This position paper maps out a conceptual framework to address this gap, focusing on systems which generate images depicting scenes from scene descriptions. In doing so, we account for how texts and images convey meaning differently. We outline a set of core challenges concerning textual and visual ambiguity, as well as risks that may be amplified by ambiguous and underspecified elements. We propose and discuss strategies for addressing these challenges, including generating visually ambiguous images, and generating a set of diverse images.
翻訳日:2022-10-13 12:44:24 公開日:2022-10-11
# シャプレーヘッドプルーニング : 多言語トランスフォーマーにおける干渉の同定と除去

Shapley Head Pruning: Identifying and Removing Interference in Multilingual Transformers ( http://arxiv.org/abs/2210.05709v1 )

ライセンス: Link先を確認
William Held and Diyi Yang(参考訳) 多言語トランスフォーマーに基づくモデルは、言語に依存しない特徴を学習し再利用することによって、言語間での顕著なゼロと少数ショットの転送を示す。 しかし、固定サイズのモデルがより多くの言語を取得すると、すべての言語のパフォーマンスが低下する。 モデルキャパシティに制限があるため、しばしば干渉は、トランスフォーマーベースのモデルが過パラメータ化されているという証拠にもかかわらず、追加パラメータを追加することで対処される。 そこで本研究では,言語固有のパラメータを識別し,刈り取ることで干渉を低減できることを示す。 まず,連立ゲーム理論の信用割当指標であるshapley valuesを用いて,介入を生じさせる注意ヘッドの同定を行う。 そして,定型モデルから同定された注目ヘッドを除去することで,文分類と構造予測の両方において目標言語の性能が向上し,最大24.7\%のゲインが得られることを示す。 最後に,注意の可視化を用いた言語非依存および言語固有の注意ヘッドに関する洞察を提供する。

Multilingual transformer-based models demonstrate remarkable zero and few-shot transfer across languages by learning and reusing language-agnostic features. However, as a fixed-size model acquires more languages, its performance across all languages degrades, a phenomenon termed interference. Often attributed to limited model capacity, interference is commonly addressed by adding additional parameters despite evidence that transformer-based models are overparameterized. In this work, we show that it is possible to reduce interference by instead identifying and pruning language-specific parameters. First, we use Shapley Values, a credit allocation metric from coalitional game theory, to identify attention heads that introduce interference. Then, we show that removing identified attention heads from a fixed model improves performance for a target language on both sentence classification and structural prediction, seeing gains as large as 24.7\%. Finally, we provide insights on language-agnostic and language-specific attention heads using attention visualization.
翻訳日:2022-10-13 12:43:26 公開日:2022-10-11
# Vote'n'Rank: 社会的選択理論によるベンチマークの改訂

Vote'n'Rank: Revision of Benchmarking with Social Choice Theory ( http://arxiv.org/abs/2210.05769v1 )

ライセンス: Link先を確認
Mark Rofin, Vladislav Mikhailov, Mikhail Florinskiy, Andrey Kravchenko, Elena Tutubalina, Tatiana Shavrina, Daniel Karabekyan, Ekaterina Artemova(参考訳) 機械学習(ML)のさまざまな応用分野における最先端システムの開発は、複数の視点から一般化能力を評価するパラダイムを形成するベンチマークによって進められている。 パラダイムは様々なタスクにわたるよりきめ細かい評価へとシフトしているが、パフォーマンスを集約する方法に関する繊細な質問はコミュニティに特に関心を集めている。 一般に、ベンチマークは、タスク固有のメトリクスの平均スコアに基づいて、システムがランク付けされる、見知らぬ実用原則に従っている。 このようなアグリゲーション手順は準最適評価プロトコルと見なされ、進歩の錯覚を生み出した可能性がある。 本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。 本研究では,いくつかのMLサブフィールドにおけるベンチマークの新たな洞察を効果的に活用し,研究・開発事例研究において最も優れたシステムを特定することができることを示す。 Vote'n'Rankの手順は平均よりも堅牢であり、失ったパフォーマンススコアを処理し、システムが勝者となる条件を決定することができる。

The development of state-of-the-art systems in different applied areas of machine learning (ML) is driven by benchmarks, which have shaped the paradigm of evaluating generalisation capabilities from multiple perspectives. Although the paradigm is shifting towards more fine-grained evaluation across diverse tasks, the delicate question of how to aggregate the performances has received particular interest in the community. In general, benchmarks follow the unspoken utilitarian principles, where the systems are ranked based on their mean average score over task-specific metrics. Such aggregation procedure has been viewed as a sub-optimal evaluation protocol, which may have created the illusion of progress. This paper proposes Vote'n'Rank, a framework for ranking systems in multi-task benchmarks under the principles of the social choice theory. We demonstrate that our approach can be efficiently utilised to draw new insights on benchmarking in several ML sub-fields and identify the best-performing systems in research and development case studies. The Vote'n'Rank's procedures are more robust than the mean average while being able to handle missing performance scores and determine conditions under which the system becomes the winner.
翻訳日:2022-10-13 12:43:09 公開日:2022-10-11
# 識別・転送可能なワンステップFew-Shotオブジェクト検出器を目指して

Towards Discriminative and Transferable One-Stage Few-Shot Object Detectors ( http://arxiv.org/abs/2210.05783v1 )

ライセンス: Link先を確認
Karim Guirguis, Mohamed Abdelsamad, George Eskandar, Ahmed Hendawy, Matthias Kayser, Bin Yang, Juergen Beyerer(参考訳) 最近のオブジェクト検出モデルは、新しいクラスのオブジェクトをトレーニングするために大量の注釈データを必要とする。 Few-shot Object Detection (FSOD) は、少数のサンプルを与えられた新しいクラスを学習することでこの問題に対処することを目的としている。 2段階のFSOD検出器で競合する結果が得られたが、通常は1段階のFSODはそれに比べて性能が劣る。 本報告では,2段階fsodと1段階fsod間の性能の差が大きいのは,その弱識別性が主であり,損失関数の小さい輸液後受容野と少数の前景試料によって説明される。 これらの制限に対処するために,我々は,密度の高いメタ検出器の前景サンプル数を増加させるマルチウェイサポートトレーニング戦略,アンカーエリア全体をカバーする広い受容領域を提供する初期マルチレベル機能融合,クエリとソースイメージの2つの強化技術,からなる,少数ショットのretinanet (fsrn)を提案する。 広範な実験により、提案手法が限界に対処し、識別性と伝達可能性の両方を増加させることが示されている。 FSRNは2段階のFSODよりもほぼ2倍高速で精度は高く、MS-COCOとPASCAL VOCのベンチマークでは1段階のメタ検出器と2段階のFSODよりも優れている。

Recent object detection models require large amounts of annotated data for training a new classes of objects. Few-shot object detection (FSOD) aims to address this problem by learning novel classes given only a few samples. While competitive results have been achieved using two-stage FSOD detectors, typically one-stage FSODs underperform compared to them. We make the observation that the large gap in performance between two-stage and one-stage FSODs are mainly due to their weak discriminability, which is explained by a small post-fusion receptive field and a small number of foreground samples in the loss function. To address these limitations, we propose the Few-shot RetinaNet (FSRN) that consists of: a multi-way support training strategy to augment the number of foreground samples for dense meta-detectors, an early multi-level feature fusion providing a wide receptive field that covers the whole anchor area and two augmentation techniques on query and source images to enhance transferability. Extensive experiments show that the proposed approach addresses the limitations and boosts both discriminability and transferability. FSRN is almost two times faster than two-stage FSODs while remaining competitive in accuracy, and it outperforms the state-of-the-art of one-stage meta-detectors and also some two-stage FSODs on the MS-COCO and PASCAL VOC benchmarks.
翻訳日:2022-10-13 12:41:53 公開日:2022-10-11
# 動的顔合成のための制御可能な放射場

Controllable Radiance Fields for Dynamic Face Synthesis ( http://arxiv.org/abs/2210.05825v1 )

ライセンス: Link先を確認
Peiye Zhuang, Liqian Ma, Oluwasanmi Koyejo, Alexander G. Schwing(参考訳) 最近の3D認識画像合成の研究は、ニューラルレンダリングの進歩により、説得力のある成果を上げている。 しかし、顔力学の3D認識合成はあまり注目されていない。 そこで本研究では,非剛性動作(表情変化など)を示す顔力学の生成モデル生成を,同時に3D認識の確保を図る。 そのため、制御可能な放射場(CoRF: Controllable Radiance Field)を提案する。 1) 動作制御は, スタイルベースジェネレータの層状潜在運動空間内に運動特徴を埋め込むことにより達成される。 2)背景、動きの特徴、照明、テクスチャ、形状、アルベド、アイデンティティなどの主題固有の属性の整合性を確保するため、顔解析ネット、ヘッドレグレッサ、アイデンティティエンコーダが組み込まれている。 頭部画像・映像データから,CoRFは3次元認識可能であり,識別,視聴方向,動きの編集が可能であった。

Recent work on 3D-aware image synthesis has achieved compelling results using advances in neural rendering. However, 3D-aware synthesis of face dynamics hasn't received much attention. Here, we study how to explicitly control generative model synthesis of face dynamics exhibiting non-rigid motion (e.g., facial expression change), while simultaneously ensuring 3D-awareness. For this we propose a Controllable Radiance Field (CoRF): 1) Motion control is achieved by embedding motion features within the layered latent motion space of a style-based generator; 2) To ensure consistency of background, motion features and subject-specific attributes such as lighting, texture, shapes, albedo, and identity, a face parsing net, a head regressor and an identity encoder are incorporated. On head image/video data we show that CoRFs are 3D-aware while enabling editing of identity, viewing directions, and motion.
翻訳日:2022-10-13 12:41:14 公開日:2022-10-11
# 言語に依存しない姿勢検出のための関係埋め込み

Relational Embeddings for Language Independent Stance Detection ( http://arxiv.org/abs/2210.05715v1 )

ライセンス: Link先を確認
Joseba Fernandez de Landa and Rodrigo Agerri(参考訳) スタンス検出で実施された研究の大部分は、Twitterなどのソーシャルネットワークデータに基づくベンチマークが多い場合でも、多かれ少なかれ高度なテキスト分類システムの開発に焦点が当てられている。 本稿では,テキスト自体だけでなく,ソーシャルネットワーク上で利用可能なインタラクションデータにも重点を置いてスタンス検出作業を実施することを目的とする。 具体的には、リレーショナルな埋め込み、すなわち相互作用対のベクトル表現を生成することで、友人やリツイートなどのソーシャル情報を活用する新しい手法を提案する。 我々の手法は手動のチューニングなしに任意の言語やターゲットに適用できる。 7つの公開データセットと4つの異なる言語に関する実験では、我々のリレーショナル埋め込みとテキストメソッドを組み合わせることで、パフォーマンスが大幅に向上し、7つのうち6つで最高の結果が得られ、大きな事前学習された言語モデルに基づく強力なベースラインよりも優れています。

The large majority of the research performed on stance detection has been focused on developing more or less sophisticated text classification systems, even when many benchmarks are based on social network data such as Twitter. This paper aims to take on the stance detection task by placing the emphasis not so much on the text itself but on the interaction data available on social networks. More specifically, we propose a new method to leverage social information such as friends and retweets by generating relational embeddings, namely, dense vector representations of interaction pairs. Our method can be applied to any language and target without any manual tuning. Our experiments on seven publicly available datasets and four different languages show that combining our relational embeddings with textual methods helps to substantially improve performance, obtaining best results for six out of seven evaluation settings, outperforming strong baselines based on large pre-trained language models.
翻訳日:2022-10-13 12:23:26 公開日:2022-10-11
# bil-dos:バイリンガル対話注文システム(地下鉄用)

Bil-DOS: A Bi-lingual Dialogue Ordering System (for Subway) ( http://arxiv.org/abs/2210.05773v1 )

ライセンス: Link先を確認
Zirong Chen and Haotian Xue(参考訳) 具材の特定の単語(または固有名詞)に親しみがないため、非ネイティブ英語話者は地下鉄のようなレストランの注文プロセスについて非常に混乱することがある。 そこで我々は中国語(マンダリン)1と英語2を同時にサポートする対話システムを開発した。 言い換えれば、会話が行われている間、ユーザーは中国語(中国語)と英語(中国語)を任意に切り替えることができる。 このシステムは地下鉄3番線用に特別に設計されている。 In BilDOS, we designed a Discriminator module to tell the language is being used in inputted user utterance, a Translator module to translate used language into English if it is not English, and a Dialogue Manager module to detect the intention within inputted user utterances, handle outlier inputs by throwing clarification requests, map detected Intention and detailed Keyword4 into a particular intention class, locate the current ordering process, continue to give queries to finish the order, conclude the order details once the order is completed, activate the evaluation process when the conversation is done.

Due to the unfamiliarity to particular words(or proper nouns) for ingredients, non-native English speakers can be extremely confused about the ordering process in restaurants like Subway. Thus, We developed a dialogue system, which supports Chinese(Mandarin)1 and English2 at the same time. In other words, users can switch arbitrarily between Chinese(Mandarin) and English as the conversation is being conducted. This system is specifically designed for Subway ordering3. In BilDOS, we designed a Discriminator module to tell the language is being used in inputted user utterance, a Translator module to translate used language into English if it is not English, and a Dialogue Manager module to detect the intention within inputted user utterances, handle outlier inputs by throwing clarification requests, map detected Intention and detailed Keyword4 into a particular intention class, locate the current ordering process, continue to give queries to finish the order, conclude the order details once the order is completed, activate the evaluation process when the conversation is done.
翻訳日:2022-10-13 12:23:10 公開日:2022-10-11
# AMICO: Amodalインスタンスの構成

AMICO: Amodal Instance Composition ( http://arxiv.org/abs/2210.05828v1 )

ライセンス: Link先を確認
Peiye Zhuang, Jia-bin Huang, Ayush Saraf, Xuejian Rong, Changil Kim, Denis Demandolx(参考訳) 画像合成は、複数のオブジェクトをブレンドして調和した画像を形成することを目的としている。 既存のアプローチは、しばしば正確に区切られた、そして無傷なオブジェクトを仮定する。 しかし、そのような仮定は制約のないシナリオでは満たせない。 対象画像に不完全なオブジェクト -- 潜在的に不完全かつ/または粗いセグメンテーションを持つ -- を合成するためのamodalインスタンス構成を提案する。 まず,オブジェクト形状予測とコンテンツ補完モジュールを開発し,アモーダルコンテンツを合成する。 次に,オブジェクトをシームレスにブレンドするニューラルコンポジションモデルを提案する。 我々の主な技術的特徴は、前景/後景表現を分離し、マスク予測をブレンドしてセグメンテーションエラーを軽減することである。 以上の結果から,COCOAおよびKINSベンチマークの最先端性能と,様々な場面での視覚的結果が得られた。 オブジェクト挿入や非閉塞化などの様々な画像合成応用を実演する。

Image composition aims to blend multiple objects to form a harmonized image. Existing approaches often assume precisely segmented and intact objects. Such assumptions, however, are hard to satisfy in unconstrained scenarios. We present Amodal Instance Composition for compositing imperfect -- potentially incomplete and/or coarsely segmented -- objects onto a target image. We first develop object shape prediction and content completion modules to synthesize the amodal contents. We then propose a neural composition model to blend the objects seamlessly. Our primary technical novelty lies in using separate foreground/background representations and blending mask prediction to alleviate segmentation errors. Our results show state-of-the-art performance on public COCOA and KINS benchmarks and attain favorable visual results across diverse scenes. We demonstrate various image composition applications such as object insertion and de-occlusion.
翻訳日:2022-10-13 12:16:16 公開日:2022-10-11
# 合成パワー分析 : 経験的評価と認知神経イメージングへの応用

Synthetic Power Analyses: Empirical Evaluation and Application to Cognitive Neuroimaging ( http://arxiv.org/abs/2210.05835v1 )

ライセンス: Link先を確認
Peiye Zhuang, Bliss Chapman, Ran Li, Oluwasanmi Koyejo(参考訳) 実験科学では、必要なサンプルサイズを決定するためにデータ収集の前に統計パワー分析がしばしば用いられる。 しかし、データ収集が難しい場合やコストがかかる場合、従来の電力分析はコストがかかる。 本研究では,様々なサンプルサイズにおける統計的パワー推定のための枠組みである合成パワー解析を提案し,認知神経科学実験におけるサンプルサイズ選択のための合成パワー解析の性能を実証的に検討する。 この目的のために、観察された認知過程に基づいて暗黙的な生成モデルを用いて脳画像データを合成する。 さらに,保守的な統計結果をもたらす統計検査を簡易に修正する手法を提案する。 実験結果から, 提案実験が先行実験と認知過程を共有する場合, 合成電力分析がパイロットデータ収集の低コストな代替となる可能性が示唆された。

In the experimental sciences, statistical power analyses are often used before data collection to determine the required sample size. However, traditional power analyses can be costly when data are difficult or expensive to collect. We propose synthetic power analyses; a framework for estimating statistical power at various sample sizes, and empirically explore the performance of synthetic power analysis for sample size selection in cognitive neuroscience experiments. To this end, brain imaging data is synthesized using an implicit generative model conditioned on observed cognitive processes. Further, we propose a simple procedure to modify the statistical tests which result in conservative statistics. Our empirical results suggest that synthetic power analysis could be a low-cost alternative to pilot data collection when the proposed experiments share cognitive processes with previously conducted experiments.
翻訳日:2022-10-13 12:16:02 公開日:2022-10-11
# ロボットナビゲーションのための視覚言語マップ

Visual Language Maps for Robot Navigation ( http://arxiv.org/abs/2210.05714v1 )

ライセンス: Link先を確認
Chenguang Huang, Oier Mees, Andy Zeng, Wolfram Burgard(参考訳) ナビゲーションエージェントの視覚的観察に対する接地言語は、インターネットスケールのデータ(例えば画像キャプション)に基づいて事前訓練された市販のビジュアル言語モデルを用いて行うことができる。 これは、対象目標の自然言語記述と画像のマッチングに有用であるが、環境のマッピングのプロセスとは無関係であり、古典的な幾何学的地図の空間的精度に欠ける。 この問題に対処するために,実世界の3次元再構成で事前学習した視覚的特徴を直接融合する空間地図表現VLMapsを提案する。 VLMapsは、標準的な探索アプローチを使用して、ロボットのビデオフィードから自律的に構築することができ、ラベル付きデータを追加せずに、マップの自然言語インデックス化を可能にする。 具体的には、大きな言語モデル(LLM)と組み合わせることで、VLMapsを使うことができる。 (i)自然言語コマンドを一連の公用語のナビゲーション目標(例えば「ソファーとテレビの間」または「椅子の右に3メートル」)に翻訳し、地図内で直接ローカライズする。 (II) 異なる実施形態の複数のロボット間で共有でき、(障害物カテゴリーのリストを用いて)新しい障害物マップを生成することができる。 シミュレーションおよび実世界の環境で実施された大規模な実験は、VLMapsが既存の方法よりも複雑な言語命令に従ってナビゲーションを可能にすることを示している。 ビデオはhttps:vlmaps.github.ioで閲覧できる。

Grounding language to the visual observations of a navigating agent can be performed using off-the-shelf visual-language models pretrained on Internet-scale data (e.g., image captions). While this is useful for matching images to natural language descriptions of object goals, it remains disjoint from the process of mapping the environment, so that it lacks the spatial precision of classic geometric maps. To address this problem, we propose VLMaps, a spatial map representation that directly fuses pretrained visual-language features with a 3D reconstruction of the physical world. VLMaps can be autonomously built from video feed on robots using standard exploration approaches and enables natural language indexing of the map without additional labeled data. Specifically, when combined with large language models (LLMs), VLMaps can be used to (i) translate natural language commands into a sequence of open-vocabulary navigation goals (which, beyond prior work, can be spatial by construction, e.g., "in between the sofa and TV" or "three meters to the right of the chair") directly localized in the map, and (ii) can be shared among multiple robots with different embodiments to generate new obstacle maps on-the-fly (by using a list of obstacle categories). Extensive experiments carried out in simulated and real world environments show that VLMaps enable navigation according to more complex language instructions than existing methods. Videos are available at https:vlmaps.github.io.
翻訳日:2022-10-13 12:08:11 公開日:2022-10-11
# トランスフォーマーはコンテキストに格納されている情報と重みで異なる一般化をする

Transformers generalize differently from information stored in context vs in weights ( http://arxiv.org/abs/2210.05675v1 )

ライセンス: Link先を確認
Stephanie C.Y. Chan, Ishita Dasgupta, Junkyung Kim, Dharshan Kumaran, Andrew K. Lampinen, Felix Hill(参考訳) トランスフォーマーモデルは、トレーニング中に重みに格納された情報と、推論時に ``in-context'' を提供する情報という、根本的に異なる2種類の情報を使用することができる。 本研究では,これら2つの情報源の情報から,変換器の表現方法と一般化方法に異なる帰納バイアスが生じることを示す。 特に、それらが相似規則(ルールベース一般化)によって一般化されるか、あるいは観測例(例ベース一般化)と直接比較されるかを特徴付ける。 これは、モデルにその情報の使い方に応じて、重みで情報をエンコードするか、文脈でエンコードすべきかを知らせる、重要な実用的な結果です。 制御刺激で訓練された変換器では、重みからの一般化は規則に基づくものであるのに対し、文脈からの一般化は典型的である。 対照的に、自然言語で事前訓練されたトランスフォーマーでは、インコンテキスト学習はルールベースであり、より大きなモデルはよりルールベースである。 文脈内情報からのルールベース一般化は,ルール的構造が乏しい言語に対する大規模学習の創発的帰結であると考えられる。 制御された刺激を用いて、スパース規則様構造を含むデータに事前学習されたトランスフォーマーがより規則に基づく一般化を示すことを検証した。

Transformer models can use two fundamentally different kinds of information: information stored in weights during training, and information provided ``in-context'' at inference time. In this work, we show that transformers exhibit different inductive biases in how they represent and generalize from the information in these two sources. In particular, we characterize whether they generalize via parsimonious rules (rule-based generalization) or via direct comparison with observed examples (exemplar-based generalization). This is of important practical consequence, as it informs whether to encode information in weights or in context, depending on how we want models to use that information. In transformers trained on controlled stimuli, we find that generalization from weights is more rule-based whereas generalization from context is largely exemplar-based. In contrast, we find that in transformers pre-trained on natural language, in-context learning is significantly rule-based, with larger models showing more rule-basedness. We hypothesise that rule-based generalization from in-context information might be an emergent consequence of large-scale training on language, which has sparse rule-like structure. Using controlled stimuli, we verify that transformers pretrained on data containing sparse rule-like structure exhibit more rule-based generalization.
翻訳日:2022-10-13 12:06:58 公開日:2022-10-11
# ステレオタイプコンテンツモデルによるソーシャルグループ非依存単語埋め込みデバイアス

Social-Group-Agnostic Word Embedding Debiasing via the Stereotype Content Model ( http://arxiv.org/abs/2210.05831v1 )

ライセンス: Link先を確認
Ali Omrani, Brendan Kennedy, Mohammad Atari, Morteza Dehghani(参考訳) 既存の単語埋め込み脱バイアス法では、社会的属性(例えば、性別)ごとに、社会的グループ固有の単語ペア(例えば、man"-"woman")が必要であり、これは他の社会的グループに対するバイアスを軽減するために使用できない。 ステレオタイプコンテンツモデル(ステレオタイプコンテンツモデル、scm)は、社会心理学において、2つの心理的次元に沿ってステレオタイプコンテンツを構成するステレオタイプコンテンツを理解するために開発された理論的枠組みである。 ウォームネス(例: "genuine"-"fake")とコンピテンス(例:"smart"-"stupid")の2つの用語のみを使用して、確立された方法によるデバイアスを行い、性別、人種、年齢において、scmベースのデバイアスはグループ固有のデバイアスと互換性があることを示す。

Existing word embedding debiasing methods require social-group-specific word pairs (e.g., "man"-"woman") for each social attribute (e.g., gender), which cannot be used to mitigate bias for other social groups, making these methods impractical or costly to incorporate understudied social groups in debiasing. We propose that the Stereotype Content Model (SCM), a theoretical framework developed in social psychology for understanding the content of stereotypes, which structures stereotype content along two psychological dimensions - "warmth" and "competence" - can help debiasing efforts to become social-group-agnostic by capturing the underlying connection between bias and stereotypes. Using only pairs of terms for warmth (e.g., "genuine"-"fake") and competence (e.g.,"smart"-"stupid"), we perform debiasing with established methods and find that, across gender, race, and age, SCM-based debiasing performs comparably to group-specific debiasing
翻訳日:2022-10-13 12:06:34 公開日:2022-10-11
# マルチモーダル感性解析のための関節ファインチューニングによる伝達学習

Transfer Learning with Joint Fine-Tuning for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2210.05790v1 )

ライセンス: Link先を確認
Guilherme Louren\c{c}o de Toledo and Ricardo Marcondes Marcacini(参考訳) 既存の手法はテキストデータの感情分析に重点を置いている。 しかし、最近ではソーシャルプラットフォーム上で画像やビデオが大量に利用され、他のモダリティからの感情分析が動機となっている。 最近の研究では、他のモダリティ(画像など)を探索することで、感情分析のパフォーマンスが向上している。 CLIPやVisualBERTのような最先端のマルチモーダルモデルは、画像と組み合わせたテキストでデータセット上で事前トレーニングされる。 これらのモデルで得られた結果は有望であるが、事前学習と感情分析の微調整作業は計算コストがかかる。 本稿では,感情分析のための関節ファインチューニングを用いた伝達学習手法を提案する。 提案手法は, 異なる訓練済みの単調モデルを活用し, マルチモーダル空間で効率的に組み合わせた, より簡単なファインチューニング戦略を用いて, 競争的な結果を得た。 さらに,本提案では,テキストと画像の事前学習モデルを共同微調整段階に組み込むことで,低リソースシナリオにおける感情分類に特に関心がある。

Most existing methods focus on sentiment analysis of textual data. However, recently there has been a massive use of images and videos on social platforms, motivating sentiment analysis from other modalities. Current studies show that exploring other modalities (e.g., images) increases sentiment analysis performance. State-of-the-art multimodal models, such as CLIP and VisualBERT, are pre-trained on datasets with the text paired with images. Although the results obtained by these models are promising, pre-training and sentiment analysis fine-tuning tasks of these models are computationally expensive. This paper introduces a transfer learning approach using joint fine-tuning for sentiment analysis. Our proposal achieved competitive results using a more straightforward alternative fine-tuning strategy that leverages different pre-trained unimodal models and efficiently combines them in a multimodal space. Moreover, our proposal allows flexibility when incorporating any pre-trained model for texts and images during the joint fine-tuning stage, being especially interesting for sentiment classification in low-resource scenarios.
翻訳日:2022-10-13 12:05:39 公開日:2022-10-11
# ロバストなカーネル密度推定によるロバスト化トランス

Robustify Transformers with Robust Kernel Density Estimation ( http://arxiv.org/abs/2210.05794v1 )

ライセンス: Link先を確認
Xing Han and Tongzheng Ren and Tan Minh Nguyen and Khai Nguyen and Joydeep Ghosh and Nhat Ho(参考訳) トランスフォーマーアーキテクチャの最近の進歩は、様々なドメインにわたる様々なタスクで経験的な成功をおさめた。 しかし, 既存の研究は主に, 汚染試料の堅牢性を考慮せずに, 標準精度と計算コストの改善に重点を置いている。 既存の研究によると、トランスフォーマーアーキテクチャの中心である自己アテンション機構は、よく知られたカーネル密度推定(KDE)に基づく非パラメトリック推定器として見ることができる。 これにより,自己拘束機構においてロバストなカーネル密度推定(rkde)を活用し,推定過程における悪いサンプルの重みを下げることでデータの汚染問題を緩和する動機となった。 修正されたセルフアテンション機構は、異なるトランスフォーマー変種に組み込むことができる。 言語モデリングおよび画像分類タスクに関する実証結果から,このアプローチの有効性が示された。

Recent advances in Transformer architecture have empowered its empirical success in various tasks across different domains. However, existing works mainly focus on improving the standard accuracy and computational cost, without considering the robustness of contaminated samples. Existing work has shown that the self-attention mechanism, which is the center of the Transformer architecture, can be viewed as a non-parametric estimator based on the well-known kernel density estimation (KDE). This motivates us to leverage the robust kernel density estimation (RKDE) in the self-attention mechanism, to alleviate the issue of the contamination of data by down-weighting the weight of bad samples in the estimation process. The modified self-attention mechanism can be incorporated into different Transformer variants. Empirical results on language modeling and image classification tasks demonstrate the effectiveness of this approach.
翻訳日:2022-10-13 12:05:23 公開日:2022-10-11
# 教師をコピーしない: 身体的対話におけるデータとモデル課題

Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue ( http://arxiv.org/abs/2210.04443v2 )

ライセンス: Link先を確認
So Yeon Min, Hao Zhu, Ruslan Salakhutdinov and Yonatan Bisk(参考訳) 後続の対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。 最近のベンチマーク(padmakumar et al., 2022)の導入は、このマルチターン、マルチエージェント、ロングホリゾンタスクのモデルのトレーニングと評価に最適な方法に関する疑問を提起している。 本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と整合せず,進歩を阻害する可能性があるとして,この会話に寄与する。 本稿では,メトリクスの実証的な比較,3つのモデルの解析,そしてフィールドがいかに最も進展するかを提案する。 まず、ilで訓練されたモデルが評価中にスプリアスな行動を取るのを観察します。 第2に,既存のモデルではクエリ発話のグラウンド化に失敗しており,これはタスク補完に不可欠である。 第三に、評価はより高いレベルの意味的目標に焦点を当てるべきである。

Embodied dialogue instruction following requires an agent to complete a complex sequence of tasks from a natural language exchange. The recent introduction of benchmarks (Padmakumar et al., 2022) raises the question of how best to train and evaluate models for this multi-turn, multi-agent, long-horizon task. This paper contributes to that conversation, by arguing that imitation learning (IL) and related low-level metrics are actually misleading and do not align with the goals of embodied dialogue research and may hinder progress. We provide empirical comparisons of metrics, analysis of three models, and make suggestions for how the field might best progress. First, we observe that models trained with IL take spurious actions during evaluation. Second, we find that existing models fail to ground query utterances, which are essential for task completion. Third, we argue evaluation should focus on higher-level semantic goals.
翻訳日:2022-10-13 11:50:37 公開日:2022-10-11
# 重み付き非対称損失関数を用いたニューラルネットワークモデルの予測間隔

Prediction intervals for neural network models using weighted asymmetric loss functions ( http://arxiv.org/abs/2210.04318v2 )

ライセンス: Link先を確認
Milo Grillo and Agnieszka Werpachowska(参考訳) 本研究では,エクササイズの適合と予測のための予測区間(PI)を新規かつ簡便に作成する手法を開発した。 重み付けされた非対称損失関数を最小化することにより、区間の上下境界を見つけ、その区間の幅に依存する。 私たちは短い数学的証明を与える。 証明の結果としてパラメータ化関数に制限された値に対するPIを見つけ,従属変数のPIを予測するためになぜこの手法が機能するのかを議論する。 本手法を実世界予測タスクに展開したニューラルネットワークに適用した結果,複雑な機械学習環境における実用的な実装の有効性が証明された。

We develop a novel and simple method to produce prediction intervals (PIs) for fitting and forecasting exercises. It finds the lower and upper bound of the intervals by minimising a weighted asymmetric loss function, where the weight depends on the width of the interval. We give a short mathematical proof. As a corollary of our proof, we find PIs for values restricted to a parameterised function and argue why the method works for predicting PIs of dependent variables. The results of applying the method on a neural network deployed in a real-world forecasting task prove the validity of its practical implementation in complex machine learning setups.
翻訳日:2022-10-13 11:48:16 公開日:2022-10-11
# リアリスティックな多言語データセット上でのニューラルリファレンシャルフォームセレクタの評価

Assessing Neural Referential Form Selectors on a Realistic Multilingual Dataset ( http://arxiv.org/abs/2210.04828v2 )

ライセンス: Link先を確認
Guanyi Chen, Fahime Same, Kees van Deemter(参考訳) ニューラル参照式生成(REG)に関するこれまでの研究はすべて、非常に限られた参照式(RE)使用域を反映した英データセットであるWebNLGを使用している。 この問題に対処するため、オントノートコーパスに基づくデータセットを構築し、英語と中国語(ゼロ代名詞を使用する言語)の両方で広範囲のREが使用されるようにした。 そこで我々は、RFS(Neural Referential Form Selection)モデルを構築し、それらをデータセット上で評価し、探索実験を行う。 実験の結果, OntoNotes は WebNLG と比較して REG/RFS モデルの評価に優れていた。 我々は、英語と中国語の RFS を比較し、言語理論に従って、中国語の RFS が英語よりも会話の文脈に依存していることを確認する。

Previous work on Neural Referring Expression Generation (REG) all uses WebNLG, an English dataset that has been shown to reflect a very limited range of referring expression (RE) use. To tackle this issue, we build a dataset based on the OntoNotes corpus that contains a broader range of RE use in both English and Chinese (a language that uses zero pronouns). We build neural Referential Form Selection (RFS) models accordingly, assess them on the dataset and conduct probing experiments. The experiments suggest that, compared to WebNLG, OntoNotes is better for assessing REG/RFS models. We compare English and Chinese RFS and confirm that, in line with linguistic theories, Chinese RFS depends more on discourse context than English.
翻訳日:2022-10-13 11:47:39 公開日:2022-10-11
# 統合アクセスとバックホールネットワークにおける制約付きデプロイメント最適化

Constrained Deployment Optimization in Integrated Access and Backhaul Networks ( http://arxiv.org/abs/2210.05253v1 )

ライセンス: Link先を確認
Charitha Madapatha (1), Behrooz Makki (2), Hao Guo (1), Tommy Svensson (1), ((1) Chalmers University of Technology, (2) Ericsson Research)(参考訳) 統合アクセスとバックホール(IAB)は、5Gネットワークとそれを超える(6G)技術において有望な手法の1つであり、バックホールとセルサービスの両方をマルチホップ方式で提供するために同じノード/ハードウェアを使用している。 バックホールリンクの感度と高いレート/信頼性の要求により、IABネットワークを可能な限り適切に動作させるために適切なネットワーク計画が必要である。 本稿では,IABネットワークのカバレッジに対するデプロイメント最適化の効果について検討する。 地理的または干渉管理の制限のため、一部の地域では制約のないiabノード配置が実現できない場合に集中する。 そこで本研究では,様々なミリ波ブロッキング型制約配置最適化手法を提案する。 以上の結果から,デプロイメント最適化の制限にもかかわらず,ネットワーク計画がiabネットワークのカバレッジを大幅に向上させることが示唆された。

Integrated access and backhaul (IAB) is one of the promising techniques for 5G networks and beyond (6G), in which the same node/hardware is used to provide both backhaul and cellular services in a multi-hop fashion. Due to the sensitivity of the backhaul links with high rate/reliability demands, proper network planning is needed to make the IAB network performing appropriately and as good as possible. In this paper, we study the effect of deployment optimization on the coverage of IAB networks. We concentrate on the cases where, due to either geographical or interference management limitations, unconstrained IAB node placement is not feasible in some areas. To that end, we propose various millimeter wave (mmWave) blocking-aware constrained deployment optimization approaches. Our results indicate that, even with limitations on deployment optimization, network planning boosts the coverage of IAB networks considerably.
翻訳日:2022-10-12 17:58:49 公開日:2022-10-11
# ブロックフォーマットエラー境界と最適ブロックサイズ選択

Block Format Error Bounds and Optimal Block Size Selection ( http://arxiv.org/abs/2210.05470v1 )

ライセンス: Link先を確認
Ilya Soloveychik, Ilya Lyubomirsky, Xin Wang and Sudeep Bhoja(参考訳) 現代のディープニューラルネットワークによって送信され、処理され、保存される必要のあるデータの量は、ハードウェアとソフトウェア開発の両方における新しいパラダイムの発明を求めて、ここ数年で本当に膨大な量に達している。 ここでもっとも有望で急速に進歩しているフロンティアの1つは、新しいデータフォーマットの作成である。 本研究は, ブロック浮動小数点数値形式を, 広ダイナミックレンジ, 数値的精度, 単純整数算術を用いた内部積の効率的なハードウェア実装の組み合わせによって構成する。 これらの形式は、共有スケール係数を持つマティーサのブロックによって特徴づけられる。 基本ブロック浮動小数点(BFP)フォーマットは、ブロックスケールを右の2つの最寄りのパワーに量子化する。 その単純な修正 - Scaled BFP (SBFP) - 同じスケールを完全な精度で保存し、より高い精度を実現する。 本稿では,これらの形式の統計的挙動を厳密に研究する。 SBFP-およびBFP-量子化正規分布ベクトルにおける内積誤差の漸近境界を開発する。 次に、これらの漸近結果を有限次元の設定に洗練し、同じ誤差に対して高次元の厳密な境界を導出する。 得られた結果に基づいて,任意のブロックフォーマットの精度を評価する性能指標を提案する。 このメトリックにより、ブロックサイズなどの最適なパラメータを決定でき、最高の精度が得られる。 特に、bfpフォーマットの精度が4ビットで固定されると、最適なブロックサイズが64になることを示す。 すべての理論的な導出は、公開訓練済みニューラルネットワークの重み付けに関する数値実験と研究によって支持されている。

The amounts of data that need to be transmitted, processed, and stored by the modern deep neural networks have reached truly enormous volumes in the last few years calling for the invention of new paradigms both in hardware and software development. One of the most promising and rapidly advancing frontiers here is the creation of new data formats. In this work we focus on the family of block floating point numerical formats due to their combination of wide dynamic range, numerical accuracy, and efficient hardware implementation of inner products using simple integer arithmetic. These formats are characterized by a block of mantissas with a shared scale factor. The basic Block Floating Point (BFP) format quantizes the block scales into the nearest powers of two on the right. Its simple modification - Scaled BFP (SBFP) - stores the same scales in full precision and thus allows higher accuracy. In this paper, we study the statistical behavior of both these formats rigorously. We develop asymptotic bounds on the inner product error in SBFP- and BFP-quantized normally distributed vectors. Next, we refine those asymptotic results to finite dimensional settings and derive high-dimensional tight bounds for the same errors. Based on the obtained results we introduce a performance metric assessing accuracy of any block format. This metric allows us to determine the optimal parameters, such as the block size, yielding highest accuracy. In particular, we show that if the precision of the BFP format is fixed at 4 bits, the optimal block size becomes 64. All theoretical derivations are supported by numerical experiments and studies on the weights of publicly available pretrained neural networks.
翻訳日:2022-10-12 17:58:33 公開日:2022-10-11
# MAgNet: Mesh Agnostic Neural PDE Solver

MAgNet: Mesh Agnostic Neural PDE Solver ( http://arxiv.org/abs/2210.05495v1 )

ライセンス: Link先を確認
Oussama Boussif, Dan Assouline, Loubna Benabbou, Yoshua Bengio(参考訳) 偏微分方程式(PDE)を解くための古典的数値法の計算複雑性は、分解能が増大するにつれて著しくスケールする。 重要な例として、気候予測は流体シミュレーションの全ての乱流スケールを解決するために、時空間分解能を必要とする。 これにより、現代のスーパーコンピュータでさえ、これらのスケールを計算で解き放つことが正確にできる。 その結果,現在の数値モデルでは,各辺が粗い(3km~200km)格子上のpdesが解かれ,予測の正確性や有用性を損なう。 本稿では、最近のインプリシトニューラルネットワーク表現(INR)の進歩を活用し、空間的位置探索を与えられたPDEの空間的連続解を予測する新しいアーキテクチャを設計する。 グラフニューラルネットワーク(gnn)による座標ベースのアーキテクチャの強化により、新しい非一様メッシュへのゼロショット一般化と、物理的に一貫性のある最大250フレームの長期予測が可能になる。 メッシュ非依存型ニューラルPDEソルバー(MAgNet)は、様々なPDEシミュレーションデータセットにわたって正確な予測を行い、既存のベースラインと良好に比較することができる。 さらに、MAgNetは、トレーニング対象の最大4倍のメッシュと解像度を一般化する。

The computational complexity of classical numerical methods for solving Partial Differential Equations (PDE) scales significantly as the resolution increases. As an important example, climate predictions require fine spatio-temporal resolutions to resolve all turbulent scales in the fluid simulations. This makes the task of accurately resolving these scales computationally out of reach even with modern supercomputers. As a result, current numerical modelers solve PDEs on grids that are too coarse (3km to 200km on each side), which hinders the accuracy and usefulness of the predictions. In this paper, we leverage the recent advances in Implicit Neural Representations (INR) to design a novel architecture that predicts the spatially continuous solution of a PDE given a spatial position query. By augmenting coordinate-based architectures with Graph Neural Networks (GNN), we enable zero-shot generalization to new non-uniform meshes and long-term predictions up to 250 frames ahead that are physically consistent. Our Mesh Agnostic Neural PDE Solver (MAgNet) is able to make accurate predictions across a variety of PDE simulation datasets and compares favorably with existing baselines. Moreover, MAgNet generalizes well to different meshes and resolutions up to four times those trained on.
翻訳日:2022-10-12 17:58:10 公開日:2022-10-11
# 界面上のジャンプ不連続性を持つポアソン方程式のハイブリッドニューラルネットワークと有限差分法

A hybrid neural-network and finite-difference method for solving Poisson equation with jump discontinuities on interfaces ( http://arxiv.org/abs/2210.05523v1 )

ライセンス: Link先を確認
Wei-Fan Hu and Te-Sheng Lin and Yu-Hau Tseng and Ming-Chih Lai(参考訳) 本研究では,組込み不規則界面上のジャンプ不連続性を持つ正則領域におけるポアソン方程式を解くために,新しいハイブリッドニューラルネットワークと有限差分法を開発した。 解は界面全体の規則性が低いため、この問題に有限差分離散化を適用する際には、ジャンプ不連続性を考慮した追加の処理を界面近くの格子点で行う必要がある。 ここでは、実装を容易にするための余分な努力を増やそうとしています。 鍵となる考え方は、解を特異部分(非滑らか部分)と正規部分(滑らか部分)に分解することである。 与えられたジャンプ条件を組み込んだニューラルネットワーク学習機械は特異解を求め、標準有限差分法を用いて関連する境界条件の正則解を得る。 インタフェース幾何にかかわらず、これら2つのタスクは関数近似の教師あり学習タスクとポアソン方程式の高速直接解法のみを必要とするため、ハイブリッド手法の実装と効率化が容易である。 本手法は, 2次元および3次元の数値計算により, 溶液とその誘導体の2次精度を保ち, 従来の埋没界面法に匹敵することを示した。

In this work, a new hybrid neural-network and finite-difference method is developed for solving Poisson equation in a regular domain with jump discontinuities on an embedded irregular interface. Since the solution has low regularity across the interface, when applying finite difference discretization to this problem, an additional treatment accounting for the jump discontinuities must be employed at grid points near the interface. Here, we aim to elevate such an extra effort to ease our implementation. The key idea is to decompose the solution into two parts: singular (non-smooth) and regular (smooth) parts. The neural network learning machinery incorporating given jump conditions finds the singular solution, while the standard finite difference method is used to obtain the regular solution with associated boundary conditions. Regardless of the interface geometry, these two tasks only require a supervised learning task of function approximation and a fast direct solver of the Poisson equation, making the hybrid method easy to implement and efficient. The two- and three-dimensional numerical results show that the present hybrid method preserves second-order accuracy for the solution and its derivatives, and it is comparable with the traditional immersed interface method in the literature.
翻訳日:2022-10-12 17:57:35 公開日:2022-10-11
# モデル駆動ベイズ学習によるデジタル双対型多重アクセス最適化とモニタリング

Digital Twin-Based Multiple Access Optimization and Monitoring via Model-Driven Bayesian Learning ( http://arxiv.org/abs/2210.05582v1 )

ライセンス: Link先を確認
Clement Ruah, Osvaldo Simeone, Bashir Al-Hashimi(参考訳) 製造部門と航空宇宙部門で一般的に採用されているデジタルツイン(dt)プラットフォームは、物理的ツイン(pt)の役割を担うソフトウェアベースの「オープン」通信システムを制御および監視するための有望なパラダイムと見なされている。 この研究で提示された一般的なフレームワークでは、dtは通信システムのベイズモデルを構築し、マルチエージェント強化学習(marl)による制御や異常検出のためのptの監視など、dtの中核的な機能を可能にする。 本研究は,複数のセンシング装置を共通受信機に通知する簡易ケーススタディシステムに対する提案手法の適用を具体的に検討する。 DTで訓練されたベイズモデルは、例えば、PT-to-DTデータ転送の制限によって生じる現在の交通状況に関して、通信システムに関する疫学的な不確実性を捉える重要な利点がある。 実験により,提案したベイズフレームワークの有効性を,標準頻繁なモデルベースソリューションと比較して検証した。

Commonly adopted in the manufacturing and aerospace sectors, digital twin (DT) platforms are increasingly seen as a promising paradigm to control and monitor software-based, "open", communication systems, which play the role of the physical twin (PT). In the general framework presented in this work, the DT builds a Bayesian model of the communication system, which is leveraged to enable core DT functionalities such as control via multi-agent reinforcement learning (MARL) and monitoring of the PT for anomaly detection. We specifically investigate the application of the proposed framework to a simple case-study system encompassing multiple sensing devices that report to a common receiver. The Bayesian model trained at the DT has the key advantage of capturing epistemic uncertainty regarding the communication system, e.g., regarding current traffic conditions, which arise from limited PT-to-DT data transfer. Experimental results validate the effectiveness of the proposed Bayesian framework as compared to standard frequentist model-based solutions.
翻訳日:2022-10-12 17:57:13 公開日:2022-10-11
# 非安全領域の安全バイアス近似のための放射基底ニューラルネットワークの幾何学

Geometry of Radial Basis Neural Networks for Safety Biased Approximation of Unsafe Regions ( http://arxiv.org/abs/2210.05596v1 )

ライセンス: Link先を確認
Ahmad Abuaish, Mohit Srinivasan, Patricio A. Vela(参考訳) バリア関数に基づく不等式制約は、制御システムの安全仕様を強制する手段である。 凸最適化プログラムと併用すると、一般的な制御アフィンシステムの安全性を強制する計算効率の良い方法が提供される。 このアプローチをとる際の主要な仮定の1つは障壁関数自体の事前知識、すなわち安全な集合の知識である。 局所安全集合が時間とともに進化する未知の環境を通るナビゲーションの文脈では、そのような知識は存在しない。 この原稿は、ナビゲーションアプリケーションにおける知覚データから、安全で安全でないサンプル測定に基づいて安全なセットを特徴付けるゼロリングバリア関数の合成に焦点を当てている。 先行研究は、特定のレベルセット特性を持つゼロリングバリア関数の構築を保証した教師付き機械学習アルゴリズムを定式化した。 しかし、合成プロセスに使用されるニューラルネットワーク設計の幾何学を探求することはなかった。 この原稿は、障壁関数のゼロ化に使用されるニューラルネットワークの特定の形状を記述し、ネットワークが状態空間を安全で安全でない領域に分割するために必要な表現を提供する方法を示している。

Barrier function-based inequality constraints are a means to enforce safety specifications for control systems. When used in conjunction with a convex optimization program, they provide a computationally efficient method to enforce safety for the general class of control-affine systems. One of the main assumptions when taking this approach is the a priori knowledge of the barrier function itself, i.e., knowledge of the safe set. In the context of navigation through unknown environments where the locally safe set evolves with time, such knowledge does not exist. This manuscript focuses on the synthesis of a zeroing barrier function characterizing the safe set based on safe and unsafe sample measurements, e.g., from perception data in navigation applications. Prior work formulated a supervised machine learning algorithm whose solution guaranteed the construction of a zeroing barrier function with specific level-set properties. However, it did not explore the geometry of the neural network design used for the synthesis process. This manuscript describes the specific geometry of the neural network used for zeroing barrier function synthesis, and shows how the network provides the necessary representation for splitting the state space into safe and unsafe regions.
翻訳日:2022-10-12 17:56:56 公開日:2022-10-11
# 電気市場におけるディープラーニングモデルのサンプル効率向上

Improving Sample Efficiency of Deep Learning Models in Electricity Market ( http://arxiv.org/abs/2210.05599v1 )

ライセンス: Link先を確認
Guangchun Ruan, Jianxiao Wang, Haiwang Zhong, Qing Xia, Chongqing Kang(参考訳) ディープラーニングの優れた性能は大量のサンプルデータに大きく依存しているが、データ不足は世界の電力市場において比較的一般的であることが判明した。 この場合、過度な適合を防ぐための方法は、異なる市場アプリケーションでディープラーニングモデルをトレーニングする場合、根本的な課題になる。 このことを念頭に置いて,サンプル効率を向上させるための汎用フレームワーク,すなわち知識提供トレーニング(kat)を提案し,深層学習モデルの学習手順にドメイン知識を組み込むことが主目的である。 具体的には,いくつかの合成データを生成するための新しいデータ拡張手法を提案する。 このKAT手法は分析モデルと深層学習モデルを組み合わせるという考え方を従えて実現している。 現代の学習理論は,提案手法の有効性を,効果的な予測誤差フィードバック,信頼損失関数,リッチ勾配雑音の観点から示す。 最後に、ユーザモデリングと確率的価格予測という2つの人気のあるアプリケーションを詳細に調査した。 提案手法は,全ての数値実験において他の競争相手よりも優れており,その基礎となる理由は,さらなる統計的,可視化的な結果によって説明できる。

The superior performance of deep learning relies heavily on a large collection of sample data, but the data insufficiency problem turns out to be relatively common in global electricity markets. How to prevent overfitting in this case becomes a fundamental challenge when training deep learning models in different market applications. With this in mind, we propose a general framework, namely Knowledge-Augmented Training (KAT), to improve the sample efficiency, and the main idea is to incorporate domain knowledge into the training procedures of deep learning models. Specifically, we propose a novel data augmentation technique to generate some synthetic data, which are later processed by an improved training strategy. This KAT methodology follows and realizes the idea of combining analytical and deep learning models together. Modern learning theories demonstrate the effectiveness of our method in terms of effective prediction error feedbacks, a reliable loss function, and rich gradient noises. At last, we study two popular applications in detail: user modeling and probabilistic price forecasting. The proposed method outperforms other competitors in all numerical tests, and the underlying reasons are explained by further statistical and visualization results.
翻訳日:2022-10-12 17:56:38 公開日:2022-10-11
# バンディットアルゴリズムの典型的な挙動

The Typical Behavior of Bandit Algorithms ( http://arxiv.org/abs/2210.05660v1 )

ライセンス: Link先を確認
Lin Fan, Peter W. Glynn(参考訳) 我々は、最も人気のあるバンディットアルゴリズムであるトンプソンサンプリングとucbの後悔のために、大きな数の強い法則と中心極限定理を確立する。 ここで、後悔分布の特性は、最近Fan and Glynn (2021) (arXiv:2109.13595) によって開発された後悔分布の尾の特性を補完する。 尾部の特徴は、最適腕の平均値が過小評価される軌道上の非定型的包帯行動と関連しており、最適腕の誤同定と大きな後悔をもたらす。 対照的に、我々のSLLNとCLTは、最適な腕の平均が適切に推定される軌道上での後悔の典型的な挙動と変動を記述している。 我々は, トンプソンサンプリングと UCB が同じ SLLN と CLT を満たすこと, SLLN と (平均) 中心配列の両方の漸近が, 期待された後悔の漸近と一致することを見出した。 CLTの平均と分散はともに、時間軸の$T$で$\log(T)$レートで成長する。 漸近的に$T \to \infty$として、各サブ最適アームのプレイ数の変動は、各サブ最適アームが全体のCLT分散に独立に寄与することを示す、そのアームに対して受け取った報酬にのみ依存する。

We establish strong laws of large numbers and central limit theorems for the regret of two of the most popular bandit algorithms: Thompson sampling and UCB. Here, our characterizations of the regret distribution complement the characterizations of the tail of the regret distribution recently developed by Fan and Glynn (2021) (arXiv:2109.13595). The tail characterizations there are associated with atypical bandit behavior on trajectories where the optimal arm mean is under-estimated, leading to mis-identification of the optimal arm and large regret. In contrast, our SLLN's and CLT's here describe the typical behavior and fluctuation of regret on trajectories where the optimal arm mean is properly estimated. We find that Thompson sampling and UCB satisfy the same SLLN and CLT, with the asymptotics of both the SLLN and the (mean) centering sequence in the CLT matching the asymptotics of expected regret. Both the mean and variance in the CLT grow at $\log(T)$ rates with the time horizon $T$. Asymptotically as $T \to \infty$, the variability in the number of plays of each sub-optimal arm depends only on the rewards received for that arm, which indicates that each sub-optimal arm contributes independently to the overall CLT variance.
翻訳日:2022-10-12 17:56:21 公開日:2022-10-11
# 簡易畳み込みネットワークのためのプーリング戦略

Pooling Strategies for Simplicial Convolutional Networks ( http://arxiv.org/abs/2210.05490v1 )

ライセンス: Link先を確認
Domenico Mattia Cinque, Claudio Battiloro, Paolo Di Lorenzo(参考訳) 本研究の目的は、単純な畳み込みニューラルネットワークのプーリング戦略を導入することである。 グラフプーリング法に着想を得て、簡単なプーリング層の一般的な定式化を導入する。 一 簡易信号の局所的な集積 二 サンプリングセットの原則選択 iii)ダウンサンプリングと簡素なトポロジ適応 一般的な層は4つの異なるプーリング戦略(max, top-k, self-attention, split top-k)をトポロジカル信号処理の理論に基づいて設計するためにカスタマイズされる。 また、提案したレイヤを階層アーキテクチャで活用し、異なる解像度でデータを表現しながら複雑さを減らします。 実データベンチマーク(すなわちフローとグラフの分類)における数値結果は、技術の現状に関して提案された手法の利点を示している。

The goal of this paper is to introduce pooling strategies for simplicial convolutional neural networks. Inspired by graph pooling methods, we introduce a general formulation for a simplicial pooling layer that performs: i) local aggregation of simplicial signals; ii) principled selection of sampling sets; iii) downsampling and simplicial topology adaptation. The general layer is then customized to design four different pooling strategies (i.e., max, top-k, self-attention, and separated top-k) grounded in the theory of topological signal processing. Also, we leverage the proposed layers in a hierarchical architecture that reduce complexity while representing data at different resolutions. Numerical results on real data benchmarks (i.e., flow and graph classification) illustrate the advantage of the proposed methods with respect to the state of the art.
翻訳日:2022-10-12 17:51:23 公開日:2022-10-11
# Detect, Distill and Update: 分散データから外れたDBシステムの学習

Detect, Distill and Update: Learned DB Systems Facing Out of Distribution Data ( http://arxiv.org/abs/2210.05508v1 )

ライセンス: Link先を確認
Meghdad Kurmanji, Peter Triantafillou(参考訳) 多くのDBコンポーネントがMLモデルに置き換えられているため、機械学習(ML)はDBを変更している。 この設定のオープンな問題のひとつは、データ更新の有無でこのようなMLモデルを更新する方法だ。 本研究はデータ挿入(解析DBの更新)に焦点を当てて開始する。 我々は、ニューラルネットワーク(NN)モデルを、新しいデータが異なる分布(すなわち、"out-of-distribution" -- OOD)に従えば、どのように更新するかを研究する。 我々の問題設定における要件は、学習されたDBコンポーネントが、古いデータや新しいデータ(例えば、近似クエリ処理(AQP)、濃度推定(CE)、合成データ生成(DG)など)のタスクに対して高い精度を確保することである。 ). 本稿では,新しいupdatability framework (ddup)を提案する。 DDUpは、異なる学習されたDBシステムコンポーネントに対して、異なるNNに基づいても、スクラッチからNNを再トレーニングするための高いコストなしで、アップデータ機能を提供する。 DDUpには2つのコンポーネントがある: OODデータを検出するための新しい、効率的で、原則化された統計的テストアプローチ。 第2に,知識蒸留によるトランスファー学習の原則に基づく新しいモデル更新アプローチでは,高い精度を確保しつつ,学習したモデルを効率的に更新する。 我々は,3種類の学習DBコンポーネントであるAQP,CE,DGに対してDDUpの適用性を開発し,示す。 AQP、CE、DGの実際のおよびベンチマークデータセットを使用した詳細な実験評価では、DDUpのパフォーマンス上の利点が詳細に説明されている。

Machine Learning (ML) is changing DBs as many DB components are being replaced by ML models. One open problem in this setting is how to update such ML models in the presence of data updates. We start this investigation focusing on data insertions (dominating updates in analytical DBs). We study how to update neural network (NN) models when new data follows a different distribution (a.k.a. it is "out-of-distribution" -- OOD), rendering previously-trained NNs inaccurate. A requirement in our problem setting is that learned DB components should ensure high accuracy for tasks on old and new data (e.g., for approximate query processing (AQP), cardinality estimation (CE), synthetic data generation (DG), etc.). This paper proposes a novel updatability framework (DDUp). DDUp can provide updatability for different learned DB system components, even based on different NNs, without the high costs to retrain the NNs from scratch. DDUp entails two components: First, a novel, efficient, and principled statistical-testing approach to detect OOD data. Second, a novel model updating approach, grounded on the principles of transfer learning with knowledge distillation, to update learned models efficiently, while still ensuring high accuracy. We develop and showcase DDUp's applicability for three different learned DB components, AQP, CE, and DG, each employing a different type of NN. Detailed experimental evaluation using real and benchmark datasets for AQP, CE, and DG detail DDUp's performance advantages.
翻訳日:2022-10-12 17:51:10 公開日:2022-10-11
# ニューラル・タンジェント・カーネルは 敵の強固さについて 何がわかる?

What Can the Neural Tangent Kernel Tell Us About Adversarial Robustness? ( http://arxiv.org/abs/2210.05577v1 )

ライセンス: Link先を確認
Nikolaos Tsilivis, Julia Kempe(参考訳) ニューラルネットワークの敵対的脆弱性や、それに続く堅牢なモデル作成のテクニックは、大きな注目を集めていますが、この現象の完全な理解はいまだに欠如しています。 本稿では,近年のニューラル・ネットワークとカーネル・メソッド,すなわちニューラル・タンジェント・カーネル(ntk)をつなぐ解析手法を用いて,ntk近似を応用し,重要な深層学習現象を解析し,新たな応用のためのアルゴリズムを考案した。 NTKが「トレーニングフリー」なやり方で敵の例を生成できることを示すとともに、「ラジ」方式で有限幅ニューラルネットを騙すために移行することを示す。 我々はこの接続を利用して、ニューラルネットワークの対向的な脆さを過小評価するために、頑健で非破壊的な特徴の代替的なビューを提供する。 具体的には、カーネルの固有分解によって引き起こされる特徴を定義し、ロバストな特徴と非ロバストな特徴の役割、標準分類とロバストネス-精度トレードオフの両方への依存をよりよく理解するために研究する。 このような機能はアーキテクチャ間で驚くほど一貫性があり、堅牢な機能はモデルの最大の固有値に対応しがちであるため、トレーニングの早い段階で学習される。 当社のフレームワークでは,非ロバストで有用な機能を特定し,視覚化することが可能です。 最後に、我々は、実際に使用されるニューラルネットワークの敵対的トレーニングの基礎となるロバスト性メカニズムについて光を当てた: 関連する経験的NTKの進化を定量化し、そのダイナミクスが 'lazy' 体制にずっと早く該当し、カーネルのトップ固有空間における学習特徴の優先順位付けによく知られたバイアスのより強力な形を示すことを示す。

The adversarial vulnerability of neural nets, and subsequent techniques to create robust models have attracted significant attention; yet we still lack a full understanding of this phenomenon. Here, we study adversarial examples of trained neural networks through analytical tools afforded by recent theory advances connecting neural networks and kernel methods, namely the Neural Tangent Kernel (NTK), following a growing body of work that leverages the NTK approximation to successfully analyze important deep learning phenomena and design algorithms for new applications. We show how NTKs allow to generate adversarial examples in a ``training-free'' fashion, and demonstrate that they transfer to fool their finite-width neural net counterparts in the ``lazy'' regime. We leverage this connection to provide an alternative view on robust and non-robust features, which have been suggested to underlie the adversarial brittleness of neural nets. Specifically, we define and study features induced by the eigendecomposition of the kernel to better understand the role of robust and non-robust features, the reliance on both for standard classification and the robustness-accuracy trade-off. We find that such features are surprisingly consistent across architectures, and that robust features tend to correspond to the largest eigenvalues of the model, and thus are learned early during training. Our framework allows us to identify and visualize non-robust yet useful features. Finally, we shed light on the robustness mechanism underlying adversarial training of neural nets used in practice: quantifying the evolution of the associated empirical NTK, we demonstrate that its dynamics falls much earlier into the ``lazy'' regime and manifests a much stronger form of the well known bias to prioritize learning features within the top eigenspaces of the kernel, compared to standard training.
翻訳日:2022-10-12 17:50:41 公開日:2022-10-11
# アルゴリズムフェアネスのためのアンサンブル構成のナビゲーション

Navigating Ensemble Configurations for Algorithmic Fairness ( http://arxiv.org/abs/2210.05594v1 )

ライセンス: Link先を確認
Michael Feffer, Martin Hirzel, Samuel C. Hoffman, Kiran Kate, Parikshit Ram, Avraham Shinnar(参考訳) バイアス緩和器は機械学習モデルのアルゴリズム的公正性を改善することができるが、公平性に対する影響はデータ分割間では安定しないことが多い。 より安定したモデルをトレーニングするための一般的なアプローチはアンサンブル学習だが、あいにく、公平性と予測パフォーマンスの間のトレードオフを最善にナビゲートするためにアンサンブルと緩和子を組み合わせる方法が不明である。 そこで我々は,8個のマイティゲータと4つのアンサンブル,対応するハイパーパラメータのモジュール構成が可能なオープンソースライブラリを構築し,13個のデータセットの構成空間を実証的に検討した。 この調査から得られた洞察を,堅牢で再現可能な実践者のためのガイダンスダイアグラムの形で精査した。

Bias mitigators can improve algorithmic fairness in machine learning models, but their effect on fairness is often not stable across data splits. A popular approach to train more stable models is ensemble learning, but unfortunately, it is unclear how to combine ensembles with mitigators to best navigate trade-offs between fairness and predictive performance. To that end, we built an open-source library enabling the modular composition of 8 mitigators, 4 ensembles, and their corresponding hyperparameters, and we empirically explored the space of configurations on 13 datasets. We distilled our insights from this exploration in the form of a guidance diagram for practitioners that we demonstrate is robust and reproducible.
翻訳日:2022-10-12 17:50:06 公開日:2022-10-11
# ADAMの可変化バージョンにおけるダイバージェンス結果と収束性

Divergence Results and Convergence of a Variance Reduced Version of ADAM ( http://arxiv.org/abs/2210.05607v1 )

ライセンス: Link先を確認
Ruiqi Wang and Diego Klabjan(参考訳) ADAM、RMSProp、AdaGradといった過去の勾配の指数的な移動平均を用いた確率最適化アルゴリズムは、多くのアプリケーション、特にディープニューラルネットワークのトレーニングにおいて大きな成功を収めている。 特にADAMは効率的で堅牢である。 優れた性能にもかかわらず、ADAMはいくつかの特定の問題に対して相違があることが証明されている。 発散問題を再検討し、期待や高い確率といったより強い条件下で発散例を提供する。 分散還元仮定の下では、ADAM型アルゴリズムが収束することを示し、これは元々のADAMのばらつきを引き起こす勾配の分散であることを意味する。 そこで本研究では,ADAMの分散化バージョンを提案し,アルゴリズムの収束解析を行う。 数値実験により,提案アルゴリズムはADAMと同等の性能を示した。 我々の研究は収束問題を解決するための新しい方向を示唆している。

Stochastic optimization algorithms using exponential moving averages of the past gradients, such as ADAM, RMSProp and AdaGrad, have been having great successes in many applications, especially in training deep neural networks. ADAM in particular stands out as efficient and robust. Despite of its outstanding performance, ADAM has been proved to be divergent for some specific problems. We revisit the divergent question and provide divergent examples under stronger conditions such as in expectation or high probability. Under a variance reduction assumption, we show that an ADAM-type algorithm converges, which means that it is the variance of gradients that causes the divergence of original ADAM. To this end, we propose a variance reduced version of ADAM and provide a convergent analysis of the algorithm. Numerical experiments show that the proposed algorithm has as good performance as ADAM. Our work suggests a new direction for fixing the convergence issues.
翻訳日:2022-10-12 17:49:53 公開日:2022-10-11
# EllipsoNet:複合薄膜の深層学習型光学エリプソメトリー

EllipsoNet: Deep-learning-enabled optical ellipsometry for complex thin films ( http://arxiv.org/abs/2210.05630v1 )

ライセンス: Link先を確認
Ziyang Wang, Yuxuan Cosmi Lin, Kunyan Zhang, Wenjing Wu, Shengxi Huang(参考訳) 光学分光はナノサイエンスとナノテクノロジー、マイクロエレクトロニクス、エネルギー、そして先進的な製造の研究と開発に不可欠である。 高度な光学分光ツールは、特別に設計されたハイエンドの計測と複雑なデータ分析技術の両方を必要とする。 一般的な分析ツール以外にも、深層学習法は高次元および複雑な分光データの解釈に適している。 それらは、より単純な光学的セットアップで材料の光学的性質に関する微妙で深い情報を抽出する素晴らしい機会を提供する。 本研究では,従来の卓上光学顕微鏡と,EllipsoNetと呼ばれるディープラーニングモデルに基づく計算エリプソメトリー手法を提案する。 多層基板に関する事前の知識がなければ、EllipsoNetは高精度で測定された光学反射スペクトルからこれらの非自明基板上の薄膜の複雑な屈折率を予測することができる。 この仕事は従来の反射法や楕円法では実現できなかった。 クラマーズ・クローニッヒ関係のような基本的な物理原理は、これ以上の訓練なしにモデルによって自然に学習される。 このアプローチにより、複雑なフォトニック構造や光電子デバイス内の機能性材料の動作中の光学的特徴付けが可能になる。

Optical spectroscopy is indispensable for research and development in nanoscience and nanotechnology, microelectronics, energy, and advanced manufacturing. Advanced optical spectroscopy tools often require both specifically designed high-end instrumentation and intricate data analysis techniques. Beyond the common analytical tools, deep learning methods are well suited for interpreting high-dimensional and complicated spectroscopy data. They offer great opportunities to extract subtle and deep information about optical properties of materials with simpler optical setups, which would otherwise require sophisticated instrumentation. In this work, we propose a computational ellipsometry approach based on a conventional tabletop optical microscope and a deep learning model called EllipsoNet. Without any prior knowledge about the multilayer substrates, EllipsoNet can predict the complex refractive indices of thin films on top of these nontrivial substrates from experimentally measured optical reflectance spectra with high accuracies. This task was not feasible previously with traditional reflectometry or ellipsometry methods. Fundamental physical principles, such as the Kramers-Kronig relations, are spontaneously learned by the model without any further training. This approach enables in-operando optical characterization of functional materials within complex photonic structures or optoelectronic devices.
翻訳日:2022-10-12 17:49:40 公開日:2022-10-11
# 理解と操作: 現代のレコメンデーションシステムのオンラインパフォーマンス向上を再考する

Understanding or Manipulation: Rethinking Online Performance Gains of Modern Recommender Systems ( http://arxiv.org/abs/2210.05662v1 )

ライセンス: Link先を確認
Zhengbang Zhu, Rongjun Qin, Junjie Huang, Xinyi Dai, Yang Yu, Yong Yu and Weinan Zhang(参考訳) レコメンダシステムは、明示的なクエリなしで、ユーザが関連する情報を自動的に見つけるのに役立つアシスタントとして期待されている。 レコメンダシステムが進化するにつれて、ますます高度な学習技術が適用され、クリックやブラウジング時間といったユーザのエンゲージメント指標において、よりよいパフォーマンスを達成している。 しかし、測定されたパフォーマンスの増加は、ユーザーの好みをよりよく理解することと、人間の有界合理性を利用してユーザの過度な消費を誘惑するより積極的な能力という2つの可能性がある。 自然な疑問は、現在の推奨アルゴリズムがユーザの好みを操作するかどうかである。 もしそうなら、操作レベルを計測できますか? 本稿では,slateレコメンデーションシナリオと逐次レコメンデーションシナリオの両方において,レコメンデーションアルゴリズムの操作の程度をベンチマークするための汎用フレームワークを提案する。 このフレームワークは、初期選好計算、アルゴリズムのトレーニングとインタラクション、および2つの提案されたメトリクスであるManipulation ScoreとPreference Shiftを含むメトリクス計算の3段階で構成されている。 提案フレームワークでは,合成データと実世界のデータセットの両方において,代表的な推奨アルゴリズムをいくつかベンチマークする。 オンラインのクリックスルー率が高いことは、ユーザの初期の好みをよりよく理解するという意味ではなく、ユーザが最初に好まなかったドキュメントをもっと選ぶように促すことである。 さらに, 学習データの特性は操作度に有意な影響を与え, より強力なモデリング能力を持つアルゴリズムは, その影響に対してより敏感であることがわかった。 実験は、操作の度合いを測定するための提案された指標の有用性も検証した。 今後のレコメンデーションアルゴリズムの研究は,ユーザの嗜好操作を制約した最適化問題として扱うべきである。

Recommender systems are expected to be assistants that help human users find relevant information in an automatic manner without explicit queries. As recommender systems evolve, increasingly sophisticated learning techniques are applied and have achieved better performance in terms of user engagement metrics such as clicks and browsing time. The increase of the measured performance, however, can have two possible attributions: a better understanding of user preferences, and a more proactive ability to utilize human bounded rationality to seduce user over-consumption. A natural following question is whether current recommendation algorithms are manipulating user preferences. If so, can we measure the manipulation level? In this paper, we present a general framework for benchmarking the degree of manipulations of recommendation algorithms, in both slate recommendation and sequential recommendation scenarios. The framework consists of three stages, initial preference calculation, algorithm training and interaction, and metrics calculation that involves two proposed metrics, Manipulation Score and Preference Shift. We benchmark some representative recommendation algorithms in both synthetic and real-world datasets under the proposed framework. We have observed that a high online click-through rate does not mean a better understanding of user initial preference, but ends in prompting users to choose more documents they initially did not favor. Moreover, we find that the properties of training data have notable impacts on the manipulation degrees, and algorithms with more powerful modeling abilities are more sensitive to such impacts. The experiments also verified the usefulness of the proposed metrics for measuring the degree of manipulations. We advocate that future recommendation algorithm studies should be treated as an optimization problem with constrained user preference manipulations.
翻訳日:2022-10-12 17:49:25 公開日:2022-10-11
# 野生動物における3次元ポーズ予測のための汎用拡散に基づくアプローチ

A generic diffusion-based approach for 3D human pose prediction in the wild ( http://arxiv.org/abs/2210.05669v1 )

ライセンス: Link先を確認
Saeed Saadatnejad, Ali Rasekh, Mohammadreza Mofayezi, Yasamin Medghalchi, Sara Rajabzadeh, Taylor Mordan, Alexandre Alahi(参考訳) 3d人間のポーズ予測、すなわち、過去の観察されたポーズのシーケンスを与えられた将来の人間の3dポーズのシーケンスを予測することは、時空間的課題である。 咬合が必然的に起こり、関節の3d座標が何らかのノイズを含む現実世界のアプリケーションでは、より困難になる可能性がある。 不完全な要素(予測や観測にかかわらず)がノイズとして扱われる統一的な定式化と、それらを記述し、妥当なポーズを予測できる条件拡散モデルを提案する。 我々のモデルは、全ての将来のフレームを一斉に予測する代わりに、2つのカスケードされたサブモデルで構成され、それぞれが短くて長い水平分布をモデル化する。 また,入力を修復する前処理ステップと出力を洗練する後処理ステップという2つのステップで拡散モデルを活用し,任意の3次元ポーズ予測モデルを改善する汎用フレームワークを提案する。 我々は,4つの標準データセット(Human3.6M,HumanEva-I,AMASS,3DPW)について検討し,現状よりも大幅に改善した。 コードはオンラインで公開されます。

3D human pose forecasting, i.e., predicting a sequence of future human 3D poses given a sequence of past observed ones, is a challenging spatio-temporal task. It can be more challenging in real-world applications where occlusions will inevitably happen, and estimated 3D coordinates of joints would contain some noise. We provide a unified formulation in which incomplete elements (no matter in the prediction or observation) are treated as noise and propose a conditional diffusion model that denoises them and forecasts plausible poses. Instead of naively predicting all future frames at once, our model consists of two cascaded sub-models, each specialized for modeling short and long horizon distributions. We also propose a generic framework to improve any 3D pose forecasting model by leveraging our diffusion model in two additional steps: a pre-processing step to repair the inputs and a post-processing step to refine the outputs. We investigate our findings on four standard datasets (Human3.6M, HumanEva-I, AMASS, and 3DPW) and obtain significant improvements over the state-of-the-art. The code will be made available online.
翻訳日:2022-10-12 17:48:40 公開日:2022-10-11
# カーネル化マルチグラフマッチング

Kernelized multi-graph matching ( http://arxiv.org/abs/2210.05206v1 )

ライセンス: Link先を確認
Fran\c{c}ois-Xavier Dup\'e (LIS, QARMA), Rohit Yadav, Guillaume Auzias, S. Takerkart(参考訳) マルチグラフマッチングはグラフマッチング問題の最近の変種である。 このフレームワークでは、最適化手順は複数のグラフを考慮し、グラフに沿ってマッチの一貫性を強制する。 この制約は、ペアワイズ置換行列のサイクル整合性として定式化することができ、これは vertex~\citep{pachauri2013solving} の宇宙の定義を意味する。 それぞれの頂点のラベルはスパースベクトルによって符号化され、この空間の次元は、すべての対方向の置換行列の集約から構築された行列であるバルク置換行列の階数に対応する。 マッチング問題は、階数と置換に課される制約の下で、非凸二次最適化問題(QAP)として定式化することができる。 本稿では,低メモリ使用率を維持しつつ,頂点と辺の両方の属性のベクトルを処理する,新しいカーネル化されたマルチグラフマッチング手法を提案する。 予測力最適化手法を用いてqap問題を解き、結果の安定性向上につながる複数のプロジェクタを提案する。 本手法が他の教師なし手法と競合することを示す実験をいくつか実施する。

Multigraph matching is a recent variant of the graph matching problem. In this framework, the optimization procedure considers several graphs and enforces the consistency of the matches along the graphs. This constraint can be formalized as a cycle consistency across the pairwise permutation matrices, which implies the definition of a universe of vertex~\citep{pachauri2013solving}. The label of each vertex is encoded by a sparse vector and the dimension of this space corresponds to the rank of the bulk permutation matrix, the matrix built from the aggregation of all the pairwise permutation matrices. The matching problem can then be formulated as a non-convex quadratic optimization problem (QAP) under constraints imposed on the rank and the permutations. In this paper, we introduce a novel kernelized multigraph matching technique that handles vectors of attributes on both the vertices and edges of the graphs, while maintaining a low memory usage. We solve the QAP problem using a projected power optimization approach and propose several projectors leading to improved stability of the results. We provide several experiments showing that our method is competitive against other unsupervised methods.
翻訳日:2022-10-12 17:48:20 公開日:2022-10-11
# Dual-Feature Attentionを用いたコントラスト軌道類似学習

Contrastive Trajectory Similarity Learning with Dual-Feature Attention ( http://arxiv.org/abs/2210.05155v1 )

ライセンス: Link先を確認
Yanchuan Chang, Jianzhong Qi, Yuxuan Liang, Egemen Tanin(参考訳) トラジェクトリ類似度測定は、トラジェクトリデータベースにおけるクエリ述語として機能し、クエリ結果を決定するキープレーヤーとなる。 また、クエリ効率に大きな影響を与えます。 理想測度は、2つの軌道間の類似性を非常に短時間で正確に評価する能力を持つべきである。 しかし、既存のヒューリスティックな手段は、主に手作りのルールによるポイントワイズ比較に基づいており、品質の低下や効率の低下の原因となっていることが多い。 近年, 深層学習に基づく手法がいくつか提案されているが, その改善は, 軌跡のきめ細かい空間パターンを学習する難しさによって制限されている。 そこで本研究では,データ集合が低品質のトラジェクタを含むアプリケーションシナリオにおいてロバストな手法であるtrajclを提案する。 具体的には,4つのトラジェクトリ拡張法と,新しい2機能自己注意型トラジェクトリバックボーンエンコーダを提案する。 結果として得られるモデルは、軌道の空間的および構造的パターンの両方を共同的に学習することができる。 我々のモデルは再帰的な構造を含まないため、高い効率性を有する。 さらに、トレーニング済みのバックボーンエンコーダを、最小限の監視データで計算コストのかかる他の指標に微調整することができる。 実験結果から,TrajCLは最先端の軌道類似度測定よりも一貫して精度が高く,高速であることがわかった。 微調整(英: fine-tuning)、すなわち、ヒューリスティック測度の推定器として使われる場合、TrajCLは軌跡類似性クエリの精度を最大32%向上させることができる。

Trajectory similarity measures act as query predicates in trajectory databases, making them the key player in determining the query results. They also have a heavy impact on the query efficiency. An ideal measure should have the capability to accurately evaluate the similarity between any two trajectories in a very short amount of time. However, existing heuristic measures are mainly based on pointwise comparisons following hand-crafted rules, thus resulting in either poor quality results or low efficiency in many cases. Although several deep learning-based measures have recently aimed at these problems, their improvements are limited by the difficulties to learn the fine-grained spatial patterns of trajectories. To address these issues, we propose a contrastive learning-based trajectory modelling method named TrajCL, which is robust in application scenarios where the data set contains low-quality trajectories. Specifically, we present four trajectory augmentation methods and a novel dual-feature self-attention-based trajectory backbone encoder. The resultant model can jointly learn both the spatial and the structural patterns of trajectories. Our model does not involve any recurrent structures and thus has a high efficiency. Besides, our pre-trained backbone encoder can be fine-tuned towards other computationally expensive measures with minimal supervision data. Experimental results show that TrajCL is consistently and significantly more accurate and faster than the state-of-the-art trajectory similarity measures. After fine-tuning, i.e., when being used as an estimator for heuristic measures, TrajCL can even outperform the state-of-the-art supervised method by up to 32% in the accuracy for processing trajectory similarity queries.
翻訳日:2022-10-12 17:42:54 公開日:2022-10-11
# ロボットの事前訓練:オフラインRLで試行錯誤から新しいタスクを学習できる

Pre-Training for Robots: Offline RL Enables Learning New Tasks from a Handful of Trials ( http://arxiv.org/abs/2210.05178v1 )

ライセンス: Link先を確認
Aviral Kumar, Anikait Singh, Frederik Ebert, Yanlai Yang, Chelsea Finn, Sergey Levine(参考訳) ディープラーニングの最近の進歩は、効果的な一般化を達成するために多種多様なデータセットを利用する大きな可能性を浮き彫りにしている。 しかし、実際には、以前のデータに含まれない新しい環境で新しいスキルを学びたいと考えています。 そこで、我々はどのようにして既存の多様なオフラインデータセットを、少数のタスク固有のデータと組み合わせて新しいタスクを解決し、大量のデータに対するトレーニングの一般化の利点を享受できるか? 本稿では,表現学習や視覚に基づく事前学習を必要とせずに,エンドツーエンドのオフラインRLが効果的に実現可能であることを示す。 我々は、既存のロボットデータセットの事前学習と、新しいタスクの迅速な微調整と、最大10個のデモを組み合わせることで、新しいタスクを効果的に学習するオフラインRLに基づくフレームワークであるPTR(Pre-training for Robot)を提案する。 コアとなるPTRは、保守的なQ-ラーニング(CQL)のような既存のオフラインRLメソッドを適用するが、PTRが実際に動作し、さまざまな先行メソッドよりも優れている、いくつかの重要な設計判断を含むように拡張する。 私たちの知る限りでは、PTRは、さまざまなおもちゃのキッチンで収集された多様なマルチタスクロボットデータのデータセットを効果的に活用することで、実際のWidowXロボットの新しいドメインで10個のタスクのデモを行うのに成功する最初のオフラインRLメソッドである。 実装はhttps://github.com/asap7772/ptrで確認できます。

Recent progress in deep learning highlights the tremendous potential of utilizing diverse datasets for achieving effective generalization and makes it enticing to consider leveraging broad datasets for attaining more robust generalization in robotic learning as well. However, in practice we likely will want to learn a new skill in a new environment that is unlikely to be contained in the prior data. Therefore we ask: how can we leverage existing diverse offline datasets in combination with small amounts of task-specific data to solve new tasks, while still enjoying the generalization benefits of training on large amounts of data? In this paper, we demonstrate that end-to-end offline RL can be an effective approach for doing this, without the need for any representation learning or vision-based pre-training. We present pre-training for robots (PTR), a framework based on offline RL that attempts to effectively learn new tasks by combining pre-training on existing robotic datasets with rapid fine-tuning on a new task, with as a few as 10 demonstrations. At its core, PTR applies an existing offline RL method such as conservative Q-learning (CQL), but extends it to include several crucial design decisions that enable PTR to actually work and outperform a variety of prior methods. To the best of our knowledge, PTR is the first offline RL method that succeeds at learning new tasks in a new domain on a real WidowX robot with as few as 10 task demonstrations, by effectively leveraging an existing dataset of diverse multi-task robot data collected in a variety of toy kitchens. Our implementation can be found at: https://github.com/Asap7772/PTR.
翻訳日:2022-10-12 17:42:24 公開日:2022-10-11
# 分子リンカー設計のための等変3次元拡散モデル

Equivariant 3D-Conditional Diffusion Models for Molecular Linker Design ( http://arxiv.org/abs/2210.05274v1 )

ライセンス: Link先を確認
Ilia Igashov, Hannes St\"ark, Cl\'ement Vignac, Victor Garcia Satorras, Pascal Frossard, Max Welling, Michael Bronstein, Bruno Correia(参考訳) フラグメントに基づく薬物発見は、初期段階の薬物開発において有効なパラダイムである。 この領域におけるオープンな課題は、化学的に関連のある薬物分子を得るために、分離された分子断片間のリンカーを設計することである。 本研究では分子リンカー設計のためのe(3)同変3d条件拡散モデルdifflinkerを提案する。 切り離された断片のセットが与えられると、このモデルでは原子が欠落しており、初期フラグメントをすべて組み込んだ分子を設計します。 分子フラグメントのペアのみを接続できる従来のアプローチとは異なり、我々の手法は任意の数のフラグメントをリンクすることができる。 さらに、モデルはリンカ内の原子の数を自動的に決定し、そのアタッチメントは入力フラグメントに向けられる。 difflinkerは、より多様で合成可能な分子を生成する標準データセットの他の方法よりも優れていることを実証する。 また,本手法を実世界のアプリケーションで実験的にテストし,ターゲットタンパク質ポケット上で有効なリンカを効果的に生成できることを示した。

Fragment-based drug discovery has been an effective paradigm in early-stage drug development. An open challenge in this area is designing linkers between disconnected molecular fragments of interest to obtain chemically-relevant candidate drug molecules. In this work, we propose DiffLinker, an E(3)-equivariant 3D-conditional diffusion model for molecular linker design. Given a set of disconnected fragments, our model places missing atoms in between and designs a molecule incorporating all the initial fragments. Unlike previous approaches that are only able to connect pairs of molecular fragments, our method can link an arbitrary number of fragments. Additionally, the model automatically determines the number of atoms in the linker and its attachment points to the input fragments. We demonstrate that DiffLinker outperforms other methods on the standard datasets generating more diverse and synthetically-accessible molecules. Besides, we experimentally test our method in real-world applications, showing that it can successfully generate valid linkers conditioned on target protein pockets.
翻訳日:2022-10-12 17:41:49 公開日:2022-10-11
# ゼロ階ハードThresholding: Gradient Error vs. Expansivity

Zeroth-Order Hard-Thresholding: Gradient Error vs. Expansivity ( http://arxiv.org/abs/2210.05279v1 )

ライセンス: Link先を確認
William de Vazelhes, Hualin Zhang, Huimin Wu, Xiao-Tong Yuan, Bin Gu(参考訳) $\ell_0$制約付き最適化は、特に高次元問題において機械学習において一般的である。 厳密な勾配降下はこの問題を解決する主要な手法である。 しかし、対象関数の第一次勾配は、ゼロ次勾配 (zo) が良いサロゲートとなるような、多くの実世界の問題で計算するには使用不可能または高価であるかもしれない。 残念なことに、ZO勾配がハードThresholding演算子と機能するかどうかはまだ未解決の問題である。 本稿では,制約付きブラックボックス確率最適化問題である$\ell_0$に着目し,新しいランダムサポートサンプリングを用いた一般zo勾配推定器を用いた確率的ゼロ次勾配ハードスレッショルド(szoht)アルゴリズムを提案する。 標準仮定の下でSZOHTの収束解析を行う。 重要なことは、ZO推定器の偏差とハードThresholding演算子の膨張率との矛盾を明らかにし、ZO勾配におけるランダムな方向の数の理論的最小値を提供する。 さらに,szohtのクエリの複雑さは,異なる設定下での次元に依存するか,あるいは弱く依存していることがわかった。 最後に,ポートフォリオ最適化問題およびブラックボックス攻撃における本手法の有用性について述べる。

$\ell_0$ constrained optimization is prevalent in machine learning, particularly for high-dimensional problems, because it is a fundamental approach to achieve sparse learning. Hard-thresholding gradient descent is a dominant technique to solve this problem. However, first-order gradients of the objective function may be either unavailable or expensive to calculate in a lot of real-world problems, where zeroth-order (ZO) gradients could be a good surrogate. Unfortunately, whether ZO gradients can work with the hard-thresholding operator is still an unsolved problem. To solve this puzzle, in this paper, we focus on the $\ell_0$ constrained black-box stochastic optimization problems, and propose a new stochastic zeroth-order gradient hard-thresholding (SZOHT) algorithm with a general ZO gradient estimator powered by a novel random support sampling. We provide the convergence analysis of SZOHT under standard assumptions. Importantly, we reveal a conflict between the deviation of ZO estimators and the expansivity of the hard-thresholding operator, and provide a theoretical minimal value of the number of random directions in ZO gradients. In addition, we find that the query complexity of SZOHT is independent or weakly dependent on the dimensionality under different settings. Finally, we illustrate the utility of our method on a portfolio optimization problem as well as black-box adversarial attacks.
翻訳日:2022-10-12 17:41:33 公開日:2022-10-11
# FusionDeepMF: Recommendationのためのデュアル埋め込みに基づくディープフュージョンモデル

FusionDeepMF: A Dual Embedding based Deep Fusion Model for Recommendation ( http://arxiv.org/abs/2210.05338v1 )

ライセンス: Link先を確認
Supriyo Mandal and Abyayananda Maiti(参考訳) 従来のコラボレーティブ・フィルタリング(CF)に基づく手法は、評価行列からアイテムや製品に対するユーザ/顧客個人の好みを理解するために用いられる。 通常、評価行列は自然界ではスパースである。 したがって、疎度問題に対処する側情報を増大させるCF法の改良版がいくつか存在する。 線形カーネルのみまたは非線形カーネルのみが、データからのユーザ・イテム遅延機能埋め込みを理解するために利用可能なレコメンデーション関連の作業の多くに適用される。 線形カーネルや非線形カーネルだけが、ユーザのサイド情報から複雑なユーザイテム機能を学ぶのに十分ではない。 近年,線形でないカーネルの機能を学習するハイブリッドモデルや,線形カーネルの他の機能に注目する研究者もいる。 しかし、どの機能が線形カーネルや非線形カーネルで正確に学習できるかを理解するのは難しい。 この問題を解決するためにFusionDeepMFという新しい深層核融合モデルを提案し,その新しい試みについて述べる。 一 線形及び非線形カーネルによるユーザ項目の格付け行列及びサイド情報を同時に学習すること。 二 線形核及び非線形核から生成される二重埋め込み間のトレードオフを決定する調整パラメータの適用 オンラインレビューデータセットに関する大規模な実験は、FusionDeepMFが他のベースラインアプローチと比較して驚くほど未来的であることを証明している。 また、MF(Matrix Factorization)の線形カーネルやMLP(Multi-layer Perceptron)の非線形カーネルと比較すると、FusionDeepMFは優れた性能を発揮することが実証された。

Traditional Collaborative Filtering (CF) based methods are applied to understand the personal preferences of users/customers for items or products from the rating matrix. Usually, the rating matrix is sparse in nature. So there are some improved variants of the CF method that apply the increasing amount of side information to handle the sparsity problem. Only linear kernel or only non-linear kernel is applied in most of the available recommendation-related work to understand user-item latent feature embeddings from data. Only linear kernel or only non-linear kernel is not sufficient to learn complex user-item features from side information of users. Recently, some researchers have focused on hybrid models that learn some features with non-linear kernels and some other features with linear kernels. But it is very difficult to understand which features can be learned accurately with linear kernels or with non-linear kernels. To overcome this problem, we propose a novel deep fusion model named FusionDeepMF and the novel attempts of this model are i) learning user-item rating matrix and side information through linear and non-linear kernel simultaneously, ii) application of a tuning parameter determining the trade-off between the dual embeddings that are generated from linear and non-linear kernels. Extensive experiments on online review datasets establish that FusionDeepMF can be remarkably futuristic compared to other baseline approaches. Empirical evidence also shows that FusionDeepMF achieves better performances compared to the linear kernels of Matrix Factorization (MF) and the non-linear kernels of Multi-layer Perceptron (MLP).
翻訳日:2022-10-12 17:41:09 公開日:2022-10-11
# 低ランク報酬によるマルチユーザ強化学習

Multi-User Reinforcement Learning with Low Rank Rewards ( http://arxiv.org/abs/2210.05355v1 )

ライセンス: Link先を確認
Naman Agarwal, Prateek Jain, Suhas Kowshik, Dheeraj Nagaraj and Praneeth Netrapalli(参考訳) 本稿では,協調型マルチユーザ強化学習の課題について考察する。 この設定では、複数のユーザが同じ状態アクションスペースと遷移確率を持っているが、報酬が異なる。 N$ユーザの報酬行列がローランク構造 -- オフラインの協調フィルタリング設定における標準的かつ実用的な仮定 -- を持っているという仮定の下で、疑問は、各ユーザについてMDPを個別に学習するよりも、サンプルの複雑さが著しく低いアルゴリズムを設計できるかどうかである。 我々の主な貢献は、N$のユーザ固有のMDPと協調して報酬を探索し、2つの主要な設定で報酬を効率的に学習するアルゴリズムである。 N$が大きすぎてランクが一定である場合、MDPあたりのサンプルの複雑さは、標準の「非協調的」アルゴリズムと比較して指数関数的な減少(状態空間サイズ)を表す状態空間のサイズに対数的に依存する。

In this work, we consider the problem of collaborative multi-user reinforcement learning. In this setting there are multiple users with the same state-action space and transition probabilities but with different rewards. Under the assumption that the reward matrix of the $N$ users has a low-rank structure -- a standard and practically successful assumption in the offline collaborative filtering setting -- the question is can we design algorithms with significantly lower sample complexity compared to the ones that learn the MDP individually for each user. Our main contribution is an algorithm which explores rewards collaboratively with $N$ user-specific MDPs and can learn rewards efficiently in two key settings: tabular MDPs and linear MDPs. When $N$ is large and the rank is constant, the sample complexity per MDP depends logarithmically over the size of the state-space, which represents an exponential reduction (in the state-space size) when compared to the standard ``non-collaborative'' algorithms.
翻訳日:2022-10-12 17:40:43 公開日:2022-10-11
# GPの計算効率の良い初期化:一般化ヴァリグラム法

Computationally-efficient initialisation of GPs: The generalised variogram method ( http://arxiv.org/abs/2210.05394v1 )

ライセンス: Link先を確認
Felipe Tobar and Elsa Cazelles and Taco de Wolff(参考訳) 本稿では,確率関数の計算を避けるために,ガウス過程(GP)のハイパーパラメータを求める計算効率の高い手法を提案する。 見つかったハイパーパラメータは、直接回帰に使用したり、初期条件として最大形訓練(ML)に渡したりすることができる。 実モデルと学習モデルの間のKL偏差を最小化するために,GPをMLでトレーニングすることが(平均的に)等価であるという事実に感銘を受け,計算コストが低く,MLに近い推定値を提供するGP間の異なる測度/偏差を探索することにした。 特に,実験的共分散をパラメトリックな候補に合わせることでGPハイパーパラメータを同定し,様々な相違の尺度を提案し,検討する。 本提案手法は,地理統計学の文献によって開発されたVariogram法を拡張し,一般化Variogram法(GVM)と呼ぶ。 GVMの理論的プレゼンテーションに加えて、合成および実世界のデータを用いて、異なるカーネルに対して精度、MLとの整合性、計算複雑性に関する実験的検証を提供する。

We present a computationally-efficient strategy to find the hyperparameters of a Gaussian process (GP) avoiding the computation of the likelihood function. The found hyperparameters can then be used directly for regression or passed as initial conditions to maximum-likelihood (ML) training. Motivated by the fact that training a GP via ML is equivalent (on average) to minimising the KL-divergence between the true and learnt model, we set to explore different metrics/divergences among GPs that are computationally inexpensive and provide estimates close to those of ML. In particular, we identify the GP hyperparameters by matching the empirical covariance to a parametric candidate, proposing and studying various measures of discrepancy. Our proposal extends the Variogram method developed by the geostatistics literature and thus is referred to as the Generalised Variogram method (GVM). In addition to the theoretical presentation of GVM, we provide experimental validation in terms of accuracy, consistency with ML and computational complexity for different kernels using synthetic and real-world data.
翻訳日:2022-10-12 17:40:25 公開日:2022-10-11
# QuCNN : 絡み合いに基づくバックプロパゲーションを持つ量子畳み込みニューラルネットワーク

QuCNN : A Quantum Convolutional Neural Network with Entanglement Based Backpropagation ( http://arxiv.org/abs/2210.05443v1 )

ライセンス: Link先を確認
Samuel A. Stein, Ying Mao, James Ang, and Ang Li(参考訳) 量子機械学習は、量子コンピューティングにおける非常に活発な分野であり続けている。 これらのアプローチの多くは、量子フローなどの量子設定に古典的なアプローチを適用している。 我々はこの傾向を推し進め、古典的畳み込みニューラルネットワークを量子システム、すなわちQuCNNに適応させることを実証する。 QuCNNはパラメータ化されたマルチ量子状態ベースのニューラルネットワーク層で、各量子フィルタ状態と各量子データ状態の類似性を演算する。 QuCNNでは、バック伝搬は単一アンシラ量子ビットルーチンによって実現できる。 QuCNNは、MNIST画像の小さなサブセットにデータ状態とフィルタ状態の畳み込み層を適用し、後方の伝搬勾配を比較し、理想的な目標状態に対してフィルタ状態を訓練することによって検証する。

Quantum Machine Learning continues to be a highly active area of interest within Quantum Computing. Many of these approaches have adapted classical approaches to the quantum settings, such as QuantumFlow, etc. We push forward this trend and demonstrate an adaption of the Classical Convolutional Neural Networks to quantum systems - namely QuCNN. QuCNN is a parameterised multi-quantum-state based neural network layer computing similarities between each quantum filter state and each quantum data state. With QuCNN, back propagation can be achieved through a single-ancilla qubit quantum routine. QuCNN is validated by applying a convolutional layer with a data state and a filter state over a small subset of MNIST images, comparing the back propagated gradients, and training a filter state against an ideal target state.
翻訳日:2022-10-12 17:40:06 公開日:2022-10-11
# 交叉閉クラスと極値クラスに対するラベルなしサンプル圧縮スキーム

Unlabelled Sample Compression Schemes for Intersection-Closed Classes and Extremal Classes ( http://arxiv.org/abs/2210.05455v1 )

ライセンス: Link先を確認
J. Hyam Rubinstein and Benjamin I. P. Rubinstein(参考訳) 概念クラスのサンプル圧縮性は、PAC学習可能性の十分な条件として、そして最近では適応データ解析における堅牢な一般化の道として、学習理論において重要な役割を果たす。 サイズ$O(d)$の圧縮スキームが、VC次元$d$のすべてのクラスに必ず存在するかどうかは不明だが、Warmuthによって推測される。 最近、chalopin, chepoi, moran, and warmuth (2018) は、全ての最大クラスのvc次元の大きさのラベルなしのサンプル圧縮スキームを美しいものにした: sauer-shelah-perles lemma に等しく一致するクラス。 彼らはまた、コーナー剥離と呼ばれる有望なアプローチに基づく圧縮スキームに対する反例を提供した。 本稿では,VC次元が$d-1$の最大クラスを含むいわゆるVC次元が$d$の極限クラスを扱うために,それらの証明手法を簡素化し拡張する。 条件は、すべての極端クラスが$d$の非ラベリング圧縮スキームを許容することを意味する。 また、VC次元が$d$のすべての交叉閉クラスは、少なくとも$11d$の圧縮スキームを許容する。

The sample compressibility of concept classes plays an important role in learning theory, as a sufficient condition for PAC learnability, and more recently as an avenue for robust generalisation in adaptive data analysis. Whether compression schemes of size $O(d)$ must necessarily exist for all classes of VC dimension $d$ is unknown, but conjectured to be true by Warmuth. Recently Chalopin, Chepoi, Moran, and Warmuth (2018) gave a beautiful unlabelled sample compression scheme of size VC dimension for all maximum classes: classes that meet the Sauer-Shelah-Perles Lemma with equality. They also offered a counterexample to compression schemes based on a promising approach known as corner peeling. In this paper we simplify and extend their proof technique to deal with so-called extremal classes of VC dimension $d$ which contain maximum classes of VC dimension $d-1$. A criterion is given which would imply that all extremal classes admit unlabelled compression schemes of size $d$. We also prove that all intersection-closed classes with VC dimension $d$ admit unlabelled compression schemes of size at most $11d$.
翻訳日:2022-10-12 17:39:54 公開日:2022-10-11
# 衛星画像による海洋ゴミ・浮遊プラスチックの高精度密度マッピング

High-precision Density Mapping of Marine Debris and Floating Plastics via Satellite Imagery ( http://arxiv.org/abs/2210.05468v1 )

ライセンス: Link先を確認
Henry Booth, Wanli Ma, Oktay Karakus(参考訳) 海洋環境におけるプラスチック汚染物質のモニタリング方法として,多スペクトル衛星データと機械学習の組み合わせが提案されている。 近年, 機械学習による海洋プラスチックの識別に関する理論的研究が進んでいる。 しかし,これらの手法を海洋塑性密度のマッピングとモニタリングに応用する研究は行われていない。 そこで本論文は,(1)機械学習モデルの開発,(2)海洋の塑性密度をマッピングする自動ツールMAP-Mapperの構築,(3)分布外試験のためのシステム全体の評価の3つの主要構成要素からなる。 本稿では,機械学習モデルが結果に対する偽陽性の影響を低減するために高精度である必要があるという事実を活用する。 MAP-Mapperアーキテクチャは、ユーザが高精度($\textit{abbv.)に到達するための選択肢を提供する。 またはOptimum precision-recall ($\textit{abbv. }$ -HP)。 トレーニング/テストデータセットの観点でいうと、-Opt) の値です。 MAP-Mapper-HPモデルでは, プラスチック検出精度が95%に向上し, MAP-Mapper-Optは87-88-%に向上した。 MAP-Mapperは、高度な深層・機械的学習とマルチスペクトル画像を利用して、自動ソフトウェアにおける海洋塑性密度をマッピングする最初のツールで文献に貢献する。 提案するデータパイプラインは,海洋域の塑性密度をマッピングする新しいアプローチを採用している。 これにより、この手法の課題と機会を早期に評価し、将来の研究や科学研究の指導に役立てることができる。

Combining multi-spectral satellite data and machine learning has been suggested as a method for monitoring plastic pollutants in the ocean environment. Recent studies have made theoretical progress regarding the identification of marine plastic via machine learning. However, no study has assessed the application of these methods for mapping and monitoring marine-plastic density. As such, this paper comprised of three main components: (1) the development of a machine learning model, (2) the construction of the MAP-Mapper, an automated tool for mapping marine-plastic density, and finally (3) an evaluation of the whole system for out-of-distribution test locations. The findings from this paper leverage the fact that machine learning models need to be high-precision to reduce the impact of false positives on results. The developed MAP-Mapper architectures provide users choices to reach high-precision ($\textit{abbv.}$ -HP) or optimum precision-recall ($\textit{abbv.}$ -Opt) values in terms of the training/test data set. Our MAP-Mapper-HP model greatly increased the precision of plastic detection to 95\%, whilst MAP-Mapper-Opt reaches precision-recall pair of 87\%-88\%. The MAP-Mapper contributes to the literature with the first tool to exploit advanced deep/machine learning and multi-spectral imagery to map marine-plastic density in automated software. The proposed data pipeline has taken a novel approach to map plastic density in ocean regions. As such, this enables an initial assessment of the challenges and opportunities of this method to help guide future work and scientific study.
翻訳日:2022-10-12 17:39:31 公開日:2022-10-11
# ブラインド資源配分のための確率的直接探索法の後悔解析

Regret Analysis of the Stochastic Direct Search Method for Blind Resource Allocation ( http://arxiv.org/abs/2210.05222v1 )

ライセンス: Link先を確認
Juliette Achddou (PSL, DI-ENS), Olivier Cappe (CNRS, DI-ENS, PSL), Aur\'elien Garivier (UMPA-ENSL, CNRS)(参考訳) プログラム的な広告最適化に動機づけられ,予算をリソースの集合に順次割り当てる作業を考える。 ステップ毎に、実現可能なアロケーションが選択され、対応するランダムリターンのみが観察される。 目標は、累積的なリターンの合計を最大化することである。 これは、コンバージョン数を最大化することを目的としたマーケティングキャンペーンのサブディビジョンにまたがる予算配分の現実的なモデルである。 雑音の存在下での線形制約および微分自由度最適化のための直接探索法(パターン探索)について検討した。 これらのアルゴリズムは実装が容易であり、特に制約付き最適化に適している。 累積的な後悔の観点からはまだ分析されていない。 一般の場合、T2/3の次数に対する後悔の上限を与える。 我々の数学的分析は、決定論的で制約のないケースにおいて、副産物として、時間非依存の後悔境界を確立する。 また,降下方向の同定を高速化するために,逐次試験に依存する手法の改良版を提案する。

Motivated by programmatic advertising optimization, we consider the task of sequentially allocating budget across a set of resources. At every time step, a feasible allocation is chosen and only a corresponding random return is observed. The goal is to maximize the cumulative expected sum of returns. This is a realistic model for budget allocation across subdivisions of marketing campaigns, when the objective is to maximize the number of conversions. We study direct search (aka pattern search) methods for linearly constrained and derivative-free optimization in the presence of noise. Those algorithms are easy to implement and particularly suited to constrained optimization. They have not yet been analyzed from the perspective of cumulative regret. We provide a regret upper-bound of the order of T 2/3 in the general case. Our mathematical analysis also establishes, as a by-product, time-independent regret bounds in the deterministic, unconstrained case. We also propose an improved version of the method relying on sequential tests to accelerate the identification of descent directions.
翻訳日:2022-10-12 17:33:56 公開日:2022-10-11
# 合成音声検出のためのDeep Spectro-temporal Artifacts

Deep Spectro-temporal Artifacts for Detecting Synthesized Speech ( http://arxiv.org/abs/2210.05254v1 )

ライセンス: Link先を確認
Xiaohui Liu, Meng Liu, Lin Zhang, Linjuan Zhang, Chang Zeng, Kai Li, Nan Li, Kong Aik Lee, Longbiao Wang, Jianwu Dang(参考訳) 音声深層合成検出(ADD)チャレンジが開催され、生成された人間のような音声を検出する。 本稿では,提案システムを用いてトラック1(低品質のフェイクオーディオ検出)とトラック2(一部フェイクオーディオ検出)の総合評価を行う。 本稿では, 時間的信号, スペクトル特徴, 奥行き埋め込み特徴を用いて, 分光時間的アーティファクトの検出を行った。 トラック1では,低品質データ拡張,ファインタニングによるドメイン適応,および様々な補完的特徴情報融合が集積された。 さらに,異なる特徴を持つサブシステムのクラスタリング特性を可視化法により解析し,提案手法の有効性について検討した。 トラック2では,自己教師あり学習構造を用いてフレーム遷移と平滑化を検出し,時間領域におけるpf攻撃の操作を捉えた。 トラック1とトラック2でそれぞれ4位と5位にランクインした。

The Audio Deep Synthesis Detection (ADD) Challenge has been held to detect generated human-like speech. With our submitted system, this paper provides an overall assessment of track 1 (Low-quality Fake Audio Detection) and track 2 (Partially Fake Audio Detection). In this paper, spectro-temporal artifacts were detected using raw temporal signals, spectral features, as well as deep embedding features. To address track 1, low-quality data augmentation, domain adaptation via finetuning, and various complementary feature information fusion were aggregated in our system. Furthermore, we analyzed the clustering characteristics of subsystems with different features by visualization method and explained the effectiveness of our proposed greedy fusion strategy. As for track 2, frame transition and smoothing were detected using self-supervised learning structure to capture the manipulation of PF attacks in the time domain. We ranked 4th and 5th in track 1 and track 2, respectively.
翻訳日:2022-10-12 17:33:34 公開日:2022-10-11
# GAN You Hear Me? 拡散モデルによる無条件音声合成の再生

GAN You Hear Me? Reclaiming Unconditional Speech Synthesis from Diffusion Models ( http://arxiv.org/abs/2210.05271v1 )

ライセンス: Link先を確認
Matthew Baas and Herman Kamper(参考訳) 非条件音声合成のためのGAN(generative adversarial network)であるAudioStyleGAN(ASGAN)を提案する。 画像合成モデルのStyleGAN系と同様に、ASGANはサンプルノイズをアンタングル化された潜在ベクトルにマッピングし、次に一連のオーディオ特徴にマッピングすることで、各層で信号エイリアスを抑制する。 AsGANのトレーニングを成功させるためには,適応型識別器の強化や,確率的に識別器更新をスキップするなど,いくつかの新しい手法を導入する。 asganは、google speech commandsデータセットで無条件の音声合成を実現する。 また、最上位の拡散モデルよりもかなり高速である。 アンタングル化を促進する設計を通じて、ASGANは明示的に訓練されることなく音声変換と音声編集を行うことができる。 ASGANは、GANが拡散モデルと高い競争力を持つことを示した。 コード、モデル、サンプル:https://github.com/RF5/simple-asgan/。

We propose AudioStyleGAN (ASGAN), a new generative adversarial network (GAN) for unconditional speech synthesis. As in the StyleGAN family of image synthesis models, ASGAN maps sampled noise to a disentangled latent vector which is then mapped to a sequence of audio features so that signal aliasing is suppressed at every layer. To successfully train ASGAN, we introduce a number of new techniques, including a modification to adaptive discriminator augmentation to probabilistically skip discriminator updates. ASGAN achieves state-of-the-art results in unconditional speech synthesis on the Google Speech Commands dataset. It is also substantially faster than the top-performing diffusion models. Through a design that encourages disentanglement, ASGAN is able to perform voice conversion and speech editing without being explicitly trained to do so. ASGAN demonstrates that GANs are still highly competitive with diffusion models. Code, models, samples: https://github.com/RF5/simple-asgan/.
翻訳日:2022-10-12 17:33:18 公開日:2022-10-11
# 分散確率勾配追従法によるゼロ次一点推定

Zero-Order One-Point Estimate with Distributed Stochastic Gradient-Tracking Technique ( http://arxiv.org/abs/2210.05618v1 )

ライセンス: Link先を確認
Elissa Mhanna and Mohamad Assaad(参考訳) 本研究では,分散マルチエージェント確率最適化問題について考察し,各エージェントが滑らかで凸な局所的目的関数を持ち,確率過程を考慮に入れた。 目標は、すべてのエージェントが協力して、これらのローカル関数の合計を最適化する共通ソリューションを見つけることだ。 エージェントが正確に1つの時点でしかノイズの多い数値関数クエリしか取得できないという現実的な仮定により、分散確率勾配追跡法を、勾配の見積もりを持たないバンディット設定に拡張し、ゼロオーダー(ZO)1点推定(1P-DSGT)を導入する。 確率的近似ツールを用いて, 滑らかで凸な目的のための新しい手法の収束を解析し, ほぼ確実に最適に収束することを示す。 次に、目的がさらに強い凸である場合の収束率について検討する。 我々は,1点推定器を用いた手法に最適である,十分な数の反復の後に,$O(\frac{1}{\sqrt{k}})$を得る。 また、上記の手法と比較して非常に良い$O(\sqrt{k})$の後悔境界も提供する。 さらに,数値実験による提案手法の有用性について述べる。

In this work, we consider a distributed multi-agent stochastic optimization problem, where each agent holds a local objective function that is smooth and convex, and that is subject to a stochastic process. The goal is for all agents to collaborate to find a common solution that optimizes the sum of these local functions. With the practical assumption that agents can only obtain noisy numerical function queries at exactly one point at a time, we extend the distributed stochastic gradient-tracking method to the bandit setting where we don't have an estimate of the gradient, and we introduce a zero-order (ZO) one-point estimate (1P-DSGT). We analyze the convergence of this novel technique for smooth and convex objectives using stochastic approximation tools, and we prove that it converges almost surely to the optimum. We then study the convergence rate for when the objectives are additionally strongly convex. We obtain a rate of $O(\frac{1}{\sqrt{k}})$ after a sufficient number of iterations $k > K_2$ which is usually optimal for techniques utilizing one-point estimators. We also provide a regret bound of $O(\sqrt{k})$, which is exceptionally good compared to the aforementioned techniques. We further illustrate the usefulness of the proposed technique using numerical experiments.
翻訳日:2022-10-12 17:33:05 公開日:2022-10-11
# 構造保存ニューラルネットワークによる近周期シンプレクティックマップの近似

Approximation of nearly-periodic symplectic maps via structure-preserving neural networks ( http://arxiv.org/abs/2210.05087v1 )

ライセンス: Link先を確認
Valentin Duruisseaux, Joshua W. Burby, Qi Tang(参考訳) パラメータ $\varepsilon$ を持つ連続時間力学系は、すべての軌跡が周期的であり、$\varepsilon$ が 0 に近づくと、どこにもない角周波数を持つ。 概周期写像は、概周期系の離散時間類似物であり、円運動に沿った回転に制限されるパラメータ依存微分同相写像として定義され、制限回転が非共振であるとき、すべての順序に対して形式的$u(1)$対称性を認める。 厳密な漸近多様体上のハミルトン的近周期写像に対して、公式な u(1)$ 対称性は離散時間断熱不変量をもたらす。 本稿では,ほぼ周期的なシンプレクティックマップを近似する構造保存ニューラルネットワークを構築する。 シンプレクティック・ジャイロセプトロンと呼ばれるこのニューラルネットワークアーキテクチャは、結果として得られるサロゲートマップがほぼ周期的かつシンプレクティックであり、離散的な時間的断熱不変性と長期間の安定性をもたらすことを保証します。 この新しい構造保存ニューラルネットワークは、急激な不安定性を導入することなく、短時間のスケールで自動的にステップする非散逸動的システムのサロゲートモデリングのための有望なアーキテクチャを提供する。

A continuous-time dynamical system with parameter $\varepsilon$ is nearly-periodic if all its trajectories are periodic with nowhere-vanishing angular frequency as $\varepsilon$ approaches 0. Nearly-periodic maps are discrete-time analogues of nearly-periodic systems, defined as parameter-dependent diffeomorphisms that limit to rotations along a circle action, and they admit formal $U(1)$ symmetries to all orders when the limiting rotation is non-resonant. For Hamiltonian nearly-periodic maps on exact presymplectic manifolds, the formal $U(1)$ symmetry gives rise to a discrete-time adiabatic invariant. In this paper, we construct a novel structure-preserving neural network to approximate nearly-periodic symplectic maps. This neural network architecture, which we call symplectic gyroceptron, ensures that the resulting surrogate map is nearly-periodic and symplectic, and that it gives rise to a discrete-time adiabatic invariant and a long-time stability. This new structure-preserving neural network provides a promising architecture for surrogate modeling of non-dissipative dynamical systems that automatically steps over short timescales without introducing spurious instabilities.
翻訳日:2022-10-12 17:31:43 公開日:2022-10-11
# COMBO:コントラスト学習を用いたバイナリコードの事前学習

COMBO: Pre-Training Representations of Binary Code Using Contrastive Learning ( http://arxiv.org/abs/2210.05102v1 )

ライセンス: Link先を確認
Yifan Zhang, Chen Huang, Yueke Zhang, Kevin Cao, Scott Thomas Andersen, Huajie Shao, Kevin Leach, Yu Huang(参考訳) コンパイルされたソフトウェアは実行可能なバイナリコードとして配信される。 開発者はソフトウェアセマンティクスを表現するためにソースコードを書くが、コンパイラはそれをCPUが直接実行できるバイナリフォーマットに変換する。 したがって、ソースコードが利用できないリバースエンジニアリングやコンピュータセキュリティタスクのアプリケーションではバイナリコード解析が重要である。 しかし、豊富な意味情報を含むソースコードや自然言語とは異なり、バイナリコードは人間のエンジニアが理解し分析するのが難しい。 既存の研究はソースコード解析にAIモデルを使用しているが、バイナリコードを検討する研究はほとんどない。 本稿では、表現学習中にソースコードとコメント情報をバイナリコードに組み込んだ、バイナリcOde分析のためのContrastive Learning Model(COMBO)を提案する。 具体的には,(1)コールドスタート事前学習のための主要なコントラスト学習手法,(2)ソースコード,コメント,バイナリコードを組み込む単純な補間法,(3)バイナリコード埋め込みを提供する中間表現学習アルゴリズム,の3つのコンポーネントをCOMBOに提示する。 最後に,アルゴリズム機能分類,バイナリコード類似性,脆弱性検出の3つの指標ダウンストリームタスクを用いて,comboが生成した事前学習表現の有効性を評価する。 実験結果から,コンボは分散分析により可視化されたバイナリコードの表現学習を容易とし,最先端の大規模言語表現モデルと比較して,下流3つのタスク全体のパフォーマンスを平均5.45%向上させた。 我々の知る限り、COMBOはソースコード、バイナリコード、コメントを対照的なコード表現学習に組み込んだ最初の言語表現モデルであり、バイナリコード解析のために複数のタスクを統合する。

Compiled software is delivered as executable binary code. Developers write source code to express the software semantics, but the compiler converts it to a binary format that the CPU can directly execute. Therefore, binary code analysis is critical to applications in reverse engineering and computer security tasks where source code is not available. However, unlike source code and natural language that contain rich semantic information, binary code is typically difficult for human engineers to understand and analyze. While existing work uses AI models to assist source code analysis, few studies have considered binary code. In this paper, we propose a COntrastive learning Model for Binary cOde Analysis, or COMBO, that incorporates source code and comment information into binary code during representation learning. Specifically, we present three components in COMBO: (1) a primary contrastive learning method for cold-start pre-training, (2) a simplex interpolation method to incorporate source code, comments, and binary code, and (3) an intermediate representation learning algorithm to provide binary code embeddings. Finally, we evaluate the effectiveness of the pre-trained representations produced by COMBO using three indicative downstream tasks relating to binary code: algorithmic functionality classification, binary code similarity, and vulnerability detection. Our experimental results show that COMBO facilitates representation learning of binary code visualized by distribution analysis, and improves the performance on all three downstream tasks by 5.45% on average compared to state-of-the-art large-scale language representation models. To the best of our knowledge, COMBO is the first language representation model that incorporates source code, binary code, and comments into contrastive code representation learning and unifies multiple tasks for binary code analysis.
翻訳日:2022-10-12 17:31:20 公開日:2022-10-11
# リスク回避とスパーシティ制御のための機能制約付き最適化

Functional Constrained Optimization for Risk Aversion and Sparsity Control ( http://arxiv.org/abs/2210.05108v1 )

ライセンス: Link先を確認
Yi Cheng, Guanghui Lan, H. Edwin Romeijn(参考訳) リスクとスパーシリティ要件は、ポートフォリオ最適化やアソート計画、治療計画など、多くのアプリケーションで同時に実施する必要があることが多い。 これらの潜在的な矛盾する要件を適切にバランスさせることは、凸目的または非凸目的の両方で機能的制約付き最適化の定式化を伴います。 本稿では,これらの難解な機能的制約付き最適化問題を解くために,スパース軌道を生成するプロジェクションフリー手法に着目する。 具体的には,最適値の近似値を更新するためのレベルセットフレームワークと,ミニマックス部分問題を解くための内部条件勾配オラクル(cgo)を活用するレベル条件勾配(lcg)法を提案する。 最適双対ラグランジュ乗算器の大きいサイズに依存することなく、滑らかかつ非滑らかなケースを解くために、この手法が$\mathcal{O}\big(\frac{1}{\epsilon^2}\log\frac{1}{\epsilon}\big)$反復複雑性を実現することを示す。 非凸設定では、Level Inexact Proximal Point (IPP-LCG)法とDirect Nonconvex Conditional Gradient (DNCG)法を導入する。 最初のアプローチは、問題を一連の凸部分確率に変換することでLCGの利点を取り入れ、$\mathcal{O}\big(\frac{1}{\epsilon^3}\log\frac{1}{\epsilon}\big)$ iteration complexity for find a ($\epsilon,\epsilon$)-KKT point を示す。 DNCG は最初の単ループプロジェクションフリーの手法であり、反復複雑性は $\mathcal{O}\big(1/\epsilon^4\big)$ で表され、いわゆる $\epsilon$-Wolfe 点を計算する。 本研究は,LCG,IPP-LCG,DNCGの2つのリスク逆スパース最適化法(ポートフォリオ選択問題,濃度要件の有無,放射線治療計画問題)を考案し,その効果を実証するものである。

Risk and sparsity requirements often need to be enforced simultaneously in many applications, e.g., in portfolio optimization, assortment planning, and treatment planning. Properly balancing these potentially conflicting requirements entails the formulation of functional constrained optimization with either convex or nonconvex objectives. In this paper, we focus on projection-free methods that can generate a sparse trajectory for solving these challenging functional constrained optimization problems. Specifically, for the convex setting, we propose a Level Conditional Gradient (LCG) method, which leverages a level-set framework to update the approximation of the optimal value and an inner conditional gradient oracle (CGO) for solving mini-max subproblems. We show that the method achieves $\mathcal{O}\big(\frac{1}{\epsilon^2}\log\frac{1}{\epsilon}\big)$ iteration complexity for solving both smooth and nonsmooth cases without dependency on a possibly large size of optimal dual Lagrange multiplier. For the nonconvex setting, we introduce the Level Inexact Proximal Point (IPP-LCG) method and the Direct Nonconvex Conditional Gradient (DNCG) method. The first approach taps into the advantage of LCG by transforming the problem into a series of convex subproblems and exhibits an $\mathcal{O}\big(\frac{1}{\epsilon^3}\log\frac{1}{\epsilon}\big)$ iteration complexity for finding an ($\epsilon,\epsilon$)-KKT point. The DNCG is the first single-loop projection-free method, with iteration complexity bounded by $\mathcal{O}\big(1/\epsilon^4\big)$ for computing a so-called $\epsilon$-Wolfe point. We demonstrate the effectiveness of LCG, IPP-LCG and DNCG by devising formulations and conducting numerical experiments on two risk averse sparse optimization applications: a portfolio selection problem with and without cardinality requirement, and a radiation therapy planning problem in healthcare.
翻訳日:2022-10-12 17:30:49 公開日:2022-10-11
# 深層転写学習に基づく細調整yolov3とsegnetを用いた黒色腫皮膚癌の迅速かつ正確な検出・分節化法

The Fast and Accurate Approach to Detection and Segmentation of Melanoma Skin Cancer using Fine-tuned Yolov3 and SegNet Based on Deep Transfer Learning ( http://arxiv.org/abs/2210.05167v1 )

ライセンス: Link先を確認
Mohamad Taghizadeh, Karim Mohammadi(参考訳) メラノーマはヒト皮膚のどの部分でも発生する最も深刻な皮膚がんの1つである。 悪性黒色腫の早期診断は治療の可能性を著しく高める。 メラノーマのセグメンテーションの改善は、医師や手術ロボットが身体部分からより正確に病変を取り除くのに役立つ。 近年,学習ベースセグメンテーション法は従来のアルゴリズムと比較して画像セグメンテーションにおいて望ましい結果を得た。 本研究では,深層学習モデルに基づく2段階パイプラインを定義し,メラノーマ皮膚病変の検出とセグメンテーションを改善する新しい手法を提案する。 本手法はISIC 2018 (Skin Lesion Analysis towardss Melanoma Detection Challenge Dataset) で評価された。 提案手法は,病変の位置と分節のリアルタイム検出のための2つの主要部分からなる。 検出部では、微細調整されたYou Only Look Onceバージョン3(F-YOLOv3)により皮膚病変の位置を正確に検出し、微細調整されたSegmentation Network(F-SegNet)に入力する。 皮膚病変の局在は、セグメンテーションのための画像全体の不必要な計算を減らすのに役立つ。 その結果,提案するF-YOLOv3はmAPが96%向上した。 我々のF-SegNetは,最先端セグメンテーション手法と比較して,95.16%,92.81%,86.2%の精度,ダイス係数,ジャカード指数をそれぞれ高い性能で実現している。

Melanoma is one of the most serious skin cancers that can occur in any part of the human skin. Early diagnosing melanoma lesions will significantly increase their chances of being cured. Improving melanoma segmentation will help doctors or surgical robots remove the lesion more accurately from body parts. Recently, the learning-based segmentation methods achieved desired results in image segmentation compared to traditional algorithms. This study proposes a new method to improve melanoma skin lesions detection and segmentation by defining a two-step pipeline based on deep learning models. Our methods were evaluated on ISIC 2018 (Skin Lesion Analysis Towards Melanoma Detection Challenge Dataset) well-known dataset. The proposed methods consist of two main parts for real-time detection of lesion location and segmentation. In the detection section, the location of the skin lesion is precisely detected by the fine-tuned You Only Look Once version 3 (F-YOLOv3) and then fed into the fine-tuned Segmentation Network (F-SegNet). Skin lesion localization helps to reduce the unnecessary calculation of whole images for segmentation. The results show that our proposed F-YOLOv3 achieves better performance as 96% in mAP. Compared to state-of-the-art segmentation approaches, our F-SegNet achieves higher performance for accuracy, dice coefficient, and Jaccard index at 95.16%, 92.81%, and 86.2%, respectively.
翻訳日:2022-10-12 17:25:22 公開日:2022-10-11
# 飛行時間に対する微弱補正光流量推定

Weakly-Supervised Optical Flow Estimation for Time-of-Flight ( http://arxiv.org/abs/2210.05298v1 )

ライセンス: Link先を確認
Michael Schelling, Pedro Hermosilla, Timo Ropinski(参考訳) iToF(Indirect Time-of-Flight)カメラは、撮影シーンの深度値を得るために複数のキャプチャを行う3Dセンサーの一種である。 近年,マルチパス干渉やセンサノイズ除去時の奥行き補正手法が高性能化されているが,動作アーチファクトに取り組むための研究はほとんど行われていない。 本研究では,基底真理流を必要とせずに,再構成された深さで直接光フロー(of)ネットワークを監視できるトレーニングアルゴリズムを提案する。 本手法により,iToF深度画像における生のiToF測定値の整列と運動成果物の補償を可能にする。 このアプローチは、シングルおよびマルチ周波数センサーとマルチタップセンサーの両方で評価され、他のモーション補償技術よりも優れています。

Indirect Time-of-Flight (iToF) cameras are a widespread type of 3D sensor, which perform multiple captures to obtain depth values of the captured scene. While recent approaches to correct iToF depths achieve high performance when removing multi-path-interference and sensor noise, little research has been done to tackle motion artifacts. In this work we propose a training algorithm, which allows to supervise Optical Flow (OF) networks directly on the reconstructed depth, without the need of having ground truth flows. We demonstrate that this approach enables the training of OF networks to align raw iToF measurements and compensate motion artifacts in the iToF depth images. The approach is evaluated for both single- and multi-frequency sensors as well as multi-tap sensors, and is able to outperform other motion compensation techniques.
翻訳日:2022-10-12 17:24:54 公開日:2022-10-11
# コピー検出パターンの印刷変動

Printing variability of copy detection patterns ( http://arxiv.org/abs/2210.05343v1 )

ライセンス: Link先を確認
Roman Chaban, Olga Taran, Joakim Tutt, Yury Belousov, Brian Pulfer, Taras Holotyak and Slava Voloshynovskiy(参考訳) コピー検出パターン(CDP)は偽造に対する製品の保護のための新しいソリューションであり、近年その人気が高まっている。 CDPは代替保護技術と比較して多くの利点があるため、反偽造産業を惹きつけている。 その魅力に加えて、大規模産業アプリケーションにおけるCDP認証性能の基本的な分析には欠如がある。 これは、プリンタの種類、基板、印刷解像度などを含む異なる生産条件下でのCDPパラメータのばらつきに関するものである。 デジタルオフセット印刷は、従来のオフセット印刷に比べてパーソナライズされた製品に関して非常に柔軟性があるため、いくつかの企業が物理的オブジェクトのcdp保護に使用しているデジタルオフセットプリンタに対する上記の懸念に対処するのは非常に興味深い。 本稿では,CDPに影響を与える要因について詳しく検討する。 本研究で得られた実験結果から,これまで不明な結果がいくつか明らかとなり,さらに難解な疑問が浮かび上がってきた。 以上の結果から,CDP製造のための基板やプリンタを慎重に選択することが重要であることが示唆された。 本稿では,産業用hp indigoプリンタ2台による新しいデータセットを提案する。 印刷されたCDPと作成したデジタルテンプレートとの類似性を,本研究では簡単な尺度として選択した。 大規模産業応用に興味深いいくつかの特色を見出した。

Copy detection pattern (CDP) is a novel solution for products' protection against counterfeiting, which gains its popularity in recent years. CDP attracts the anti-counterfeiting industry due to its numerous benefits in comparison to alternative protection techniques. Besides its attractiveness, there is an essential gap in the fundamental analysis of CDP authentication performance in large-scale industrial applications. It concerns variability of CDP parameters under different production conditions that include a type of printer, substrate, printing resolution, etc. Since digital off-set printing represents great flexibility in terms of product personalized in comparison with traditional off-set printing, it looks very interesting to address the above concerns for digital off-set printers that are used by several companies for the CDP protection of physical objects. In this paper, we thoroughly investigate certain factors impacting CDP. The experimental results obtained during our study reveal some previously unknown results and raise new and even more challenging questions. The results prove that it is a matter of great importance to choose carefully the substrate or printer for CDP production. This paper presents a new dataset produced by two industrial HP Indigo printers. The similarity between printed CDP and the digital templates, from which they have been produced, is chosen as a simple measure in our study. We found several particularities that might be of interest for large-scale industrial applications.
翻訳日:2022-10-12 17:24:39 公開日:2022-10-11
# 協調学習における相互作用と規則の探索--学際的マルチモーダルデータセット

Exploring Interactions and Regulations in Collaborative Learning: An Interdisciplinary Multimodal Dataset ( http://arxiv.org/abs/2210.05419v1 )

ライセンス: Link先を確認
Yante Li, Yang Liu, Kh\'Anh Nguyen, Henglin Shi, Eija Vuorenmaa, Sanna Jarvela, and Guoying Zhao(参考訳) 協調学習(Collaborative learning)は、共通の目標を通じて学び、共同作業を促進する教育手法である。 相互作用と制御は協調学習の成功に不可欠な2つの要素である。 様々なモダリティからの情報は協調の質を反映できるため,協調プロセス中の相互作用にどのように影響するかを検討するために,認知的・感情的なトリガーを伴う新しいマルチモーダルデータセットが導入された。 具体的には,15歳(N=81)の高校生を対象に,意図的な介入を伴う学習課題を設計・割り当てする。 ビデオ,Kinect,オーディオ,生理的データなどのマルチモーダル信号を収集し,個別参加者・単一モダリティ,個別参加者・複数モダリティ,複数参加者・複数モダリティの観点から協調学習の規則を学習するために利用する。 注釈付き感情、身体のジェスチャー、およびそれらの相互作用の分析は、デザインされた治療を含むマルチモーダルデータセットが協調学習における規制モーメントを効果的に検証できることを示している。 さらに、ベースラインモデルに基づく予備実験では、データセットは、教育や情緒的コンピューティングの分野にさらに貢献する、挑戦的なインザワイルドシナリオを提供することを示唆している。

Collaborative learning is an educational approach that enhances learning through shared goals and working together. Interaction and regulation are two essential factors related to the success of collaborative learning. Since the information from various modalities can reflect the quality of collaboration, a new multimodal dataset with cognitive and emotional triggers is introduced in this paper to explore how regulations affect interactions during the collaborative process. Specifically, a learning task with intentional interventions is designed and assigned to high school students aged 15 years old (N=81) in average. Multimodal signals, including video, Kinect, audio, and physiological data, are collected and exploited to study regulations in collaborative learning in terms of individual-participant-single-modality, individual-participant-multiple-modality, and multiple-participant-multiple-modality. Analysis of annotated emotions, body gestures, and their interactions indicates that our multimodal dataset with designed treatments could effectively examine moments of regulation in collaborative learning. In addition, preliminary experiments based on baseline models suggest that the dataset provides a challenging in-the-wild scenario, which could further contribute to the fields of education and affective computing.
翻訳日:2022-10-12 17:24:19 公開日:2022-10-11
# Plug-and-Play フレームワークを用いた逐次分解に基づくレチネックス画像の強調

Retinex Image Enhancement Based on Sequential Decomposition With a Plug-and-Play Framework ( http://arxiv.org/abs/2210.05436v1 )

ライセンス: Link先を確認
Tingting Wu, Wenna Wu, Ying Yang, Feng-Lei Fan, Tieyong Zeng(参考訳) retinexモデルは、低光度画像エンハンスメントの最も代表的かつ効果的な方法の1つである。 しかし、Retinexモデルはノイズ問題に明示的に対応せず、不満足な改善結果を示す。 近年、優れた性能のため、低照度画像強調にディープラーニングモデルが広く用いられている。 しかし、これらの方法には2つの制限がある。 一 大量のラベル付きデータが利用可能である場合にのみ、望ましい性能が得られること。 しかし、大量の低/常光対データのキュレーションは容易ではない。 二 深層学習はブラックボックスモデルとして知られている[1]。 内部作業機構の説明や行動の理解は困難である。 本稿では、逐次Retinex分解戦略を用いて、画像強調とノイズ除去を同時に行うRetinex理論に基づくプラグアンドプレイフレームワークを設計する。 一方,提案するプラグアンドプレイフレームワークに畳み込みニューラルネットワーク(CNN)デノイザを組み込んで,リフレクタンスコンポーネントを生成する。 最終強調画像は、照明と反射率とガンマ補正を統合することで生成される。 提案するプラグイン・アンド・プレイフレームワークはポストホックとアドホックの双方の解釈を容易にする。 異なるデータセットに対する大規模な実験により、我々のフレームワークは画像の強調とデノーミングの両方において最先端の手法よりも優れていることが示された。

The Retinex model is one of the most representative and effective methods for low-light image enhancement. However, the Retinex model does not explicitly tackle the noise problem, and shows unsatisfactory enhancing results. In recent years, due to the excellent performance, deep learning models have been widely used in low-light image enhancement. However, these methods have two limitations: i) The desirable performance can only be achieved by deep learning when a large number of labeled data are available. However, it is not easy to curate massive low/normal-light paired data; ii) Deep learning is notoriously a black-box model [1]. It is difficult to explain their inner-working mechanism and understand their behaviors. In this paper, using a sequential Retinex decomposition strategy, we design a plug-and-play framework based on the Retinex theory for simultaneously image enhancement and noise removal. Meanwhile, we develop a convolutional neural network-based (CNN-based) denoiser into our proposed plug-and-play framework to generate a reflectance component. The final enhanced image is produced by integrating the illumination and reflectance with gamma correction. The proposed plug-and-play framework can facilitate both post hoc and ad hoc interpretability. Extensive experiments on different datasets demonstrate that our framework outcompetes the state-of-the-art methods in both image enhancement and denoising.
翻訳日:2022-10-12 17:23:57 公開日:2022-10-11
# 胸部x線診断支援のための理解可能なオンラインシステムcirca

CIRCA: comprehensible online system in support of chest X-rays-based COVID-19 diagnosis ( http://arxiv.org/abs/2210.05440v1 )

ライセンス: Link先を確認
Wojciech Prazuch, Aleksandra Suwalska, Marek Socha, Joanna Tobiasz, Pawel Foszner, Jerzy Jaroszewicz, Katarzyna Gruszczynska, Magdalena Sliwinska, Jerzy Walecki, Tadeusz Popiela, Grzegorz Przybylski, Andrzej Cieszanowski, Mateusz Nowak, Malgorzata Pawlowska, Robert Flisiak, Krzysztof Simon, Gabriela Zapolska, Barbara Gizycka, Edyta Szurowska, POLCOVID Study Group, Michal Marczyk, Joanna Polanska(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、入院を必要とする患者が大量に蓄積しているため、先進国でも医療システムの過剰な増加を引き起こした。 医療画像データに基づくディープラーニング技術は、covid-19症例の早期検出と疾患進行の監視に役立つ。 肺x線に対する様々な解決策が提案されているが、いずれもクリニックで使用できる製品ではない。 5つの異なるデータセット(polcovid, aiforcovid, covidx, nih, artificially generated data)を使用して、モデルトレーニングのための23799cxrの代表データセットを構築し、1つの050イメージをホールドアウトテストセットとして、44247を独立テストセット(bimcvデータベース)として使用した。 cxrの臨床的に関連する領域を特定するために、u-netベースのモデルが開発された。 各画像クラス(正常,肺炎,COVID-19)は2Dガウス混合モデルを用いて3つのサブタイプに分けられた。 InceptionV3ネットワークからの予測を、処理されたCXRと高密度ニューラルネットワークに基づいて集約するために、決定木を使用した。 肺分画モデルでは、sorensen-dice係数は検証データセットで94.86%、テストデータセットで93.36%であった。 5倍のクロスバリデーションでは,全クラスの精度は91%から93%であり,感度やPVよりもわずかに高い特異性を示した。 ホールドアウトテストセットでは、バランスの取れた精度は68%から100%であった。 最高性能はn1,p1,c1のサブタイプで得られた。 正常およびCOVID-19クラスサブタイプの独立したデータセットで同様のパフォーマンスが得られた。 正常例に分類された新型コロナウイルスの76%は、放射線科医が病気の兆候がないと注釈を付けていた。 最後に、高速診断支援ツールへのアクセスを提供するオンラインサービス(https://circa.aei.polsl.pl)を開発しました。

Due to the large accumulation of patients requiring hospitalization, the COVID-19 pandemic disease caused a high overload of health systems, even in developed countries. Deep learning techniques based on medical imaging data can help in the faster detection of COVID-19 cases and monitoring of disease progression. Regardless of the numerous proposed solutions for lung X-rays, none of them is a product that can be used in the clinic. Five different datasets (POLCOVID, AIforCOVID, COVIDx, NIH, and artificially generated data) were used to construct a representative dataset of 23 799 CXRs for model training; 1 050 images were used as a hold-out test set, and 44 247 as independent test set (BIMCV database). A U-Net-based model was developed to identify a clinically relevant region of the CXR. Each image class (normal, pneumonia, and COVID-19) was divided into 3 subtypes using a 2D Gaussian mixture model. A decision tree was used to aggregate predictions from the InceptionV3 network based on processed CXRs and a dense neural network on radiomic features. The lung segmentation model gave the Sorensen-Dice coefficient of 94.86% in the validation dataset, and 93.36% in the testing dataset. In 5-fold cross-validation, the accuracy for all classes ranged from 91% to 93%, keeping slightly higher specificity than sensitivity and NPV than PPV. In the hold-out test set, the balanced accuracy ranged between 68% and 100%. The highest performance was obtained for the subtypes N1, P1, and C1. A similar performance was obtained on the independent dataset for normal and COVID-19 class subtypes. Seventy-six percent of COVID-19 patients wrongly classified as normal cases were annotated by radiologists as with no signs of disease. Finally, we developed the online service (https://circa.aei.polsl.pl) to provide access to fast diagnosis support tools.
翻訳日:2022-10-12 17:23:37 公開日:2022-10-11
# ISPレス低消費電力コンピュータビジョンの実現

Enabling ISP-less Low-Power Computer Vision ( http://arxiv.org/abs/2210.05451v1 )

ライセンス: Link先を確認
Gourav Datta, Zeyu Liu, Zihan Yin, Linyu Sun, Akhilesh R. Jaiswal, Peter A. Beerel(参考訳) 資源制約された低消費電力デバイスに現在のコンピュータビジョン(CV)モデルをデプロイするために、最近の研究は、画像信号プロセッサ(ISP)を部分的にかつ確実にバイパスし、初期畳み込みニューラルネットワーク(CNN)層で活性化マップをダウンサンプリングすることで、画像センサとCV処理ユニット間の帯域幅を大幅に削減する、インセンサーおよびインピクセルコンピューティングアプローチを提案している。 しかし, 実画像の直接推測は, トレーニングに用いるISP処理画像と比較して, 画像センサが捉えた原画像の共分散の違いにより, テスト精度を低下させる。 さらに,大規模なオープンソースデータセットのほとんどがRGBイメージで構成されているため,生画像上での深部CVモデルのトレーニングも困難である。 この懸念を軽減するために,任意のデータセットのRGBイメージを生画像に変換し,生画像のモデルトレーニングを可能にするISPパイプラインの逆変換を提案する。 汎用的な高レベルビジョンタスクのための大規模ベンチマークであるcocoデータセットの生バージョンをリリースします。 ISPなしCVシステムでは、これらの生画像のトレーニングは、従来のISP処理されたRGBデータセットのトレーニングに依存するよりも、視覚覚醒作業(VWW)データセットのテスト精度が7.1%向上する。 ISPレスCVモデルの精度をさらに向上し、インセンサー/インピクセルコンピューティングによって得られるエネルギーと帯域幅の利点を向上させるために、インピクセルCNN計算と組み合わせて得られるエネルギー効率の良いアナログインピクセル復号法を提案する。 PASCALRAWデータセットから実センサで取得した生画像を用いて評価した結果,mAPは8.1%増加した。 最後に,3つのクラスからなる新しいPASCALRAWデータセットに対して,30ショットずつの複数ショット学習を新規に適用することにより,さらに20.5%のmAP増加を示す。

In order to deploy current computer vision (CV) models on resource-constrained low-power devices, recent works have proposed in-sensor and in-pixel computing approaches that try to partly/fully bypass the image signal processor (ISP) and yield significant bandwidth reduction between the image sensor and the CV processing unit by downsampling the activation maps in the initial convolutional neural network (CNN) layers. However, direct inference on the raw images degrades the test accuracy due to the difference in covariance of the raw images captured by the image sensors compared to the ISP-processed images used for training. Moreover, it is difficult to train deep CV models on raw images, because most (if not all) large-scale open-source datasets consist of RGB images. To mitigate this concern, we propose to invert the ISP pipeline, which can convert the RGB images of any dataset to its raw counterparts, and enable model training on raw images. We release the raw version of the COCO dataset, a large-scale benchmark for generic high-level vision tasks. For ISP-less CV systems, training on these raw images result in a 7.1% increase in test accuracy on the visual wake works (VWW) dataset compared to relying on training with traditional ISP-processed RGB datasets. To further improve the accuracy of ISP-less CV models and to increase the energy and bandwidth benefits obtained by in-sensor/in-pixel computing, we propose an energy-efficient form of analog in-pixel demosaicing that may be coupled with in-pixel CNN computations. When evaluated on raw images captured by real sensors from the PASCALRAW dataset, our approach results in a 8.1% increase in mAP. Lastly, we demonstrate a further 20.5% increase in mAP by using a novel application of few-shot learning with thirty shots each for the novel PASCALRAW dataset, constituting 3 classes.
翻訳日:2022-10-12 17:23:03 公開日:2022-10-11
# ナノサテライトスワーミングによる自律型小惑星のキャラクタリゼーション

Autonomous Asteroid Characterization Through Nanosatellite Swarming ( http://arxiv.org/abs/2210.05518v1 )

ライセンス: Link先を確認
Kaitlin Dennison, Nathan Stacey, and Simone D'Amico(参考訳) 本稿では、まず、同時位置決めとマッピング(SLAM)のスーパーセットであるSNAC(Concurrent Navigation and Characterization)と呼ばれる推定問題のクラスを定義した。 SNACフレームワークは、小惑星重力場、回転運動、および3次元形状を含む小惑星を自律的にナビゲートし特徴付ける自律型ナノサテライト・スワーミング(ANS)ミッションの概念のために開発された。 ANS SNACフレームワークは3つのモジュールから構成されている。 1)ステレオビジョンを用いたマルチエージェント光ランドマーク追跡と3次元ポイント再構成 2)計算効率が高く頑健なカルマンフィルタによる状態推定,及び 3) 天体の形状特性の事前知識を活用することで, 小惑星の球面調和形状モデルの再構築を行う。 小惑星に対する大きな関心にもかかわらず、現在の小惑星ランデブーミッションの概念にはいくつかの制限がある。 まず、完成したミッションは人間の監視と地球上の資源に大きく依存する。 第二に、自律性を高めるための提案された解決策は、状態知識と情報処理に関する仮定を単純化する。 第三に、小惑星のミッションの概念は、しばしば環境測定のために、高サイズ、重量、電力、コスト(SWaP-C)のアビオニクスを選択する。 最後に、このようなミッションはしばしば単一の宇宙船を使用し、分散宇宙システムの利点を無視している。 対照的に、ANSは低SWaP-Cアビオニクスを備えた複数の自律ナノサテライトで構成されている。 ANS SNACフレームワークは、小惑星433エロスを周回する3つの宇宙船の数値シミュレーションによって検証されている。 シミュレーションの結果,提案アーキテクチャは,SWAP-Cアビオニクスの低い形状モデルを用いずに,自律的かつ正確なSNACを安全に提供することを示した。

This paper first defines a class of estimation problem called simultaneous navigation and characterization (SNAC), which is a superset of simultaneous localization and mapping (SLAM). A SNAC framework is then developed for the Autonomous Nanosatellite Swarming (ANS) mission concept to autonomously navigate about and characterize an asteroid including the asteroid gravity field, rotational motion, and 3D shape. The ANS SNAC framework consists of three modules: 1) multi-agent optical landmark tracking and 3D point reconstruction using stereovision, 2) state estimation through a computationally efficient and robust unscented Kalman filter, and 3) reconstruction of an asteroid spherical harmonic shape model by leveraging a priori knowledge of the shape properties of celestial bodies. Despite significant interest in asteroids, there are several limitations to current asteroid rendezvous mission concepts. First, completed missions heavily rely on human oversight and Earth-based resources. Second, proposed solutions to increase autonomy make oversimplifying assumptions about state knowledge and information processing. Third, asteroid mission concepts often opt for high size, weight, power, and cost (SWaP-C) avionics for environmental measurements. Finally, such missions often utilize a single spacecraft, neglecting the benefits of distributed space systems. In contrast, ANS is composed of multiple autonomous nanosatellites equipped with low SWaP-C avionics. The ANS SNAC framework is validated through a numerical simulation of three spacecraft orbiting asteroid 433 Eros. The simulation results demonstrate that the proposed architecture provides autonomous and accurate SNAC in a safe manner without an a priori shape model and using only low SWaP-C avionics.
翻訳日:2022-10-12 17:22:25 公開日:2022-10-11
# クリップフィールド:ロボットメモリのための弱い教師付きセマンティクスフィールド

CLIP-Fields: Weakly Supervised Semantic Fields for Robotic Memory ( http://arxiv.org/abs/2210.05663v1 )

ライセンス: Link先を確認
Nur Muhammad Mahi Shafiullah, Chris Paxton, Lerrel Pinto, Soumith Chintala, Arthur Szlam(参考訳) 直接人間の監督なしに訓練できる暗黙のシーンモデルであるCLIP-Fieldsを提案する。 このモデルは空間的位置から意味的埋め込みベクトルへのマッピングを学ぶ。 マッピングは、セグメンテーション、インスタンス識別、空間上のセマンティック検索、ビューローカライゼーションなど、さまざまなタスクに使用することができる。 最も重要なのは、CLIP、Detic、Sentence-BERTといったWebイメージとWebテキストでトレーニングされたモデルからのみ、監視によってマッピングをトレーニングできることだ。 Mask-RCNNのようなベースラインと比較すると,HM3Dデータセットのインスタンス識別やセマンティックセマンティックセマンティックセグメンテーションに優れており,その例はごくわずかである。 最後に,CLIP-Fieldsをシーンメモリとして使用することで,ロボットは実環境においてセマンティックナビゲーションを行うことができることを示す。 私たちのコードとデモは以下の通りです。

We propose CLIP-Fields, an implicit scene model that can be trained with no direct human supervision. This model learns a mapping from spatial locations to semantic embedding vectors. The mapping can then be used for a variety of tasks, such as segmentation, instance identification, semantic search over space, and view localization. Most importantly, the mapping can be trained with supervision coming only from web-image and web-text trained models such as CLIP, Detic, and Sentence-BERT. When compared to baselines like Mask-RCNN, our method outperforms on few-shot instance identification or semantic segmentation on the HM3D dataset with only a fraction of the examples. Finally, we show that using CLIP-Fields as a scene memory, robots can perform semantic navigation in real-world environments. Our code and demonstrations are available here: https://mahis.life/clip-fields/
翻訳日:2022-10-12 17:21:59 公開日:2022-10-11
# 思考の反映:線形システムによる言語モデルにおける数値推論の逆解

Reflection of Thought: Inversely Eliciting Numerical Reasoning in Language Models via Solving Linear Systems ( http://arxiv.org/abs/2210.05075v1 )

ライセンス: Link先を確認
Fan Zhou, Haoyu Dong, Qian Liu, Zhoujun Cheng, Shi Han, Dongmei Zhang(参考訳) 自然言語に対する数値推論は、研究コミュニティにとって長年の目標だった。 しかし、最先端の言語モデルは、一般的で単純な数に対する推論の習熟度を示したにもかかわらず、幅広い数に確実に一般化することは困難であることが証明されている。 本稿では,単純なアンカー数を用いて,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。 具体的には、まず単純な数値をアンカーとして利用し、言語モデルから暗黙的に推論された算術表現を探索し、さらに複素数上の式を明示的に適用して対応する答えを得る。 逆算術式を求めるためには,解析的に解ける線形システムとしてタスクを変換・定式化する。 いくつかの数値推論ベンチマークの実験結果から,提案手法は既存のLMの数値推論能力を大幅に向上することが示された。 さらに重要なのは、トレーニングフリーで、単純に推論フェーズで動作するため、ゼロショット、少数ショット、微調整のシナリオすべてにおいて、さまざまな言語モデル(GPT-3、T5、BARTなど)で高いポータブル性と一貫したパフォーマンスのメリットを実現できます。

Numerical reasoning over natural language has been a long-standing goal for the research community. However, cutting-edge language models have proven difficult to reliably generalize to a broad range of numbers, although they have shown proficiency in reasoning over common and simple numbers. In this paper, we propose a novel method to elicit and exploit the numerical reasoning knowledge hidden in pre-trained language models using simple anchor numbers. Concretely, we first leverage simple numbers as anchors to probe the implicitly inferred arithmetic expressions from language models, and then explicitly apply the expressions on complex numbers to get corresponding answers. To inversely elicit arithmetic expressions, we transform and formulate the task as an analytically solvable linear system. Experimental results on several numerical reasoning benchmarks demonstrate that our approach significantly improves numerical reasoning capabilities of existing LMs. More importantly, our approach is training-free and simply works in the inference phase, making it highly portable and achieving consistent performance benefits across a variety of language models (GPT-3, T5, BART, etc) in all zero-shot, few-shot, and fine-tuning scenarios.
翻訳日:2022-10-12 17:15:50 公開日:2022-10-11
# CTCアライメントは自己回帰翻訳を改善する

CTC Alignments Improve Autoregressive Translation ( http://arxiv.org/abs/2210.05200v1 )

ライセンス: Link先を確認
Brian Yan, Siddharth Dalmia, Yosuke Higuchi, Graham Neubig, Florian Metze, Alan W Black, Shinji Watanabe(参考訳) コネクショニスト時間分類(ctc)は、条件独立な単調アライメントを実行する自動音声認識(asr)に広く用いられているアプローチである。 しかし、翻訳においては、CTCはタスクの文脈的・非単調な性質のために明確な制限を示しており、翻訳品質の観点から注意深いデコーダアプローチに遅れが生じる。 本稿では,CTCのコア特性がトレーニングや復号中に純粋保持モデルのいくつかの重要な弱点に対処できる共同CTC/アテンションフレームワークに適用した場合,CTCは実際に翻訳に意味があると主張する。 この仮説を検証するために、ASRが提案したハイブリッドCTC/Attentionモデルを変更し、テキスト間翻訳(MT)と音声間翻訳(ST)をサポートする。 提案するジョイントctc/attentionモデルは、6つのベンチマーク翻訳タスクでpure-attentionベースラインを上回っている。

Connectionist Temporal Classification (CTC) is a widely used approach for automatic speech recognition (ASR) that performs conditionally independent monotonic alignment. However for translation, CTC exhibits clear limitations due to the contextual and non-monotonic nature of the task and thus lags behind attentional decoder approaches in terms of translation quality. In this work, we argue that CTC does in fact make sense for translation if applied in a joint CTC/attention framework wherein CTC's core properties can counteract several key weaknesses of pure-attention models during training and decoding. To validate this conjecture, we modify the Hybrid CTC/Attention model originally proposed for ASR to support text-to-text translation (MT) and speech-to-text translation (ST). Our proposed joint CTC/attention models outperform pure-attention baselines across six benchmark translation tasks.
翻訳日:2022-10-12 17:15:25 公開日:2022-10-11
# 音声理解における意味的適応型音声表現の利用について

On the Use of Semantically-Aligned Speech Representations for Spoken Language Understanding ( http://arxiv.org/abs/2210.05291v1 )

ライセンス: Link先を確認
Ga\"elle Laperri\`ere, Valentin Pelloin, Micka\"el Rouvier, Themos Stafylakis, Yannick Est\`eve(参考訳) 本稿では,SLU(End-to-end Speech Language Understanding)における意味的に整合した音声表現について検討する。 我々は、最近導入されたSAMU-XLSRモデルを用いて、異なる言語間で意味的に整合した発話レベルでセマンティクスをキャプチャする単一の埋め込みを生成するように設計されている。 このモデルは、音響フレームレベル音声表現学習モデル(XLS-R)とLanguage Agnostic BERT Sentence Embedding(LaBSE)モデルを組み合わせる。 本稿では,初期XLS-Rモデルの代わりにSAMU-XLSRモデルを用いることで,エンドツーエンドSLUのフレームワークの性能を大幅に向上することを示す。 最後に、SLUにおける言語ポータビリティに対するこのモデルの利用の利点を示す。

In this paper we examine the use of semantically-aligned speech representations for end-to-end spoken language understanding (SLU). We employ the recently-introduced SAMU-XLSR model, which is designed to generate a single embedding that captures the semantics at the utterance level, semantically aligned across different languages. This model combines the acoustic frame-level speech representation learning model (XLS-R) with the Language Agnostic BERT Sentence Embedding (LaBSE) model. We show that the use of the SAMU-XLSR model instead of the initial XLS-R model improves significantly the performance in the framework of end-to-end SLU. Finally, we present the benefits of using this model towards language portability in SLU.
翻訳日:2022-10-12 17:15:09 公開日:2022-10-11
# ロシア・ウクライナ戦争、covid-19、難民の誤情報検出

Not Good Times for Lies: Misinformation Detection on the Russia-Ukraine War, COVID-19, and Refugees ( http://arxiv.org/abs/2210.05401v1 )

ライセンス: Link先を確認
Cagri Toraman, Oguzhan Ozcelik, Furkan \c{S}ahinu\c{c}, Fazli Can(参考訳) オンラインソーシャルネットワークに拡散する誤報は、人間の健康、公衆安全、経済等を脅かす有害な結果をもたらす緊急解決問題である。 本研究では,ロシアとウクライナの戦争,新型コロナウイルスのパンデミック,難民などの最近の出来事において,英文5,284件,トルコ語5,064件のツイートに偽情報ラベルを付けた新しいデータセットMiDe-22を構築した。 さらに、likes、reply、retweets、およびquotesという観点で、ユーザのエンゲージメントをツイートに提供します。 本稿では,記述統計と時間解析を併用した詳細なデータ解析を行い,新しいデータセット上での誤情報検出のためのベンチマーク評価の結果について述べる。

Misinformation spread in online social networks is an urgent-to-solve problem having harmful consequences that threaten human health, public safety, economics, and so on. In this study, we construct a novel dataset, called MiDe-22, having 5,284 English and 5,064 Turkish tweets with their misinformation labels under several recent events, including the Russia-Ukraine war, COVID-19 pandemic, and Refugees. Moreover, we provide the user engagements to the tweets in terms of likes, replies, retweets, and quotes. We present a detailed data analysis with descriptive statistics and temporal analysis, and provide the experimental results of a benchmark evaluation for misinformation detection on our novel dataset.
翻訳日:2022-10-12 17:14:58 公開日:2022-10-11
# 3D Matting:CTに応用した肺結節のソフトセグメンテーション法に関するベンチマーク研究

3D Matting: A Benchmark Study on Soft Segmentation Method for Pulmonary Nodules Applied in Computed Tomography ( http://arxiv.org/abs/2210.05104v1 )

ライセンス: Link先を確認
Lin Wang, Xiufen Ye, Donghao Zhang, Wanji He, Lie Ju, Yi Luo, Huan Luo, Xin Wang, Wei Feng, Kaimin Song, Xin Zhao, Zongyuan Ge(参考訳) 通常、病変は単離されていないが、周囲の組織と関連している。 例えば、腫瘍の成長は周囲の組織に依存するか、浸透する可能性がある。 病変の病理組織学的性質から,その境界を医用画像で区別することは困難である。 しかし、これらの不確実な領域は診断情報を含む可能性がある。 したがって、従来の二分節による病変の2項化は診断情報の欠落をもたらす可能性がある。 本研究では,3dシーンに画像マッティングを導入し,αマット(ソフトマスク)を用いて3d医療画像の病変を表現した。 伝統的な柔らかいマスクは、容易に誤解されたり、不明瞭な地域を補うための訓練のトリックとして機能した。 対照的に、3Dマッティングはソフトセグメンテーションを用いて不確定領域をより微細に特徴付け、その後の診断と治療のための構造情報を保持する。 3d画像の加工方法に関する最近の研究は限られている。 この問題に対処するため,従来手法と深層学習法の両方を含む3Dマッティングの総合的研究を行った。 4つの最先端の2d画像マッティングアルゴリズムを3dシーンに適応させ、さらにct画像の手法をカスタマイズし、アルファマットを放射密度で校正する。 さらに,最初のエンドツーエンドの深部3次元画像マッチングネットワークを提案し,医用画像マッチングベンチマークを実装した。 優れた性能計算バランスを達成するために、効率の良い競合も提案されている。 さらに、3Dマッチングに関連する高品質なアノテートデータセットは存在せず、データ駆動ディープラーニングベースの手法の開発を遅くする。 この問題に対処するため,我々は最初の3d医療マッティングデータセットを構築した。 このデータセットの有効性は臨床医の評価と下流実験によって検証された。

Usually, lesions are not isolated but are associated with the surrounding tissues. For example, the growth of a tumour can depend on or infiltrate into the surrounding tissues. Due to the pathological nature of the lesions, it is challenging to distinguish their boundaries in medical imaging. However, these uncertain regions may contain diagnostic information. Therefore, the simple binarization of lesions by traditional binary segmentation can result in the loss of diagnostic information. In this work, we introduce the image matting into the 3D scenes and use the alpha matte, i.e., a soft mask, to describe lesions in a 3D medical image. The traditional soft mask acted as a training trick to compensate for the easily mislabelled or under-labelled ambiguous regions. In contrast, 3D matting uses soft segmentation to characterize the uncertain regions more finely, which means that it retains more structural information for subsequent diagnosis and treatment. The current study of image matting methods in 3D is limited. To address this issue, we conduct a comprehensive study of 3D matting, including both traditional and deep-learning-based methods. We adapt four state-of-the-art 2D image matting algorithms to 3D scenes and further customize the methods for CT images to calibrate the alpha matte with the radiodensity. Moreover, we propose the first end-to-end deep 3D matting network and implement a solid 3D medical image matting benchmark. Its efficient counterparts are also proposed to achieve a good performance-computation balance. Furthermore, there is no high-quality annotated dataset related to 3D matting, slowing down the development of data-driven deep-learning-based methods. To address this issue, we construct the first 3D medical matting dataset. The validity of the dataset was verified through clinicians' assessments and downstream experiments.
翻訳日:2022-10-12 17:13:31 公開日:2022-10-11
# DA-VSR : 医用画像の領域適応型ボリューム超解像

DA-VSR: Domain Adaptable Volumetric Super-Resolution For Medical Images ( http://arxiv.org/abs/2210.05117v1 )

ライセンス: Link先を確認
Cheng Peng, S. Kevin Zhou, and Rama Chellappa(参考訳) 医療画像スーパーレゾリューション(sr)は、スキャン時間の短縮、視覚理解の改善、下流タスクの堅牢性向上など、多くの潜在的応用がある活発な研究領域である。 しかし、深層学習に基づくSRアプローチを臨床応用に適用すると、テストデータが異なるマシンや異なる臓器で取得される可能性があるため、ドメインの不整合の問題が発生することが多い。 本研究では,領域不整合ギャップを補うために,DA-VSR(Domain Adaptable Volumetric Super- resolution)と呼ばれる新しいアルゴリズムを提案する。 DA-VSRは、統合された特徴抽出バックボーンと一連のネットワークヘッドを使用して、異なる平面での画質を改善する。 さらに、DA-VSRはテストデータの面内および面内解像度差を利用して自己学習ドメイン適応を実現する。 そのため、da-vsrは教師付きトレーニングによって学習される強力な機能ジェネレータの利点と、教師なし学習を通じてテストボリュームの慣用的同期にチューニングする能力とを組み合わせる。 実験により,DA-VSRは様々な領域のデータセットの超解像品質を著しく向上させ,実際の臨床応用に向けてさらなる一歩を踏み出した。

Medical image super-resolution (SR) is an active research area that has many potential applications, including reducing scan time, bettering visual understanding, increasing robustness in downstream tasks, etc. However, applying deep-learning-based SR approaches for clinical applications often encounters issues of domain inconsistency, as the test data may be acquired by different machines or on different organs. In this work, we present a novel algorithm called domain adaptable volumetric super-resolution (DA-VSR) to better bridge the domain inconsistency gap. DA-VSR uses a unified feature extraction backbone and a series of network heads to improve image quality over different planes. Furthermore, DA-VSR leverages the in-plane and through-plane resolution differences on the test data to achieve a self-learned domain adaptation. As such, DA-VSR combines the advantages of a strong feature generator learned through supervised training and the ability to tune to the idiosyncrasies of the test volumes through unsupervised learning. Through experiments, we demonstrate that DA-VSR significantly improves super-resolution quality across numerous datasets of different domains, thereby taking a further step toward real clinical applications.
翻訳日:2022-10-12 17:13:06 公開日:2022-10-11
# ACRNet:遠隔医療における多視点リアルタイム3次元人物位置推定のための注意キューブ回帰ネットワーク

ACRNet: Attention Cube Regression Network for Multi-view Real-time 3D Human Pose Estimation in Telemedicine ( http://arxiv.org/abs/2210.05130v1 )

ライセンス: Link先を確認
Boce Hu, Chenfei Zhu, Xupeng Ai and Sunil K. Agrawal(参考訳) 遠隔医療における3次元骨格再構築のためのhpe(human pose estimation)が注目されている。 ディープラーニングの開発により、遠隔医療におけるHPEの手法はシンプルで使いやすくなっているが、低い精度と高いレイテンシに対処することは大きな課題である。 本稿では,各立方体表面に情報的注意点を集約することにより,関節の3次元位置をリアルタイムに再現する多視点立方体回帰ネットワーク(ACRNet)を提案する。 より具体的には、各面が特定の座標値を持つ均一に分散された注意点を含む立方体が最初に作成され、ターゲットをメインビューからラップする。 そして,重み付け後の各面の注目点の座標を和算し,平均化することにより,各関節の3次元位置を復元する。 提案手法を検証するため,オープンソースITOPデータセット上でACRNetを最初にテストし,また,トランクサポートトレーナー(TruST)上に新しい多視点上体運動データセット(UBM)を収集し,実際のリハビリテーションシナリオにおけるモデルの有効性を検証する。 実験の結果, acrnetは他の最先端手法と比較して優れていることがわかった。 また,ACRNetにおける各モジュールの有効性を検証する。 さらに,医療モニタリング指標に基づくACRNetの性能分析を行った。 精度が高く,実行速度が高いため,リアルタイム遠隔医療環境に適したモデルである。 ソースコードはhttps://github.com/BoceHu/ACRNetで入手できる。

Human pose estimation (HPE) for 3D skeleton reconstruction in telemedicine has long received attention. Although the development of deep learning has made HPE methods in telemedicine simpler and easier to use, addressing low accuracy and high latency remains a big challenge. In this paper, we propose a novel multi-view Attention Cube Regression Network (ACRNet), which regresses the 3D position of joints in real time by aggregating informative attention points on each cube surface. More specially, a cube whose each surface contains uniformly distributed attention points with specific coordinate values is first created to wrap the target from the main view. Then, our network regresses the 3D position of each joint by summing and averaging the coordinates of attention points on each surface after being weighted. To verify our method, we first tested ACRNet on the open-source ITOP dataset; meanwhile, we collected a new multi-view upper body movement dataset (UBM) on the trunk support trainer (TruST) to validate the capability of our model in real rehabilitation scenarios. Experimental results demonstrate the superiority of ACRNet compared with other state-of-the-art methods. We also validate the efficacy of each module in ACRNet. Furthermore, Our work analyzes the performance of ACRNet under the medical monitoring indicator. Because of the high accuracy and running speed, our model is suitable for real-time telemedicine settings. The source code is available at https://github.com/BoceHu/ACRNet
翻訳日:2022-10-12 17:12:43 公開日:2022-10-11
# 階数遺伝的アルゴリズムを用いたhaj\'os構成を用いた長さ5の対称サイクルの構築法

How to construct the symmetric cycle of length 5 using Haj\'os construction with an adapted Rank Genetic Algorithm ( http://arxiv.org/abs/2210.05080v1 )

ライセンス: Link先を確認
Juan Carlos Garc\'ia-Altamirano, Mika Olsen, Jorge Cervantes-Ojeda(参考訳) 2020年、Bang-Jensenら。 アルは2つのグラフのHaj\'os結合をダイグラフのクラスに一般化し、ダイグラフの頂点彩色に関するいくつかの結果を一般化した。 しかし、これらの結果の結果として、ダイグラフはHaj\'os構造(Hij\'osが結合して非隣接頂点を特定)によって得られ、ダイグラフを得るためにHaj\'os構造を決定することは複雑な問題である。 特にバン・ジェンセンなど。 al. は Haj\'os 演算を定め、位数 3 の完備対称図形から半対称な 5-サイクルを構成するという問題を提示した。 我々は、グラフ理論から革新的な組換えと突然変異演算子を導入することで、この問題を解くためにランクベースの遺伝的アルゴリズムをうまく導入した。 Haj\'os Joinは組換え演算子となり、独立した頂点の同定が突然変異演算子となった。 このようにして、順序 5 の対称サイクルを構築するために、わずか 16 haj\'os 演算の列を得ることができた。

In 2020 Bang-Jensen et. al. generalized the Haj\'os join of two graphs to the class of digraphs and generalized several results for vertex colorings in digraphs. Although, as a consequence of these results, a digraph can be obtained by Haj\'os constructions (directed Haj\'os join and identifying non-adjacent vertices), determining the Haj\'os constructions to obtain the digraph is a complex problem. In particular, Bang-Jensen et. al. posed the problem of determining the Haj\'os operations to construct the symmetric 5-cycle from the complete symmetric digraph of order 3 using only Haj\'os constructions. We successfully adapted a rank-based genetic algorithm to solve this problem by the introduction of innovative recombination and mutation operators from Graph Theory. The Haj\'os Join became the recombination operator and the identification of independent vertices became the mutation operator. In this way, we were able to obtain a sequence of only 16 Haj\'os operations to construct the symmetric cycle of order 5.
翻訳日:2022-10-12 17:06:03 公開日:2022-10-11
# バイナリコード理解における人工知能の活用

Leveraging Artificial Intelligence on Binary Code Comprehension ( http://arxiv.org/abs/2210.05103v1 )

ライセンス: Link先を確認
Yifan Zhang(参考訳) バイナリコードを理解することは、リバースエンジニアリング、マルウェア分析、コンパイラ最適化に必須だが複雑なソフトウェアエンジニアリングタスクである。 ソースコードとは異なり、バイナリコードは意味情報に制限があるため、人間の理解には困難である。 同時に、ソースをバイナリコードにコンパイルしたり、異なるプログラミング言語(pls)間でトランスパイリングすることで、外部の知識をバイナリ理解に導入できる。 本稿では,バイナリコードの人間の理解を支援する人工知能(AI)モデルを提案する。 具体的には、ソースコードの大規模なコーパス(変数名やコメントなど)からドメイン知識を取り入れて、バイナリコードの一般化可能な表現をキャプチャするAIモデルを構築することを提案する。 最後に、人間による理解の研究を用いて、バイナリコードに適用されるモデルのパフォーマンスを評価するためのメトリクスを調査します。

Understanding binary code is an essential but complex software engineering task for reverse engineering, malware analysis, and compiler optimization. Unlike source code, binary code has limited semantic information, which makes it challenging for human comprehension. At the same time, compiling source to binary code, or transpiling among different programming languages (PLs) can provide a way to introduce external knowledge into binary comprehension. We propose to develop Artificial Intelligence (AI) models that aid human comprehension of binary code. Specifically, we propose to incorporate domain knowledge from large corpora of source code (e.g., variable names, comments) to build AI models that capture a generalizable representation of binary code. Lastly, we will investigate metrics to assess the performance of models that apply to binary code by using human studies of comprehension.
翻訳日:2022-10-12 17:05:42 公開日:2022-10-11
# コンテンツ配信ネットワーク(CDN)におけるクライアントエラークラスタリング手法

Client Error Clustering Approaches in Content Delivery Networks (CDN) ( http://arxiv.org/abs/2210.05314v1 )

ライセンス: Link先を確認
Ermiyas Birihanu, Jiyan Mahmud, P\'eter Kiss, Adolf Kamuzora, Wadie Skaf, Tom\'a\v{s} Horv\'ath, Tam\'as Jursonovics, Peter Pogrzeba and Imre Lend\'ak(参考訳) コンテンツ配信ネットワーク(CDN)はインターネットのバックボーンであり、高品質なビデオオンデマンド(VoD)、ウェブコンテンツ、ファイルサービスを数十億のユーザーに配信する上で鍵となる。 CDNは通常、できるだけ顧客に近い位置に配置された階層的なコンテンツサーバで構成されている。 CDNオペレータは、システムによって生成された数十億のWebサーバとプロキシログを分析する際に、重大な課題に直面します。 本研究の目的は,cdnエラーログ解析における各種クラスタリング手法の適用性を分析することである。 私たちは、実際のCDNプロキシログ、ログに含まれる重要な機能(例えば、コンテンツタイプ、HTTPステータスコード、日時、ホスト)を特定し、ライブTV、ビデオオンデマンド、ファイルキャッシュ、Webコンテンツを提供するさまざまなホストタイプに対応するログ行をクラスタ化した。 我々の実験は、複数のタイプのサービス(VoD、ライブTV、ファイル)を実行する単一の物理CDNサーバから7日間にわたって収集されたプロキシログからなるデータセット上で実行された。 データセットは220億のログ行で構成されている。 分析の結果、CDNエラークラスタリングは、繰り返し発生するエラーを識別し、サービス全体の品質を改善するための有効なアプローチであることがわかった。

Content delivery networks (CDNs) are the backbone of the Internet and are key in delivering high quality video on demand (VoD), web content and file services to billions of users. CDNs usually consist of hierarchically organized content servers positioned as close to the customers as possible. CDN operators face a significant challenge when analyzing billions of web server and proxy logs generated by their systems. The main objective of this study was to analyze the applicability of various clustering methods in CDN error log analysis. We worked with real-life CDN proxy logs, identified key features included in the logs (e.g., content type, HTTP status code, time-of-day, host) and clustered the log lines corresponding to different host types offering live TV, video on demand, file caching and web content. Our experiments were run on a dataset consisting of proxy logs collected over a 7-day period from a single, physical CDN server running multiple types of services (VoD, live TV, file). The dataset consisted of 2.2 billion log lines. Our analysis showed that CDN error clustering is a viable approach towards identifying recurring errors and improving overall quality of service.
翻訳日:2022-10-12 17:05:29 公開日:2022-10-11
# デジタル双生児の新たな視点--知性とエージェントを実体に与える

A new perspective on Digital Twins: Imparting intelligence and agency to entities ( http://arxiv.org/abs/2210.05350v1 )

ライセンス: Link先を確認
Ashwin Agrawal, Vishal Singh, Martin Fischer(参考訳) デジタルツイン(dt)の概念は長い間業界に存在していたが、情報モデルや汎用コンピューティング、シミュレーション技術と差別化できないため、あいまいなままである。 この混乱の一部は、DTの双方向性を見渡す以前の研究に起因しており、従来の技術では不可能だった、人間から物理的要素へのエージェンシー(委譲制御)のシフトを可能にする。 そこで我々は、DTを知性とエージェンシーをエンティティに付与する手段として捉え、DTは単なる専門家中心のツールではなく、双生するエンティティの能力を拡張するアクティブなシステムである、と強調する。 DTに対するこの新しい視点は、DTの知的さとその役割と責任に関する議論を始め、DTの長期的な方向性を設定することで、混乱を減らし、コンセプトを人間化するのに役立つ。

Despite the Digital Twin (DT) concept being in the industry for a long time, it remains ambiguous, unable to differentiate itself from information models, general computing, and simulation technologies. Part of this confusion stems from previous studies overlooking the DT's bidirectional nature, that enables the shift of agency (delegating control) from humans to physical elements, something that was not possible with earlier technologies. Thus, we present DTs in a new light by viewing them as a means of imparting intelligence and agency to entities, emphasizing that DTs are not just expert-centric tools but are active systems that extend the capabilities of the entities being twinned. This new perspective on DTs can help reduce confusion and humanize the concept by starting discussions about how intelligent a DT should be, and its roles and responsibilities, as well as setting a long-term direction for DTs.
翻訳日:2022-10-12 17:05:08 公開日:2022-10-11
# Code Librarian: ソフトウェアパッケージ推奨システム

Code Librarian: A Software Package Recommendation System ( http://arxiv.org/abs/2210.05406v1 )

ライセンス: Link先を確認
Lili Tao, Alexandru-Petre Cazan, Senad Ibraimoski, Sean Moran(参考訳) パッケージライブラリの使用は、コードの品質と可読性を改善することで、ソフトウェア開発サイクルを著しく短縮することができる。 本稿では,オープンソースライブラリのためのライブラリアンと呼ばれるレコメンデーションエンジンを提案する。 候補ライブラリパッケージは、所定のコンテキストに対して推奨される。 1) プログラム内の輸入図書館で頻繁に使用される。 2) プログラム内の輸入ライブラリと類似の機能を有する。 3) 開発者の実装に類似した機能を持ち、 4) 提供されるコードのコンテキストで効率的に使用することができる。 我々は、ソースコードのコンテキストを分析し、関連するライブラリレコメンデーションをユーザに提供するために、最先端のCodeBERTベースのモデルを適用する。

The use of packaged libraries can significantly shorten the software development cycle by improving the quality and readability of code. In this paper, we present a recommendation engine called Librarian for open source libraries. A candidate library package is recommended for a given context if: 1) it has been frequently used with the imported libraries in the program; 2) it has similar functionality to the imported libraries in the program; 3) it has similar functionality to the developer's implementation, and 4) it can be used efficiently in the context of the provided code. We apply the state-of-the-art CodeBERT-based model for analysing the context of the source code to deliver relevant library recommendations to users.
翻訳日:2022-10-12 17:04:51 公開日:2022-10-11
# グラフベースのポリシー学習を用いたオープンアドホックチームワークのための一般学習フレームワーク

A General Learning Framework for Open Ad Hoc Teamwork Using Graph-based Policy Learning ( http://arxiv.org/abs/2210.05448v1 )

ライセンス: Link先を確認
Arrasy Rahman and Ignacio Carlucho and Niklas H\"opner and Stefano V. Albrecht(参考訳) オープンアドホックチームワークは、1人のエージェントをトレーニングして、時間とともに構成が変わる可能性のある、未知のチームメイトのグループと効率的に協力する、という問題です。 変数チーム構成は、新しいチームのダイナミクスに適応する要件や状態ベクトルサイズの変化に対処する要件など、エージェントに対する課題を生成する。 これらの課題は、制御されたエージェントが環境の全状態にアクセスできない現実のアプリケーションでは悪化する。 本研究では,オープンなアドホックチームワークのためのソリューションを,完全かつ部分的な可観測性の下で開発する。 まず,グラフニューラルネットワークアーキテクチャを活用した完全可観測ケースの解法を開発し,強化学習に基づく最適ポリシーを得る。 次に、このソリューションを部分的に観察可能なシナリオに拡張し、潜伏した環境状態とチーム構成に対する信頼推定を維持する様々な方法論を提案します。 これらの信念推定は、オープンアドホックなチームワークにおける部分的可観測性の下でエージェントの最適ポリシーを計算するための完全に可観測なケースのソリューションと組み合わせられる。 実験の結果,オープンなアドホックチームワークにおいて,完全かつ部分的に観察可能なケースで効率的なポリシを学習できることが実証された。 さらに分析したところ、我々の手法の成功はチームメイトの活動の効果を効果的に学習し、また部分観測可能性の下で環境固有の状態を推測した結果であることが示された。

Open ad hoc teamwork is the problem of training a single agent to efficiently collaborate with an unknown group of teammates whose composition may change over time. A variable team composition creates challenges for the agent, such as the requirement to adapt to new team dynamics and dealing with changing state vector sizes. These challenges are aggravated in real-world applications where the controlled agent has no access to the full state of the environment. In this work, we develop a class of solutions for open ad hoc teamwork under full and partial observability. We start by developing a solution for the fully observable case that leverages graph neural network architectures to obtain an optimal policy based on reinforcement learning. We then extend this solution to partially observable scenarios by proposing different methodologies that maintain belief estimates over the latent environment states and team composition. These belief estimates are combined with our solution for the fully observable case to compute an agent's optimal policy under partial observability in open ad hoc teamwork. Empirical results demonstrate that our approach can learn efficient policies in open ad hoc teamwork in full and partially observable cases. Further analysis demonstrates that our methods' success is a result of effectively learning the effects of teammates' actions while also inferring the inherent state of the environment under partial observability
翻訳日:2022-10-12 17:04:43 公開日:2022-10-11
# 光ファイバー伝送における等化のための低複雑性畳み込みニューラルネットワーク

Low Complexity Convolutional Neural Networks for Equalization in Optical Fiber Transmission ( http://arxiv.org/abs/2210.05454v1 )

ライセンス: Link先を確認
Mohannad Abu-romoh (1), Nelson Costa (2), Antonio Napoli (3), Jo\~ao Pedro (2), Yves Jaou\"en (1), Mansoor Yousefi (1) ((1) Telecom Paris, Palaiseau, France, (2) Infinera Unipessoal Lda, Carnaxide, Portugal, (3) Infinera, London, United Kingdom)(参考訳) 畳み込みニューラルネットワークは、繊維伝達効果を緩和し、代替等化剤と比較してトレーニング可能なパラメータの5倍の低減を実現し、同じ複雑性を持つDBPと比較してMSEの3.5dBの改善を実現している。

A convolutional neural network is proposed to mitigate fiber transmission effects, achieving a five-fold reduction in trainable parameters compared to alternative equalizers, and 3.5 dB improvement in MSE compared to DBP with comparable complexity.
翻訳日:2022-10-12 17:04:20 公開日:2022-10-11
# 時間効率アドホック検索のための二相強化ivfpq

Bi-Phase Enhanced IVFPQ for Time-Efficient Ad-hoc Retrieval ( http://arxiv.org/abs/2210.05521v1 )

ライセンス: Link先を確認
Peitian Zhang, Zheng Liu(参考訳) IVFPQは、時間効率の良いアドホック検索のための一般的な指標パラダイムである。 関連する文書のデータベース全体をトラバースする代わりに、検索操作を高速化する。 1) データベースのごく一部にアクセスすることで,IVF (inverted file system) における潜伏トピックの活性化をガイドし, 2)PQ(生成量化)に基づく正確な関連度測定を近似する。 しかし, 従来のivfpqは, 潜在トピックの粒度が粗いため, 検索性能に制限がある。 一方,少数のトピックを訪れると検索品質が著しく低下する可能性があり,また,多数のトピックを訪れると検索コストが大幅に低下する可能性がある。 そこで本研究では,二相ivfpqという新しい枠組みを提案する。 潜在トピックと明示的な用語の2つのタイプの機能を共同で使用して、逆ファイルシステムを構築する。 どちらのタイプの機能も互いに補完的であり、関連するドキュメントをよりよくカバーするのに役立ちます。 さらに、文書の異なるIVFエントリへのメンバシップは、深いセマンティックモデルから知識を抽出することによって学習され、インデックスの品質と精度が大幅に向上する。 提案手法の有効性と有効性を検証した,一般的なアドホック検索ベンチマークに関する総合的研究を行った。

IVFPQ is a popular index paradigm for time-efficient ad-hoc retrieval. Instead of traversing the entire database for relevant documents, it accelerates the retrieval operation by 1) accessing a fraction of the database guided the activation of latent topics in IVF (inverted file system), and 2) approximating the exact relevance measurement based on PQ (product quantization). However, the conventional IVFPQ is limited in retrieval performance due to the coarse granularity of its latent topics. On the one hand, it may result in severe loss of retrieval quality when visiting a small number of topics; on the other hand, it will lead to a huge retrieval cost when visiting a large number of topics. To mitigate the above problem, we propose a novel framework named Bi-Phase IVFPQ. It jointly uses two types of features: the latent topics and the explicit terms, to build the inverted file system. Both types of features are complementary to each other, which helps to achieve better coverage of the relevant documents. Besides, the documents' memberships to different IVF entries are learned by distilling knowledge from deep semantic models, which substantially improves the index quality and retrieval accuracy. We perform comprehensive empirical studies on popular ad-hoc retrieval benchmarks, whose results verify the effectiveness and efficiency of our proposed framework.
翻訳日:2022-10-12 17:04:13 公開日:2022-10-11
# ラスターログのデジタル化:深層学習アプローチ

Digitization of Raster Logs: A Deep Learning Approach ( http://arxiv.org/abs/2210.05597v1 )

ライセンス: Link先を確認
M Quamer Nasim, Narendra Patwardhan, Tannistha Maiti and Tarry Singh(参考訳) raster well-logイメージは、長年にわたって生成された well-logs データのデジタル表現である。 ラスターデジタルウェルログは、ピクセルと呼ばれる黒(ゼロ)と白(ワン)の長方形の配列でログ画像のビットマップを表す。 専門家はラスタログを手動で、あるいは大量の手入力を必要とするソフトウェアアプリケーションで調べる。 何千人もの人的時間を失うことに加えて、このプロセスは誤りで退屈です。 これらのラスターログをデジタイズするには、手作業や時間を消費するだけでなく、追加のサービテーションやコンサルティングの費用でより多くのお金を失わなければならないため、隠れた技術的負債も買い取らなければならない。 本稿では,背景グリッドからラスター画像を意味的にセグメンテーションし, well-log曲線を分類・デジタル化するveernetと呼ばれるディープニューラルネットワークアーキテクチャを提案する。 rasterログは、従来のイメージセグメンテーションパイプラインで消費されるイメージよりもはるかに大きな解像度を持つ。 入力は信号対解像度比が低いため、不要な計算を緩和するために急激なダウンサンプリングが必要となる。 キー信号の保持と結果の寸法の低減を両立するUNetアーキテクチャを改良した。 我々は、追加の読み書きアーキテクチャを使用する。 このアーキテクチャは、曲線の分類とデジタル化を効率よく行い、全体的なF1スコアは35%、IoUは30%である。 ガンマ線の実値とVeerNetのガンマ線の導出値と比較すると,ピアソン係数スコア0.62が得られた。

Raster well-log images are digital representations of well-logs data generated over the years. Raster digital well logs represent bitmaps of the log image in a rectangular array of black (zeros) and white dots (ones) called pixels. Experts study the raster logs manually or with software applications that still require a tremendous amount of manual input. Besides the loss of thousands of person-hours, this process is erroneous and tedious. To digitize these raster logs, one must buy a costly digitizer that is not only manual and time-consuming but also a hidden technical debt since enterprises stand to lose more money in additional servicing and consulting charges. We propose a deep neural network architecture called VeerNet to semantically segment the raster images from the background grid and classify and digitize the well-log curves. Raster logs have a substantially greater resolution than images traditionally consumed by image segmentation pipelines. Since the input has a low signal-to-resolution ratio, we require rapid downsampling to alleviate unnecessary computation. We thus employ a modified UNet-inspired architecture that balances retaining key signals and reducing result dimensionality. We use attention augmented read-process-write architecture. This architecture efficiently classifies and digitizes the curves with an overall F1 score of 35% and IoU of 30%. When compared to the actual las values for Gamma-ray and derived value of Gamma-ray from VeerNet, a high Pearson coefficient score of 0.62 was achieved.
翻訳日:2022-10-12 17:03:54 公開日:2022-10-11
# 並列検証器による学習の一般化解析

Generalization Analysis on Learning with a Concurrent Verifier ( http://arxiv.org/abs/2210.05331v1 )

ライセンス: Link先を確認
Masaaki Nishino, Kengo Nakamura, Norihito Yasuda(参考訳) 機械学習技術は、幅広い実用的なシステムで使われてきた。 実際の状況では、機械学習モデルの入出力ペアがいくつかの要件を満たすことを期待するのは自然なことです。 しかし,実例から学ぶだけで要求を満たすモデルを得ることは困難である。 単純な解決策は、入出力ペアが要求を満たすかどうかをチェックし、モデルの出力を変更するモジュールを追加することである。 このようなモジュールを {\em concurrent verifier} (CV)と呼び、認証を与えることができるが、機械学習モデルの一般化性はCVを用いてどのように変化するかは不明確である。 本稿では,CVを用いた学習の一般化分析を行う。 機械学習モデルの学習性はCVでどのように変化するのかを解析し、推論時間のみに検証器を用いて保証された仮説が得られる条件を示す。 また,マルチクラス分類と構造化予測設定においてCVを用いた場合,Rademacherの複雑性に基づく典型的な誤差境界は,元のモデルよりも大きくはならないことを示す。

Machine learning technologies have been used in a wide range of practical systems. In practical situations, it is natural to expect the input-output pairs of a machine learning model to satisfy some requirements. However, it is difficult to obtain a model that satisfies requirements by just learning from examples. A simple solution is to add a module that checks whether the input-output pairs meet the requirements and then modifies the model's outputs. Such a module, which we call a {\em concurrent verifier} (CV), can give a certification, although how the generalizability of the machine learning model changes using a CV is unclear. This paper gives a generalization analysis of learning with a CV. We analyze how the learnability of a machine learning model changes with a CV and show a condition where we can obtain a guaranteed hypothesis using a verifier only in the inference time. We also show that typical error bounds based on Rademacher complexity will be no larger than that of the original model when using a CV in multi-class classification and structured prediction settings.
翻訳日:2022-10-12 16:57:39 公開日:2022-10-11
# ディープ時系列分類器のクラス別説明可能性

Class-Specific Explainability for Deep Time Series Classifiers ( http://arxiv.org/abs/2210.05411v1 )

ライセンス: Link先を確認
Ramesh Doddaiah, Prathyush Parvatharaju, Elke Rundensteiner, Thomas Hartvigsen(参考訳) 説明性は、時系列分類のディープラーニングソリューションを信頼するのに役立つ。 しかし、マルチクラス時系列分類器の既存の説明可能性メソッドは、クラス間の関係を無視して、一度に1つのクラスにフォーカスする。 代わりに、分類器が多くのクラスの中から選択する場合、効果的な説明は、選択したクラスを他のクラスから切り離すものを示す必要がある。 我々はこの概念を定式化し、深層時系列分類器のクラス固有の説明可能性という、挑戦的で影響に富んだ問題の設定のオープン問題を研究している。 本稿では,モデルが予測クラスに特に使用する入力時系列内の領域に適応的にスポットライトを当てることによって,深層マルチクラス時系列分類器を説明するためのサリエンシマップDEMUXを設計する。 DEMUXは、3つの依存モジュールからなる勾配に基づくアプローチを採用しており、一貫性のあるクラス固有の唾液マップを生成し、分類器の振る舞いに忠実でありながら、エンドユーザは容易に理解することができる。 実験により、DEMUXは2種類のディープ時系列分類器を説明する際に、5つの一般的なデータセットに対して9つの最先端の代替手段より優れていることが示された。 さらに,ケーススタディを通じて,demuxの説明が,予測されたクラスと他のクラスとを区別するものを,分類器の目線で示していることを示す。 私たちのコードはhttps://github.com/rameshdoddaiah/demuxで公開しています。

Explainability helps users trust deep learning solutions for time series classification. However, existing explainability methods for multi-class time series classifiers focus on one class at a time, ignoring relationships between the classes. Instead, when a classifier is choosing between many classes, an effective explanation must show what sets the chosen class apart from the rest. We now formalize this notion, studying the open problem of class-specific explainability for deep time series classifiers, a challenging and impactful problem setting. We design a novel explainability method, DEMUX, which learns saliency maps for explaining deep multi-class time series classifiers by adaptively ensuring that its explanation spotlights the regions in an input time series that a model uses specifically to its predicted class. DEMUX adopts a gradient-based approach composed of three interdependent modules that combine to generate consistent, class-specific saliency maps that remain faithful to the classifier's behavior yet are easily understood by end users. Our experimental study demonstrates that DEMUX outperforms nine state-of-the-art alternatives on five popular datasets when explaining two types of deep time series classifiers. Further, through a case study, we demonstrate that DEMUX's explanations indeed highlight what separates the predicted class from the others in the eyes of the classifier. Our code is publicly available at https://github.com/rameshdoddaiah/DEMUX.
翻訳日:2022-10-12 16:56:39 公開日:2022-10-11
# 同変ニューラルネットワークのサブグループに対するアーキテクチャ最適化

Architectural Optimization over Subgroups for Equivariant Neural Networks ( http://arxiv.org/abs/2210.05484v1 )

ライセンス: Link先を確認
Kaitlin Maile and Dennis G. Wilson and Patrick Forr\'e(参考訳) ニューラルネットワークトレーニング中に対称性群への等式を制約として組み込むことは、それらの対称性を示すタスクのパフォーマンスと一般化を改善することができるが、そのような対称性は完全で、明確ではないことが多い。 これは、等式によって課されるアーキテクチャ制約をアルゴリズム的に最適化する動機である。 群同変層を部分群上の同変制約で操作するように再パラメータ化しながら機能を保ち、また異なる群に制約された層を混合して層内同変最適化を可能にする$[G]$-mixed同変層も提案する。 さらに、これらのメカニズムを等分散アーキテクチャ最適化にそれぞれ活用する進化的および微分可能なニューラルアーキテクチャ探索(NAS)アルゴリズムを提案する。 様々なデータセットにわたる実験は、近似等式を持つ効果的なアーキテクチャを見つけるために動的に制約された等値の利点を示す。

Incorporating equivariance to symmetry groups as a constraint during neural network training can improve performance and generalization for tasks exhibiting those symmetries, but such symmetries are often not perfectly nor explicitly present. This motivates algorithmically optimizing the architectural constraints imposed by equivariance. We propose the equivariance relaxation morphism, which preserves functionality while reparameterizing a group equivariant layer to operate with equivariance constraints on a subgroup, as well as the $[G]$-mixed equivariant layer, which mixes layers constrained to different groups to enable within-layer equivariance optimization. We further present evolutionary and differentiable neural architecture search (NAS) algorithms that utilize these mechanisms respectively for equivariance-aware architectural optimization. Experiments across a variety of datasets show the benefit of dynamically constrained equivariance to find effective architectures with approximate equivariance.
翻訳日:2022-10-12 16:56:17 公開日:2022-10-11
# エネルギーモデルによるロバストで制御可能なオブジェクト中心学習

Robust and Controllable Object-Centric Learning through Energy-based Models ( http://arxiv.org/abs/2210.05519v1 )

ライセンス: Link先を確認
Ruixiang Zhang, Tong Che, Boris Ivanovic, Renhao Wang, Marco Pavone, Yoshua Bengio, Liam Paull(参考訳) 人間は複雑な視覚シーンの理解と推論がとても得意です。 低レベルの観測を離散オブジェクトに分解する能力により、基底化された抽象表現を構築し、世界の構成構造を特定することができる。 したがって、明示的な監督なしに、視覚的なシーンからオブジェクトとそのプロパティを推論できる機械学習モデルにとって重要なステップである。 しかしながら、オブジェクト中心の表現学習に関する既存の研究は、テーラーメイドニューラルネットワークモジュールや、基礎となる生成および推論プロセスにおける強い確率論的仮定に依存する。 本研究では,エネルギーベースモデルを通じてオブジェクト中心表現を学ぶための概念的にシンプルで一般的なアプローチである \ours を提案する。 変換器で容易に利用できるバニラアテンションブロックを用いて置換不変エネルギー関数を形成することにより、置換同値が自動的に保証される勾配に基づくMCMC法によるオブジェクト中心潜在変数を推定できる。 既存のアーキテクチャと容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出でき、セグメンテーション精度が向上し、下流タスク性能の競争力も向上することを示す。 さらに, 実験的な評価から, \oursの学習表現は分布シフトに対して頑健であることが示された。 最後に,新しいシーン生成と操作のために学習エネルギー関数を再構成することで,系統的構成一般化における距離効果を実証する。

Humans are remarkably good at understanding and reasoning about complex visual scenes. The capability to decompose low-level observations into discrete objects allows us to build a grounded abstract representation and identify the compositional structure of the world. Accordingly, it is a crucial step for machine learning models to be capable of inferring objects and their properties from visual scenes without explicit supervision. However, existing works on object-centric representation learning either rely on tailor-made neural network modules or strong probabilistic assumptions in the underlying generative and inference processes. In this work, we present \ours, a conceptually simple and general approach to learning object-centric representations through an energy-based model. By forming a permutation-invariant energy function using vanilla attention blocks readily available in Transformers, we can infer object-centric latent variables via gradient-based MCMC methods where permutation equivariance is automatically guaranteed. We show that \ours can be easily integrated into existing architectures and can effectively extract high-quality object-centric representations, leading to better segmentation accuracy and competitive downstream task performance. Further, empirical evaluations show that \ours's learned representations are robust against distribution shift. Finally, we demonstrate the effectiveness of \ours in systematic compositional generalization, by re-composing learned energy functions for novel scene generation and manipulation.
翻訳日:2022-10-12 16:55:54 公開日:2022-10-11
# Schedule-Robustオンライン連続学習

Schedule-Robust Online Continual Learning ( http://arxiv.org/abs/2210.05561v1 )

ライセンス: Link先を確認
Ruohan Wang, Marco Ciccone, Giulia Luise, Massimiliano Pontil, Andrew Yapp, Carlo Ciliberto(参考訳) 連続学習(CL)アルゴリズムは、非定常データストリームから学習する。 非定常性は、時間とともにどのようにデータが提示されるかを決定するスケジュールによってモデル化される。 現在のほとんどのメソッドはスケジュールに強い仮定をしており、そのような要件が満たされない場合は予測不能なパフォーマンスを持つ。 したがって、CLの主な課題は、実際のシナリオではスケジュールが未知で動的であるため、同じ基盤データ上で任意のスケジュールに対して堅牢なメソッドを設計することである。 そこで本研究では,CLのスケジュール損益感の概念と,その望ましい特性を満足する新たなアプローチを,オンラインクラス増分設定の課題として紹介する。 また,スケジュールロバスト予測子を学習し,リプレイデータのみを用いて予測子を適応するプロセスとして,clの新しい視点を提案する。 実験により,提案手法は画像分類のためのCLベンチマークの既存手法よりも大きなマージンで優れていることを示す。

A continual learning (CL) algorithm learns from a non-stationary data stream. The non-stationarity is modeled by some schedule that determines how data is presented over time. Most current methods make strong assumptions on the schedule and have unpredictable performance when such requirements are not met. A key challenge in CL is thus to design methods robust against arbitrary schedules over the same underlying data, since in real-world scenarios schedules are often unknown and dynamic. In this work, we introduce the notion of schedule-robustness for CL and a novel approach satisfying this desirable property in the challenging online class-incremental setting. We also present a new perspective on CL, as the process of learning a schedule-robust predictor, followed by adapting the predictor using only replay data. Empirically, we demonstrate that our approach outperforms existing methods on CL benchmarks for image classification by a large margin.
翻訳日:2022-10-12 16:55:32 公開日:2022-10-11
# リスク感性強化学習のためのレグレト境界

Regret Bounds for Risk-Sensitive Reinforcement Learning ( http://arxiv.org/abs/2210.05650v1 )

ライセンス: Link先を確認
O. Bastani, Y. J. Ma, E. Shen, W. Xu(参考訳) 医療やロボティクスといった強化学習の安全性クリティカルな応用では、期待された報酬よりも、尾行の結果を考慮したリスクに敏感な目標を最適化することが望ましい。 本研究は,CVaR目標を含むリスク感応目標の一般クラスにおいて,強化学習に対する最初の後悔の限界を証明した。 我々の理論はCVaR目標の新たな特徴と,新しい楽観的なMDP構築に基づいている。

In safety-critical applications of reinforcement learning such as healthcare and robotics, it is often desirable to optimize risk-sensitive objectives that account for tail outcomes rather than expected reward. We prove the first regret bounds for reinforcement learning under a general class of risk-sensitive objectives including the popular CVaR objective. Our theory is based on a novel characterization of the CVaR objective as well as a novel optimistic MDP construction.
翻訳日:2022-10-12 16:55:19 公開日:2022-10-11
# ホワイトスペースより優れている:カスタムトークンを伴わない言語のための情報検索

Better Than Whitespace: Information Retrieval for Languages without Custom Tokenizers ( http://arxiv.org/abs/2210.05481v1 )

ライセンス: Link先を確認
Odunayo Ogundepo, Xinyu Zhang, and Jimmy Lin(参考訳) トークン化は情報検索において重要なステップであり、特に語彙マッチングアルゴリズムではインデックス可能なトークンの品質が検索システムの有効性に直接影響を与える。 異なる言語にはユニークな特性があるため、トークン化アルゴリズムの設計は通常言語固有のものであり、少なくともいくつかの言語知識を必要とする。 しかし、地球上の7000以上の言語のうち、特殊でカスタム構築されたトークン化アルゴリズムの恩恵を受けるのはわずかである一方、他の言語は、異なる言語の複雑さを捉えることができない"デフォルト"ホワイトスペーストークン化器で立ち往生している。 この課題に対処するために,辞書マッチング検索アルゴリズム(例えば bm25): 教師なしデータから自動構築可能なワードピーストークン化器を使用するための,別の手法を提案する。 我々は,MrTyDiコレクションの11言語に対して,そのアプローチを検証した。その結果,mBERTトークン化器は,ほとんどの言語において,ホワイトスペーストークン化よりも優れた「アウト・オブ・ザ・ボックス」を検索するための強い関連信号を提供することがわかった。 多くの場合、既存のカスタムビルドトークン化ツールと組み合わせることで、検索効率も向上する。

Tokenization is a crucial step in information retrieval, especially for lexical matching algorithms, where the quality of indexable tokens directly impacts the effectiveness of a retrieval system. Since different languages have unique properties, the design of the tokenization algorithm is usually language-specific and requires at least some lingustic knowledge. However, only a handful of the 7000+ languages on the planet benefit from specialized, custom-built tokenization algorithms, while the other languages are stuck with a "default" whitespace tokenizer, which cannot capture the intricacies of different languages. To address this challenge, we propose a different approach to tokenization for lexical matching retrieval algorithms (e.g., BM25): using the WordPiece tokenizer, which can be built automatically from unsupervised data. We test the approach on 11 typologically diverse languages in the MrTyDi collection: results show that the mBERT tokenizer provides strong relevance signals for retrieval "out of the box", outperforming whitespace tokenization on most languages. In many cases, our approach also improves retrieval effectiveness when combined with existing custom-built tokenizers.
翻訳日:2022-10-12 16:49:39 公開日:2022-10-11
# 強化学習と教師付き学習によるDNN推論のためのエッジクラウド協調

Edge-Cloud Cooperation for DNN Inference via Reinforcement Learning and Supervised Learning ( http://arxiv.org/abs/2210.05182v1 )

ライセンス: Link先を確認
Tinghao Zhang, Zhijun Li, Yongrui Chen, Kwok-Yan Lam, Jun Zhao(参考訳) ディープニューラルネットワーク(DNN)は、画像分類やオブジェクト検出といった様々なタスクに対して、IoT(Internet of Things)システムに広く適用されている。 しかし、計算資源が限られているため、重いDNNモデルはエッジデバイスにはほとんど展開できない。 本稿では,低推論レイテンシを維持しつつ推論精度を向上させるためのエッジクラウド協調フレームワークを提案する。 この目的のために、エッジに軽量モデル、クラウドにヘビーウェイトモデルを展開しました。 重み付きモデルからエッジに適した軽量モデルを生成するために,強化学習(RL)に基づくDNN圧縮手法を用いる。 さらに、教師付き学習(SL)ベースのオフロード戦略を適用し、サンプルをエッジで処理すべきかクラウドで処理すべきかを判断する。 本手法は実ハードウェア上で実装され,複数のデータセット上でテストされる。 実験の結果,(1)rlベースのdnn圧縮により得られた軽量モデルのサイズは,ベースライン法で得られたモデルよりも最大87.6%小さく,(2)slベースのオフロード戦略は,ほとんどの場合,正しいオフロード決定を行う。

Deep Neural Networks (DNNs) have been widely applied in Internet of Things (IoT) systems for various tasks such as image classification and object detection. However, heavyweight DNN models can hardly be deployed on edge devices due to limited computational resources. In this paper, an edge-cloud cooperation framework is proposed to improve inference accuracy while maintaining low inference latency. To this end, we deploy a lightweight model on the edge and a heavyweight model on the cloud. A reinforcement learning (RL)-based DNN compression approach is used to generate the lightweight model suitable for the edge from the heavyweight model. Moreover, a supervised learning (SL)-based offloading strategy is applied to determine whether the sample should be processed on the edge or on the cloud. Our method is implemented on real hardware and tested on multiple datasets. The experimental results show that (1) The sizes of the lightweight models obtained by RL-based DNN compression are up to 87.6% smaller than those obtained by the baseline method; (2) SL-based offloading strategy makes correct offloading decisions in most cases; (3) Our method reduces up to 78.8% inference latency and achieves higher accuracy compared with the cloud-only strategy.
翻訳日:2022-10-12 16:48:29 公開日:2022-10-11
# 自己改善型モーメントターゲットによるメタラーニング

Meta-Learning with Self-Improving Momentum Target ( http://arxiv.org/abs/2210.05185v1 )

ライセンス: Link先を確認
Jihoon Tack and Jongjin Park and Hankook Lee and Jaeho Lee and Jinwoo Shin(参考訳) 学生モデルのパフォーマンスを向上させるために個別に訓練されたターゲットモデル(あるいは教師)を使用するというアイデアは、様々な機械学習領域で人気を集めており、メタラーニングも例外ではない。 しかし、特にメタ学習のタスク数が多ければ、各タスクのターゲットモデルを取得するのは非常にコストがかかる。 この問題に対処するため,SiMT(Self-improving Momentum Target)というシンプルな手法を提案する。 SiMTは、メタラーナーの時間アンサンブル、すなわち運動量ネットワークから適応してターゲットモデルを生成する。 この運動量ネットワークとそのタスク固有の適応は、優れた一般化性能を享受し、知識蒸留によるメタリーナーの自己改善を可能にする。 さらに,メタリーナーの摂動パラメータ,例えばドロップアウトは,メタトレーニング中の蒸留損失の高速収束を防止し,この自己改善過程をさらに安定化させることを見出した。 実験結果から,SiMTは,多種多様なメタラーニング手法と組み合わせることで,様々な応用において大きな性能向上をもたらすことが明らかとなった。 コードはhttps://github.com/jihoontack/SiMTで入手できる。

The idea of using a separately trained target model (or teacher) to improve the performance of the student model has been increasingly popular in various machine learning domains, and meta-learning is no exception; a recent discovery shows that utilizing task-wise target models can significantly boost the generalization performance. However, obtaining a target model for each task can be highly expensive, especially when the number of tasks for meta-learning is large. To tackle this issue, we propose a simple yet effective method, coined Self-improving Momentum Target (SiMT). SiMT generates the target model by adapting from the temporal ensemble of the meta-learner, i.e., the momentum network. This momentum network and its task-specific adaptations enjoy a favorable generalization performance, enabling self-improving of the meta-learner through knowledge distillation. Moreover, we found that perturbing parameters of the meta-learner, e.g., dropout, further stabilize this self-improving process by preventing fast convergence of the distillation loss during meta-training. Our experimental results demonstrate that SiMT brings a significant performance gain when combined with a wide range of meta-learning methods under various applications, including few-shot regression, few-shot classification, and meta-reinforcement learning. Code is available at https://github.com/jihoontack/SiMT.
翻訳日:2022-10-12 16:48:06 公開日:2022-10-11
# ニューラルネットワークは決定木である

Neural Networks are Decision Trees ( http://arxiv.org/abs/2210.05189v1 )

ライセンス: Link先を確認
Caglar Aytekin(参考訳) 本稿では,線形活性化関数を有する任意のニューラルネットワークを決定木として表現できることを示す。 表現は同値であり近似ではないので、ニューラルネットワークの精度はそのままに保たれる。 この等価性は、ニューラルネットワークが実際に設計によって解釈可能であることを示している。 我々は、いくつかのニューラルネットワークの等価ツリーを共有し、解釈可能性に加えて、ツリー表現がいくつかの計算上の利点を得ることができることを示す。 解析は完全連結ネットワークと畳み込みネットワークの両方を保持しており、スキップ接続や正規化も含まない。

In this manuscript, we show that any neural network having piece-wise linear activation functions can be represented as a decision tree. The representation is equivalence and not an approximation, thus keeping the accuracy of the neural network exactly as is. This equivalence shows that neural networks are indeed interpretable by design and makes the \textit{black-box} understanding obsolete. We share equivalent trees of some neural networks and show that besides providing interpretability, tree representation can also achieve some computational advantages. The analysis holds both for fully connected and convolutional networks, which may or may not also include skip connections and/or normalizations.
翻訳日:2022-10-12 16:47:40 公開日:2022-10-11
# コンポーネントワイズ自然勾配降下 --効率的なニューラルネットワーク最適化

Component-Wise Natural Gradient Descent -- An Efficient Neural Network Optimization ( http://arxiv.org/abs/2210.05268v1 )

ライセンス: Link先を確認
Tran Van Sang and Mhd Irvan and Rie Shigetomi Yamaguchi and Toshiyuki Nakata(参考訳) Natural Gradient Descent (NGD) は、Fisher Information Matrix (FIM) の逆の勾配降下を前提とした2階ニューラルネットワークトレーニングである。 NGDは効率的なプレコンディショナーを提供するが、FIMを反転させるのに必要な高価な計算のために実行不可能である。 本稿では,CW-NGD (Component-Wise Natural Gradient Descent) と呼ばれる新しいNGD変種アルゴリズムを提案する。 cw-ngdは2段階からなる。 いくつかの既存の研究と同様に、最初のステップは、FIM行列を各層の重みのFIMに対応する対角行列であるブロック対角行列と考えることである。 CW-NGDに特有の第2ステップでは、層の構造を分析し、さらに微分がほぼ独立な小さなセグメントにFIMを分解する。 その結果、個々のレイヤのFIMは、インバージョンを自明に支持するブロック対角形に近似される。 セグメント分解戦略は層構造によって異なる。 具体的には,密集層と畳み込み層を分析し,その分解戦略を適切に設計する。 これらの2種類の層を含むネットワークをトレーニングする実験において、CW-NGDは最先端の1次法と2次法と比較して、収束するイテレーションを少なくすることを示した。

Natural Gradient Descent (NGD) is a second-order neural network training that preconditions the gradient descent with the inverse of the Fisher Information Matrix (FIM). Although NGD provides an efficient preconditioner, it is not practicable due to the expensive computation required when inverting the FIM. This paper proposes a new NGD variant algorithm named Component-Wise Natural Gradient Descent (CW-NGD). CW-NGD is composed of 2 steps. Similar to several existing works, the first step is to consider the FIM matrix as a block-diagonal matrix whose diagonal blocks correspond to the FIM of each layer's weights. In the second step, unique to CW-NGD, we analyze the layer's structure and further decompose the layer's FIM into smaller segments whose derivatives are approximately independent. As a result, individual layers' FIMs are approximated in a block-diagonal form that trivially supports the inversion. The segment decomposition strategy is varied by layer structure. Specifically, we analyze the dense and convolutional layers and design their decomposition strategies appropriately. In an experiment of training a network containing these 2 types of layers, we empirically prove that CW-NGD requires fewer iterations to converge compared to the state-of-the-art first-order and second-order methods.
翻訳日:2022-10-12 16:47:28 公開日:2022-10-11
# RoHNAS: 畳み込みとカプセルネットワークの逆ロバスト性とハードウェア効率のためのコンジョイント最適化を備えたニューラルネットワーク検索フレームワーク

RoHNAS: A Neural Architecture Search Framework with Conjoint Optimization for Adversarial Robustness and Hardware Efficiency of Convolutional and Capsule Networks ( http://arxiv.org/abs/2210.05276v1 )

ライセンス: Link先を確認
Alberto Marchisio and Vojtech Mrazek and Andrea Massa and Beatrice Bussolino and Maurizio Martina and Muhammad Shafique(参考訳) neural architecture search (nas)アルゴリズムは、与えられたシステム制約の下で、所定のアプリケーションに対して効率的なディープニューラルネットワーク(dnn)アーキテクチャを見つけることを目的としている。 DNNは計算的に複雑であり、敵攻撃に弱い。 複数の設計目的に対処するために,特殊なハードウェアアクセラレーション上で実行されるDNNの対向ロバスト性とハードウェア効率を協調的に最適化する新しいNASフレームワークであるRoHNASを提案する。 従来の畳み込みDNNに加えて、RoHNASはCapsule Networksのような複雑なDNNも含む。 探索時間を短縮するため、RoHNASはNASフローで使用するデータセット毎に、逆摂動の適切な値を分析し、選択する。 マルチグラフィックス処理ユニット(GPU) - ハイパフォーマンスコンピューティング(HPC)ノードは、上述の設計目標間のトレードオフを利用して、パレート最適化ソリューションのセットを提供する。 例えば、CIFAR-10データセットのパレート最適化DNNは86.07%の精度を示し、エネルギーは38.63 mJ、メモリフットプリントは11.85 MiB、レイテンシは4.47 msである。

Neural Architecture Search (NAS) algorithms aim at finding efficient Deep Neural Network (DNN) architectures for a given application under given system constraints. DNNs are computationally-complex as well as vulnerable to adversarial attacks. In order to address multiple design objectives, we propose RoHNAS, a novel NAS framework that jointly optimizes for adversarial-robustness and hardware-efficiency of DNNs executed on specialized hardware accelerators. Besides the traditional convolutional DNNs, RoHNAS additionally accounts for complex types of DNNs such as Capsule Networks. For reducing the exploration time, RoHNAS analyzes and selects appropriate values of adversarial perturbation for each dataset to employ in the NAS flow. Extensive evaluations on multi - Graphics Processing Unit (GPU) - High Performance Computing (HPC) nodes provide a set of Pareto-optimal solutions, leveraging the tradeoff between the above-discussed design objectives. For example, a Pareto-optimal DNN for the CIFAR-10 dataset exhibits 86.07% accuracy, while having an energy of 38.63 mJ, a memory footprint of 11.85 MiB, and a latency of 4.47 ms.
翻訳日:2022-10-12 16:47:05 公開日:2022-10-11
# 合成モデルの組み合わせ:-教師なしアンサンブル学習へのインスタンスワイズアプローチ

Synthetic Model Combination: An Instance-wise Approach to Unsupervised Ensemble Learning ( http://arxiv.org/abs/2210.05320v1 )

ライセンス: Link先を確認
Alex J. Chan and Mihaela van der Schaar(参考訳) ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する — 代わりに、トレーニングに使用するデータセットに関する制限された情報とともに、専門家モデルとその予測へのアクセスを与えられる。 金融や医療、さらには消費者の慣行といったシナリオでは、利害関係者は共有できない、あるいはしたくない、プライベートなデータのモデルを開発した。 個人情報を取り巻く価値と法律を考えると、データではなくモデルだけがリリースされるのは驚くべきことではない。 これまでの作業はグローバルモデルの選択やアンサンブルに重点を置いており、機能領域をまたいだ単一の最終モデルの結果である。 しかし、機械学習モデルはトレーニングドメイン以外のデータでは悪名高い性能を発揮するので、センセンシングモデルでは個々のインスタンスの重み付けはそれぞれのドメインを反映する必要がある、つまり、そのインスタンスに関する情報を見た可能性が高いモデルは、それらに対してより多くの注意を払うべきである、と主張する。 本稿では、疎い高次元領域を扱うための新しい表現学習ステップを含む、モデルのインスタンス単位の組立手法を提案する。 最後に,従来の機械学習タスクにおける本手法の必要性と汎用性を実証するとともに,バンコマイシンの薬理学的精度測定における実世界のユースケースを強調した。

Consider making a prediction over new test data without any opportunity to learn from a training set of labelled data - instead given access to a set of expert models and their predictions alongside some limited information about the dataset used to train them. In scenarios from finance to the medical sciences, and even consumer practice, stakeholders have developed models on private data they either cannot, or do not want to, share. Given the value and legislation surrounding personal information, it is not surprising that only the models, and not the data, will be released - the pertinent question becoming: how best to use these models? Previous work has focused on global model selection or ensembling, with the result of a single final model across the feature space. Machine learning models perform notoriously poorly on data outside their training domain however, and so we argue that when ensembling models the weightings for individual instances must reflect their respective domains - in other words models that are more likely to have seen information on that instance should have more attention paid to them. We introduce a method for such an instance-wise ensembling of models, including a novel representation learning step for handling sparse high-dimensional domains. Finally, we demonstrate the need and generalisability of our method on classical machine learning tasks as well as highlighting a real world use case in the pharmacological setting of vancomycin precision dosing.
翻訳日:2022-10-12 16:46:42 公開日:2022-10-11
# 信頼度に基づくシービング戦略を用いたラベルノイズロバスト学習

Label Noise-Robust Learning using a Confidence-Based Sieving Strategy ( http://arxiv.org/abs/2210.05330v1 )

ライセンス: Link先を確認
Reihaneh Torkzadehmahani, Reza Nasirigerdeh, Daniel Rueckert, Georgios Kaissis(参考訳) ラベルノイズを伴うタスクの学習において、モデルがオーバーフィッティングに対する堅牢性を高めることは重要な課題である。 サンプルをラベルで識別し、モデルを学習するのを防ぐことは、この課題に対処するための有望なアプローチである。 サンプルごとのトレーニング損失(per-sample training loss)は、モデルがトレーニングされるべきクリーンなサンプルとして、小さな損失を持つサンプルを考慮した以前に研究されたメトリクスである。 本研究では,この小さめのトリックの非効率性を最初に示す。 そこで本研究では,信頼度誤差と呼ばれる新しい判別指標とconfesと呼ばれるシーブ戦略を提案し,クリーンサンプルとノイズサンプルを効果的に区別する。 提案手法の優れた性能を,合成や実世界のラベルノイズなど,様々な環境下での最近の研究と比較した。

In learning tasks with label noise, boosting model robustness against overfitting is a pivotal challenge because the model eventually memorizes labels including the noisy ones. Identifying the samples with corrupted labels and preventing the model from learning them is a promising approach to address this challenge. Per-sample training loss is a previously studied metric that considers samples with small loss as clean samples on which the model should be trained. In this work, we first demonstrate the ineffectiveness of this small-loss trick. Then, we propose a novel discriminator metric called confidence error and a sieving strategy called CONFES to effectively differentiate between the clean and noisy samples. We experimentally illustrate the superior performance of our proposed approach compared to recent studies on various settings such as synthetic and real-world label noise.
翻訳日:2022-10-12 16:46:05 公開日:2022-10-11
# マルチタスク協調学習による画像レベルスーパービジョンによる長期物体検出の改善

Improving Long-tailed Object Detection with Image-Level Supervision by Multi-Task Collaborative Learning ( http://arxiv.org/abs/2210.05568v1 )

ライセンス: Link先を確認
Bo Li, Yongqiang Yao, Jingru Tan, Xin Lu, Fengwei Yu, Ye Luo, Jianwei Lu(参考訳) 実世界の物体検出のデータはしばしば長い尾の分布を示す。 既存の解決策は、頭と尾のカテゴリ間の競合を緩和することでこの問題に対処する。 しかし、トレーニングサンプルの不足のため、テールカテゴリは依然として識別表現を学ぶことができない。 より多くのデータをトレーニングに持ち込むことで問題が緩和されるかも知れませんが、インスタンスレベルのアノテーションの収集は難しい作業です。 対照的に、画像レベルのアノテーションは容易にアクセスできますが、完全には利用できません。 本稿では,画像レベルの監視を活用してマルチタスク協調的な検出能力を向上するCLIS(multi-task Collaborative Learning with Image-level Supervision)を提案する。 具体的には、オブジェクト検出タスク(インスタンス分類タスクとローカライゼーションタスクから構成される)と、この2つのタイプの監視を利用するためのイメージ分類タスクがある。 1)異なるタスクの特定の表現を特徴的絡み合いなく学習するタスク特化サブネットワーク。 2) 画像分類タスクのシアムサブネットワークは、その知識をインスタンス分類タスクと共有し、検出器の機能強化をもたらす。 3)表現一貫性を維持し、異なる監督の特徴ギャップを橋渡しする対照的な学習規則化。 挑戦的なLVISデータセット上で大規模な実験を行う。 高度な損失エンジニアリングがなければ、CLISは尾のカテゴリを10.1ポイント改善した31.1のAPを達成した。 コードはhttps://github.com/waveboo/CLIS。

Data in real-world object detection often exhibits the long-tailed distribution. Existing solutions tackle this problem by mitigating the competition between the head and tail categories. However, due to the scarcity of training samples, tail categories are still unable to learn discriminative representations. Bringing more data into the training may alleviate the problem, but collecting instance-level annotations is an excruciating task. In contrast, image-level annotations are easily accessible but not fully exploited. In this paper, we propose a novel framework CLIS (multi-task Collaborative Learning with Image-level Supervision), which leverage image-level supervision to enhance the detection ability in a multi-task collaborative way. Specifically, there are an object detection task (consisting of an instance-classification task and a localization task) and an image-classification task in our framework, responsible for utilizing the two types of supervision. Different tasks are trained collaboratively by three key designs: (1) task-specialized sub-networks that learn specific representations of different tasks without feature entanglement. (2) a siamese sub-network for the image-classification task that shares its knowledge with the instance-classification task, resulting in feature enrichment of detectors. (3) a contrastive learning regularization that maintains representation consistency, bridging feature gaps of different supervision. Extensive experiments are conducted on the challenging LVIS dataset. Without sophisticated loss engineering, CLIS achieves an overall AP of 31.1 with 10.1 point improvement on tail categories, establishing a new state-of-the-art. Code will be at https://github.com/waveboo/CLIS.
翻訳日:2022-10-12 16:40:10 公開日:2022-10-11
# Few-Shot 3D Point Cloud Object DetectionのためのプロトタイプVotetNet

Prototypical VoteNet for Few-Shot 3D Point Cloud Object Detection ( http://arxiv.org/abs/2210.05593v1 )

ライセンス: Link先を確認
Shizhen Zhao, Xiaojuan Qi(参考訳) 既存の3dポイントクラウドオブジェクト検出アプローチのほとんどは、大量のラベル付きトレーニングデータに大きく依存している。 しかし、ラベル付けプロセスはコストと時間を要する。 本稿では,基本クラスのサンプルを豊富に含む新規クラスの注釈付きサンプルがわずか数個しか必要とされない,数ショットの3dポイントクラウドオブジェクト検出を考察する。 そこで本研究では,PVM(Prototypeal Vote Module)とPHM(Prototypeal Head Module)の2つの新しいモジュールを組み込んだ,新しいインスタンスの認識とローカライズを行うプロトタイプVotNetを提案する。 具体的には,3次元の基本的な幾何学的構造をカテゴリ間で共有できるため,PVMは,基本クラスから学習したクラス非依存的な幾何学的プロトタイプを活用して,新しいカテゴリの局所的特徴を洗練させるように設計されている。 このモデルを評価するために,FS-ScanNet と FS-SUNRGBD という2つの新しいベンチマークデータセットを提案する。 提案手法は,2つのベンチマークデータセットのベースラインと比較して,有意かつ一貫した改善を示す。

Most existing 3D point cloud object detection approaches heavily rely on large amounts of labeled training data. However, the labeling process is costly and time-consuming. This paper considers few-shot 3D point cloud object detection, where only a few annotated samples of novel classes are needed with abundant samples of base classes. To this end, we propose Prototypical VoteNet to recognize and localize novel instances, which incorporates two new modules: Prototypical Vote Module (PVM) and Prototypical Head Module (PHM). Specifically, as the 3D basic geometric structures can be shared among categories, PVM is designed to leverage class-agnostic geometric prototypes, which are learned from base classes, to refine local features of novel categories.Then PHM is proposed to utilize class prototypes to enhance the global feature of each object, facilitating subsequent object localization and classification, which is trained by the episodic training strategy. To evaluate the model in this new setting, we contribute two new benchmark datasets, FS-ScanNet and FS-SUNRGBD. We conduct extensive experiments to demonstrate the effectiveness of Prototypical VoteNet, and our proposed method shows significant and consistent improvements compared to baselines on two benchmark datasets.
翻訳日:2022-10-12 16:39:43 公開日:2022-10-11
# ニューラル形状変形前駆体

Neural Shape Deformation Priors ( http://arxiv.org/abs/2210.05616v1 )

ライセンス: Link先を確認
Jiapeng Tang, Lev Markhasin, Bi Wang, Justus Thies, Matthias Nie{\ss}ner(参考訳) 本稿では,ユーザのハンドル動作から非剛性物体のメッシュ変形を予測する新しい形状操作法であるneural shape deformation priorsを提案する。 最先端の手法は、この問題を最適化タスクとみなし、入力源メッシュはARAPのような手作りの正規化器に従って目的関数を最小化するために反復的に変形する。 本研究では,非剛性変形の多種多様な集合を含む大規模データセットを活用して,形状の幾何学的性質に基づいて変形挙動を学習する。 具体的には, ソースメッシュと, 部分的表面変形を記述するハンドルの所望の目標位置を与えられた場合, 空間変形を記述するために3次元空間で定義される連続的変形場を予測する。 そこで本研究では, 形状変形を局所的表面変形の合成として表現する変圧器型変形ネットワークを提案する。 3次元空間に固定された局所潜伏符号の集合を学習し、そこから局所曲面の連続変形関数の集合を学ぶことができる。 本手法は, 挑戦的変形に適用でき, 未発見の変形に対してよく一般化できる。 DeformingThing4Dデータセットを用いて実験を行い,従来の最適化手法と最近のニューラルネットワーク手法との比較を行った。

We present Neural Shape Deformation Priors, a novel method for shape manipulation that predicts mesh deformations of non-rigid objects from user-provided handle movements. State-of-the-art methods cast this problem as an optimization task, where the input source mesh is iteratively deformed to minimize an objective function according to hand-crafted regularizers such as ARAP. In this work, we learn the deformation behavior based on the underlying geometric properties of a shape, while leveraging a large-scale dataset containing a diverse set of non-rigid deformations. Specifically, given a source mesh and desired target locations of handles that describe the partial surface deformation, we predict a continuous deformation field that is defined in 3D space to describe the space deformation. To this end, we introduce transformer-based deformation networks that represent a shape deformation as a composition of local surface deformations. It learns a set of local latent codes anchored in 3D space, from which we can learn a set of continuous deformation functions for local surfaces. Our method can be applied to challenging deformations and generalizes well to unseen deformations. We validate our approach in experiments using the DeformingThing4D dataset, and compare to both classic optimization-based and recent neural network-based methods.
翻訳日:2022-10-12 16:39:19 公開日:2022-10-11
# Habitat-Matterport 3Dセマンティックスデータセット

Habitat-Matterport 3D Semantics Dataset ( http://arxiv.org/abs/2210.05633v1 )

ライセンス: Link先を確認
Karmesh Yadav, Ram Ramrakhya, Santhosh Kumar Ramakrishnan, Theo Gervet, John Turner, Aaron Gokaslan, Noah Maestre, Angel Xuan Chang, Dhruv Batra, Manolis Savva, Alexander William Clegg, Devendra Singh Chaplot(参考訳) habitat-matterport 3d semantics (hm3dsem)データセットを提案する。 HM3DSEMは3次元現実空間の最大のデータセットであり、現在学術的なコミュニティで利用可能である。 216の3dスペースと3,100のルームにわたる142,646のオブジェクトインスタンスアノテーションで構成されている。 オブジェクトアノテーションのスケール、品質、多様性は、以前の作業のデータセットよりもはるかに多い。 他のデータセットとHM3DSEMを区別する重要な違いは、テクスチャ情報を使用して画素精度のオブジェクト境界に注釈を付けることである。 hm3dsemデータセットを異なる手法を用いてオブジェクトゴールナビゲーションタスクに有効性を示す。 HM3DSEMを使用してトレーニングされたポリシーは、以前のデータセットでトレーニングされたポリシーと同等かそれ以上に実行される。

We present the Habitat-Matterport 3D Semantics (HM3DSEM) dataset. HM3DSEM is the largest dataset of 3D real-world spaces with densely annotated semantics that is currently available to the academic community. It consists of 142,646 object instance annotations across 216 3D spaces and 3,100 rooms within those spaces. The scale, quality, and diversity of object annotations far exceed those of datasets from prior work. A key difference setting apart HM3DSEM from other datasets is the use of texture information to annotate pixel-accurate object boundaries. We demonstrate the effectiveness of HM3DSEM dataset for the Object Goal Navigation task using different methods. Policies trained using HM3DSEM perform comparable or better than those trained on prior datasets.
翻訳日:2022-10-12 16:38:59 公開日:2022-10-11
# oflib: pythonのオプティカルフローフィールドによる操作の促進

Oflib: Facilitating Operations with and on Optical Flow Fields in Python ( http://arxiv.org/abs/2210.05635v1 )

ライセンス: Link先を確認
Claudio Ravasio, Lyndon Da Cruz, Christos Bergeles(参考訳) 本稿では,運動推定アルゴリズムなどにおける光学フローのキャラクタリゼーションと操作,すなわち2次元ベクトル場に対するロバストな理論的枠組みを提案する。 2つの参照フレームの定義は、フローフィールドの適用、反転、評価、合成操作の数学的導出を導く。 この構造化されたアプローチは、深層学習に必要なバックプロパゲーションをサポートするPyTorchバージョンのlibpytorchで、Python 3の実装の基礎として使用される。 本研究では,このフローコンポジション法を実証的に検証し,合成トレーニングデータ作成における光学的フローグラウンド真理への適用例を示す。 すべてのコードは公開されている。

We present a robust theoretical framework for the characterisation and manipulation of optical flow, i.e 2D vector fields, in the context of their use in motion estimation algorithms and beyond. The definition of two frames of reference guides the mathematical derivation of flow field application, inversion, evaluation, and composition operations. This structured approach is then used as the foundation for an implementation in Python 3, with the fully differentiable PyTorch version oflibpytorch supporting back-propagation as required for deep learning. We verify the flow composition method empirically and provide a working example for its application to optical flow ground truth in synthetic training data creation. All code is publicly available.
翻訳日:2022-10-12 16:38:48 公開日:2022-10-11
# APSNet: 注意ベースのポイントクラウドサンプリング

APSNet: Attention Based Point Cloud Sampling ( http://arxiv.org/abs/2210.05638v1 )

ライセンス: Link先を確認
Yang Ye and Xiulong Yang and Shihao Ji(参考訳) 大きなポイントのクラウドを処理するのは難しい作業です。 そのため、大きな性能劣化を招くことなく、保存、送信、処理をより効率的に行えるように、データはより小さなサイズに縮小されることが多い。 従来のタスクに依存しないサンプリング手法、例えばfarthest point sampling (fps)は、サンプリングポイントクラウドのダウンストリームタスクを考慮せず、タスクの非インフォーマティブなポイントはしばしばサンプリングされる。 本稿では,3次元点雲のタスク指向サンプリングについて検討し,特に下流の課題に適した点のサブセットをサンプリングすることを目的とする。 fpsと同様に、次にサンプリングされるポイントは、既にサンプリング済みのポイントに大きく依存するべきだと仮定します。 そこで我々は,ポイントクラウドサンプリングを逐次生成プロセスとして定式化し,注意に基づくポイントクラウドサンプリングネットワーク(apsnet)を開発した。 各段階において、APSNetは、以前にサンプリングされたポイントの履歴を利用して、クラウドのすべてのポイントに参加し、最も有益なポイントをサンプリングする。 APSNetの教師付き学習と知識蒸留に基づく自己教師型学習の両方を提案する。 さらに、複数のサンプルサイズにわたるAPSNetのジョイントトレーニングを調査し、顕著なパフォーマンスで任意の長さのサンプルを生成できる単一のAPSNetを実現した。 大規模な実験は、3Dポイントクラウドの分類、再構築、登録など、さまざまなダウンストリームタスクにおける最先端タスクに対するAPSNetの優れたパフォーマンスを示す。

Processing large point clouds is a challenging task. Therefore, the data is often downsampled to a smaller size such that it can be stored, transmitted and processed more efficiently without incurring significant performance degradation. Traditional task-agnostic sampling methods, such as farthest point sampling (FPS), do not consider downstream tasks when sampling point clouds, and thus non-informative points to the tasks are often sampled. This paper explores a task-oriented sampling for 3D point clouds, and aims to sample a subset of points that are tailored specifically to a downstream task of interest. Similar to FPS, we assume that point to be sampled next should depend heavily on the points that have already been sampled. We thus formulate point cloud sampling as a sequential generation process, and develop an attention-based point cloud sampling network (APSNet) to tackle this problem. At each time step, APSNet attends to all the points in a cloud by utilizing the history of previously sampled points, and samples the most informative one. Both supervised learning and knowledge distillation-based self-supervised learning of APSNet are proposed. Moreover, joint training of APSNet over multiple sample sizes is investigated, leading to a single APSNet that can generate arbitrary length of samples with prominent performances. Extensive experiments demonstrate the superior performance of APSNet against state-of-the-arts in various downstream tasks, including 3D point cloud classification, reconstruction, and registration.
翻訳日:2022-10-12 16:38:35 公開日:2022-10-11
# 点変換器v2:群ベクトル注意と分割型プーリング

Point Transformer V2: Grouped Vector Attention and Partition-based Pooling ( http://arxiv.org/abs/2210.05666v1 )

ライセンス: Link先を確認
Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao(参考訳) 3Dポイントクラウド理解のためのトランスフォーマーアーキテクチャの先駆的な研究として、Point Transformerは、複数の高い競争力のあるベンチマークで印象的な結果を得た。 本稿では,ポイント変換器の限界を解析し,従来の作業の限界を克服する新しい設計による,パワフルで効率的なポイント変換器V2モデルを提案する。 特に,まず,従来のベクトル注意法よりも効果的である群ベクトル注意法を提案する。 学習可能なウェイトエンコーディングとマルチヘッドアテンションの両方の利点を継承し,新しいグループドウェイトエンコード層を用いて,グループドベクターアテンションを高度に効果的に実装する。 また、追加の位置符号化乗算器により注意のための位置情報を強化する。 さらに,空間的アライメントとより効率的なサンプリングを可能にする新規で軽量なパーティショニングベースのプーリング手法を設計した。 広範な実験により,前モデルよりも優れた性能を実現し,scannet v2 と s3dis の 3d point cloud segmentation や modelnet40 の 3d point cloud classification など,いくつかの挑戦的な 3d point cloud understanding ベンチマークで最先端の成果が得られた。 私たちのコードはhttps://github.com/gofinge/pointtransformerv2で利用できます。

As a pioneering work exploring transformer architecture for 3D point cloud understanding, Point Transformer achieves impressive results on multiple highly competitive benchmarks. In this work, we analyze the limitations of the Point Transformer and propose our powerful and efficient Point Transformer V2 model with novel designs that overcome the limitations of previous work. In particular, we first propose group vector attention, which is more effective than the previous version of vector attention. Inheriting the advantages of both learnable weight encoding and multi-head attention, we present a highly effective implementation of grouped vector attention with a novel grouped weight encoding layer. We also strengthen the position information for attention by an additional position encoding multiplier. Furthermore, we design novel and lightweight partition-based pooling methods which enable better spatial alignment and more efficient sampling. Extensive experiments show that our model achieves better performance than its predecessor and achieves state-of-the-art on several challenging 3D point cloud understanding benchmarks, including 3D point cloud segmentation on ScanNet v2 and S3DIS and 3D point cloud classification on ModelNet40. Our code will be available at https://github.com/Gofinge/PointTransformerV2.
翻訳日:2022-10-12 16:38:10 公開日:2022-10-11
# タッチライントランスを用いたエンボディ参照の理解

Understanding Embodied Reference with Touch-Line Transformer ( http://arxiv.org/abs/2210.05668v1 )

ライセンス: Link先を確認
Yang Li, Xiaoxue Chen, Hao Zhao, Jiangtao Gong, Guyue Zhou, Federico Rossano, Yixin Zhu(参考訳) 本研究は,具体化言語信号と言語参照を用いて参照対象を同定する作業である,具体化参照理解について検討する。 人間の研究によって、言及されたり指されたりした物体は、共通の誤解である肘ひじ線上に存在せず、いわゆる仮想タッチ線上にあることが判明している。 しかし、既存の人間のポーズ表現は仮想タッチラインを組み込むことができない。 この問題を解決するために、タッチライントランスフォーマーを考案し、入力トークン化された視覚およびテキストの特徴として取り、参照者のバウンディングボックスとタッチラインベクトルを同時に予測する。 このタッチラインを前もって活用することで,参照線とタッチ線との共線型性を促進するような幾何学的整合性損失がさらに生まれる。 タッチラインをジェスチャー情報として使用すると、モデルの性能が大幅に向上する。 YouRefItデータセットを用いた実験では,0.75 IoU基準下での精度が+25.0%向上し,モデルと人的パフォーマンスのギャップの63.6%が閉じた。 さらに, 仮想タッチラインを用いた場合よりも, 仮想タッチラインを用いた場合の方が, より正確に参照者を特定できることを示した。

We study embodied reference understanding, the task of locating referents using embodied gestural signals and language references. Human studies have revealed that objects referred to or pointed to do not lie on the elbow-wrist line, a common misconception; instead, they lie on the so-called virtual touch line. However, existing human pose representations fail to incorporate the virtual touch line. To tackle this problem, we devise the touch-line transformer: It takes as input tokenized visual and textual features and simultaneously predicts the referent's bounding box and a touch-line vector. Leveraging this touch-line prior, we further devise a geometric consistency loss that encourages the co-linearity between referents and touch lines. Using the touch-line as gestural information improves model performances significantly. Experiments on the YouRefIt dataset show our method achieves a +25.0% accuracy improvement under the 0.75 IoU criterion, closing 63.6% of the gap between model and human performances. Furthermore, we computationally verify prior human studies by showing that computational models more accurately locate referents when using the virtual touch line than when using the elbow-wrist line.
翻訳日:2022-10-12 16:37:46 公開日:2022-10-11
# 事前学習言語モデルを用いたソーシャルメディアにおける時間的話題識別:電気自動車を事例として

Time-aware topic identification in social media with pre-trained language models: A case study of electric vehicles ( http://arxiv.org/abs/2210.05143v1 )

ライセンス: Link先を確認
Byeongki Jeong, Janghyeok Yoon, Jaewoong Choi(参考訳) 最近の競争の激しいビジネス環境は、顧客言語(ニーズ、関心、苦情など)が将来の機会の源として認識されつつあるため、企業はソーシャルメディアに目を光らせている。 ソーシャルメディアデータを分析する研究は、学界で注目されているが、ほとんどの手法が振り返り結果を提供するため、その効用は限られている。 さらに、顧客生成コンテンツの増加と急速に変化するトピックは、タイムアウェアなトピック進化分析を必要としている。 近年,いくつかの研究者がソーシャルメディアへの事前学習型セマンティック言語モデルの適用性を示しているが,トピックの理解には限界が残されている。 本研究では,事前学習言語モデルを用いた時間認識型トピック識別手法を提案する。 提案手法は,言語モデルを用いて時間変化トピックを追跡する動的関数と,将来有望なトピックを探索する出現スコア関数の2段階からなる。 本稿では,提案手法を電気自動車のデータ再編集に適用し,新たな顧客トピックをソーシャルメディアからタイムアウェアで収集する可能性を明らかにする。

Recent extensively competitive business environment makes companies to keep their eyes on social media, as there is a growing recognition over customer languages (e.g., needs, interests, and complaints) as source of future opportunities. This research avenue analysing social media data has received much attention in academia, but their utilities are limited as most of methods provide retrospective results. Moreover, the increasing number of customer-generated contents and rapidly varying topics have made the necessity of time-aware topic evolution analyses. Recently, several researchers have showed the applicability of pre-trained semantic language models to social media as an input feature, but leaving limitations in understanding evolving topics. In this study, we propose a time-aware topic identification approach with pre-trained language models. The proposed approach consists of two stages: the dynamics-focused function for tracking time-varying topics with language models and the emergence-scoring function to examine future promising topics. Here we apply the proposed approach to reddit data on electric vehicles, and our findings highlight the feasibility of capturing emerging customer topics from voluminous social media in a time-aware manner.
翻訳日:2022-10-12 16:37:25 公開日:2022-10-11
# 外部ソースを用いたT5リランカの検索拡張

Retrieval Augmentation for T5 Re-ranker using External Sources ( http://arxiv.org/abs/2210.05145v1 )

ライセンス: Link先を確認
Kai Hui, Tao Chen, Zhen Qin, Honglei Zhuang, Fernando Diaz, Mike Bendersky, Don Metzler(参考訳) 検索の強化は様々なタスクにおいて有望な改善を示している。 しかし、そのような拡張が大規模言語モデルに基づく再ランカを補助できるかどうかは不明だ。 2つの外部コーパス(商用ウェブ検索エンジンとwikipedia)から得られた高品質な情報を用いて、t5ベースの再ランク付けを増強する方法を検討する。 我々は,検索強化がドメイン内およびゼロショットアウトオブドメインのリランキングタスクにおけるt5ベースのリランキングの有効性を効果的に改善できることを実証的に示す。

Retrieval augmentation has shown promising improvements in different tasks. However, whether such augmentation can assist a large language model based re-ranker remains unclear. We investigate how to augment T5-based re-rankers using high-quality information retrieved from two external corpora -- a commercial web search engine and Wikipedia. We empirically demonstrate how retrieval augmentation can substantially improve the effectiveness of T5-based re-rankers for both in-domain and zero-shot out-of-domain re-ranking tasks.
翻訳日:2022-10-12 16:37:06 公開日:2022-10-11
# 地図のない視覚的再ローカライズ:単一の画像に対するメトリックポーズ

Map-free Visual Relocalization: Metric Pose Relative to a Single Image ( http://arxiv.org/abs/2210.05494v1 )

ライセンス: Link先を確認
Eduardo Arnold, Jamie Wynn, Sara Vicente, Guillermo Garcia-Hernando, \'Aron Monszpart, Victor Adrian Prisacariu, Daniyar Turmukhambetov, Eric Brachmann(参考訳) 単一の参照画像で表現されたシーンで再ローカライズできますか? 標準的な視覚的再ローカライズには、シーン固有の3Dマップを構築するために数百の画像とスケールキャリブレーションが必要である。 対照的に,マップフリーな再ローカライズ,すなわち,シーンの1枚の写真のみを使用して,瞬時にスケールした再ローカライズを実現することを提案する。 既存のデータセットは、大きなシーンや限られた変数に焦点を当てているため、マップのない再ローカライゼーションのベンチマークには適していない。 そこで我々は,世界規模で収集された彫刻,壁画,噴水など,655箇所の新しいデータセットを構築した。 各場所には、再ローカライズアンカーとして機能する参照イメージと、既知のメトリックカメラポーズを持つ数十のクエリイメージが付属している。 データセットには、条件の変更、スターク視点の変更、場所間の高いばらつき、参照イメージと視覚的に重複しないクエリなどが特徴である。 提案手法は,相対的ポーズ回帰と特徴マッチングと単一画像深度予測の2つの既存手法のファミリを同定する。 これらの手法は、データセット内の好ましいシーンで合理的なパフォーマンスを示していますが、map-freeの再ローカライズは、新しい革新的なソリューションを必要とする課題であることが証明されます。

Can we relocalize in a scene represented by a single reference image? Standard visual relocalization requires hundreds of images and scale calibration to build a scene-specific 3D map. In contrast, we propose Map-free Relocalization, i.e., using only one photo of a scene to enable instant, metric scaled relocalization. Existing datasets are not suitable to benchmark map-free relocalization, due to their focus on large scenes or their limited variability. Thus, we have constructed a new dataset of 655 small places of interest, such as sculptures, murals and fountains, collected worldwide. Each place comes with a reference image to serve as a relocalization anchor, and dozens of query images with known, metric camera poses. The dataset features changing conditions, stark viewpoint changes, high variability across places, and queries with low to no visual overlap with the reference image. We identify two viable families of existing methods to provide baseline results: relative pose regression, and feature matching combined with single-image depth prediction. While these methods show reasonable performance on some favorable scenes in our dataset, map-free relocalization proves to be a challenge that requires new, innovative solutions.
翻訳日:2022-10-12 16:31:49 公開日:2022-10-11
# Frechet MeanによるGANのグローバル意味表現の探索

Finding the global semantic representation in GAN through Frechet Mean ( http://arxiv.org/abs/2210.05509v1 )

ライセンス: Link先を確認
Jaewoong Choi, Geonho Hwang, Hyunsoo Cho, Myungjoo Kang(参考訳) GAN の理想的に非絡み合うラテント空間は、意味属性座標を用いたラテント空間の大域的表現を含む。 言い換えれば、この不整合空間には、各基底成分が生成された画像の1つの属性を記述するベクトル空間として、大域的意味基底が存在する。 本稿では,GANの中間潜在空間において,この大域的意味基底を求める教師なし手法を提案する。 この意味ベースは、潜伏空間全体における画像の同じ意味的属性を変更するサンプル非依存の有意義な摂動を表す。 提案された大域基底は Fr'echet 基底と呼ばれ、潜在空間における局所的意味摂動に Fr'echet 平均を導入することによって導かれる。 fr\'echet基底は2つの段階で発見される。 まず、大域意味部分空間は局所意味部分空間のグラスマン多様体において Fr\'echet 平均によって発見される。 第二に、Fr'echet 基底は特殊直交群における Fr'echet 平均を通して意味部分空間の基底を最適化することによって得られる。 実験の結果,fr\'echet基底は,従来の手法よりも優れた意味的因子分解とロバスト性をもたらすことがわかった。 さらに,従来の手法に対する基礎改良手法を提案する。 定量的実験により,従来法と同じ意味的部分空間を生成しつつ,より優れた意味的因子化を実現することが示された。

The ideally disentangled latent space in GAN involves the global representation of latent space using semantic attribute coordinates. In other words, in this disentangled space, there exists the global semantic basis as a vector space where each basis component describes one attribute of generated images. In this paper, we propose an unsupervised method for finding this global semantic basis in the intermediate latent space in GANs. This semantic basis represents sample-independent meaningful perturbations that change the same semantic attribute of an image on the entire latent space. The proposed global basis, called Fr\'echet basis, is derived by introducing Fr\'echet mean to the local semantic perturbations in a latent space. Fr\'echet basis is discovered in two stages. First, the global semantic subspace is discovered by the Fr\'echet mean in the Grassmannian manifold of the local semantic subspaces. Second, Fr\'echet basis is found by optimizing a basis of the semantic subspace via the Fr\'echet mean in the Special Orthogonal Group. Experimental results demonstrate that Fr\'echet basis provides better semantic factorization and robustness compared to the previous methods. Moreover, we suggest the basis refinement scheme for the previous methods. The quantitative experiments show that the refined basis achieves better semantic factorization while generating the same semantic subspace as the previous method.
翻訳日:2022-10-12 16:31:27 公開日:2022-10-11
# ViFiCon: 自己監督型コントラスト学習によるビジョンとワイヤレスアソシエーション

ViFiCon: Vision and Wireless Association Via Self-Supervised Contrastive Learning ( http://arxiv.org/abs/2210.05513v1 )

ライセンス: Link先を確認
Nicholas Meegan, Hansi Liu, Bryan Cao, Abrar Alali, Kristin Dana, Marco Gruteser, Shubham Jain and Ashwin Ashok(参考訳) 我々は、視覚と無線のモダリティをまたいだ同期情報を用いて、相互モーダルアソシエーションを行う、自己教師型コントラスト学習方式ViFiConを紹介する。 具体的には、RGB-Dカメラの映像から収集した歩行者データと、ユーザのスマートフォンから収集したWiFi Fine Time Measurements(FTM)を使用する。 重ね合わせ画像内に複数人の深度データを空間的に積み重ねて時間系列を表現する。 RGB-D(ビジョンドメイン)の深度データは本質的に観測可能な歩行者と結びついているが、FTMデータ(ワイヤレスドメイン)はネットワーク上のスマートフォンにのみ関連付けられている。 クロスモーダル・アソシエーション問題を自己教師として定式化するために、ネットワークは2つのモダリティのシーンワイド同期をプリテキストタスクとして学習し、学習した表現を用いて個々のバウンディングボックスを特定のスマートフォン、すなわち視覚と無線情報を関連付ける。 カメラ映像に事前学習された領域提案モデルを用い,ftmデータとともに,外挿境界ボックス情報を二重分岐畳み込みニューラルネットワークに供給する。 完全教師付きSoTAモデルと比較して、ViFiConはハイパフォーマンスなビジョンとワイヤレスのアソシエーションを実現し、どのバウンディングボックスがどのスマートフォンデバイスに対応しているかをトレーニングデータに手書きのアソシエーション例を使わずに見つける。

We introduce ViFiCon, a self-supervised contrastive learning scheme which uses synchronized information across vision and wireless modalities to perform cross-modal association. Specifically, the system uses pedestrian data collected from RGB-D camera footage as well as WiFi Fine Time Measurements (FTM) from a user's smartphone device. We represent the temporal sequence by stacking multi-person depth data spatially within a banded image. Depth data from RGB-D (vision domain) is inherently linked with an observable pedestrian, but FTM data (wireless domain) is associated only to a smartphone on the network. To formulate the cross-modal association problem as self-supervised, the network learns a scene-wide synchronization of the two modalities as a pretext task, and then uses that learned representation for the downstream task of associating individual bounding boxes to specific smartphones, i.e. associating vision and wireless information. We use a pre-trained region proposal model on the camera footage and then feed the extrapolated bounding box information into a dual-branch convolutional neural network along with the FTM data. We show that compared to fully supervised SoTA models, ViFiCon achieves high performance vision-to-wireless association, finding which bounding box corresponds to which smartphone device, without hand-labeled association examples for training data.
翻訳日:2022-10-12 16:31:03 公開日:2022-10-11
# DeepMLE:モーションからの2次元構造のためのロバストな最深部推定器

DeepMLE: A Robust Deep Maximum Likelihood Estimator for Two-view Structure from Motion ( http://arxiv.org/abs/2210.05517v1 )

ライセンス: Link先を確認
Yuxi Xiao, Li Li, Xiaodi Li and Jian Yao(参考訳) 動きからの2次元構造(SfM)は3次元再構成と視覚SLAM(vSLAM)の基礎となる。 既存のエンド・ツー・エンドの学習に基づく多くの手法は、通常、過酷な回帰問題として定式化している。 しかし、伝統的な幾何学モデルの不適切な利用により、このモデルは見当たらない環境では堅牢ではない。 エンド・ツー・エンドの2ビューSfMネットワークの一般化能力とロバスト性を改善するため、2ビューSfM問題を最大推定(MLE)として定式化し、DeepMLEと呼ばれる提案されたフレームワークを用いて解決する。 まず,エゴモーションによって決定される2次元画像マッチングの視覚的類似性を記述するために,深層マルチスケール相関マップを提案する。 また,本フレームワークのロバスト性を高めるため,2次元画像マッチングの相関関係の確率関数をガウス・均一混合分布として定式化し,照明変化,画像ノイズ,移動物体を考慮した不確実性を考慮した。 一方、画素分布パラメータを予測する不確実性予測モジュールが提示される。 最後に,グラデーションライクな情報を用いて深度と相対カメラのポーズを反復的に洗練し,相関の確率関数を最大化する。 複数のデータセットに対する大規模な実験結果から,本手法は精度と一般化能力において最先端の2ビューSfMアプローチよりも優れていることが示された。

Two-view structure from motion (SfM) is the cornerstone of 3D reconstruction and visual SLAM (vSLAM). Many existing end-to-end learning-based methods usually formulate it as a brute regression problem. However, the inadequate utilization of traditional geometry model makes the model not robust in unseen environments. To improve the generalization capability and robustness of end-to-end two-view SfM network, we formulate the two-view SfM problem as a maximum likelihood estimation (MLE) and solve it with the proposed framework, denoted as DeepMLE. First, we propose to take the deep multi-scale correlation maps to depict the visual similarities of 2D image matches decided by ego-motion. In addition, in order to increase the robustness of our framework, we formulate the likelihood function of the correlations of 2D image matches as a Gaussian and Uniform mixture distribution which takes the uncertainty caused by illumination changes, image noise and moving objects into account. Meanwhile, an uncertainty prediction module is presented to predict the pixel-wise distribution parameters. Finally, we iteratively refine the depth and relative camera pose using the gradient-like information to maximize the likelihood function of the correlations. Extensive experimental results on several datasets prove that our method significantly outperforms the state-of-the-art end-to-end two-view SfM approaches in accuracy and generalization capability.
翻訳日:2022-10-12 16:30:35 公開日:2022-10-11
# 高分解能画像合成のための変圧器のスタイルガイド推論

Style-Guided Inference of Transformer for High-resolution Image Synthesis ( http://arxiv.org/abs/2210.05533v1 )

ライセンス: Link先を確認
Jonghwa Yim, Minjae Kim(参考訳) トランスフォーマーは、過去の値から離散値を再帰的に予測してフルイメージを構成する自動回帰画像合成に極めて適している。 特に、ベクトル量子化潜在表現と組み合わせて、最先端の自己回帰変換器は現実的な高解像度画像を表示する。 しかし、離散確率分布から潜在コードをサンプリングすると、出力は予測不能となる。 そのため、望ましい出力を得るためには多様なサンプルを生成する必要がある。 本稿では, 多数のサンプルを反復的に生成するプロセスを軽減するため, 変換器を再学習することなく, 所望の出力, スタイルイメージを付加条件として取ることを提案する。 この目的のために,本手法では,提案手法のスタイルを確率制約に転送し,前者ではなく目標分布を指定する。 このように、以前の再バランスから生成されたサンプルは参照スタイルと類似したスタイルを持つ。 実際には、追加条件として画像または画像のカテゴリを選択することができる。 質的評価では、出力の大多数のスタイルが入力スタイルに類似していることが示される。

Transformer is eminently suitable for auto-regressive image synthesis which predicts discrete value from the past values recursively to make up full image. Especially, combined with vector quantised latent representation, the state-of-the-art auto-regressive transformer displays realistic high-resolution images. However, sampling the latent code from discrete probability distribution makes the output unpredictable. Therefore, it requires to generate lots of diverse samples to acquire desired outputs. To alleviate the process of generating lots of samples repetitively, in this article, we propose to take a desired output, a style image, as an additional condition without re-training the transformer. To this end, our method transfers the style to a probability constraint to re-balance the prior, thereby specifying the target distribution instead of the original prior. Thus, generated samples from the re-balanced prior have similar styles to reference style. In practice, we can choose either an image or a category of images as an additional condition. In our qualitative assessment, we show that styles of majority of outputs are similar to the input style.
翻訳日:2022-10-12 16:30:15 公開日:2022-10-11
# 弱教師付き3次元インスタンス分割のためのスーパーポイント間親和性学習

Learning Inter-Superpoint Affinity for Weakly Supervised 3D Instance Segmentation ( http://arxiv.org/abs/2210.05534v1 )

ライセンス: Link先を確認
Linghua Tang and Le Hui and Jin Xie(参考訳) 3dポイントクラウドの注釈付きラベルが少ないため、ポイントクラウドの識別的特徴を学習してオブジェクトインスタンスをセグメンテーションする方法は難しい問題である。 本稿では,各インスタンスに1点だけアノテートすることで,優れたパフォーマンスを実現するための,シンプルで効果的な3Dインスタンスセグメンテーションフレームワークを提案する。 具体的には、インスタンスセグメンテーションの非常に少ないラベルに取り組むために、まず、監督されていない方法でポイントクラウドをスーパーポイントに分割し、ポイントレベルのアノテーションをスーパーポイントレベルに拡張します。 次に、スーパーポイントグラフに基づいて、意味的および空間的関係を考慮したスーパーポイント親和性マイニングモジュールを提案し、スーパーポイント親和性を適応的に学習し、意味認識ランダムウォークによる高品質な擬似ラベルを生成する。 最後に,スーパーポイントグラフ上のクラスタリングにおいて,オブジェクトのボリューム制約を適用して高品質インスタンスをセグメント化するためのボリューム対応インスタンスリファインメントモジュールを提案する。 ScanNet-v2 と S3DIS データセットの大規模な実験により、弱教師付きポイントクラウドインスタンスセグメンテーションタスクにおいて、我々の手法が最先端の性能を達成することを示した。

Due to the few annotated labels of 3D point clouds, how to learn discriminative features of point clouds to segment object instances is a challenging problem. In this paper, we propose a simple yet effective 3D instance segmentation framework that can achieve good performance by annotating only one point for each instance. Specifically, to tackle extremely few labels for instance segmentation, we first oversegment the point cloud into superpoints in an unsupervised manner and extend the point-level annotations to the superpoint level. Then, based on the superpoint graph, we propose an inter-superpoint affinity mining module that considers the semantic and spatial relations to adaptively learn inter-superpoint affinity to generate high-quality pseudo labels via semantic-aware random walk. Finally, we propose a volume-aware instance refinement module to segment high-quality instances by applying volume constraints of objects in clustering on the superpoint graph. Extensive experiments on the ScanNet-v2 and S3DIS datasets demonstrate that our method achieves state-of-the-art performance in the weakly supervised point cloud instance segmentation task, and even outperforms some fully supervised methods.
翻訳日:2022-10-12 16:30:00 公開日:2022-10-11
# 教師なし騒音の評価

Evaluating Unsupervised Denoising Requires Unsupervised Metrics ( http://arxiv.org/abs/2210.05553v1 )

ライセンス: Link先を確認
Adria Marcos-Morales, Matan Leibovich, Sreyas Mohan, Joshua Lawrence Vincent, Piyush Haluai, Mai Tan, Peter Crozier, Carlos Fernandez-Granda(参考訳) 教師なしのデノイジングは、実世界のイメージングアプリケーションにおいて重要な課題である。 教師なしのディープラーニング手法は、合成ノイズに基づくベンチマークで印象的な性能を示した。 しかし、これらの手法を教師なしで評価する指標は存在しない。 これは、地上のクリーンなイメージが利用できない多くの実用的なアプリケーションにとって、非常に問題となる。 本研究では,教師なし平均二乗誤差 (unsupervised mean squared error, mse) と教師なしピーク信号対雑音比 (unsupervised peak signal-to-noise ratio, psnr) の2つの新しい指標を提案する。 我々はこれらの指標の理論的解析を行い、それらが教師付きMSEとPSNRの漸近的に一貫した推定値であることを示す。 合成雑音による制御された数値実験は、実際に正確な近似を与えることを確認した。 生のフォーマットによるビデオと透過型電子顕微鏡の2つの画像モダリティから実世界のデータに対するアプローチを検証する。 その結果,提案手法は雑音データのみに基づいて非教師なし評価が可能となった。

Unsupervised denoising is a crucial challenge in real-world imaging applications. Unsupervised deep-learning methods have demonstrated impressive performance on benchmarks based on synthetic noise. However, no metrics are available to evaluate these methods in an unsupervised fashion. This is highly problematic for the many practical applications where ground-truth clean images are not available. In this work, we propose two novel metrics: the unsupervised mean squared error (MSE) and the unsupervised peak signal-to-noise ratio (PSNR), which are computed using only noisy data. We provide a theoretical analysis of these metrics, showing that they are asymptotically consistent estimators of the supervised MSE and PSNR. Controlled numerical experiments with synthetic noise confirm that they provide accurate approximations in practice. We validate our approach on real-world data from two imaging modalities: videos in raw format and transmission electron microscopy. Our results demonstrate that the proposed metrics enable unsupervised evaluation of denoising methods based exclusively on noisy data.
翻訳日:2022-10-12 16:29:35 公開日:2022-10-11
# 弱教師付きセマンティックセグメンテーションのためのハイパーグラフ畳み込みネットワーク

Hypergraph Convolutional Networks for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2210.05564v1 )

ライセンス: Link先を確認
Jhony H. Giraldo, Vincenzo Scarrica, Antonino Staiano, Francesco Camastra, Thierry Bouwmans(参考訳) セマンティックセグメンテーションはコンピュータビジョンの基本的なトピックである。 セマンティックセグメンテーションにはいくつかの深層学習手法が提案されている。 しかし、これらのモデルは大量の注釈付き画像を必要とする。 この問題に対処するために,Weakly-supervised Semantic Segmentation (HyperGCN-WSS) にHyperGraph Convolutional Networksを用いた新しいアルゴリズムを提案する。 本アルゴリズムは,データセット内の画像からk-nearest neighbor (k-nn)グラフを作成し,ハイパーグラフを生成する。 そこで我々は,いくつかの弱い信号を用いて,HyperGCN(HyperGraph Convolutional Network)アーキテクチャを訓練する。 hypergcnの出力は擬似ラベルであり、後に意味セグメンテーションのためのdeeplabモデルを訓練するために使用される。 HyperGCN-WSSは、セマンティックセグメンテーションのためのPASCAL VOC 2012データセット上で、スクリブルやクリックを弱い信号として評価する。 本アルゴリズムは,従来の手法と競合する性能を示す。

Semantic segmentation is a fundamental topic in computer vision. Several deep learning methods have been proposed for semantic segmentation with outstanding results. However, these models require a lot of densely annotated images. To address this problem, we propose a new algorithm that uses HyperGraph Convolutional Networks for Weakly-supervised Semantic Segmentation (HyperGCN-WSS). Our algorithm constructs spatial and k-Nearest Neighbor (k-NN) graphs from the images in the dataset to generate the hypergraphs. Then, we train a specialized HyperGraph Convolutional Network (HyperGCN) architecture using some weak signals. The outputs of the HyperGCN are denominated pseudo-labels, which are later used to train a DeepLab model for semantic segmentation. HyperGCN-WSS is evaluated on the PASCAL VOC 2012 dataset for semantic segmentation, using scribbles or clicks as weak signals. Our algorithm shows competitive performance against previous methods.
翻訳日:2022-10-12 16:29:20 公開日:2022-10-11
# 等化損失:長尾物体認識のための勾配駆動学習

The Equalization Losses: Gradient-Driven Training for Long-tailed Object Recognition ( http://arxiv.org/abs/2210.05566v1 )

ライセンス: Link先を確認
Jingru Tan, Bo Li, Xin Lu, Yongqiang Yao, Fengwei Yu, Tong He, Wanli Ouyang(参考訳) ロングテール分布は現実世界のアプリケーションで広く普及している。 インスタンスの比率が非常に小さいため、尾のカテゴリは精度が劣ることが多い。 本稿では, この性能ボトルネックは, 主に不均衡勾配が原因であり, 正の部分, 同一カテゴリのサンプルから派生した正部分, 負の部分, その他のカテゴリが寄与する負の部分の2つに分類できる。 包括的実験により, 累積正の負への勾配比は, カテゴリーのバランスがどの程度訓練されているかを示す良い指標であることがわかった。 これにより,現在の累積勾配に応じて動的に正負の勾配を再バランスし,バランス勾配比を達成するという目標が統一された,ロングテール問題に取り組むための勾配駆動型トレーニング機構を考案した。 単純でフレキシブルな勾配機構を利用して、勾配駆動型損失関数の新しいファミリー、すなわち等化損失を導入する。 我々は,2段階/1段階の長い尾オブジェクト検出(LVIS),長い尾の画像分類(ImageNet-LT, Places-LT, iNaturalist),長い尾のセマンティックセマンティックセマンティックセマンティックセグメンテーション(ADE20K)など,幅広い視覚課題について広範な実験を行った。 提案手法は,提案する等化損失の有効性と一般化性を実証し,ベースラインモデルを一貫して上回っている。 コードはhttps://github.com/ModelTC/United-Perceptionでリリースされる。

Long-tail distribution is widely spread in real-world applications. Due to the extremely small ratio of instances, tail categories often show inferior accuracy. In this paper, we find such performance bottleneck is mainly caused by the imbalanced gradients, which can be categorized into two parts: (1) positive part, deriving from the samples of the same category, and (2) negative part, contributed by other categories. Based on comprehensive experiments, it is also observed that the gradient ratio of accumulated positives to negatives is a good indicator to measure how balanced a category is trained. Inspired by this, we come up with a gradient-driven training mechanism to tackle the long-tail problem: re-balancing the positive/negative gradients dynamically according to current accumulative gradients, with a unified goal of achieving balance gradient ratios. Taking advantage of the simple and flexible gradient mechanism, we introduce a new family of gradient-driven loss functions, namely equalization losses. We conduct extensive experiments on a wide spectrum of visual tasks, including two-stage/single-stage long-tailed object detection (LVIS), long-tailed image classification (ImageNet-LT, Places-LT, iNaturalist), and long-tailed semantic segmentation (ADE20K). Our method consistently outperforms the baseline models, demonstrating the effectiveness and generalization ability of the proposed equalization losses. Codes will be released at https://github.com/ModelTC/United-Perception.
翻訳日:2022-10-12 16:29:03 公開日:2022-10-11
# ビデオオブジェクト分割のためのグローバルスペクトルフィルタメモリネットワーク

Global Spectral Filter Memory Network for Video Object Segmentation ( http://arxiv.org/abs/2210.05567v1 )

ライセンス: Link先を確認
Yong Liu, Ran Yu, Jiahao Wang, Xinyuan Zhao, Yitong Wang, Yansong Tang, Yujiu Yang(参考訳) 本稿では,フレーム内相互作用の促進による半教師付きビデオオブジェクトセグメンテーションについて検討する。 最近のメモリネットワークベースの手法では、フレーム内空間依存性にほとんど注意を払わず、フレーム間時間参照の活用に焦点が当てられている。 具体的には、これらのセグメンテーションモデルは特定のフレーム内の非対象オブジェクトからの干渉に影響を受けやすい傾向にある。 本研究では,スペクトル領域における長期空間依存性を学習することでフレーム内インタラクションを改善するグローバルスペクトルフィルタメモリネットワーク(gsfm)を提案する。 GSFMの鍵となる構成要素は空間情報混合のための2次元離散フーリエ変換である。 また,デコーダ(セグメンテーションヘッド)では,低周波特性をエンコーダ(バックボーン)で拡張すべきであることを示す。 これを、エンコーダのセマンティック情報抽出ロールと、デコーダの詳細な詳細強調ロールに分類する。 したがって、この状況に適合する低(高)周波数モジュールが提案されている。 人気の高いDAVISとYouTube-VOSベンチマークの大規模な実験は、GSFMがベースライン法を著しく上回り、最先端のパフォーマンスを達成することを示した。 さらに、広範な解析により、提案された加群は妥当であり、大きな一般化能力を持つことが示されている。 ソースコードはhttps://github.com/workforai/gsfmで閲覧できます。

This paper studies semi-supervised video object segmentation through boosting intra-frame interaction. Recent memory network-based methods focus on exploiting inter-frame temporal reference while paying little attention to intra-frame spatial dependency. Specifically, these segmentation model tends to be susceptible to interference from unrelated nontarget objects in a certain frame. To this end, we propose Global Spectral Filter Memory network (GSFM), which improves intra-frame interaction through learning long-term spatial dependencies in the spectral domain. The key components of GSFM is 2D (inverse) discrete Fourier transform for spatial information mixing. Besides, we empirically find low frequency feature should be enhanced in encoder (backbone) while high frequency for decoder (segmentation head). We attribute this to semantic information extracting role for encoder and fine-grained details highlighting role for decoder. Thus, Low (High) Frequency Module is proposed to fit this circumstance. Extensive experiments on the popular DAVIS and YouTube-VOS benchmarks demonstrate that GSFM noticeably outperforms the baseline method and achieves state-of-the-art performance. Besides, extensive analysis shows that the proposed modules are reasonable and of great generalization ability. Our source code is available at https://github.com/workforai/GSFM.
翻訳日:2022-10-12 16:28:34 公開日:2022-10-11
# フルコンテキスト・高分解能3次元医療セグメンテーションのためのメモリトランスフォーマ

Memory transformers for full context and high-resolution 3D Medical Segmentation ( http://arxiv.org/abs/2210.05313v1 )

ライセンス: Link先を確認
Loic Themyr, Cl\'ement Rambour, Nicolas Thome, Toby Collins, Alexandre Hostettler(参考訳) トランスフォーマーモデルは画像分割のための最先端の結果を得る。 しかし,高精細な3d画像を用いて,グローバルな文脈を捉えるために必要な長距離的注意力を実現することは,重要な課題である。 本稿では,この問題を克服するために,Full resolutIoN mEmory (FINE) 変換器を提案する。 FINEの背後にある中核的な考え方は、メモリトークンを学習して、メモリと計算コストの両方でうまくスケーリングしながら、間接的にフルレンジインタラクションをモデル化することだ。 FINEはメモリトークンを2つのレベルに導入している。第1はローカルイメージ領域(パッチ)内のボクセル間の完全なインタラクションを許容し、第2は3Dボリュームの全領域間の完全なインタラクションを可能にする。 組み合わせることで、512 x 512 x 256ボクセルなど高解像度の画像に完全に注意を向けることができる。 bcvイメージセグメンテーションデータセットにおける実験は、最先端のcnnおよびtransformerベースラインよりも優れたパフォーマンスを示し、最近のtransformerベースライン、例えばcotrおよびnnformerと比較して、全注意機構の優位性を強調する。

Transformer models achieve state-of-the-art results for image segmentation. However, achieving long-range attention, necessary to capture global context, with high-resolution 3D images is a fundamental challenge. This paper introduces the Full resolutIoN mEmory (FINE) transformer to overcome this issue. The core idea behind FINE is to learn memory tokens to indirectly model full range interactions while scaling well in both memory and computational costs. FINE introduces memory tokens at two levels: the first one allows full interaction between voxels within local image regions (patches), the second one allows full interactions between all regions of the 3D volume. Combined, they allow full attention over high resolution images, e.g. 512 x 512 x 256 voxels and above. Experiments on the BCV image segmentation dataset shows better performances than state-of-the-art CNN and transformer baselines, highlighting the superiority of our full attention mechanism compared to recent transformer baselines, e.g. CoTr, and nnFormer.
翻訳日:2022-10-12 16:23:27 公開日:2022-10-11
# CASAPose: クラス適応型およびセマンティック型マルチオブジェクト推定

CASAPose: Class-Adaptive and Semantic-Aware Multi-Object Pose Estimation ( http://arxiv.org/abs/2210.05318v1 )

ライセンス: Link先を確認
Niklas Gard, Anna Hilsmann, Peter Eisert(参考訳) 拡張現実やロボット工学の分野での応用は、しばしば関節の局所化と、複数の物体の6dポーズ推定を必要とする。 しかし、ほとんどのアルゴリズムは最高の結果を得るために、オブジェクトクラスごとに1つのネットワークを必要とする。 すべての可視オブジェクトを分析するには、メモリと時間を要する複数の推論が必要である。 本稿では,rgb画像中の複数の異なる物体のポーズ推定のための2d-3d対応を決定するcasaposeと呼ばれる新しい単一ステージアーキテクチャを提案する。 高速かつメモリ効率が高く、局所クラス適応正規化によるキーポイント認識デコーダへの制御入力としてセマンティックセグメンテーションデコーダの出力を利用することにより、複数のオブジェクトに対して高い精度を実現する。 キーポイント位置の新たな微分可能な回帰は、実際のテストデータと合成トレーニングデータの間のドメインギャップのより早い終了に寄与します。 分割認識型畳み込みとアップサンプリング操作を適用し,対象マスク内の焦点を拡大し,対象の相互干渉を低減する。 挿入された各オブジェクトに対して、ネットワークは1つの出力セグメンテーションマップと不可分なパラメータで成長する。 我々は、オブジェクト間の閉塞と合成訓練による多目的シーンの挑戦において、最先端のアプローチより優れています。

Applications in the field of augmented reality or robotics often require joint localisation and 6d pose estimation of multiple objects. However, most algorithms need one network per object class to be trained in order to provide the best results. Analysing all visible objects demands multiple inferences, which is memory and time-consuming. We present a new single-stage architecture called CASAPose that determines 2D-3D correspondences for pose estimation of multiple different objects in RGB images in one pass. It is fast and memory efficient, and achieves high accuracy for multiple objects by exploiting the output of a semantic segmentation decoder as control input to a keypoint recognition decoder via local class-adaptive normalisation. Our new differentiable regression of keypoint locations significantly contributes to a faster closing of the domain gap between real test and synthetic training data. We apply segmentation-aware convolutions and upsampling operations to increase the focus inside the object mask and to reduce mutual interference of occluding objects. For each inserted object, the network grows by only one output segmentation map and a negligible number of parameters. We outperform state-of-the-art approaches in challenging multi-object scenes with inter-object occlusion and synthetic training.
翻訳日:2022-10-12 16:23:02 公開日:2022-10-11
# 表情認識における性ステレオタイプの影響

Gender Stereotyping Impact in Facial Expression Recognition ( http://arxiv.org/abs/2210.05332v1 )

ライセンス: Link先を確認
Iris Dominguez-Catena, Daniel Paternain and Mikel Galar(参考訳) 表情認識(fer)は、顔の画像を使用してユーザの感情状態を識別し、人間と自律システム間のより緊密なインタラクションを可能にする。 残念なことに、画像は自然に年齢、性別、人種などの人口統計情報を統合しているため、これらのシステムは人口統計バイアスの問題を引き起こす。 近年、機械学習ベースのモデルはFERの最も一般的なアプローチとなっている。 これらのモデルは表情画像の大規模なデータセットのトレーニングを必要とし、その一般化能力はデータセットの特性に強く関連している。 公開のferデータセットでは、見かけの性別表現は通常バランスが取れているが、個々のラベルでの表現はそうではなく、データセットに社会的ステレオタイプを埋め込み、有害な可能性を生み出す。 この種の偏見はこれまでに見過ごされてきたが、FERの文脈における影響を理解することが重要である。 そのため、fer+という一般的なFERデータセットを用いて、特定のラベルの性別比を変化させることで、異なる量のステレオタイプバイアスを持つ微分データセットを生成する。 次に、これらのデータセットでトレーニングされたモデルのパフォーマンスと、見かけ上の性別群との差を測定する。 最低バイアス条件下では、性別間の特定の感情の認識において、最大29セント=$の差が観察される。 また, 結果モデルにステレオタイプバイアスを生じさせないデータセットにおいて, ステレオタイプバイアスの安全性範囲が示唆された。 私たちの発見は、ferのような問題における公開データセットの完全なバイアス分析の必要性を裏付けるものであり、人口統計学的表現のグローバルバランスは、特定の人口集団に有害な他のタイプのバイアスを隠蔽することができる。

Facial Expression Recognition (FER) uses images of faces to identify the emotional state of users, allowing for a closer interaction between humans and autonomous systems. Unfortunately, as the images naturally integrate some demographic information, such as apparent age, gender, and race of the subject, these systems are prone to demographic bias issues. In recent years, machine learning-based models have become the most popular approach to FER. These models require training on large datasets of facial expression images, and their generalization capabilities are strongly related to the characteristics of the dataset. In publicly available FER datasets, apparent gender representation is usually mostly balanced, but their representation in the individual label is not, embedding social stereotypes into the datasets and generating a potential for harm. Although this type of bias has been overlooked so far, it is important to understand the impact it may have in the context of FER. To do so, we use a popular FER dataset, FER+, to generate derivative datasets with different amounts of stereotypical bias by altering the gender proportions of certain labels. We then proceed to measure the discrepancy between the performance of the models trained on these datasets for the apparent gender groups. We observe a discrepancy in the recognition of certain emotions between genders of up to $29 \%$ under the worst bias conditions. Our results also suggest a safety range for stereotypical bias in a dataset that does not appear to produce stereotypical bias in the resulting model. Our findings support the need for a thorough bias analysis of public datasets in problems like FER, where a global balance of demographic representation can still hide other types of bias that harm certain demographic groups.
翻訳日:2022-10-12 16:22:31 公開日:2022-10-11
# PP-StructureV2:より強力な文書解析システム

PP-StructureV2: A Stronger Document Analysis System ( http://arxiv.org/abs/2210.05391v1 )

ライセンス: Link先を確認
Chenxia Li, Ruoyu Guo, Jun Zhou, Mengtao An, Yuning Du, Lingfeng Zhu, Yi Liu, Xiaoguang Hu, Dianhai Yu(参考訳) 大量の文書データは、テキスト情報なしで生画像などの非構造化形式で存在する。 実用的な文書画像解析システムを設計することは有意義だが難しい課題である。 先行研究では,知的文書解析システムpp-structureを提案する。 本研究では,PP構造体の機能と性能をさらに向上するために,レイアウト情報抽出とキー情報抽出という2つのサブシステムを含むPP構造体V2を提案する。 まず,画像方向補正モジュールとレイアウト復元モジュールを統合し,システムの機能を向上させる。 第2に,pp-structurev2では,性能向上のために8つの実用戦略が活用されている。 レイアウト解析モデルでは,超軽量検出器PP-PicoDetとモデル軽量化のための知識蒸留アルゴリズムFGDを導入する。 表認識モデルでは, PP-LCNet, CSP-PAN, SLAHeadを用いて, バックボーンモジュール, 機能融合モジュール, デコードモジュールの最適化を行う。 キー情報抽出モデルとして,vi-layoutxlmを提案する。vi-layoutxlmは視覚特徴独立なlayoutxlmアーキテクチャであり,tb-yxソートアルゴリズムとu-dml知識蒸留アルゴリズムは,意味的エンティティ認識と関係抽出タスクのhmeanに対してそれぞれ2.8\%,9.1\%の改善をもたらす。 上記のモデルとコードは、すべてGitHubリポジトリPaddleOCRでオープンソース化されている。

A large amount of document data exists in unstructured form such as raw images without any text information. Designing a practical document image analysis system is a meaningful but challenging task. In previous work, we proposed an intelligent document analysis system PP-Structure. In order to further upgrade the function and performance of PP-Structure, we propose PP-StructureV2 in this work, which contains two subsystems: Layout Information Extraction and Key Information Extraction. Firstly, we integrate Image Direction Correction module and Layout Restoration module to enhance the functionality of the system. Secondly, 8 practical strategies are utilized in PP-StructureV2 for better performance. For Layout Analysis model, we introduce ultra light-weight detector PP-PicoDet and knowledge distillation algorithm FGD for model lightweighting, which increased the inference speed by 11 times with comparable mAP. For Table Recognition model, we utilize PP-LCNet, CSP-PAN and SLAHead to optimize the backbone module, feature fusion module and decoding module, respectively, which improved the table structure accuracy by 6\% with comparable inference speed. For Key Information Extraction model, we introduce VI-LayoutXLM which is a visual-feature independent LayoutXLM architecture, TB-YX sorting algorithm and U-DML knowledge distillation algorithm, which brought 2.8\% and 9.1\% improvement respectively on the Hmean of Semantic Entity Recognition and Relation Extraction tasks. All the above mentioned models and code are open-sourced in the GitHub repository PaddleOCR.
翻訳日:2022-10-12 16:21:39 公開日:2022-10-11
# tgdm: クロスドメイン・マイズショット学習のためのターゲットガイド動的ミックスアップ

TGDM: Target Guided Dynamic Mixup for Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2210.05392v1 )

ライセンス: Link先を確認
Linhai Zhuo, Yuqian Fu, Jingjing Chen, Yixin Cao, Yu-Gang Jiang(参考訳) ソースドメインに関する十分なトレーニングデータが与えられた場合、クロスドメイン・ショットラーニング(CD-FSL)は、ターゲットドメインに少数のラベル付き例で新しいクラスを認識することを目的としている。 CD-FSLに対処する鍵は、ドメインギャップを狭め、ソースドメインでトレーニングされたネットワークの知識をターゲットドメインに転送することである。 本稿では,知識伝達を支援するため,ソース領域とターゲット領域のイメージを混合した中間領域を提案する。 具体的には、異なるターゲットデータに対して最適な中間領域を生成するために、ターゲットデータを活用する新しいターゲット誘導動的混合(TGDM)フレームワークを提案し、動的混合による混合画像の生成を誘導する。 提案するTGDMフレームワークは,分類器を学習するMixup-3Tネットワークと,最適混合比を学習するDRGNを含む。 知識の転送を改善するため、mixup-3tネットワークは、ソースドメイン、ターゲットドメイン、中間ドメインのクラスを分類するための共有パラメータを持つ3つのブランチを含んでいる。 最適中間領域を生成するために、DRGNは、補助目標データの性能に応じて最適な混合比を生成することを学習する。 そして、TGDMフレームワーク全体が双方向のメタラーニングによってトレーニングされ、TGDMが自分自身を修正して、ターゲットデータ上で最適なパフォーマンスを実現することができる。 ベンチマークデータセットの広範囲な実験結果から,本手法の有効性を確認した。

Given sufficient training data on the source domain, cross-domain few-shot learning (CD-FSL) aims at recognizing new classes with a small number of labeled examples on the target domain. The key to addressing CD-FSL is to narrow the domain gap and transferring knowledge of a network trained on the source domain to the target domain. To help knowledge transfer, this paper introduces an intermediate domain generated by mixing images in the source and the target domain. Specifically, to generate the optimal intermediate domain for different target data, we propose a novel target guided dynamic mixup (TGDM) framework that leverages the target data to guide the generation of mixed images via dynamic mixup. The proposed TGDM framework contains a Mixup-3T network for learning classifiers and a dynamic ratio generation network (DRGN) for learning the optimal mix ratio. To better transfer the knowledge, the proposed Mixup-3T network contains three branches with shared parameters for classifying classes in the source domain, target domain, and intermediate domain. To generate the optimal intermediate domain, the DRGN learns to generate an optimal mix ratio according to the performance on auxiliary target data. Then, the whole TGDM framework is trained via bi-level meta-learning so that TGDM can rectify itself to achieve optimal performance on target data. Extensive experimental results on several benchmark datasets verify the effectiveness of our method.
翻訳日:2022-10-12 16:21:13 公開日:2022-10-11
# DPANET:セマンティックセグメンテーションのための二重プール注意ネットワーク

DPANET:Dual Pooling Attention Network for Semantic Segmentation ( http://arxiv.org/abs/2210.05437v1 )

ライセンス: Link先を確認
Dongwei Sun, Zhuolin Gao(参考訳) イメージセグメンテーションは歴史的かつ重要なコンピュータビジョンタスクである。 ディープラーニング技術の助けを借りて、画像セマンティックセグメンテーションは大きな進歩を遂げた。 近年,異なるチャネル間の相互作用の欠如を克服し,文脈情報を効果的に収集・集約するCNNと比較して,注意機構のガイダンスに基づいている。 しかし、アテンションメカニズムによって生成される大規模な操作は、GPUメモリの非常に高い複雑さと高い要求をもたらす。 そこで本稿では,DPANet(Dual Pool Attention Network)という,軽量で柔軟なニューラルネットワークを提案する。 最も重要なことは、DPANetのすべてのモジュールが \textbf{0} パラメータを生成することである。 第1のコンポーネントは空間プールアテンションモジュールであり,文脈特性を抽出し,計算量と複雑性を劇的に削減するために,容易かつ強力な手法を密に定式化する。 第2のコンポーネントはチャネルプールアテンションモジュールである。 cnnの計算プロセスは、空間次元とチャネル次元の情報を取り込んでいることが知られている。 したがって、このモジュールの目的は、全てのチャンネルの関係を構築し、異なるチャンネルの意味情報を選択的に高めるために、それらを取り除くことである。 さらに,本手法を低パラメータと計算複雑性で簡便かつ効果的に示すセグメンテーションデータセットの実験を行った。

Image segmentation is a historic and significant computer vision task. With the help of deep learning techniques, image semantic segmentation has made great progresses. Over recent years, based on guidance of attention mechanism compared with CNN which overcomes the problems of lacking of interaction between different channels, and effective capturing and aggregating contextual information. However, the massive operations generated by the attention mechanism lead to its extremely high complexity and high demand for GPU memory. For this purpose, we propose a lightweight and flexible neural network named Dual Pool Attention Network(DPANet). The most important is that all modules in DPANet generate \textbf{0} parameters. The first component is spatial pool attention module, we formulate an easy and powerful method densely to extract contextual characteristics and reduce the amount of calculation and complexity dramatically.Meanwhile, it demonstrates the power of even and large kernel size. The second component is channel pool attention module. It is known that the computation process of CNN incorporates the information of spatial and channel dimensions. So, the aim of this module is stripping them out, in order to construct relationship of all channels and heighten different channels semantic information selectively. Moreover, we experiments on segmentation datasets, which shows our method simple and effective with low parameters and calculation complexity.
翻訳日:2022-10-12 16:20:48 公開日:2022-10-11
# 咬合者再識別のための並列増強と二重増強

Parallel Augmentation and Dual Enhancement for Occluded Person Re-identification ( http://arxiv.org/abs/2210.05438v1 )

ライセンス: Link先を確認
Zi wang, Huaibo Huang, Aihua Zheng, Chenglong Li, Ran He(参考訳) 被写体再同定(re-id:occluded person re-id)は、被写体環境における同一人物の画像を検索する作業であり、過去数十年間で多くの注目を集めている。 近年のアプローチでは、データ/機能拡張による閉塞データの性能向上や、隠蔽予測に余分なモデルの利用に重点を置いている。 しかし、彼らはテストセットの不均衡問題を無視し、トレーニングデータからの情報を完全に活用しない。 上記の問題を緩和するために,並列拡張と2重拡張(pade)を併用した簡易かつ効果的な手法を提案し,この手法はオクルードデータと非オクルードデータの両方において頑健であり,補助的な手掛かりは不要である。 まず,非平衡データによる負の効果を軽減するために,より適切な隠蔽データを生成するための並列拡張機構(PAM)を設計する。 第2に,コンテキスト情報と詳細情報を促進するために,グローバル機能とローカル機能の2重強化戦略(des)を提案する。 OccludedDuke,Partial-REID,Occluded-ReID)および非Occludedデータセット(Market-1501, DukeMTMC-reID)を用いて,本手法の有効性を検証した。 コードはもうすぐ入手できる。

Occluded person re-identification (Re-ID), the task of searching for the same person's images in occluded environments, has attracted lots of attention in the past decades. Recent approaches concentrate on improving performance on occluded data by data/feature augmentation or using extra models to predict occlusions. However, they ignore the imbalance problem in the test set and not fully utilize the information from the training data. To alleviate the above problems, we propose a simple but effective method with Parallel Augmentation and Dual Enhancement (PADE) that is robust on both occluded and non-occluded data, and does not require any auxiliary clues. First, we design a parallel augmentation mechanism (PAM) for occluded Re-ID to generate more suitable occluded data to mitigate the negative effects of unbalanced data. Second, we propose the dual enhancement strategy (DES)for global and local features to promote the context information and details. Experimental results on widely used occluded datasets (OccludedDuke, Partial-REID, and Occluded-ReID) and non-occluded datasets (Market-1501 and DukeMTMC-reID) validate the effectiveness of our method. The code will be available soon.
翻訳日:2022-10-12 16:20:27 公開日:2022-10-11
# FreGAN: 限られたデータでGANを訓練するための周波数成分を爆発させる

FreGAN: Exploiting Frequency Components for Training GANs under Limited Data ( http://arxiv.org/abs/2210.05461v1 )

ライセンス: Link先を確認
Mengping Yang, Zhe Wang, Ziqiu Chi, Yanbing Zhang(参考訳) 限られたデータの下でのGANの訓練は、しばしば差別者が過度に適合し、記憶する問題を引き起こす。 既存のアプローチは、データ拡張、モデル正規化、アテンションメカニズムを用いることで、オーバーフィッティングを軽減する。 しかし、GANの周波数バイアスを無視し、特に豊富な詳細を含む高周波信号の周波数情報に対する配慮が不十分である。 本稿では,限られたデータの周波数情報を十分に活用するために,モデルの周波数認識を高め,高周波数信号の生成に注意を向け,高品質な生成を容易にするFreGANを提案する。 また、実画像と生成画像の両方の周波数情報を活用することに加え、実画像の周波数信号を自己監督的制約として含み、GAN不均衡を緩和し、任意の周波数信号よりも適切な合成を促す。 その結果,FreGANが低データ体制(特にトレーニングデータが100未満の場合)における生成品質の向上に有効であることが示された。 さらに、FreGANは既存の正規化とアテンションメカニズムモデルにシームレスに適用してパフォーマンスをさらに向上することができる。

Training GANs under limited data often leads to discriminator overfitting and memorization issues, causing divergent training. Existing approaches mitigate the overfitting by employing data augmentations, model regularization, or attention mechanisms. However, they ignore the frequency bias of GANs and take poor consideration towards frequency information, especially high-frequency signals that contain rich details. To fully utilize the frequency information of limited data, this paper proposes FreGAN, which raises the model's frequency awareness and draws more attention to producing high-frequency signals, facilitating high-quality generation. In addition to exploiting both real and generated images' frequency information, we also involve the frequency signals of real images as a self-supervised constraint, which alleviates the GAN disequilibrium and encourages the generator to synthesize adequate rather than arbitrary frequency signals. Extensive results demonstrate the superiority and effectiveness of our FreGAN in ameliorating generation quality in the low-data regime (especially when training data is less than 100). Besides, FreGAN can be seamlessly applied to existing regularization and attention mechanism models to further boost the performance.
翻訳日:2022-10-12 16:20:02 公開日:2022-10-11
# 深部メトリック学習における大小画像分解能非対称性

Large-to-small Image Resolution Asymmetry in Deep Metric Learning ( http://arxiv.org/abs/2210.05463v1 )

ライセンス: Link先を確認
Pavel Suma, Giorgos Tolias(参考訳) 画像対を(非)類似表現に(非)マッチングする表現ネットワークを最適化することにより、視覚深度学習を訓練する。 一般的に画像検索に対応するテスト中、データベースとクエリのサンプルは、同じネットワークで処理され、類似度推定とランキングに使われる表現を取得する。 本研究では,高速な表現抽出を実現するために,クエリの軽量処理による非対称なセットアップを小さな画像解像度で検討する。 目的は,大解像度画像と細粒度画像の利点を活かすために訓練されたデータベース例用ネットワークと,小解像度画像で動作するがデータベースネットワークの表現空間を保持するクエリ例用第2のネットワークを得ることである。 我々は,固定教師ネットワークからの知識を学生に伝達する蒸留手法により,イメージごとの操作を行う損失を解消し,ラベルを使わずに,結合強化にのみ依存する。 異なるネットワークアーキテクチャの観点からそのような非対称性を探索する先行作業とは対照的に、この作業は同じアーキテクチャを使用しているが、解像度は変更されている。 アーキテクチャの非対称性よりも、パフォーマンス/効率のトレードオフを最適化する方が、レゾリューション非対称性の方がよいと結論づける。 CUB200、Cars196、SOPの3つの標準深度学習ベンチマークで評価を行う。 コード: https://github.com/pavelsuma/raml

Deep metric learning for vision is trained by optimizing a representation network to map (non-)matching image pairs to (non-)similar representations. During testing, which typically corresponds to image retrieval, both database and query examples are processed by the same network to obtain the representation used for similarity estimation and ranking. In this work, we explore an asymmetric setup by light-weight processing of the query at a small image resolution to enable fast representation extraction. The goal is to obtain a network for database examples that is trained to operate on large resolution images and benefits from fine-grained image details, and a second network for query examples that operates on small resolution images but preserves a representation space aligned with that of the database network. We achieve this with a distillation approach that transfers knowledge from a fixed teacher network to a student via a loss that operates per image and solely relies on coupled augmentations without the use of any labels. In contrast to prior work that explores such asymmetry from the point of view of different network architectures, this work uses the same architecture but modifies the image resolution. We conclude that resolution asymmetry is a better way to optimize the performance/efficiency trade-off than architecture asymmetry. Evaluation is performed on three standard deep metric learning benchmarks, namely CUB200, Cars196, and SOP. Code: https://github.com/pavelsuma/raml
翻訳日:2022-10-12 16:19:43 公開日:2022-10-11
# TriangleNet: クロスタスク一貫性によるセマンティックセグメンテーションのためのエッジ事前拡張ネットワーク

TriangleNet: Edge Prior Augmented Network for Semantic Segmentation through Cross-Task Consistency ( http://arxiv.org/abs/2210.05152v1 )

ライセンス: Link先を確認
Dan Zhang, Rui Zheng(参考訳) セマンティックセグメンテーション(Semantic segmentation)は、各ピクセルに対応するカテゴリをラベル付けするための古典的なコンピュータビジョン問題である。 産業品質検査,リモートセンシング情報抽出,医療支援,自律運転といった高度なタスクの基本課題として,深層学習と組み合わせたセマンティックセグメンテーションが長年開発され,多くの作業が蓄積されている。 しかし、古典的なFCNベースの作品もトランスフォーマーベースの作品もピクセルラベルの微粒なローカライゼーションを実現していないため、この分野では依然として大きな課題となっている。 近年,自動運転の普及に伴い,道路シーンのセグメンテーションがますます注目されている。 クロスタスク整合性理論に基づき,セマンティックセグメンテーションタスクにエッジ先行を組み込んで,より良い結果を得る。 主な貢献は、道路および非道路シーンのデータセット上で検証される、余分な推論ランタイムオーバヘッドなしで、セマンティックセグメンテーションモデルの精度を向上させるモデル非依存な方法を提供することである。 実験結果から,提案手法は意味セグメンテーション精度を効果的に向上する。

Semantic segmentation is a classic computer vision problem dedicated to labeling each pixel with its corresponding category. As a basic task for advanced tasks such as industrial quality inspection, remote sensing information extraction, medical diagnostic aid, and autonomous driving, semantic segmentation has been developed for a long time in combination with deep learning, and a lot of work has been accumulated. However, neither the classic FCN-based works nor the popular Transformer-based works have attained fine-grained localization of pixel labels, which remains the main challenge in this field. Recently, with the popularity of autonomous driving, the segmentation of road scenes has received more and more attention. Based on the cross-task consistency theory, we incorporate edge priors into semantic segmentation tasks to obtain better results. The main contribution is that we provide a model-agnostic method that improves the accuracy of semantic segmentation models with zero extra inference runtime overhead, verified on the datasets of road and non-road scenes. From our experimental results, our method can effectively improve semantic segmentation accuracy.
翻訳日:2022-10-12 16:14:22 公開日:2022-10-11
# Deep Fourier Up-Sampling

Deep Fourier Up-Sampling ( http://arxiv.org/abs/2210.05171v1 )

ライセンス: Link先を確認
Man Zhou, Hu Yu, Jie Huang, Feng Zhao, Jinwei Gu, Chen Change Loy, Deyu Meng, Chongyi Li(参考訳) 既存の畳み込みニューラルネットワークは、マルチスケールモデリングに空間ダウン/アップサンプリングを広く採用している。 しかし、空間的なアップサンプリング演算子(補間、変換畳み込み、アンプール)は局所的なピクセルの注意に大きく依存し、グローバル依存を探求することができない。 対照的に、フーリエ領域は、スペクトル畳み込み定理に従って大域的モデリングの性質に従う。 局所的類似性の性質をアップサンプリングする空間領域とは異なり、フーリエ領域におけるアップサンプリングはそのような局所的性質に従わないため、より困難である。 本研究では,これらの問題を解決するために,理論上より深いフーリエアップサンプリング(フーリエアップ)を提案する。 空間領域とフーリエ領域の関係を再検討し、フーリエ領域における異なる解像度の特徴に関する変換規則を明らかにし、フーリエアップの設計に重要な洞察を与える。 一般作用素としてのフーリエアップは、2次元離散フーリエ変換、フーリエ次元増加規則、2次元逆フーリエ変換という3つの重要な要素から構成され、既存のネットワークと直接統合できる。 物体検出,画像分割,画像デレイジング,画像デハージング,誘導画像超解像など,複数のコンピュータビジョンタスクにわたる広範囲な実験を行い,フーリエアップの導入により得られた一貫した性能向上を実証した。

Existing convolutional neural networks widely adopt spatial down-/up-sampling for multi-scale modeling. However, spatial up-sampling operators (\emph{e.g.}, interpolation, transposed convolution, and un-pooling) heavily depend on local pixel attention, incapably exploring the global dependency. In contrast, the Fourier domain obeys the nature of global modeling according to the spectral convolution theorem. Unlike the spatial domain that performs up-sampling with the property of local similarity, up-sampling in the Fourier domain is more challenging as it does not follow such a local property. In this study, we propose a theoretically sound Deep Fourier Up-Sampling (FourierUp) to solve these issues. We revisit the relationships between spatial and Fourier domains and reveal the transform rules on the features of different resolutions in the Fourier domain, which provide key insights for FourierUp's designs. FourierUp as a generic operator consists of three key components: 2D discrete Fourier transform, Fourier dimension increase rules, and 2D inverse Fourier transform, which can be directly integrated with existing networks. Extensive experiments across multiple computer vision tasks, including object detection, image segmentation, image de-raining, image dehazing, and guided image super-resolution, demonstrate the consistent performance gains obtained by introducing our FourierUp.
翻訳日:2022-10-12 16:13:53 公開日:2022-10-11
# BoxTeacher: 弱修正インスタンスセグメンテーションのための高品質な擬似ラベルの探索

BoxTeacher: Exploring High-Quality Pseudo Labels for Weakly Supervised Instance Segmentation ( http://arxiv.org/abs/2210.05174v1 )

ライセンス: Link先を確認
Tianheng Cheng and Xinggang Wang and Shaoyu Chen and Qian Zhang and Wenyu Liu(参考訳) ピクセル単位のセグメンテーションでオブジェクトをラベリングするには、バウンディングボックスに比べて大量の人的労力が必要です。 弱教師付きインスタンスセグメンテーションのための既存の方法のほとんどは、境界ボックスから先行してヒューリスティックな損失を設計することに焦点を当てている。 しかし、箱詰めの方法が細かなセグメンテーションマスクを生成できることがわかり、低品質のマスクを無視しながら、検出器がこれらのファインマスクから学べるかどうか疑問に思う。 そこで本研究では,高能率な教師付きインスタンスセグメンテーションのための,効率的かつエンドツーエンドのトレーニングフレームワークであるBoxTeacherを提案する。 本研究では,仮マスクの品質を推定するためのマスク認識信頼度スコアを提示し,ノイズ認識画素損失とノイズ低減アフィニティ損失を提案し,学生に仮マスクを適応させる。 広範な実験により,boxteacherの有効性が示された。 ベルとホイッスルがなければ、boxteacherは、挑戦的なms-cocoデータセット上でそれぞれ34.4$ mask apと35.4$ mask apを達成し、resnet-50とresnet-101でそれぞれ35.4$ mask apを達成した。 コードとモデルは \url{https://github.com/hustvl/BoxTeacher} で公開されている。

Labeling objects with pixel-wise segmentation requires a huge amount of human labor compared to bounding boxes. Most existing methods for weakly supervised instance segmentation focus on designing heuristic losses with priors from bounding boxes. While, we find that box-supervised methods can produce some fine segmentation masks and we wonder whether the detectors could learn from these fine masks while ignoring low-quality masks. To answer this question, we present BoxTeacher, an efficient and end-to-end training framework for high-performance weakly supervised instance segmentation, which leverages a sophisticated teacher to generate high-quality masks as pseudo labels. Considering the massive noisy masks hurt the training, we present a mask-aware confidence score to estimate the quality of pseudo masks, and propose the noise-aware pixel loss and noise-reduced affinity loss to adaptively optimize the student with pseudo masks. Extensive experiments can demonstrate effectiveness of the proposed BoxTeacher. Without bells and whistles, BoxTeacher remarkably achieves $34.4$ mask AP and $35.4$ mask AP with ResNet-50 and ResNet-101 respectively on the challenging MS-COCO dataset, which outperforms the previous state-of-the-art methods by a significant margin. The code and models are available at \url{https://github.com/hustvl/BoxTeacher}.
翻訳日:2022-10-12 16:13:28 公開日:2022-10-11
# 変異因子 : 頑健な細胞検出のための病理組織学的検討

Variability Matters : Evaluating inter-rater variability in histopathology for robust cell detection ( http://arxiv.org/abs/2210.05175v1 )

ライセンス: Link先を確認
Cholmin Kang, Chunggi Lee, Heon Song, Minuk Ma and S ergio Pereira(参考訳) 大規模な注釈付きデータセットは、ディープラーニングの成功の鍵となるコンポーネントである。 しかし、医用画像の注釈付けには専門知識と予算が必要とされるため、難しい。 特に、病理組織学的に異なる種類の細胞に注釈を付けると、タスクのあいまいさにより、高い層間および層内変動が生じる。 この設定下では、アノテーションの可変性とモデル性能の関係はほとんど注目されていない。 本研究は,120名の病理学者の細胞アノテーションの多様性と,それがディープラーニングモデルの性能に与える影響について,大規模な研究である。 このような変動性を測定する手法を提案し,その変動性の低いアノテータを除外することにより,データ量と品質のトレードオフを検証する。 その結果,細胞間変動を犠牲にしてデータサイズを意図的に増加させることは,必ずしも細胞検出に優れたモデルをもたらすものではないことがわかった。 代わりに、データセットサイズを減らし、ラタ間変動を減少させることで、モデルのパフォーマンスが向上した。 さらに、ラベル間変動率の低いデータからトレーニングされたモデルは、ラベル間変動率の高いデータよりも優れている。 以上より, 注釈者の評価は病理組織学領域の基本予算問題に取り組むのに役立つ可能性が示唆された。

Large annotated datasets have been a key component in the success of deep learning. However, annotating medical images is challenging as it requires expertise and a large budget. In particular, annotating different types of cells in histopathology suffer from high inter- and intra-rater variability due to the ambiguity of the task. Under this setting, the relation between annotators' variability and model performance has received little attention. We present a large-scale study on the variability of cell annotations among 120 board-certified pathologists and how it affects the performance of a deep learning model. We propose a method to measure such variability, and by excluding those annotators with low variability, we verify the trade-off between the amount of data and its quality. We found that naively increasing the data size at the expense of inter-rater variability does not necessarily lead to better-performing models in cell detection. Instead, decreasing the inter-rater variability with the expense of decreasing dataset size increased the model performance. Furthermore, models trained from data annotated with lower inter-labeler variability outperform those from higher inter-labeler variability. These findings suggest that the evaluation of the annotators may help tackle the fundamental budget issues in the histopathology domain
翻訳日:2022-10-12 16:13:02 公開日:2022-10-11
# セマンティックガイダンスによるロバストなヒューマンマッチング

Robust Human Matting via Semantic Guidance ( http://arxiv.org/abs/2210.05210v1 )

ライセンス: Link先を確認
Xiangguang Chen, Ye Zhu, Yu Li, Bingtao Fu, Lei Sun, Ying Shan and Shan Liu(参考訳) 自動マットリングは多くの実アプリケーションに非常に望ましい。 近年のヒトのマッティング法を調査し,セマンティックな人間のセグメンテーションが失敗するとよく起こる悪例を示す。 これは、意味理解が堅牢なヒトの交配に不可欠であることを示している。 そこで我々は,Semantic Guided Human Matting (SGHM) という,高速かつ高精度なヒューマンマッチングフレームワークを開発した。 セマンティックな人間のセグメンテーションネットワーク上に構築され、限界計算コストのみの軽量なマットングモジュールが導入されている。 従来の作業とは異なり、私たちのフレームワークはデータ効率が良く、高品質なオブジェクトマットを見積もるためには、少量のマットニンググラウンドルースが必要です。 実験の結果,200個のマッチング画像でトレーニングした手法は,実世界のデータセットによく当てはまり,複数のベンチマークで最新の手法より優れ,効率は高いことがわかった。 マッティングデータのラベル付けコストと広く利用可能なセグメンテーションデータを考慮すると、この手法は人間のマッティング作業に実用的かつ効果的な解決策となる。 ソースコードはhttps://github.com/cxgincsu/semanticguidedhumanmattingで入手できる。

Automatic human matting is highly desired for many real applications. We investigate recent human matting methods and show that common bad cases happen when semantic human segmentation fails. This indicates that semantic understanding is crucial for robust human matting. From this, we develop a fast yet accurate human matting framework, named Semantic Guided Human Matting (SGHM). It builds on a semantic human segmentation network and introduces a light-weight matting module with only marginal computational cost. Unlike previous works, our framework is data efficient, which requires a small amount of matting ground-truth to learn to estimate high quality object mattes. Our experiments show that trained with merely 200 matting images, our method can generalize well to real-world datasets, and outperform recent methods on multiple benchmarks, while remaining efficient. Considering the unbearable labeling cost of matting data and widely available segmentation data, our method becomes a practical and effective solution for the task of human matting. Source code is available at https://github.com/cxgincsu/SemanticGuidedHumanMatting.
翻訳日:2022-10-12 16:12:44 公開日:2022-10-11
# DCL-Net:6次元空間推定のための深層対応学習ネットワーク

DCL-Net: Deep Correspondence Learning Network for 6D Pose Estimation ( http://arxiv.org/abs/2210.05232v1 )

ライセンス: Link先を確認
Hongyang Li, Jiehong Lin and Kui Jia(参考訳) カメラと物体座標系間の点対応の確立は、6dオブジェクトのポーズを解決する有望な方法である。 しかし、3次元空間における対応学習の帰結的目的は、対象ポーズ推定の真の目標から一歩離れて、最終課題の学習を最適とする。 本稿では,dcl-netとして短縮された,直接6次元物体ポーズ推定のための深層対応学習ネットワークを提案する。 具体的には、dcl-netは、新たに提案された2つのフィーチャー・ディスベンジメント・アライメント(fda)モジュールを使用して、部分的なオブジェクトの観測と完全なcadモデルのために、部分から部分への対応と完全から完全までの対応を確立し、結果として2つの座標系から特徴対を集約し、これら2つのfdaモジュールは相補的な利点をもたらす。 一致特徴対は、深い対応性を測定するための信頼スコアを学習するために使用され、ポーズ特徴対は、直接対象ポーズ回帰のための信頼スコアによって重み付けされる。 また,ポーズ精度を反復的に向上するために,信頼度に基づくポーズ改善ネットワークを提案する。 大規模な実験により,YCB-Video,LineMOD,Oclussion-LineMODの3つのベンチマークデータセットにおいて,DCL-Netが既存の手法よりも優れていることが示された。

Establishment of point correspondence between camera and object coordinate systems is a promising way to solve 6D object poses. However, surrogate objectives of correspondence learning in 3D space are a step away from the true ones of object pose estimation, making the learning suboptimal for the end task. In this paper, we address this shortcoming by introducing a new method of Deep Correspondence Learning Network for direct 6D object pose estimation, shortened as DCL-Net. Specifically, DCL-Net employs dual newly proposed Feature Disengagement and Alignment (FDA) modules to establish, in the feature space, partial-to-partial correspondence and complete-to-complete one for partial object observation and its complete CAD model, respectively, which result in aggregated pose and match feature pairs from two coordinate systems; these two FDA modules thus bring complementary advantages. The match feature pairs are used to learn confidence scores for measuring the qualities of deep correspondence, while the pose feature pairs are weighted by confidence scores for direct object pose regression. A confidence-based pose refinement network is also proposed to further improve pose precision in an iterative manner. Extensive experiments show that DCL-Net outperforms existing methods on three benchmarking datasets, including YCB-Video, LineMOD, and Oclussion-LineMOD; ablation studies also confirm the efficacy of our novel designs.
翻訳日:2022-10-12 16:12:26 公開日:2022-10-11
# 自己教師型ビデオトランスの事前学習のためのマスク付き外観運動モデリング

It Takes Two: Masked Appearance-Motion Modeling for Self-supervised Video Transformer Pre-training ( http://arxiv.org/abs/2210.05234v1 )

ライセンス: Link先を確認
Yuxin Song, Min Yang, Wenhao Wu, Dongliang He, Fu Li and Jingdong Wang(参考訳) 自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスクと予測パイプラインの恩恵を受けている。 彼らはダウンストリームビデオタスクにおいて優れた効果を示し、小さなデータセット上で優れたデータ効率を示している。 しかし、時間的関係はこれらの手法によって完全には利用されない。 本研究では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,Masked Outearance-Motion Modeling (MAM2) フレームワークを提案する。 具体的には、このタスクのためにエンコーダ-レグレッサー-デコーダパイプラインを設計する。 レグレッサは、特徴抽出処理がエンコーダによって適切に完了するように、特徴エンコーディングとプリテキストタスクの完了を分離する。 エンコーダを空間的-時間的特徴の完全な抽出に導くために、2つの異なるデコーダを使用して、不連続な外観と動き予測の2つの前文タスクを行う。 様々な運動予測目標を探索し,rgb差分は単純かつ効果的であることを示す。 外観予測については、VQGAN符号を予測対象として利用する。 私たちの事前トレーニングパイプラインでは、コンバージェンスを著しくスピードアップすることができます。例えば、競争パフォーマンスを達成するには、最先端のVideoMAE(400対800)よりもエポックの半分しか必要ありません。 広範に実験した結果,本手法は一般化された映像表現を学習できることが証明された。 特に、我々のMAM2 with ViT-BはKinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成している。

Self-supervised video transformer pre-training has recently benefited from the mask-and-predict pipeline. They have demonstrated outstanding effectiveness on downstream video tasks and superior data efficiency on small datasets. However, temporal relation is not fully exploited by these methods. In this work, we explicitly investigate motion cues in videos as extra prediction target and propose our Masked Appearance-Motion Modeling (MAM2) framework. Specifically, we design an encoder-regressor-decoder pipeline for this task. The regressor separates feature encoding and pretext tasks completion, such that the feature extraction process is completed adequately by the encoder. In order to guide the encoder to fully excavate spatial-temporal features, two separate decoders are used for two pretext tasks of disentangled appearance and motion prediction. We explore various motion prediction targets and figure out RGB-difference is simple yet effective. As for appearance prediction, VQGAN codes are leveraged as prediction target. With our pre-training pipeline, convergence can be remarkably speed up, e.g., we only require half of epochs than state-of-the-art VideoMAE (400 v.s. 800) to achieve the competitive performance. Extensive experimental results prove that our method learns generalized video representations. Notably, our MAM2 with ViT-B achieves 82.3% on Kinects-400, 71.3% on Something-Something V2, 91.5% on UCF101, and 62.5% on HMDB51.
翻訳日:2022-10-12 16:11:59 公開日:2022-10-11
# EnsembleMOT: 複数物体追跡学習のためのステップ

EnsembleMOT: A Step towards Ensemble Learning of Multiple Object Tracking ( http://arxiv.org/abs/2210.05278v1 )

ライセンス: Link先を確認
Yunhao Du, Zihang Liu and Fei Su(参考訳) 複数オブジェクト追跡(MOT)は近年急速に進歩している。 既存の作業は、検出と関連性の両方を実行するために単一の追跡アルゴリズムを設計する傾向がある。 アンサンブル学習は多くのタスク、すなわち分類とオブジェクト検出に利用されてきたが、MOTタスクでは研究されていない。 本稿では,時空間制約のある様々なトラッカーから複数の追跡結果をマージする,簡易かつ効果的なmotアンサンブル手法であるアンサンブルモットを提案する。 一方、異常な結果をフィルタリングするためにいくつかの後処理手法が適用される。 本手法はモデル非依存であり,学習手順は不要である。 さらに、トラックレットの補間など、他のアルゴリズムと連携して動作する。 提案手法の有効性を示すMOT17データセットの実験を行った。 コードはhttps://github.com/dyhBUPT/EnsembleMOT.comで入手できる。

Multiple Object Tracking (MOT) has rapidly progressed in recent years. Existing works tend to design a single tracking algorithm to perform both detection and association. Though ensemble learning has been exploited in many tasks, i.e, classification and object detection, it hasn't been studied in the MOT task, which is mainly caused by its complexity and evaluation metrics. In this paper, we propose a simple but effective ensemble method for MOT, called EnsembleMOT, which merges multiple tracking results from various trackers with spatio-temporal constraints. Meanwhile, several post-processing procedures are applied to filter out abnormal results. Our method is model-independent and doesn't need the learning procedure. What's more, it can easily work in conjunction with other algorithms, e.g., tracklets interpolation. Experiments on the MOT17 dataset demonstrate the effectiveness of the proposed method. Codes are available at https://github.com/dyhBUPT/EnsembleMOT.
翻訳日:2022-10-12 16:11:35 公開日:2022-10-11
# ME-D2N:クロスドメインFew-Shot学習のためのマルチエキスパートドメイン分解ネットワーク

ME-D2N: Multi-Expert Domain Decompositional Network for Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2210.05280v1 )

ライセンス: Link先を確認
Yuqian Fu, Yu Xie, Yanwei Fu, Jingjing Chen, Yu-Gang Jiang(参考訳) 近年,多分野にわたるFSL(Few-Shot Learning)問題に対処することを目的としたCD-FSL(Cross-Domain Few-Shot Learning)が注目されている。 CD-FSLの中核的な課題は、ソースと新しいターゲットデータセットの間のドメインギャップにある。 モデルトレーニング中にターゲットデータなしでCD-FSLに多くの試みがなされてきたが、既存のCD-FSL法では非常に良好な結果を得るのが依然として困難である。 あるいは、より現実的で有望なラベル付きドメインデータが少ないCD-FSLモデルを学習することが、以前の研究で唱えられている。 そこで本稿では,この設定に固執し,新しいMulti-Expert Domain Decompositional Network(ME-D2N)を技術的に貢献する。 具体的には、十分な例でソースデータと限られた例で補助対象データとの間のデータ不均衡問題を解決するため、マルチエキスパート学習の傘の下にモデルを構築した。 それぞれのドメインの専門家とみなすことができる2つの教師モデルは、まずソースセットと補助ターゲットセットで訓練される。 そこで,その知識を2人の教師から統一学習モデルに移すための知識蒸留技術を導入する。 さらに,学生モデルが異なるドメイン教師からの知識を同時に学習するのを助けるために,学生モデルを2つのドメイン関連部分に分割することを学ぶ新しいドメイン分解モジュールを提案する。 これは、学習可能な方法で各フィルタを1つの特定のドメインに割り当てることを学習する、新しいドメイン固有のゲートによって達成される。 広範な実験により本手法の有効性が実証された。 コードとモデルはhttps://github.com/lovelyqian/me-d2n_for_cdfslで入手できる。

Recently, Cross-Domain Few-Shot Learning (CD-FSL) which aims at addressing the Few-Shot Learning (FSL) problem across different domains has attracted rising attention. The core challenge of CD-FSL lies in the domain gap between the source and novel target datasets. Though many attempts have been made for CD-FSL without any target data during model training, the huge domain gap makes it still hard for existing CD-FSL methods to achieve very satisfactory results. Alternatively, learning CD-FSL models with few labeled target domain data which is more realistic and promising is advocated in previous work~\cite{fu2021meta}. Thus, in this paper, we stick to this setting and technically contribute a novel Multi-Expert Domain Decompositional Network (ME-D2N). Concretely, to solve the data imbalance problem between the source data with sufficient examples and the auxiliary target data with limited examples, we build our model under the umbrella of multi-expert learning. Two teacher models which can be considered to be experts in their corresponding domain are first trained on the source and the auxiliary target sets, respectively. Then, the knowledge distillation technique is introduced to transfer the knowledge from two teachers to a unified student model. Taking a step further, to help our student model learn knowledge from different domain teachers simultaneously, we further present a novel domain decomposition module that learns to decompose the student model into two domain-related sub parts. This is achieved by a novel domain-specific gate that learns to assign each filter to only one specific domain in a learnable way. Extensive experiments demonstrate the effectiveness of our method. Codes and models are available at https://github.com/lovelyqian/ME-D2N_for_CDFSL.
翻訳日:2022-10-12 16:11:22 公開日:2022-10-11
# CD-FSOD:クロスドメインFew-shotオブジェクト検出のためのベンチマーク

CD-FSOD: A Benchmark for Cross-domain Few-shot Object Detection ( http://arxiv.org/abs/2210.05311v1 )

ライセンス: Link先を確認
Wuti Xiong and Li Liu(参考訳) 少数ショット物体検出(fsod)は研究の注目を集めているが、実世界のシナリオで見られる異なる領域でfsodを研究する研究はまだ存在しない。 本稿では,多種多様なデータ領域の画像データからなるクロスドメイン小ショットオブジェクト検出(CD-FSOD)ベンチマークを提案する。 提案するベンチマークでは,最先端のfsod手法を評価し,検出モデルとデータセットがパフォーマンスに与える影響を分析した。 その結果,(1)既存のfsodアプローチは低下傾向にあり,また,naive fine-tuning modelを過小評価する傾向がみられた。 2) 事前学習したデータセットと検出アーキテクチャは重要な役割を担い,適切な選択によって目標タスクのパフォーマンスを大幅に向上させることができる。 さらに,既存のFSODアプローチの失敗の原因を解析し,オーバーフィッティング問題を緩和するために相互便宜的手法を用いた強力なベースラインを導入する。 提案手法は,提案ベンチマークにおいて有意なマージン(平均2.3%)で既存手法よりも優れており,また,fsodベンチマークでの競合性能も達成している。

Although few-shot object detection (FSOD) has attracted great research attention, no work yet exists that studies FSOD across the different domains seen in real-world scenarios. In this paper, we propose a new study of the cross-domain few-shot object detection (CD-FSOD) benchmark, consisting of image data from a diverse data domain. On the proposed benchmark, we evaluate state-of-art FSOD approaches, and analyze the impact of detection models and pre-training datasets on performance. The results reveal several key findings: (1) the existing FSOD approaches tend to fall, and even underperform the naive fine-tuning model; 2) the pre-training datasets and detection architectures play an important role, and the right choice can boost the performance of the target tasks significantly. Besides, we also analyze the reasons for existing FSOD approaches' failure, and introduce a strong baseline that uses a mutually-beneficial manner to alleviate the overfitting problem. Our approach is remarkably superior to existing approaches by significant margins (\%2.3 on average) on the proposed benchmark and also achieves competitive performance on the FSOD benchmark.
翻訳日:2022-10-12 16:10:53 公開日:2022-10-11
# ave-clip:audioclipベースのマルチウィンドウ時間変換器

AVE-CLIP: AudioCLIP-based Multi-window Temporal Transformer for Audio Visual Event Localization ( http://arxiv.org/abs/2210.05060v1 )

ライセンス: Link先を確認
Tanvir Mahmud, Diana Marculescu(参考訳) 音声視覚イベント(AVE)は、映像セグメント内の視覚信号と聴覚信号との対応によって表される。 AVEの正確なローカライゼーションは、短い時間的相互作用と長い時間的相互作用を基礎として、効果的なマルチモーダル特徴対応を要求するため、非常に難しい。 既存のアプローチは、非効率なマルチモーダルトレーニング戦略のために、異なるスケールのマルチモーダルインタラクションを取得するのに苦労している。 AVE-CLIPは,大規模オーディオ・ビジュアルデータに事前学習されたAudioCLIPとマルチウィンドウ・テンポラル・トランスフォーマを統合し,ビデオフレームの異なる時間スケールで効果的に操作する新しいフレームワークである。 コントリビューションは3つある: (1) コントラスト的な微調整, 有効平均映像特徴抽出, マルチスケールトレーニングフェーズを通じて, オーディオイメージペアで事前訓練されたオーディオCLIPをビデオフレーム上のAVEローカライゼーションタスクに組み込むための多段階トレーニングフレームワークを導入する。 2) 時間領域と特徴領域の両方で動作するマルチドメインアテンション機構を提案し, 局所的特徴とグローバルな特徴を融合させる。 3)多種多様なイベントに対する背景の大幅な変動に対処するために,イベントガイド付き注意を伴う時間的精錬スキームと,簡単なイエット効率のポスト処理ステップを導入する。 提案手法は,既存のアプローチよりも優れていることを示す平均精度5.9%のAVEデータセット上での最先端性能を実現する。

An audio-visual event (AVE) is denoted by the correspondence of the visual and auditory signals in a video segment. Precise localization of the AVEs is very challenging since it demands effective multi-modal feature correspondence to ground the short and long range temporal interactions. Existing approaches struggle in capturing the different scales of multi-modal interaction due to ineffective multi-modal training strategies. To overcome this limitation, we introduce AVE-CLIP, a novel framework that integrates the AudioCLIP pre-trained on large-scale audio-visual data with a multi-window temporal transformer to effectively operate on different temporal scales of video frames. Our contributions are three-fold: (1) We introduce a multi-stage training framework to incorporate AudioCLIP pre-trained with audio-image pairs into the AVE localization task on video frames through contrastive fine-tuning, effective mean video feature extraction, and multi-scale training phases. (2) We propose a multi-domain attention mechanism that operates on both temporal and feature domains over varying timescales to fuse the local and global feature variations. (3) We introduce a temporal refining scheme with event-guided attention followed by a simple-yet-effective post processing step to handle significant variations of the background over diverse events. Our method achieves state-of-the-art performance on the publicly available AVE dataset with 5.9% mean accuracy improvement which proves its superiority over existing approaches.
翻訳日:2022-10-12 16:04:01 公開日:2022-10-11
# 難易度負のペアによるDense Contrastive Learningの改善

Improving Dense Contrastive Learning with Dense Negative Pairs ( http://arxiv.org/abs/2210.05063v1 )

ライセンス: Link先を確認
Berk Iskender, Zhenlin Xu, Simon Kornblith, Enhung Chu, Maryam Khademi(参考訳) 多くの対比表現学習法は、画像全体の単一の大域的表現を学習する。 しかし,DenseCL[19]のような高密度なコントラスト表現学習手法は,マルチラベル分類,検出,セグメンテーションなどの特徴のより強力な空間的局所化を必要とするタスクに対して,より良い表現を学習することができる。 本研究では,DenseCLが学習した表現の質を,トレーニングスキームと目的関数を変更することで向上させる方法について検討し,DenseCL++を提案する。 我々はまた、以下の効果をよりよく理解するために、いくつかのアブレーション研究を行っている。 (i)異なる画像の増補の間に密な負の対を形成する様々な技法 (ii)濃密な負の対、正の対、及び (iii)補助復興作業。 以上の結果から,COCO多ラベル分類におけるSimCLR[3]とDenseCLの3.5%と4%のmAP改善が認められた。 COCOとVOCのセグメンテーションタスクでは、それぞれSimCLRに対する1.8%と0.7%のmIoUの改善を実現しています。

Many contrastive representation learning methods learn a single global representation of an entire image. However, dense contrastive representation learning methods such as DenseCL [19] can learn better representations for tasks requiring stronger spatial localization of features, such as multi-label classification, detection, and segmentation. In this work, we study how to improve the quality of the representations learned by DenseCL by modifying the training scheme and objective function, and propose DenseCL++. We also conduct several ablation studies to better understand the effects of: (i) various techniques to form dense negative pairs among augmentations of different images, (ii) cross-view dense negative and positive pairs, and (iii) an auxiliary reconstruction task. Our results show 3.5% and 4% mAP improvement over SimCLR [3] and DenseCL in COCO multi-label classification. In COCO and VOC segmentation tasks, we achieve 1.8% and 0.7% mIoU improvements over SimCLR, respectively.
翻訳日:2022-10-12 16:03:31 公開日:2022-10-11
# レーン検出のための再描画と模倣学習

Repainting and Imitating Learning for Lane Detection ( http://arxiv.org/abs/2210.05097v1 )

ライセンス: Link先を確認
Yue He, Minyue Jiang, Xiaoqing Ye, Liang Du, Zhikang Zou, Wei Zhang, Xiao Tan and Errui Ding(参考訳) 現在の車線検出手法は、大きなシャドウ、道路標識の深刻な劣化、重篤な車両の閉塞などによる可視性車線問題に苦しめられている。 結果として、野生の車線に固有の視認性のため、精巧な設計にもかかわらず、差別的な車線の特徴はネットワークによってほとんど学べない。 本稿では,野生におけるレーンの分布を維持しつつ,レーンの特徴を特徴とする拡張特徴空間の探索を目標とした。 そこで本研究では,教師と生徒のペアを含む新しいrepainting and imitating learning(ril)フレームワークを提案する。 具体的には、再塗装工程において、理想的な仮想レーンデータセットを構築し、非レーン領域を変更せずにレーン領域のみを再塗装し、野生において同様のレーン分布を維持する。 教師モデルは、仮想データに基づいて識別表現の強化を学習し、学生モデルが模倣するためのガイダンスとして機能する。 模擬学習段階において, 学生ネットワークは, スケールFusing蒸留モジュールを通じて, 同じスケールとクロススケールの両方で, 教師モデルを模倣する特徴を生み出すことを奨励する。 さらに,教師と生徒のモデルだけでなく,仮想データと実データも接続するブリッジを構築し,模倣学習プロセスを動的に調整する。 提案手法は,推定に要する余分な時間コストを伴わず,様々な最先端車線検出ネットワークでプラグアンドプレイが可能となる。 実験により,lilフレームワークがculaneとtusimpleの両方において,現代的な4つのレーン検出手法の有効性が実証された。 コードとモデルは間もなく利用可能になる。

Current lane detection methods are struggling with the invisibility lane issue caused by heavy shadows, severe road mark degradation, and serious vehicle occlusion. As a result, discriminative lane features can be barely learned by the network despite elaborate designs due to the inherent invisibility of lanes in the wild. In this paper, we target at finding an enhanced feature space where the lane features are distinctive while maintaining a similar distribution of lanes in the wild. To achieve this, we propose a novel Repainting and Imitating Learning (RIL) framework containing a pair of teacher and student without any extra data or extra laborious labeling. Specifically, in the repainting step, an enhanced ideal virtual lane dataset is built in which only the lane regions are repainted while non-lane regions are kept unchanged, maintaining the similar distribution of lanes in the wild. The teacher model learns enhanced discriminative representation based on the virtual data and serves as the guidance for a student model to imitate. In the imitating learning step, through the scale-fusing distillation module, the student network is encouraged to generate features that mimic the teacher model both on the same scale and cross scales. Furthermore, the coupled adversarial module builds the bridge to connect not only teacher and student models but also virtual and real data, adjusting the imitating learning process dynamically. Note that our method introduces no extra time cost during inference and can be plug-and-play in various cutting-edge lane detection networks. Experimental results prove the effectiveness of the RIL framework both on CULane and TuSimple for four modern lane detection methods. The code and model will be available soon.
翻訳日:2022-10-12 16:03:15 公開日:2022-10-11
# アンサンブルを用いた画像の美的スコア予測のためのCNNモデルの検討

Exploring CNN-based models for image's aesthetic score prediction with using ensemble ( http://arxiv.org/abs/2210.05119v1 )

ライセンス: Link先を確認
Ying Dai(参考訳) 本稿では,異なるCNNアーキテクチャを用いた2種類の自動画像美学評価モデルの構築と,アンサンブルによる画像の美学スコア予測の性能向上のための枠組みを提案する。 さらに、画像中の被写体との整合性を分析するために、画像に対するモデルの注意領域を抽出する。 実験の結果,提案手法がAS予測の改善に有効であることが確認された。 さらに、XiHeAAデータセットでトレーニングされたAS分類モデルは、美学を習得したとは言えず、潜在的な写真原理を学習しているように見える。

In this paper, we proposed a framework of constructing two types of the automatic image aesthetics assessment models with different CNN architectures and improving the performance of the image's aesthetic score prediction by the ensemble. Moreover, the attention regions of the models to the images are extracted to analyze the consistency with the subjects in the images. The experimental results verify that the proposed method is effective for improving the AS prediction. Moreover, it is found that the AS classification models trained on XiheAA dataset seem to learn the latent photography principles, although it can't be said that they learn the aesthetic sense.
翻訳日:2022-10-12 16:02:47 公開日:2022-10-11
# X-NeRF: マルチScene 360$^{\circ} $ sufficient RGB-D Viewsのための明示的ニューラルネットワーク場

X-NeRF: Explicit Neural Radiance Field for Multi-Scene 360$^{\circ} $ Insufficient RGB-D Views ( http://arxiv.org/abs/2210.05135v1 )

ライセンス: Link先を確認
Haoyi Zhu, Hao-Shu Fang, Cewu Lu(参考訳) ニューラルレージアンス場(NeRF)は、新しいビュー合成における優れた性能にもかかわらず、しばしば密度の高い入力ビューを必要とする。 多くの論文では各シーンごとに1つのモデルを訓練しており、この問題にマルチモーダルデータを組み込んだ研究は少ない。 本稿では,360$^\circ $ lack viewとRGB-D imageを用いて,複数のシーンを表現可能な1つのモデルをトレーニングすることができるか? 我々は不十分なビューを、非常にスパースでほとんど重複しないビューに言及している。 これに対応するために,座標ベースのマッピングではなく,一般的なシーン完了過程を学習する,完全に明示的なアプローチであるX-NeRFを提案する。 いくつかのRGB-D入力ビューが不足しているため、X-NeRFはまずそれらをスパースポイントのクラウドテンソルに変換し、次に3次元のスパース生成畳み込みニューラルネットワーク(CNN)を適用して、推論中にネットワークを走らせることなく容積レンダリングを高速に行える明示的な放射場に完了させる。 一般的なレンダリング損失に加えて、オーバーフィッティングを回避するため、点雲上でのランダムな回転による視線増強も適用する。 提案手法は,従来の暗黙的手法よりも大幅に優れており,提案手法の可能性を示唆している。 コードとデータはhttps://github.com/haoyizhu/xnerfで入手できる。

Neural Radiance Fields (NeRFs), despite their outstanding performance on novel view synthesis, often need dense input views. Many papers train one model for each scene respectively and few of them explore incorporating multi-modal data into this problem. In this paper, we focus on a rarely discussed but important setting: can we train one model that can represent multiple scenes, with 360$^\circ $ insufficient views and RGB-D images? We refer insufficient views to few extremely sparse and almost non-overlapping views. To deal with it, X-NeRF, a fully explicit approach which learns a general scene completion process instead of a coordinate-based mapping, is proposed. Given a few insufficient RGB-D input views, X-NeRF first transforms them to a sparse point cloud tensor and then applies a 3D sparse generative Convolutional Neural Network (CNN) to complete it to an explicit radiance field whose volumetric rendering can be conducted fast without running networks during inference. To avoid overfitting, besides common rendering loss, we apply perceptual loss as well as view augmentation through random rotation on point clouds. The proposed methodology significantly out-performs previous implicit methods in our setting, indicating the great potential of proposed problem and approach. Codes and data are available at https://github.com/HaoyiZhu/XNeRF.
翻訳日:2022-10-12 16:02:36 公開日:2022-10-11
# ロバストな左心房用ugformerとスキャナー間のスカーセグメンテーション

UGformer for Robust Left Atrium and Scar Segmentation Across Scanners ( http://arxiv.org/abs/2210.05151v1 )

ライセンス: Link先を確認
Tianyi Liu, Size Hou, Jiayuan Zhu, Zilong Zhao and Haochuan Jiang(参考訳) グラフ畳み込みネットワーク(GCN)は,長距離依存の能力と不規則な形状に対する堅牢性により,グローバルなトポロジカルな関係モデリングに基づく局所的特徴を最適化すると同時に,分割の強力なビジョン技術として,視覚変換器や変形可能な畳み込みが出現している。 特に,低画質画像のマルチドメイン一般化など,医用画像分割課題の解決に有効であることが証明されている。 本稿では,医療用画像セグメンテーションのための新規で効果的でロバストなフレームワークugformerを提案する。 U-Netから派生した新しいトランスフォーマーブロック、GCNブリッジ、畳み込みデコーダを統一し、左心房(LA)とLAの傷跡を予測する。 提案したUGformerの2つの魅力的な発見を確認した。 変形可能な畳み込みを備えた拡張トランスモジュールで、変圧器情報の畳み込み情報とのブレンディングを改善し、不規則なLAや傷跡の形状を予測する。 2). GCNを組み込んだブリッジを使用することで、様々な整合性ドメイン情報を持つ異なる磁気共鳴画像スキャナ間で条件の不整合を捕捉する難しさをさらに克服する。 提案されたugformerモデルは、lascarqs 2022データセットの左心房と傷跡を分割する優れた能力を示し、最近のいくつかの最先端技術よりも優れている。

Thanks to the capacity for long-range dependencies and robustness to irregular shapes, vision transformers and deformable convolutions are emerging as powerful vision techniques of segmentation.Meanwhile, Graph Convolution Networks (GCN) optimize local features based on global topological relationship modeling. Particularly, they have been proved to be effective in addressing issues in medical imaging segmentation tasks including multi-domain generalization for low-quality images. In this paper, we present a novel, effective, and robust framework for medical image segmentation, namely, UGformer. It unifies novel transformer blocks, GCN bridges, and convolution decoders originating from U-Net to predict left atriums (LAs) and LA scars. We have identified two appealing findings of the proposed UGformer: 1). an enhanced transformer module with deformable convolutions to improve the blending of the transformer information with convolutional information and help predict irregular LAs and scar shapes. 2). Using a bridge incorporating GCN to further overcome the difficulty of capturing condition inconsistency across different Magnetic Resonance Images scanners with various inconsistent domain information. The proposed UGformer model exhibits outstanding ability to segment the left atrium and scar on the LAScarQS 2022 dataset, outperforming several recent state-of-the-arts.
翻訳日:2022-10-12 16:02:06 公開日:2022-10-11
# 圧縮グラフセレクタネットワークを用いた長文質問応答におけるグローバル構造情報のキャプチャ

Capturing Global Structural Information in Long Document Question Answering with Compressive Graph Selector Network ( http://arxiv.org/abs/2210.05499v1 )

ライセンス: Link先を確認
Yuxiang Nie, Heyan Huang, Wei Wei, Xian-Ling Mao(参考訳) 長い文章に対する複雑な推論を要求するため、長い文書の質問応答は難しい作業である。 以前の著作は通常、長文を非構造化平文として、あるいは長文の局所構造のみを考慮に入れる。 しかし、これらの手法は通常、長距離理解に不可欠な長い文書のグローバルな構造を無視している。 この問題に対処するために、圧縮的かつ反復的な方法でグローバル構造をキャプチャする圧縮グラフセレクタネットワーク(CGSN)を提案する。 具体的には,ローカルグラフネットワーク,グローバルグラフネットワーク,エビデンスメモリネットワークの3つのモジュールで構成される。 まず、局所グラフネットワークは、チャンクされたセグメントのグラフ構造をトークン、文、段落、セグメントレベルで構築し、テキストの短期的依存関係をキャプチャする。 次に、グローバルグラフネットワークは、ローカルグラフから各レベルの情報を選択的に受信し、それらをグローバルグラフノードに圧縮し、グローバルグラフノードにグラフ注意を適用して、テキスト全体の長距離推論を反復的に構築する。 第3に、エビデンスメモリネットワークは、前段で選択された結果を保存することにより、証拠選択における冗長性問題を軽減するように設計されている。 広範な実験により、提案手法は2つのデータセットの以前の手法よりも優れていることが示された。

Long document question answering is a challenging task due to its demands for complex reasoning over long text. Previous works usually take long documents as non-structured flat texts or only consider the local structure in long documents. However, these methods usually ignore the global structure of the long document, which is essential for long-range understanding. To tackle this problem, we propose Compressive Graph Selector Network (CGSN) to capture the global structure in a compressive and iterative manner. Specifically, the proposed model consists of three modules: local graph network, global graph network and evidence memory network. Firstly, the local graph network builds the graph structure of the chunked segment in token, sentence, paragraph and segment levels to capture the short-term dependency of the text. Secondly, the global graph network selectively receives the information of each level from the local graph, compresses them into the global graph nodes and applies graph attention into the global graph nodes to build the long-range reasoning over the entire text in an iterative way. Thirdly, the evidence memory network is designed to alleviate the redundancy problem in the evidence selection via saving the selected result in the previous steps. Extensive experiments show that the proposed model outperforms previous methods on two datasets.
翻訳日:2022-10-12 15:55:46 公開日:2022-10-11
# 高能率文書分類のための階層型注意変換器の探索

An Exploration of Hierarchical Attention Transformers for Efficient Long Document Classification ( http://arxiv.org/abs/2210.05529v1 )

ライセンス: Link先を確認
Ilias Chalkidis, Xiang Dai, Manos Fergadiotis, Prodromos Malakasiotis, Desmond Elliott(参考訳) ロングフォーマーやビッグバードのようなトランスフォーマーベースのモデルは、長いドキュメントを扱うための一般的なアプローチである。 これらのアプローチには、効率面ではオリジナルのトランスフォーマーと比較して明らかな利点があるが、階層的注意トランスフォーマー(hat)モデルは、非常に未熟な代替品である。 セグメントワイドおよびクロスセグメントエンコーダを用いた完全事前学習型HATモデルの開発とリリースを行い,Longformerモデルと部分的に事前学習型HATとの比較を行った。 いくつかの長い文書下流分類タスクでは、私たちのベストなハットモデルは、同じサイズのロングフォームモデルよりも10~20%少ないgpuメモリと処理ドキュメントを40~45%高速に使用しています。 一連のアブレーション研究において、HATは、初期または後期のクロスセグメントのコンテキスト化を実装する代替構成よりも、モデル全体を通してクロスセグメントのコンテキスト化に優れることがわかった。 私たちのコードはGitHubにある。 https://github.com/coastalcph/hierarchical-transformers。

Non-hierarchical sparse attention Transformer-based models, such as Longformer and Big Bird, are popular approaches to working with long documents. There are clear benefits to these approaches compared to the original Transformer in terms of efficiency, but Hierarchical Attention Transformer (HAT) models are a vastly understudied alternative. We develop and release fully pre-trained HAT models that use segment-wise followed by cross-segment encoders and compare them with Longformer models and partially pre-trained HATs. In several long document downstream classification tasks, our best HAT model outperforms equally-sized Longformer models while using 10-20% less GPU memory and processing documents 40-45% faster. In a series of ablation studies, we find that HATs perform best with cross-segment contextualization throughout the model than alternative configurations that implement either early or late cross-segment contextualization. Our code is on GitHub: https://github.com/coastalcph/hierarchical-transformers.
翻訳日:2022-10-12 15:55:23 公開日:2022-10-11
# クラウドソーシングと自動判断の集約による辞書とウィキペディアテキストのアナフォリック参照コーパスのスケールアップ

Aggregating Crowdsourced and Automatic Judgments to Scale Up a Corpus of Anaphoric Reference for Fiction and Wikipedia Texts ( http://arxiv.org/abs/2210.05581v1 )

ライセンス: Link先を確認
Juntao Yu, Silviu Paun, Maris Camilleri, Paloma Carretero Garcia, Jon Chamberlain, Udo Kruschwitz, Massimo Poesio(参考訳) 照応的参照/参照のための注釈付きデータセットはいくつか存在するが、そのような最大のデータセットでさえも、サイズ、ドメインの範囲、照応的現象のカバレッジ、文書のサイズに制限がある。 しかし、アナフォリックアノテーションをスケールアップするアプローチは、これらの制限を克服するデータセットにはまだ至っていない。 本稿では,ゲームでラベル付けされた照応参照のためのコーパスを新たにリリースする。 この新リリースは、アナフォリックリゾルバとアナフォリック参照のアグリゲーションメソッドの組み合わせを通じて、マーク可能なアノテーションを「完全」するための新しい解決・集約パラダイムを使用することによって、プレイヤーによる実質的な活動のために、既存のアナフォリック参照のための最大のコーパスに匹敵する大きさである。 提案手法は,ゲーム・アズ・ア・ユースを含む他のプロジェクトにおいて,アノテーション時間を大幅に高速化する。 さらに、コーパスは、比較サイズのデータセットが存在しないジャンル(フィクションとwikipedia)をカバーし、シングルトンとノンレギュラー表現をカバーし、相当数の長い文書(長さ2k)を含んでいる。

Although several datasets annotated for anaphoric reference/coreference exist, even the largest such datasets have limitations in terms of size, range of domains, coverage of anaphoric phenomena, and size of documents included. Yet, the approaches proposed to scale up anaphoric annotation haven't so far resulted in datasets overcoming these limitations. In this paper, we introduce a new release of a corpus for anaphoric reference labelled via a game-with-a-purpose. This new release is comparable in size to the largest existing corpora for anaphoric reference due in part to substantial activity by the players, in part thanks to the use of a new resolve-and-aggregate paradigm to 'complete' markable annotations through the combination of an anaphoric resolver and an aggregation method for anaphoric reference. The proposed method could be adopted to greatly speed up annotation time in other projects involving games-with-a-purpose. In addition, the corpus covers genres for which no comparable size datasets exist (Fiction and Wikipedia); it covers singletons and non-referring expressions; and it includes a substantial number of long documents (> 2K in length).
翻訳日:2022-10-12 15:55:03 公開日:2022-10-11
# 多言語BERTのアクセント:多言語モデルにおける英語の影響評価

Multilingual BERT has an accent: Evaluating English influences on fluency in multilingual models ( http://arxiv.org/abs/2210.05619v1 )

ライセンス: Link先を確認
Isabel Papadimitriou, Kezia Lopez, Dan Jurafsky(参考訳) 多言語言語モデルは、高リソース言語を利用することで低リソース言語でのnlpパフォーマンスを向上させることができるが、すべての言語('多言語性曲線')における平均パフォーマンスも低下する。 ここでは、多言語モデルにおける別の問題を示す: 高リソース言語における文法構造は、低リソース言語に肥大化した。 このバイアスを,多言語モデルのフラレンスと単言語スペイン語とギリシャ語のモデルのフラレンスを比較する新しい方法を用いて示し,その傾向を,二つの注意深い長文可変文法構造(スペイン語ではoptional pronoun-drop,ギリシア語ではoptional subject-verb order)の好みをテストした。 多言語BERTは、単言語制御と比較して英語的な設定(特殊代名詞と主語-動詞-オブジェクト順序)に偏っていることがわかった。 私たちのケーススタディでは、支配的な言語が多言語のパフォーマンスに影響を与え、バイアスを負う、きめ細かな方法に光を当て、より言語学的に認識できるフルエンシー評価を奨励したいと考えています。

While multilingual language models can improve NLP performance on low-resource languages by leveraging higher-resource languages, they also reduce average performance on all languages (the 'curse of multilinguality'). Here we show another problem with multilingual models: grammatical structures in higher-resource languages bleed into lower-resource languages, a phenomenon we call grammatical structure bias. We show this bias via a novel method for comparing the fluency of multilingual models to the fluency of monolingual Spanish and Greek models: testing their preference for two carefully-chosen variable grammatical structures (optional pronoun-drop in Spanish and optional Subject-Verb ordering in Greek). We find that multilingual BERT is biased toward the English-like setting (explicit pronouns and Subject-Verb-Object ordering) as compared to our monolingual control. With our case studies, we hope to bring to light the fine-grained ways in which dominant languages can affect and bias multilingual performance, and encourage more linguistically-aware fluency evaluation.
翻訳日:2022-10-12 15:54:38 公開日:2022-10-11
# SEE-Few: 名前付きエンティティ認識のためのシード、拡張、詳細

SEE-Few: Seed, Expand and Entail for Few-shot Named Entity Recognition ( http://arxiv.org/abs/2210.05632v1 )

ライセンス: Link先を確認
Zeng Yang and Linhai Zhang and Deyu Zhou(参考訳) 名前付きエンティティ認識(NER)は、わずかにラベル付きインスタンスに基づいて名前付きエンティティを識別することを目的としている。 現在の少数のnerメソッドでは、リッチリソースドメインの既存のデータセットを活用することに重点を置いている。 scratch設定からのトレーニングに取り組むためには,アノテーション情報(バウンダリとエンティティタイプ)を最大限に活用することが不可欠である。 そこで、本稿では、ソースドメインデータを用いずに、マイナのための新しいマルチタスク学習フレームワークsee-fewを提案する。 シードおよび拡張モジュールは、entailingモジュールに対して可能な限り正確な候補スパンを提供する責任がある。 entailingモジュールは、コンテキストヒントとエンティティタイプ情報の両方を活用することで、テキストのentailmentタスクとしてスパン分類を再構成する。 3つのモジュールは同じテキストエンコーダを共有し、共同で学習される。 Scratch設定下での4つのベンチマークデータセットの実験結果から,提案手法は最先端数ショットNER法よりも高いマージンを示した。 私たちのコードは \url{https://github.com/unveiled-the-red-hat/SEE-Few} で利用可能です。

Few-shot named entity recognition (NER) aims at identifying named entities based on only few labeled instances. Current few-shot NER methods focus on leveraging existing datasets in the rich-resource domains which might fail in a training-from-scratch setting where no source-domain data is used. To tackle training-from-scratch setting, it is crucial to make full use of the annotation information (the boundaries and entity types). Therefore, in this paper, we propose a novel multi-task (Seed, Expand and Entail) learning framework, SEE-Few, for Few-shot NER without using source domain data. The seeding and expanding modules are responsible for providing as accurate candidate spans as possible for the entailing module. The entailing module reformulates span classification as a textual entailment task, leveraging both the contextual clues and entity type information. All the three modules share the same text encoder and are jointly learned. Experimental results on four benchmark datasets under the training-from-scratch setting show that the proposed method outperformed state-of-the-art few-shot NER methods with a large margin. Our code is available at \url{https://github.com/unveiled-the-red-hat/SEE-Few}.
翻訳日:2022-10-12 15:54:18 公開日:2022-10-11
# ソーシャル・インフルエンス・対話システム--対話システムにおけるインフルエンス・システムへの取り組みに関するスコーピング調査

Social Influence Dialogue Systems: A Scoping Survey of the Efforts Towards Influence Capabilities of Dialogue Systems ( http://arxiv.org/abs/2210.05664v1 )

ライセンス: Link先を確認
Kushal Chawla, Weiyan Shi, Jingwen Zhang, Gale Lucas, Zhou Yu, Jonathan Gratch(参考訳) 説得、交渉、セラピーといった社会的影響を持つ対話システムは、テクノロジーの使用を多くの現実的なシナリオに拡張するために不可欠である。 しかし、既存の研究では主に、影響力のスキルを体系的に捉えるのに不十分な分類である、タスク指向またはオープンドメインのシナリオに焦点を当てている。 このようなスキルやデータ駆動の取り組みが極めて限定されている対話システムには、正式な定義やカテゴリは存在しない。 本研究では,ユーザの認知的・感情的反応に影響を及ぼし,自然な会話を通じて思考,意見,行動に変化をもたらす「emph{social influence dialogue system」のカテゴリを正式に定義し,導入する。 さまざまなタスク,データセット,メソッドを調査し,7つのドメインにまたがる進捗状況をコンパイルする。 検討したシステム間の共通性と差異を議論し,限界を特定し,今後の方向性を推奨する。 この研究は、この新興地域でのより専用の研究と議論を促すために、社会影響対話システムの包括的参照となる。

Dialogue systems capable of social influence such as persuasion, negotiation, and therapy, are essential for extending the use of technology to numerous realistic scenarios. However, existing research primarily focuses on either task-oriented or open-domain scenarios, a categorization that has been inadequate for capturing influence skills systematically. There exists no formal definition or category for dialogue systems with these skills and data-driven efforts in this direction are highly limited. In this work, we formally define and introduce the category of \emph{social influence dialogue systems} that influence users' cognitive and emotional responses, leading to changes in thoughts, opinions, and behaviors through natural conversations. We present a survey of various tasks, datasets, and methods, compiling the progress across seven diverse domains. We discuss the commonalities and differences between the examined systems, identify limitations, and recommend future directions. This study serves as a comprehensive reference for social influence dialogue systems to inspire more dedicated research and discussion in this emerging area.
翻訳日:2022-10-12 15:53:57 公開日:2022-10-11
# ハームの因果解析

A Causal Analysis of Harm ( http://arxiv.org/abs/2210.05327v1 )

ライセンス: Link先を確認
Sander Beckers, Hana Chockler, Joseph Y. Halpern(参考訳) 自律システムが急速に普及するにつれて、そのようなシステムが誰かを傷つけるタイミングと方法に対処する法的および規制的な枠組みの必要性が高まっている。 哲学文学では害を定義する試みがいくつかあったが、提示された多くの例に対処できることが証明されていないため、害の概念は放棄されるべきであり、「よりよく考えられた概念によって置き換えられる」べきであると示唆する者もいる。 一般的に害は引き起こされるものであるので、これらの定義の多くは何らかのレベルで因果関係に関与している。 しかし、驚くことに、それらはどれも因果モデルやそれらが表現できる実際の因果性の定義を使用しない。 本稿では,因果モデルを用いた調和の定性的概念を正式に定義し,実際の因果関係をよく知られた定義に基づいている(Halpern, 2016)。 私たちの定義の重要な新しさは、コントラスト的因果関係に基づいており、実際の結果の効用を比較するデフォルトユーティリティを使用するということです。 我々の定義は文献から例を扱えることを示し、自律システムに関わる状況を推論することの重要性を説明している。

As autonomous systems rapidly become ubiquitous, there is a growing need for a legal and regulatory framework to address when and how such a system harms someone. There have been several attempts within the philosophy literature to define harm, but none of them has proven capable of dealing with with the many examples that have been presented, leading some to suggest that the notion of harm should be abandoned and "replaced by more well-behaved notions". As harm is generally something that is caused, most of these definitions have involved causality at some level. Yet surprisingly, none of them makes use of causal models and the definitions of actual causality that they can express. In this paper we formally define a qualitative notion of harm that uses causal models and is based on a well-known definition of actual causality (Halpern, 2016). The key novelty of our definition is that it is based on contrastive causation and uses a default utility to which the utility of actual outcomes is compared. We show that our definition is able to handle the examples from the literature, and illustrate its importance for reasoning about situations involving autonomous systems.
翻訳日:2022-10-12 15:53:14 公開日:2022-10-11
# 予想以上にスケーラブルな脳の構造可塑性のシミュレーション

Simulating Structural Plasticity of the Brain more Scalable than Expected ( http://arxiv.org/abs/2210.05267v1 )

ライセンス: Link先を確認
Fabian Czappa, Alexander Gei{\ss} and Felix Wolf(参考訳) 脳の構造的可塑性は、時間とともに新しいシナプスの生成と古いシナプスの削除を記述する。 Rinke et al. (JPDC 2018)は、Barnes-Hutアルゴリズムの変種を用いて、現在のハードウェア上で最大10億のニューロンの構造的可塑性をシミュレートするスケーラブルなアルゴリズムを導入した。 優れたスケーラビリティを示し、実行時の複雑性を$o(n \log^2 n)$で証明する。 本稿では,このアルゴリズムを慎重に検討することにより,理論ランタイムを$O(n \log n)$とすることができることを示す。

Structural plasticity of the brain describes the creation of new and the deletion of old synapses over time. Rinke et al. (JPDC 2018) introduced a scalable algorithm that simulates structural plasticity for up to one billion neurons on current hardware using a variant of the Barnes--Hut algorithm. They demonstrate good scalability and prove a runtime complexity of $O(n \log^2 n)$. In this comment paper, we show that with careful consideration of the algorithm, the theoretical runtime can even be classified as $O(n \log n)$.
翻訳日:2022-10-12 15:52:56 公開日:2022-10-11
# ヘテロジニアス知識事前学習による中国語自然言語理解の再検討と進歩

Revisiting and Advancing Chinese Natural Language Understanding with Accelerated Heterogeneous Knowledge Pre-training ( http://arxiv.org/abs/2210.05287v1 )

ライセンス: Link先を確認
Taolin Zhang, Junwei DOng, Jianing Wang, Chengyu Wang, Ang Wang, Yinghui Liu, Jun Huang, Yong Li, Xiaofeng He(参考訳) 近年,知識強化型事前学習言語モデル (KEPLM) は,知識グラフの構造的関係から学習し,構文や依存分析から言語知識を学習することで,文脈認識表現を改善する。 英語とは異なり、自然言語処理(NLP)コミュニティでは、さまざまな言語理解アプリケーションをサポートするために、高性能なオープンソースの中国語KEPLMが不足している。 本稿では,様々なパラメータサイズ,すなわち CKBERT (中国語知識強化BERT) で公開された新しい中国語 KEPLM を用いて,中国語の自然言語理解の展開と発展を推し進める。 具体的には、言語対応マスキング言語モデリングとコントラッシブマルチホップ関係モデリングという2つの新しい事前学習タスクに基づいて、リレーショナル知識と言語知識の両方をCKBERTに効果的に注入する。 上記の2つの事前トレーニングパラダイムと、社内で実装したTorchAcceleratorに基づいて、GPUクラスタ上で効率的にCKBERTのベース(110M)、大規模(345M)、巨大(1.3B)バージョンを事前トレーニングした。 実験により、CKBERTは様々なベンチマークNLPタスクと異なるモデルサイズで、中国語の強いベースラインを上回ります。

Recently, knowledge-enhanced pre-trained language models (KEPLMs) improve context-aware representations via learning from structured relations in knowledge graphs, and/or linguistic knowledge from syntactic or dependency analysis. Unlike English, there is a lack of high-performing open-source Chinese KEPLMs in the natural language processing (NLP) community to support various language understanding applications. In this paper, we revisit and advance the development of Chinese natural language understanding with a series of novel Chinese KEPLMs released in various parameter sizes, namely CKBERT (Chinese knowledge-enhanced BERT).Specifically, both relational and linguistic knowledge is effectively injected into CKBERT based on two novel pre-training tasks, i.e., linguistic-aware masked language modeling and contrastive multi-hop relation modeling. Based on the above two pre-training paradigms and our in-house implemented TorchAccelerator, we have pre-trained base (110M), large (345M) and huge (1.3B) versions of CKBERT efficiently on GPU clusters. Experiments demonstrate that CKBERT outperforms strong baselines for Chinese over various benchmark NLP tasks and in terms of different model sizes.
翻訳日:2022-10-12 15:47:04 公開日:2022-10-11
# 感情の認知分析のための自然言語処理

Natural Language Processing for Cognitive Analysis of Emotions ( http://arxiv.org/abs/2210.05296v1 )

ライセンス: Link先を確認
Gustave Cortal (LMF, ENS Paris Saclay), Alain Finkel (LMF, ENS Paris Saclay, IUF), Patrick Paroubek (LISN), Lina Ye (LMF)(参考訳) テキストにおける感情分析には2つの大きな制限がある: 注釈付き金標準コーパスはほとんどが小さく均質であり、感情識別は文章レベルの分類問題として単純化される。 これらの問題に対処するために,感情とその原因を探索するための新しいアノテーションスキームと,感情シーンの自伝的説明からなる新しいフランス語データセットを紹介する。 テキストは、A. Finkelによって開発された感情の認知分析を適用して、人々が感情管理を改善する手助けをした。 この方法は、認知分析で訓練されたコーチによる感情イベントの手動分析を必要とする。 コーチによる関連する側面の識別を容易にするために,感情とその意味的役割(感情原因など)を自動的に注釈するルールベースアプローチを提案する。 グラフ構造を用いた感情分析の今後の方向性について検討する。

Emotion analysis in texts suffers from two major limitations: annotated gold-standard corpora are mostly small and homogeneous, and emotion identification is often simplified as a sentence-level classification problem. To address these issues, we introduce a new annotation scheme for exploring emotions and their causes, along with a new French dataset composed of autobiographical accounts of an emotional scene. The texts were collected by applying the Cognitive Analysis of Emotions developed by A. Finkel to help people improve on their emotion management. The method requires the manual analysis of an emotional event by a coach trained in Cognitive Analysis. We present a rule-based approach to automatically annotate emotions and their semantic roles (e.g. emotion causes) to facilitate the identification of relevant aspects by the coach. We investigate future directions for emotion analysis using graph structures.
翻訳日:2022-10-12 15:46:41 公開日:2022-10-11
# 文エンコーダを用いたフレーズアライメントを用いた構造対応パラフレーズ同定

Towards Structure-aware Paraphrase Identification with Phrase Alignment Using Sentence Encoders ( http://arxiv.org/abs/2210.05302v1 )

ライセンス: Link先を確認
Qiwei Peng, David Weir, Julie Weeds(参考訳) 先行研究は,文表現に基づく事前学習文エンコーダを用いた意味比較タスクの有効性を実証している。 このような表現は、隠された構文構造を捉えることが示されるが、それら間の直接的類似性比較は、単語順に対する弱い感度と与えられた文の構造的差異を示す。 単一の類似度スコアは、比較プロセスをさらに解釈しにくくする。 そこで本稿では,文エンコーダと文エンコーダを組み合わせて,各文を述語代名詞の一覧として表現し(文エンコーダからスパン表現を導出する),文レベルの意味比較をパラフレーズ識別タスクのアライメントに分解することを提案する。 実験結果から,アライメント成分は様々な文エンコーダの性能向上と解釈可能性の向上をもたらすことがわかった。 より綿密な調査の後, 提案手法は構造的差異に対する感受性の向上と, 語彙重複度の高い非フレーズの識別能力の向上を示唆した。

Previous works have demonstrated the effectiveness of utilising pre-trained sentence encoders based on their sentence representations for meaning comparison tasks. Though such representations are shown to capture hidden syntax structures, the direct similarity comparison between them exhibits weak sensitivity to word order and structural differences in given sentences. A single similarity score further makes the comparison process hard to interpret. Therefore, we here propose to combine sentence encoders with an alignment component by representing each sentence as a list of predicate-argument spans (where their span representations are derived from sentence encoders), and decomposing the sentence-level meaning comparison into the alignment between their spans for paraphrase identification tasks. Empirical results show that the alignment component brings in both improved performance and interpretability for various sentence encoders. After closer investigation, the proposed approach indicates increased sensitivity to structural difference and enhanced ability to distinguish non-paraphrases with high lexical overlap.
翻訳日:2022-10-12 15:46:28 公開日:2022-10-11
# 手書き文字で表される音声言語と手話言語間の機械翻訳

Machine Translation between Spoken Languages and Signed Languages Represented in SignWriting ( http://arxiv.org/abs/2210.05404v1 )

ライセンス: Link先を確認
Zifan Jiang, Amit Moryossef, Mathias M\"uller, Sarah Ebling(参考訳) 本稿では,手話書き起こしシステムであるSignWritingで署名言語を表現した音声と署名言語間の新しい機械翻訳(MT)システムについて述べる。 私たちの研究は、現行のmtシステムにおける署名済み言語のサポートの欠如に対処し、スピーチ言語テキストとサインライティングコンテンツのペアを含むsignbankデータセットをベースにしています。 本稿では,ニューラルファクタリングMTのアイデアを活用して手話の構文解析,分解,復号化,評価を行う新しい手法を提案する。アメリカ手話から(アメリカ)英語へのバイリンガルなセットアップでは,30BLEU以上を達成し,音声言語と署名言語間の双方向な翻訳では20BLEU以上を達成している。 音声翻訳の改良に使用される一般的なMT技術が手話翻訳の性能に影響を及ぼすことがわかった。 これらの知見は, 自然言語処理研究において, 署名言語における中間テキスト表現の使用を実証するものである。

This paper presents work on novel machine translation (MT) systems between spoken and signed languages, where signed languages are represented in SignWriting, a sign language writing system. Our work seeks to address the lack of out-of-the-box support for signed languages in current MT systems and is based on the SignBank dataset, which contains pairs of spoken language text and SignWriting content. We introduce novel methods to parse, factorize, decode, and evaluate SignWriting, leveraging ideas from neural factored MT. In a bilingual setup--translating from American Sign Language to (American) English--our method achieves over 30 BLEU, while in two multilingual setups--translating in both directions between spoken languages and signed languages--we achieve over 20 BLEU. We find that common MT techniques used to improve spoken language translation similarly affect the performance of sign language translation. These findings validate our use of an intermediate text representation for signed languages to include them in natural language processing research.
翻訳日:2022-10-12 15:45:46 公開日:2022-10-11
# 階層クラスタリングと相互情報の最大化による単語センス誘導

Word Sense Induction with Hierarchical Clustering and Mutual Information Maximization ( http://arxiv.org/abs/2210.05422v1 )

ライセンス: Link先を確認
Hadi Abdine, Moussa Kamal Eddine, Michalis Vazirgiannis, Davide Buscaldi(参考訳) 単語感覚誘導(WSI)は、自然言語処理において、単語の感覚(つまり意味)の教師なしの自動検出を伴う難しい問題である。 最近の研究は、単語感覚を個別に曖昧にすることができる言語モデルを事前学習することでwsiタスクにおいて重要な結果を達成している。 本稿では,階層的クラスタリングと不変情報クラスタリング(IIC)に基づく新しい教師なし手法を提案する。 IICは、一対の合成パラフレーズで発生する標的単語の2つのベクトル表現間の相互情報を最適化するために、小さなモデルを訓練するために使用される。 このモデルは後に推論モードで使われ、階層的クラスタリングで使用される高品質なベクトル表現を抽出する。 提案手法は2つのwsiタスクと2つの異なるクラスタリング構成(クラスタの固定数と動的数)で評価する。 私たちは、あるケースにおいて、我々のアプローチがWSIの最先端メソッドよりも優れていることを実証的に実証します。

Word sense induction (WSI) is a difficult problem in natural language processing that involves the unsupervised automatic detection of a word's senses (i.e. meanings). Recent work achieves significant results on the WSI task by pre-training a language model that can exclusively disambiguate word senses, whereas others employ previously pre-trained language models in conjunction with additional strategies to induce senses. In this paper, we propose a novel unsupervised method based on hierarchical clustering and invariant information clustering (IIC). The IIC is used to train a small model to optimize the mutual information between two vector representations of a target word occurring in a pair of synthetic paraphrases. This model is later used in inference mode to extract a higher quality vector representation to be used in the hierarchical clustering. We evaluate our method on two WSI tasks and in two distinct clustering configurations (fixed and dynamic number of clusters). We empirically demonstrate that, in certain cases, our approach outperforms prior WSI state-of-the-art methods, while in others, it achieves a competitive performance.
翻訳日:2022-10-12 15:45:26 公開日:2022-10-11
# 事前訓練された多言語モデルは等しく公平か?

Are Pretrained Multilingual Models Equally Fair Across Languages? ( http://arxiv.org/abs/2210.05457v1 )

ライセンス: Link先を確認
Laura Cabello Piqueras and Anders S{\o}gaard(参考訳) 事前訓練された多言語言語モデルはデジタル言語分割を橋渡しし、低リソース言語のための高品質なNLPモデルを可能にする。 多言語モデルの研究はこれまで、パフォーマンス、一貫性、言語間一般化に焦点を当ててきた。 しかし、野生および下流の社会への影響に広く適用されているため、多言語モデルを単言語モデルと同じ精査下に置くことが重要である。 この研究は多言語モデルの群フェアネスを調査し、これらのモデルが言語間で等しく公平かどうかを問う。 そこで本研究では,パラレルクローゼテスト例(mozart)の4方向多言語データセットを作成し,実験参加者に関する人口統計情報(性別と母国語についてバランスをとる)を組み込んだ。 我々は,MozArt-mBERT,XLM-R,mT5の3つの多言語モデルを評価し,これらのモデルが4つの対象言語で異なるグループ格差を示すことを示す。

Pretrained multilingual language models can help bridge the digital language divide, enabling high-quality NLP models for lower resourced languages. Studies of multilingual models have so far focused on performance, consistency, and cross-lingual generalisation. However, with their wide-spread application in the wild and downstream societal impact, it is important to put multilingual models under the same scrutiny as monolingual models. This work investigates the group fairness of multilingual models, asking whether these models are equally fair across languages. To this end, we create a new four-way multilingual dataset of parallel cloze test examples (MozArt), equipped with demographic information (balanced with regard to gender and native tongue) about the test participants. We evaluate three multilingual models on MozArt -- mBERT, XLM-R, and mT5 -- and show that across the four target languages, the three models exhibit different levels of group disparity, e.g., exhibiting near-equal risk for Spanish, but high levels of disparity for German.
翻訳日:2022-10-12 15:45:08 公開日:2022-10-11
# ヘイトスピーチ、拡張データ、アンサンブルのためのT5

T5 for Hate Speech, Augmented Data and Ensemble ( http://arxiv.org/abs/2210.05480v1 )

ライセンス: Link先を確認
Tosin Adewumi, Sana Sabah Sabry, Nosheen Abid, Foteini Liwicki and Marcus Liwicki(参考訳) 我々は6つのデータセットの11のサブタスクに対して、異なる最先端(SoTA)ベースラインを用いた自動ヘイトスピーチ(HS)検出を比較的広範囲に実施する。 私たちのモチベーションは、最近のsomaモデルのうちどのモデルがヘイトスピーチの自動検出に最適か、データ拡張やアンサンブルのような方法が最良のモデルにどのような利点があるかを決定することです。 クロスタスク調査を6回実施する。 我々は、hasoc 2020データセットのサブタスクaとbに対して、それぞれ51.52%と26.52%の2つのサブタスクf1スコア91.73%と53.21%で新しいsotaを実現する。 OLID 2019データセットのサブタスクAのマクロF1スコアは81.66%、HASOC 2021データセットのサブタスクAの82.54%であり、それぞれ82.9%と83.05%である。 エラー解析を行い、2つの説明可能な人工知能(XAI)アルゴリズム(IGとSHAP)を用いて、2つのモデル(Bi-LSTMとT5)が例を用いてどのように予測を行うかを明らかにする。 この作品の他の貢献は 1)T5におけるOOC予測の修正のためのシンプルで斬新なメカニズムの導入 2)データ拡張方法の詳細な説明 3)いくつかの例とXAI(品質管理の改善の必要性を推し進める)を用いて、HASOC 2021データセットの貧弱なデータアノテーションの啓示を行う。 4)透明性を高めるためのモデルチェックポイントとコードの公開リリース。

We conduct relatively extensive investigations of automatic hate speech (HS) detection using different state-of-the-art (SoTA) baselines over 11 subtasks of 6 different datasets. Our motivation is to determine which of the recent SoTA models is best for automatic hate speech detection and what advantage methods like data augmentation and ensemble may have on the best model, if any. We carry out 6 cross-task investigations. We achieve new SoTA on two subtasks - macro F1 scores of 91.73% and 53.21% for subtasks A and B of the HASOC 2020 dataset, where previous SoTA are 51.52% and 26.52%, respectively. We achieve near-SoTA on two others - macro F1 scores of 81.66% for subtask A of the OLID 2019 dataset and 82.54% for subtask A of the HASOC 2021 dataset, where SoTA are 82.9% and 83.05%, respectively. We perform error analysis and use two explainable artificial intelligence (XAI) algorithms (IG and SHAP) to reveal how two of the models (Bi-LSTM and T5) make the predictions they do by using examples. Other contributions of this work are 1) the introduction of a simple, novel mechanism for correcting out-of-class (OOC) predictions in T5, 2) a detailed description of the data augmentation methods, 3) the revelation of the poor data annotations in the HASOC 2021 dataset by using several examples and XAI (buttressing the need for better quality control), and 4) the public release of our model checkpoints and codes to foster transparency.
翻訳日:2022-10-12 15:44:50 公開日:2022-10-11
# バイリンガル・ベビー:バイリンガル言語モデルによる視覚的基盤化の利点

Like a bilingual baby: The advantage of visually grounding a bilingual language model ( http://arxiv.org/abs/2210.05487v1 )

ライセンス: Link先を確認
Khai-Nguyen Nguyen and Zixin Tang and Ankur Mali and Alex Kelly(参考訳) ほとんどのニューラル言語モデルとは異なり、人間は豊かで多言語的な環境で言語を学ぶ。 現在の言語モデルは通常、多言語言語の使用の複雑さを完全に捉えることができない。 LSTM言語モデルをMS-COCO-ESから英語とスペイン語の画像とキャプションに基づいて学習する。 視覚的基盤は、言語内および言語間のセマンティックな類似性に対するモデルの理解を改善し、パープレキシティを改善する。 しかし,抽象語に対する視覚的接頭辞の顕著な利点は見つからなかった。 本研究は,視覚基盤言語モデルの利点のさらなる証拠を提供し,知覚基盤を持つ多言語話者と多言語データセットからのより自然主義的な言語データの必要性を指摘する。

Unlike most neural language models, humans learn language in a rich, multi-sensory and, often, multi-lingual environment. Current language models typically fail to fully capture the complexities of multilingual language use. We train an LSTM language model on images and captions in English and Spanish from MS-COCO-ES. We find that the visual grounding improves the model's understanding of semantic similarity both within and across languages and improves perplexity. However, we find no significant advantage of visual grounding for abstract words. Our results provide additional evidence of the advantages of visually grounded language models and point to the need for more naturalistic language data from multilingual speakers and multilingual datasets with perceptual grounding.
翻訳日:2022-10-12 15:44:21 公開日:2022-10-11
# 魚マスクによるシャープネスの最小化による言語モデルの一般化

Improving Sharpness-Aware Minimization with Fisher Mask for Better Generalization on Language Models ( http://arxiv.org/abs/2210.05497v1 )

ライセンス: Link先を確認
Qihuang Zhong, Liang Ding, Li Shen, Peng Mi, Juhua Liu, Bo Du and Dacheng Tao(参考訳) 限られた訓練コーパス上の微調整された大きな事前訓練された言語モデルは、通常、一般化の貧弱さに悩まされる。 先行研究は、最近提案されたシャープネス認識最小化(SAM)最適化法がモデル一般化を改善することを示した。 しかしSAMは各モデルパラメータに等しく摂動を加える(ただし、全てのパラメータがトレーニングの最適化に等しく寄与するわけではない)。 本稿では,新しい最適化手法であるFSAMを提案し,SAMの効率と性能を改善するためのフィッシャーマスクを提案する。 要するに、全てのパラメータに摂動を追加する代わりに、FSAMはフィッシャー情報を使って重要なパラメータを識別し、フィッシャーマスクを定式化してスパース摂動(sparse perturbation)を得る。 GLUEおよびSuperGLUEベンチマークにおける様々なタスクの実験により、FSAMは4つの異なる事前訓練されたモデルの中で、バニラSAMの0.67~1.98の平均スコアを一貫して上回っていることが示された。 また,生成タスクの微調整や限られたトレーニングデータなど,他の複雑なシナリオでもfsamがうまく機能することを示す。 トレーニングデータに制限がある場合、FSAMはSAMを最大15.1のマージンで改善する。

Fine-tuning large pretrained language models on a limited training corpus usually suffers from poor generalization. Prior works show that the recently-proposed sharpness-aware minimization (SAM) optimization method can improve the model generalization. However, SAM adds a perturbation to each model parameter equally (but not all parameters contribute equally to the optimization of training), which we argue is sub-optimal and will lead to excessive computation. In this paper, we propose a novel optimization procedure, namely FSAM, which introduces a Fisher mask to improve the efficiency and performance of SAM. In short, instead of adding perturbation to all parameters, FSAM uses the Fisher information to identity the important parameters and formulates a Fisher mask to obtain the sparse perturbation, i.e., making the optimizer focus on these important parameters. Experiments on various tasks in GLUE and SuperGLUE benchmarks show that FSAM consistently outperforms the vanilla SAM by 0.67~1.98 average score among four different pretrained models. We also empirically show that FSAM works well in other complex scenarios, e.g., fine-tuning on generation tasks or limited training data. Encouragingly, when training data is limited, FSAM improves the SAM by a large margin, i.e., up to 15.1.
翻訳日:2022-10-12 15:44:10 公開日:2022-10-11
# BanglaParaphrase: 高品質なBanglaパラフレーズデータセット

BanglaParaphrase: A High-Quality Bangla Paraphrase Dataset ( http://arxiv.org/abs/2210.05109v1 )

ライセンス: Link先を確認
Ajwad Akil, Najrin Sultana, Abhik Bhattacharjee and Rifat Shahriyar(参考訳) 本稿では,新しいフィルタパイプラインによって計算された高品質なBangla ParaphraseデータセットであるBanglaParaphraseを紹介する。 我々は、nlpドメインにおけるバングラ言語の低資源状態の緩和に向けて、意味論と多様性の両方を保存して品質を保証するバングラパラフローゼを導入することで、バングラの他のデータセットの拡張に特に有用である。 合成パラフレーズデータ生成パイプラインの実現可能性を確立するため、既存の研究とトレーニングしたデータセットとモデルとの詳細な比較分析を行った。 データセットとモデルをhttps://github.com/csebuetnlp/banglaparaphraseで公開しています。

In this work, we present BanglaParaphrase, a high-quality synthetic Bangla Paraphrase dataset curated by a novel filtering pipeline. We aim to take a step towards alleviating the low resource status of the Bangla language in the NLP domain through the introduction of BanglaParaphrase, which ensures quality by preserving both semantics and diversity, making it particularly useful to enhance other Bangla datasets. We show a detailed comparative analysis between our dataset and models trained on it with other existing works to establish the viability of our synthetic paraphrase data generation pipeline. We are making the dataset and models publicly available at https://github.com/csebuetnlp/banglaparaphrase to further the state of Bangla NLP.
翻訳日:2022-10-12 15:38:15 公開日:2022-10-11
# HUE:古代朝鮮の漢書理解のための事前学習モデルとデータセット

HUE: Pretrained Model and Dataset for Understanding Hanja Documents of Ancient Korea ( http://arxiv.org/abs/2210.05112v1 )

ライセンス: Link先を確認
Haneul Yoo, Jiho Jin, Juhee Son, JinYeong Bak, Kyunghyun Cho, Alice Oh(参考訳) 20世紀以前の朝鮮の歴史記録は、主に漢字に基づく絶滅した言語であるハンジャで書かれており、現代の朝鮮語や中国語話者には理解されていない。 この期間に専門的な歴史学者が文書を分析してきたが、その過程は非常に困難で時間がかかり、言語モデルによって処理が大幅にスピードアップする。 ハンジャのための言語モデルの構築と評価に向けて,時系列属性,トピック分類,名前付きエンティティ認識,要約検索タスクからなるハンジャ理解評価データセットをリリースする。 また,14世紀から19世紀にかけて,朝鮮王朝の年代記と大蔵省の日記の2つの主要なコーポラについて,バートをモデルとしたトレーニングを継続した。 モデルと各タスクのベースラインを比較し,2つのコーパスのトレーニングによって得られた大幅な改善を示す。 さらに、我々は、王立裁判所および重要公務員(DRRI)のデイリー・レコードでゼロショット実験を行った。 DRRIデータセットは歴史家によってあまり研究されておらず、NLPコミュニティからは研究されていない。

Historical records in Korea before the 20th century were primarily written in Hanja, an extinct language based on Chinese characters and not understood by modern Korean or Chinese speakers. Historians with expertise in this time period have been analyzing the documents, but that process is very difficult and time-consuming, and language models would significantly speed up the process. Toward building and evaluating language models for Hanja, we release the Hanja Understanding Evaluation dataset consisting of chronological attribution, topic classification, named entity recognition, and summary retrieval tasks. We also present BERT-based models continued training on the two major corpora from the 14th to the 19th centuries: the Annals of the Joseon Dynasty and Diaries of the Royal Secretariats. We compare the models with several baselines on all tasks and show there are significant improvements gained by training on the two corpora. Additionally, we run zero-shot experiments on the Daily Records of the Royal Court and Important Officials (DRRI). The DRRI dataset has not been studied much by the historians, and not at all by the NLP community.
翻訳日:2022-10-12 15:38:01 公開日:2022-10-11
# 注意ヘッドの混合:トークンごとに注意ヘッドを選択する

Mixture of Attention Heads: Selecting Attention Heads Per Token ( http://arxiv.org/abs/2210.05144v1 )

ライセンス: Link先を確認
Xiaofeng Zhang, Yikang Shen, Zeyu Huang, Jie Zhou, Wenge Rong, Zhang Xiong(参考訳) Mixture-of-Experts (MoE) ネットワークは,モデル容量のスケールアップと条件付き計算の実装に有効な方法として提案されている。 しかし、MoEコンポーネントの研究は主にTransformerアーキテクチャのフィードフォワード層に焦点を当てた。 本稿では,マルチヘッドアテンションとMoE機構を組み合わせた新しいアーキテクチャであるMixture of Attention Heads (MoA)を提案する。 MoAには、それぞれ独自のパラメータセットを持つアテンションヘッドのセットが含まれている。 入力が与えられると、ルータはトークンごとに$k$の注意ヘッドのサブセットを動的に選択する。 この条件付き計算スキーマにより、MoAは標準的なマルチヘッドアテンション層よりも高いパフォーマンスを達成することができる。 さらに、疎ゲートmoaは、計算効率を維持しつつ、注目ヘッド数とパラメータ数を容易にスケールアップすることができる。 パフォーマンスの改善に加えて、MoAはヘッドユーティリティを自動的に区別し、モデルの解釈可能性について議論するための新たな視点を提供する。 機械翻訳やマスケッド言語モデリングなど,いくつかの重要なタスクについて実験を行った。 実験は、大規模で非常に深いモデルを含む強力なベースラインに対するいくつかのタスクにおいて有望な結果を示している。

Mixture-of-Experts (MoE) networks have been proposed as an efficient way to scale up model capacity and implement conditional computing. However, the study of MoE components mostly focused on the feedforward layer in Transformer architecture. This paper proposes the Mixture of Attention Heads (MoA), a new architecture that combines multi-head attention with the MoE mechanism. MoA includes a set of attention heads that each has its own set of parameters. Given an input, a router dynamically selects a subset of $k$ attention heads per token. This conditional computation schema allows MoA to achieve stronger performance than the standard multi-head attention layer. Furthermore, the sparsely gated MoA can easily scale up the number of attention heads and the number of parameters while preserving computational efficiency. In addition to the performance improvements, MoA also automatically differentiates heads' utilities, providing a new perspective to discuss the model's interpretability. We conducted experiments on several important tasks, including Machine Translation and Masked Language Modeling. Experiments have shown promising results on several tasks against strong baselines that involve large and very deep models.
翻訳日:2022-10-12 15:37:44 公開日:2022-10-11
# CSS: 対話状態追跡のための自己学習と自己指導型学習を組み合わせる

CSS: Combining Self-training and Self-supervised Learning for Few-shot Dialogue State Tracking ( http://arxiv.org/abs/2210.05146v1 )

ライセンス: Link先を確認
Haoning Zhang, Junwei Bao, Haipeng Sun, Huaishao Luo, Wenye Li, Shuguang Cui(参考訳) DST(Few-shot dialogue state tracking)は、ラベル付きデータでDSTモデルを訓練する現実的な問題である。 既存のマイナショット手法では,外部ラベル付き対話データ(質問応答,対話要約,機械読解タスクなど)から学習した知識をdstに転送するが,大量の外部ラベル付きデータの収集には手間がかかり,外部データはdst特有のタスクに効果的に寄与することができない。 本稿では,自己学習と自己教師型学習を組み合わせたCSSと呼ばれるDSTフレームワークを提案する。 DSTタスクのラベルなしデータは自己学習イテレーションに組み込まれ、擬似ラベルは予め限定ラベル付きデータに基づいてトレーニングされたDSTモデルにより予測される。 さらに、より優れた表現を学ぶために、対照的な自己教師付きメソッドが使われ、そこではモデルをトレーニングするためにドロップアウト操作によってデータが強化される。 また,MultiWOZデータセットを用いた実験結果から,提案したCSSはいくつかのシナリオで競合性能を達成できた。

Few-shot dialogue state tracking (DST) is a realistic problem that trains the DST model with limited labeled data. Existing few-shot methods mainly transfer knowledge learned from external labeled dialogue data (e.g., from question answering, dialogue summarization, machine reading comprehension tasks, etc.) into DST, whereas collecting a large amount of external labeled data is laborious, and the external data may not effectively contribute to the DST-specific task. In this paper, we propose a few-shot DST framework called CSS, which Combines Self-training and Self-supervised learning methods. The unlabeled data of the DST task is incorporated into the self-training iterations, where the pseudo labels are predicted by a DST model trained on limited labeled data in advance. Besides, a contrastive self-supervised method is used to learn better representations, where the data is augmented by the dropout operation to train the model. Experimental results on the MultiWOZ dataset show that our proposed CSS achieves competitive performance in several few-shot scenarios.
翻訳日:2022-10-12 15:37:28 公開日:2022-10-11
# オープンドメイン質問応答の効率的かつロバストな検索のためのタスクアウェア特殊化

Task-Aware Specialization for Efficient and Robust Dense Retrieval for Open-Domain Question Answering ( http://arxiv.org/abs/2210.05156v1 )

ライセンス: Link先を確認
Hao Cheng, Hao Fang, Xiaodong Liu, Jianfeng Gao(参考訳) 知識集約型自然言語処理タスクにおいて有効性を考えると,高密度検索モデルはますます人気が高まっている。 具体的には、オープンドメインの質問応答のためのデファクトアーキテクチャは、2つの同型エンコーダを使用しており、同じ事前学習されたモデルから初期化されるが、質問や文に対して個別にパラメータ化されている。 このバイエンコーダアーキテクチャは、エンコーダ間にパラメータ共有がないため、パラメータ非効率である。 さらに、最近の研究では、これらの高密度レトリバーが様々な環境でBM25を過小評価している。 そこで我々は,1つのエンコーダで共有ブロックと特殊ブロックをインターリーブすることでパラメータ共有を可能にする,高密度検索のためのタスクアウェア・スペシャライゼーション(TASER)を提案する。 5つの質問応答データセットに関する実験では、bm25を超える精度を \ourmodel\ が達成でき、パラメータの約60%をバイエンコーダの密集したレトリバーとして使用しています。 ドメイン外評価では、TASERはバイエンコーダの高密度レトリバーよりも実験的に堅牢である。

Given its effectiveness on knowledge-intensive natural language processing tasks, dense retrieval models have become increasingly popular. Specifically, the de-facto architecture for open-domain question answering uses two isomorphic encoders that are initialized from the same pretrained model but separately parameterized for questions and passages. This bi-encoder architecture is parameter-inefficient in that there is no parameter sharing between encoders. Further, recent studies show that such dense retrievers underperform BM25 in various settings. We thus propose a new architecture, Task-aware Specialization for dense Retrieval (TASER), which enables parameter sharing by interleaving shared and specialized blocks in a single encoder. Our experiments on five question answering datasets show that \ourmodel\ can achieve superior accuracy, surpassing BM25, while using about 60% of the parameters as bi-encoder dense retrievers. In out-of-domain evaluations, TASER is also empirically more robust than bi-encoder dense retrievers.
翻訳日:2022-10-12 15:37:08 公開日:2022-10-11
# 非自己回帰機械翻訳のための直進非巡回変圧器のビタビ復号

Viterbi Decoding of Directed Acyclic Transformer for Non-Autoregressive Machine Translation ( http://arxiv.org/abs/2210.05193v1 )

ライセンス: Link先を確認
Chenze Shao and Zhengrui Ma and Yang Feng(参考訳) 非自己回帰モデルは、ニューラルネットワーク翻訳において大幅なデコードスピードアップを実現するが、シーケンシャルな依存関係をキャプチャする能力は欠如している。 有向非巡回変換器(DA-Transformer)は、最近、有向非巡回グラフによる逐次依存をモデル化するために提案されている。 その結果,グローバル翻訳精度を損なうような逐次決定処理を推論時に適用する必要がある。 本稿では,任意の長さ制約下での変換・復号パスに対する統合的最適解を求めるため,da変換器のビタビ復号化フレームワークを提案する。 実験結果から, DA-Transformer の性能は同等に向上し, 復号化速度も向上した。

Non-autoregressive models achieve significant decoding speedup in neural machine translation but lack the ability to capture sequential dependency. Directed Acyclic Transformer (DA-Transformer) was recently proposed to model sequential dependency with a directed acyclic graph. Consequently, it has to apply a sequential decision process at inference time, which harms the global translation accuracy. In this paper, we present a Viterbi decoding framework for DA-Transformer, which guarantees to find the joint optimal solution for the translation and decoding path under any length constraint. Experimental results demonstrate that our approach consistently improves the performance of DA-Transformer while maintaining a similar decoding speedup.
翻訳日:2022-10-12 15:36:49 公開日:2022-10-11
# digat:デュアルグラフインタラクションによるニュースレコメンデーションのモデリング

DIGAT: Modeling News Recommendation with Dual-Graph Interaction ( http://arxiv.org/abs/2210.05196v1 )

ライセンス: Link先を確認
Zhiming Mao, Jian Li, Hongru Wang, Xingshan Zeng, Kam-Fai Wong(参考訳) オンラインニュースサービスにはニュースレコメンデーション(nr)が不可欠である。 既存のNRメソッドは一般的にニュースユーザ表現学習フレームワークを採用しており、2つの潜在的な制限に直面している。 まず、ニュースエンコーダでは、単一の候補ニュースエンコーディングが、意味的情報の問題に苦しむ。 第二に、既存のグラフベースのNR手法は有望であるが、効果的なニュースユーザ機能相互作用が欠如しており、グラフベースのレコメンデーションが最適である。 これらの制限を克服するために、ニュースチャンネルとユーザグラフチャネルからなる2つの相互作用グラフアテンションネットワーク(DIGAT)を提案する。 ニュースグラフでは,セマンティック関連ニュース情報を意味拡張グラフ(SAG)に組み込むことで,単一候補ニュースのセマンティクスを充実させる。 ユーザグラフチャネルでは、マルチレベルユーザの興味をニューストピックグラフで表現する。 最も注目すべきは、ニュースとユーザグラフ間の効果的な機能インタラクションを実行するために、デュアルグラフインタラクションプロセスを設計することです。 ベンチマークデータセットMINDの実験結果は、DIGATが既存のニュースレコメンデーション手法より優れていることを示している。 さらに,(1)意味強化されたニュースグラフモデリングと(2)二重グラフ相互作用の有効性を検証する。

News recommendation (NR) is essential for online news services. Existing NR methods typically adopt a news-user representation learning framework, facing two potential limitations. First, in news encoder, single candidate news encoding suffers from an insufficient semantic information problem. Second, existing graph-based NR methods are promising but lack effective news-user feature interaction, rendering the graph-based recommendation suboptimal. To overcome these limitations, we propose dual-interactive graph attention networks (DIGAT) consisting of news- and user-graph channels. In the news-graph channel, we enrich the semantics of single candidate news by incorporating the semantically relevant news information with a semantic-augmented graph (SAG). In the user-graph channel, multi-level user interests are represented with a news-topic graph. Most notably, we design a dual-graph interaction process to perform effective feature interaction between the news and user graphs, which facilitates accurate news-user representation matching. Experiment results on the benchmark dataset MIND show that DIGAT outperforms existing news recommendation methods. Further ablation studies and analyses validate the effectiveness of (1) semantic-augmented news graph modeling and (2) dual-graph interaction.
翻訳日:2022-10-12 15:36:36 公開日:2022-10-11
# マルチホップ読解モデルは日付情報をどの程度理解しているか?

How Well Do Multi-hop Reading Comprehension Models Understand Date Information? ( http://arxiv.org/abs/2210.05208v1 )

ライセンス: Link先を確認
Xanh Ho, Saku Sugawara, and Akiko Aizawa(参考訳) マルチホップ推論を行なわずに回答可能な推論ショートカットの問題を解決するために,複数のマルチホップ読解データセットが提案されている。 しかしながら、比較質問に対する回答を見つける際にステップバイステップの推論を行うマルチホップモデルの能力は、まだ不明である。 また、内部推論プロセスに関する質問が、質問応答システム(QA)のトレーニングや評価にどのように役立つかは明らかでない。 モデルを階層的に正確に評価するために,まず,抽出,推論,ロバスト性という主課題に加えて,3つの探索タスクを含むデータセット \textit{hieradate} を提案する。 我々のデータセットは、2つの過去のマルチホップデータセットであるHotpotQAと2WikiMultiHopQAを拡張して作成され、比較と数値推論の両方を含む日付情報に関するマルチホップ質問に焦点を当てている。 そして、既存のモデルが日付情報を理解する能力を評価する。 実験結果から, マルチホップモデルでは, 日付比較や数値減算タスクにおいて, 2つの日付を減算できないことがわかった。 他の結果から,本研究の結果から,主QAタスクにおけるモデルの性能向上(例えば+10.3 F1)や,モデルのロバスト性向上のためにデータ拡張にデータセットを使用できることがわかった。

Several multi-hop reading comprehension datasets have been proposed to resolve the issue of reasoning shortcuts by which questions can be answered without performing multi-hop reasoning. However, the ability of multi-hop models to perform step-by-step reasoning when finding an answer to a comparison question remains unclear. It is also unclear how questions about the internal reasoning process are useful for training and evaluating question-answering (QA) systems. To evaluate the model precisely in a hierarchical manner, we first propose a dataset, \textit{HieraDate}, with three probing tasks in addition to the main question: extraction, reasoning, and robustness. Our dataset is created by enhancing two previous multi-hop datasets, HotpotQA and 2WikiMultiHopQA, focusing on multi-hop questions on date information that involve both comparison and numerical reasoning. We then evaluate the ability of existing models to understand date information. Our experimental results reveal that the multi-hop models do not have the ability to subtract two dates even when they perform well in date comparison and number subtraction tasks. Other results reveal that our probing questions can help to improve the performance of the models (e.g., by +10.3 F1) on the main QA task and our dataset can be used for data augmentation to improve the robustness of the models.
翻訳日:2022-10-12 15:36:17 公開日:2022-10-11
# 勝者決定:スパースとロバストな事前学習言語モデルを目指して

A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models ( http://arxiv.org/abs/2210.05211v1 )

ライセンス: Link先を確認
Yuanxin Liu, Fandong Meng, Zheng Lin, Jiangnan Li, Peng Fu, Yanan Cao, Weiping Wang, Jie Zhou(参考訳) 事前訓練された言語モデル(PLM)の顕著な成功にもかかわらず、彼らはまだ2つの課題に直面している。 第二に、下流タスクでは、PLMはデータセットバイアスに依存し、アウト・オブ・ディストリビューション(OOD)データへの一般化に苦労する傾向がある。 この効率問題に対して、最近の研究では、高密度PLMは、性能を損なうことなくスパースサブネットに置き換えることができることが示されている。 このようなサブネットワークは3つのシナリオで見ることができる。 1) 微調整plm。 2)生のPLMを分離して微調整し、内部でも 3)パラメータを微調整しないPLM。 しかし,これらの結果は,in-distribution (id) 設定でのみ得られる。 本稿では,PLMsサブネットワークの研究をOOD設定に拡張し,データセットバイアスに対する空間性とロバスト性を同時に達成できるかどうかを検討する。 この目的のために,3つの自然言語理解(NLU)タスクに対して,事前学習したBERTモデルを用いた広範な実験を行った。 以上の3つのシナリオにおいて,異なるトレーニング手法と圧縮手法を用いて, BERT において, \textbf{sparse and robust subnetworks (SRNets) が一貫して見られることを示す。 さらに、OOD情報を用いてSRNetの上界を探索し、 \textbf{there are sparse and almost unbiased BERT subnetworks} を示す。 最後に 1)SRNetの探索プロセスの効率向上に関する知見を提供する分析的研究 2) サブネットワークの性能を高い間隔で向上させるソリューション。 コードはhttps://github.com/llyx97/sparse-and-robust-plmで入手できる。

Despite the remarkable success of pre-trained language models (PLMs), they still face two challenges: First, large-scale PLMs are inefficient in terms of memory footprint and computation. Second, on the downstream tasks, PLMs tend to rely on the dataset bias and struggle to generalize to out-of-distribution (OOD) data. In response to the efficiency problem, recent studies show that dense PLMs can be replaced with sparse subnetworks without hurting the performance. Such subnetworks can be found in three scenarios: 1) the fine-tuned PLMs, 2) the raw PLMs and then fine-tuned in isolation, and even inside 3) PLMs without any parameter fine-tuning. However, these results are only obtained in the in-distribution (ID) setting. In this paper, we extend the study on PLMs subnetworks to the OOD setting, investigating whether sparsity and robustness to dataset bias can be achieved simultaneously. To this end, we conduct extensive experiments with the pre-trained BERT model on three natural language understanding (NLU) tasks. Our results demonstrate that \textbf{sparse and robust subnetworks (SRNets) can consistently be found in BERT}, across the aforementioned three scenarios, using different training and compression methods. Furthermore, we explore the upper bound of SRNets using the OOD information and show that \textbf{there exist sparse and almost unbiased BERT subnetworks}. Finally, we present 1) an analytical study that provides insights on how to promote the efficiency of SRNets searching process and 2) a solution to improve subnetworks' performance at high sparsity. The code is available at https://github.com/llyx97/sparse-and-robust-PLM.
翻訳日:2022-10-12 15:35:52 公開日:2022-10-11
# 多領域タスク指向対話のためのグラフニューラルネットワークポリシと模倣学習

Graph Neural Network Policies and Imitation Learning for Multi-Domain Task-Oriented Dialogues ( http://arxiv.org/abs/2210.05252v1 )

ライセンス: Link先を確認
Thibault Cordier, Tanguy Urvoy, Fabrice Lef\`evre, Lina M. Rojas-Barahona(参考訳) タスク指向対話システムは、人間と会話しながら特定の目標を達成するように設計されている。 実際には、複数のドメインとタスクを同時に扱う必要がある。 したがって、ダイアログマネージャは、複数のドメインのダイアログを扱うために、ドメインの変更や異なるドメイン/タスクを考慮に入れなければなりません。 しかし、報奨信号が乏しい状態の寸法が大きいため、そのような文脈での強化による学習は困難になる。 実験結果から,グラフニューラルネットワークに基づく構造化ポリシと模倣学習の度合いを組み合わせれば,マルチドメイン対話を効果的に処理できることが示唆された。 報告された実験は、標準方針よりも構造化政策の利点を裏付けるものである。

Task-oriented dialogue systems are designed to achieve specific goals while conversing with humans. In practice, they may have to handle simultaneously several domains and tasks. The dialogue manager must therefore be able to take into account domain changes and plan over different domains/tasks in order to deal with multidomain dialogues. However, learning with reinforcement in such context becomes difficult because the state-action dimension is larger while the reward signal remains scarce. Our experimental results suggest that structured policies based on graph neural networks combined with different degrees of imitation learning can effectively handle multi-domain dialogues. The reported experiments underline the benefit of structured policies over standard policies.
翻訳日:2022-10-12 15:35:13 公開日:2022-10-11
# 動的学習ニューラル暗黙表現を用いたマルチオブジェクトナビゲーション

Multi-Object Navigation with dynamically learned neural implicit representations ( http://arxiv.org/abs/2210.05129v1 )

ライセンス: Link先を確認
Pierre Marza, Laetitia Matignon, Olivier Simonin, Christian Wolf(参考訳) 新しい環境の理解とマッピングは、自律的なナビゲートエージェントの中核機能である。 古典的ロボティクスは通常、トポロジカルあるいはメートル法的な表現を維持するSLAM変種と単独でマップを推定するが、ナビゲーションのエンドツーエンドの学習は、ニューラルネットワーク内のある種のメモリを保持する。 ネットワークは通常、ベクトル表現から鳥眼メートル法テンソルやトポロジカル構造まで、誘導バイアスが課せられる。 本研究では,2つのニューラル暗黙表現を用いたニューラルネットワークの構築を提案し,各エピソード中に動的に学習し,シーンの内容のマッピングを行う。 i) セマンティックファインダは,前に見たクエリ対象の位置を予測します。 (II)Occupancy and Exploration Implicit Representationは、探索領域や障害物に関する情報をカプセル化し、関数空間から使用可能な埋め込み空間へ直接マップする新しいグローバルリード機構でクエリされる。 どちらの表現も強化学習(RL)で訓練されたエージェントによって活用され、各エピソードでオンラインで学習される。 マルチオブジェクトナビゲーションにおけるエージェントの評価を行い、暗黙的表現をメモリソースとして使用する場合の影響を高く示す。

Understanding and mapping a new environment are core abilities of any autonomously navigating agent. While classical robotics usually estimates maps in a stand-alone manner with SLAM variants, which maintain a topological or metric representation, end-to-end learning of navigation keeps some form of memory in a neural network. Networks are typically imbued with inductive biases, which can range from vectorial representations to birds-eye metric tensors or topological structures. In this work, we propose to structure neural networks with two neural implicit representations, which are learned dynamically during each episode and map the content of the scene: (i) the Semantic Finder predicts the position of a previously seen queried object; (ii) the Occupancy and Exploration Implicit Representation encapsulates information about explored area and obstacles, and is queried with a novel global read mechanism which directly maps from function space to a usable embedding space. Both representations are leveraged by an agent trained with Reinforcement Learning (RL) and learned online during each episode. We evaluate the agent on Multi-Object Navigation and show the high impact of using neural implicit representations as a memory source.
翻訳日:2022-10-12 15:29:38 公開日:2022-10-11
# Aggregated Task-based fMRIデータを用いた統合失調症の多地点診断

Multi-site Diagnostic Classification Of Schizophrenia Using 3D CNN On Aggregated Task-based fMRI Data ( http://arxiv.org/abs/2210.05240v1 )

ライセンス: Link先を確認
Vigneshwaran Shankaran and Bhaskaran V(参考訳) 長年の研究にもかかわらず、統合失調症の発展を支えているメカニズムと、その再発、症状学、治療は謎のままである。 統合失調症の可変かつ複雑な性質を扱うための適切な分析ツールがないことは、この障害の発達に寄与する要因の1つかもしれない。 ディープラーニング(deep learning)は、神経系に触発された人工知能のサブフィールドである。 近年、ディープラーニングにより、複雑で高次元、非線形システムのモデル化と分析が容易になっている。 統合失調症の研究は、深層学習アルゴリズムが分類と予測タスクで証明した卓越した精度の結果として、多くの分野に革命をもたらした研究の1つである。 深層学習は統合失調症の根源にあるメカニズムを理解するための強力なツールになる可能性がある。 さらに、モデル解釈可能性と因果推論を改善するための様々な技術がこの傾向に寄与している。 マルチサイトfMRIデータと様々な深層学習アプローチを用いて,統合失調症の種類を同定する。 提案手法は,4次元fMRIデータの時間的アグリゲーションが既存の作業より優れていることを示す。 この研究は、統合失調症患者における様々な脳領域間のつながりの強さに光を当てることを目的としている。

In spite of years of research, the mechanisms that underlie the development of schizophrenia, as well as its relapse, symptomatology, and treatment, continue to be a mystery. The absence of appropriate analytic tools to deal with the variable and complicated nature of schizophrenia may be one of the factors that contribute to the development of this disorder. Deep learning is a subfield of artificial intelligence that was inspired by the nervous system. In recent years, deep learning has made it easier to model and analyse complicated, high-dimensional, and nonlinear systems. Research on schizophrenia is one of the many areas of study that has been revolutionised as a result of the outstanding accuracy that deep learning algorithms have demonstrated in classification and prediction tasks. Deep learning has the potential to become a powerful tool for understanding the mechanisms that are at the root of schizophrenia. In addition, a growing variety of techniques aimed at improving model interpretability and causal reasoning are contributing to this trend. Using multi-site fMRI data and a variety of deep learning approaches, this study seeks to identify different types of schizophrenia. Our proposed method of temporal aggregation of the 4D fMRI data outperforms existing work. In addition, this study aims to shed light on the strength of connections between various brain areas in schizophrenia individuals.
翻訳日:2022-10-12 15:29:19 公開日:2022-10-11
# EOCSA : 全スライス組織像による上皮性卵巣癌の予後予測

EOCSA: Predicting Prognosis of Epithelial Ovarian Cancer with Whole Slide Histopathological Images ( http://arxiv.org/abs/2210.05258v1 )

ライセンス: Link先を確認
Tianling Liu and Ran Su and Changming Sun and Xiuting Li and Leyi Wei(参考訳) 卵巣がんは、世界中の女性を脅かす最も深刻ながんの1つである。 卵巣上皮癌(EOC, Epithelial ovarian Cancer, EOC)は, 卵巣がんの亜型として最も多く見られるが, 死亡率が高く, 予後不良である。 生存分析の結果は医師に治療アドバイスを提供することができる。 近年, 医用画像技術の発展に伴い, 病理像に基づく生存予測手法が提案されている。 本研究では,病的全スライド画像(WSI)に基づいてEOC患者の予後を解析するEOCSAというディープフレームワークを設計した。 具体的には、wsisからランダムにパッチを抽出し、それらを複数のクラスタにグループ化した。 次に, パッチレベルの特徴を抽出し, 識別クラスタを少なくし, eoc生存率を正確に予測するdeepconvattentionsurv(dcas)という生存予測モデルを開発した。 特にチャネルの注意、空間的注意、ニューロンの注意機構は特徴抽出の性能を向上させるために用いられた。 体重計算法から患者レベルの特徴を抽出し,LASSO-Coxモデルを用いて生存時間を推定した。 提案したEOCSAはEOCの予後を予測するのに効率的かつ効果的であり、DCASはより情報的かつ識別的な特徴を抽出できるようにする。 私たちが知る限り、私たちの研究は、WSIとディープニューラルネットワーク技術に基づいてEOCの生存を初めて分析しました。 実験の結果,提案フレームワークは0.980 c-indexの最先端性能を達成した。 このアプローチの実装はhttps://github.com/RanSuLab/EOCprognosisで見ることができる。

Ovarian cancer is one of the most serious cancers that threaten women around the world. Epithelial ovarian cancer (EOC), as the most commonly seen subtype of ovarian cancer, has rather high mortality rate and poor prognosis among various gynecological cancers. Survival analysis outcome is able to provide treatment advices to doctors. In recent years, with the development of medical imaging technology, survival prediction approaches based on pathological images have been proposed. In this study, we designed a deep framework named EOCSA which analyzes the prognosis of EOC patients based on pathological whole slide images (WSIs). Specifically, we first randomly extracted patches from WSIs and grouped them into multiple clusters. Next, we developed a survival prediction model, named DeepConvAttentionSurv (DCAS), which was able to extract patch-level features, removed less discriminative clusters and predicted the EOC survival precisely. Particularly, channel attention, spatial attention, and neuron attention mechanisms were used to improve the performance of feature extraction. Then patient-level features were generated from our weight calculation method and the survival time was finally estimated using LASSO-Cox model. The proposed EOCSA is efficient and effective in predicting prognosis of EOC and the DCAS ensures more informative and discriminative features can be extracted. As far as we know, our work is the first to analyze the survival of EOC based on WSIs and deep neural network technologies. The experimental results demonstrate that our proposed framework has achieved state-of-the-art performance of 0.980 C-index. The implementation of the approach can be found at https://github.com/RanSuLab/EOCprognosis.
翻訳日:2022-10-12 15:28:58 公開日:2022-10-11
# 反汚泥面におけるボナファイドエラーのレースバイアス解析

Race Bias Analysis of Bona Fide Errors in face anti-spoofing ( http://arxiv.org/abs/2210.05366v1 )

ライセンス: Link先を確認
Latifah Abduh, Ioannis Ivrissimtzis(参考訳) 機械学習におけるバイアスの研究は近年多くの注目を集めているが、対スプーフィングにおける人種バイアスの問題を明示的に扱う論文は少ない。 本稿では,3つの重要な特徴を有する対面スプーフィングにおける人種バイアスの体系的研究について述べる。その焦点は,重大な倫理的および法的問題が存在するボナフェイドエラーの潜在的なバイアスを分析すること,分析は分類器の最終二項結果に制限されず,分類器のスカラー応答とその潜在空間をカバーすること,分類器の動作点を決定する閾値は変数である。 提案手法は,VQ-VAEをベースとした顔アンチスプーフィングアルゴリズムを用いて,ワイルド (SiW) データベースにおける再生攻撃とスプーフを訓練し,ワイルド (RFW) データベースにおけるSiW およびRacial Faces のバイアス分析を行う。 その結果、人種バイアスは必ずしも様々な集団の平均応答値の異なる結果であるとは限らない。 その代わり、応答分布のいくつかの可能な特性:異なる手段、異なる分散、バイモーダルな振る舞い、外れ値の存在の複合効果としてよりよく理解することができる。

The study of bias in Machine Learning is receiving a lot of attention in recent years, however, few only papers deal explicitly with the problem of race bias in face anti-spoofing. In this paper, we present a systematic study of race bias in face anti-spoofing with three key characteristics: the focus is on analysing potential bias in the bona fide errors, where significant ethical and legal issues lie; the analysis is not restricted to the final binary outcomes of the classifier, but also covers the classifier's scalar responses and its latent space; the threshold determining the operating point of the classifier is considered a variable. We demonstrate the proposed bias analysis process on a VQ-VAE based face anti-spoofing algorithm, trained on the Replay Attack and the Spoof in the Wild (SiW) databases, and analysed for bias on the SiW and Racial Faces in the Wild (RFW), databases. The results demonstrate that race bias is not necessarily the result of different mean response values among the various populations. Instead, it can be better understood as the combined effect of several possible characteristics of the response distributions: different means; different variances; bimodal behaviour; existence of outliers.
翻訳日:2022-10-12 15:28:30 公開日:2022-10-11
# 拡散モデルの潜在空間の統一とサイクル拡散と誘導への応用

Unifying Diffusion Models' Latent Space, with Applications to CycleDiffusion and Guidance ( http://arxiv.org/abs/2210.05559v1 )

ライセンス: Link先を確認
Chen Henry Wu, Fernando De la Torre(参考訳) 拡散モデルは、生成モデリングにおいて前例のない性能を達成した。 拡散モデルの潜伏符号の一般的な定式化は、GAN、VAE、正規化フローのより単純な(例えばガウス的な)潜伏空間とは対照的に、徐々に分解されたサンプルの列である。 本稿では,様々な拡散モデルの潜在空間のオルタナティブなガウス的定式化と,画像を潜在空間にマッピングする可逆 dpm-エンコーダを提供する。 我々の定式化は純粋に拡散モデルの定義に基づいているが、いくつかの興味深い結果を示す。 1) 実験的に, 関連ドメインに依存しない2つの拡散モデルから, 共通潜時空間が出現することが観察された。 そこで本研究では,dpmエンコーダを用いて画像から画像への変換を行うcyclediffusionを提案する。 さらに,CycleDiffusionをテキスト・画像拡散モデルに適用することにより,大規模なテキスト・画像拡散モデルをゼロショット画像・画像エディタとして利用できることを示す。 2) エネルギーモデルに基づくプラグイン・アンド・プレイの統一的定式化において, 遅延符号を制御することにより, 事前学習した拡散モデルとGANを導くことができる。 CLIPモデルと顔認識モデルを用いて,拡散モデルがGANよりも低密度のサブ集団や個人をより多くカバーできることを示す。

Diffusion models have achieved unprecedented performance in generative modeling. The commonly-adopted formulation of the latent code of diffusion models is a sequence of gradually denoised samples, as opposed to the simpler (e.g., Gaussian) latent space of GANs, VAEs, and normalizing flows. This paper provides an alternative, Gaussian formulation of the latent space of various diffusion models, as well as an invertible DPM-Encoder that maps images into the latent space. While our formulation is purely based on the definition of diffusion models, we demonstrate several intriguing consequences. (1) Empirically, we observe that a common latent space emerges from two diffusion models trained independently on related domains. In light of this finding, we propose CycleDiffusion, which uses DPM-Encoder for unpaired image-to-image translation. Furthermore, applying CycleDiffusion to text-to-image diffusion models, we show that large-scale text-to-image diffusion models can be used as zero-shot image-to-image editors. (2) One can guide pre-trained diffusion models and GANs by controlling the latent codes in a unified, plug-and-play formulation based on energy-based models. Using the CLIP model and a face recognition model as guidance, we demonstrate that diffusion models have better coverage of low-density sub-populations and individuals than GANs.
翻訳日:2022-10-12 15:28:04 公開日:2022-10-11
# 悪条件下における意味セグメンテーション--天気と夜間対応合成データに基づくアプローチ

Semantic Segmentation under Adverse Conditions: A Weather and Nighttime-aware Synthetic Data-based Approach ( http://arxiv.org/abs/2210.05626v1 )

ライセンス: Link先を確認
Abdulrahman Kerim, Felipe Chamone, Washington Ramos, Leandro Soriano Marcolino, Erickson R. Nascimento, Richard Jiang(参考訳) 最近のセマンティクスセグメンテーションモデルは、標準的な気象条件と十分な照明下ではうまく機能するが、悪天候や夜間に苦しむ。 このような条件下でのトレーニングデータの収集と注釈付けは費用がかかり、時間がかかり、エラーが発生しやすい。 通常、合成データは訓練データの量を増やすために実現可能なデータソースとして使用される。 しかし、合成データを直接使用するだけでは、通常の気象条件下でのモデルの性能を損なう可能性がある。 そこで本稿では,合成学習データを用いたドメイン適応のための新しいアーキテクチャを提案する。 我々は、マルチタスク学習でトレーニングされた天気と日時スーパーバイザーを使用して、DeepLabV3+にシンプルな強力な追加を提案する。これは、天気と夜間の両方を意識し、ACDCデータセットのmIoU精度を14ドルポイント改善し、CityscapesデータセットのmIoUのスコアを75ドル%以上維持する。 私たちのコードはhttps://github.com/lsmcolab/Semantic-Segmentation-under-Adverse-Conditionsで利用可能です。

Recent semantic segmentation models perform well under standard weather conditions and sufficient illumination but struggle with adverse weather conditions and nighttime. Collecting and annotating training data under these conditions is expensive, time-consuming, error-prone, and not always practical. Usually, synthetic data is used as a feasible data source to increase the amount of training data. However, just directly using synthetic data may actually harm the model's performance under normal weather conditions while getting only small gains in adverse situations. Therefore, we present a novel architecture specifically designed for using synthetic training data for domain adaptation. We propose a simple yet powerful addition to DeepLabV3+ by using weather and time-of-the-day supervisors trained with multi-task learning, making it both weather and nighttime aware, which improves its mIoU accuracy by $14$ percentage points on the ACDC dataset while maintaining a score of $75\%$ mIoU on the Cityscapes dataset. Our code is available at https://github.com/lsmcolab/Semantic-Segmentation-under-Adverse-Conditions.
翻訳日:2022-10-12 15:27:39 公開日:2022-10-11
# Suggestionsのシャッフルによる検索拡張翻訳のロバスト性の改善

Improving Robustness of Retrieval Augmented Translation via Shuffling of Suggestions ( http://arxiv.org/abs/2210.05059v1 )

ライセンス: Link先を確認
Cuong Hoang, Devendra Sachan, Prashant Mathur, Brian Thompson, Marcello Federico(参考訳) 最近のいくつかの研究では、翻訳メモリ(TM)から取得したファジィマッチを用いた推論時に翻訳を増強することにより、ニューラルネットワーク翻訳(NMT)の劇的な性能向上が報告されている。 しかしながら、これらの研究はすべて、テスト時に利用できるTMがテストセットに非常に関係しているという仮定の下で実行される。 既存の検索拡張翻訳手法では,テストセットにドメインミスマッチを付加したTMを用いることで,TMを全く使用していない場合に比べ,性能が著しく低下することを示した。 トレーニング中にファジィマッチングNMTシステムを公開するための簡単な手法を提案し、ドメインミスマッチによるTMの推論よりも耐障害性(最大5.8BLEUまで)が高いことを示す。 また、関連するtmsからの提案を受けると、モデルはまだベースラインと競合している。

Several recent studies have reported dramatic performance improvements in neural machine translation (NMT) by augmenting translation at inference time with fuzzy-matches retrieved from a translation memory (TM). However, these studies all operate under the assumption that the TMs available at test time are highly relevant to the testset. We demonstrate that for existing retrieval augmented translation methods, using a TM with a domain mismatch to the test set can result in substantially worse performance compared to not using a TM at all. We propose a simple method to expose fuzzy-match NMT systems during training and show that it results in a system that is much more tolerant (regaining up to 5.8 BLEU) to inference with TMs with domain mismatch. Also, the model is still competitive to the baseline when fed with suggestions from relevant TMs.
翻訳日:2022-10-12 15:26:27 公開日:2022-10-11
# 到達回避保証付き確率システムの学習制御方針

Learning Control Policies for Stochastic Systems with Reach-avoid Guarantees ( http://arxiv.org/abs/2210.05308v1 )

ライセンス: Link先を確認
{\DJ}or{\dj}e \v{Z}ikeli\'c, Mathias Lechner, Thomas A. Henzinger, Krishnendu Chatterjee(参考訳) 離散時間非線形確率力学系の学習制御系の形式的到達回避保証による問題について検討する。 本研究は, 耐久確率しきい値$p\in[0,1]$を無限時間地平線上で, 安定性と安全性の保証を組み合わせ, 一般化する形式的リーチアビド保証を提供するための最初の方法を示す。 本手法は機械学習文学の進歩を活かし,形式的証明をニューラルネットワークとして表現する。 特に,本研究で導入した新しい概念であるRASM(リーチ・アビド・スーパーマーチンゲール)の形で証明書を学習する。 我々のRASMは、決定論的システムに対するリアプノフ関数のレベルセットの確率的拡張と見なせるものに対する制約を課すことにより、到達性と回避を保証する。 提案手法では,スクラッチから制御ポリシを学習し,一定の制御ポリシに対するリーチアビド仕様の検証や,リーチアビド仕様を満たさない場合の事前学習ポリシの微調整など,いくつかの重要な課題を解決している。 提案手法を3ドルの確率的非線形強化学習タスクで検証する。

We study the problem of learning controllers for discrete-time non-linear stochastic dynamical systems with formal reach-avoid guarantees. This work presents the first method for providing formal reach-avoid guarantees, which combine and generalize stability and safety guarantees, with a tolerable probability threshold $p\in[0,1]$ over the infinite time horizon. Our method leverages advances in machine learning literature and it represents formal certificates as neural networks. In particular, we learn a certificate in the form of a reach-avoid supermartingale (RASM), a novel notion that we introduce in this work. Our RASMs provide reachability and avoidance guarantees by imposing constraints on what can be viewed as a stochastic extension of level sets of Lyapunov functions for deterministic systems. Our approach solves several important problems -- it can be used to learn a control policy from scratch, to verify a reach-avoid specification for a fixed control policy, or to fine-tune a pre-trained policy if it does not satisfy the reach-avoid specification. We validate our approach on $3$ stochastic non-linear reinforcement learning tasks.
翻訳日:2022-10-12 15:20:51 公開日:2022-10-11
# ヒューマン・レギュラライズド・強化学習と計画によるノープレス外交の習得

Mastering the Game of No-Press Diplomacy via Human-Regularized Reinforcement Learning and Planning ( http://arxiv.org/abs/2210.05492v1 )

ライセンス: Link先を確認
Anton Bakhtin, David J Wu, Adam Lerer, Jonathan Gray, Athul Paul Jacob, Gabriele Farina, Alexander H Miller, Noam Brown(参考訳) No-press Diplomacyは、協力と競争の両方を含む複雑な戦略ゲームであり、マルチエージェントAI研究のベンチマークとして機能している。 自己プレイ強化学習はチェス、ゴー、ポーカーといった純粋に敵対的なゲームで多くの成功を収めているが、自己プレイだけでは人間との協力を伴う領域で最適なパフォーマンスを達成するには不十分である。 我々はまず,人間の模倣政策に対する報酬最大化政策を定式化するdil-piklと呼ばれる計画アルゴリズムを導入することで,この欠点に対処する。 修正ユーティリティ関数の下での学習アルゴリズムとして,これを証明した。 次に,人間の遊びのモデルを提供するrl-dil-piklと呼ばれる自己遊び強化学習アルゴリズムにdil-piklを拡張できることを示し,同時にこの人間モデルによく反応するエージェントを訓練する。 我々はRL-DiL-piKLを用いてDiplodocusというエージェントを訓練した。 2人のディプロドカスのエージェントは、初心者から専門家までスキルレベルにまたがる62人の人間が参加する200試合のノープレス外交トーナメントで、他の2人よりも平均得点が高く、エロ格付けモデルでは1位と3位にランクインした。

No-press Diplomacy is a complex strategy game involving both cooperation and competition that has served as a benchmark for multi-agent AI research. While self-play reinforcement learning has resulted in numerous successes in purely adversarial games like chess, Go, and poker, self-play alone is insufficient for achieving optimal performance in domains involving cooperation with humans. We address this shortcoming by first introducing a planning algorithm we call DiL-piKL that regularizes a reward-maximizing policy toward a human imitation-learned policy. We prove that this is a no-regret learning algorithm under a modified utility function. We then show that DiL-piKL can be extended into a self-play reinforcement learning algorithm we call RL-DiL-piKL that provides a model of human play while simultaneously training an agent that responds well to this human model. We used RL-DiL-piKL to train an agent we name Diplodocus. In a 200-game no-press Diplomacy tournament involving 62 human participants spanning skill levels from beginner to expert, two Diplodocus agents both achieved a higher average score than all other participants who played more than two games, and ranked first and third according to an Elo ratings model.
翻訳日:2022-10-12 15:20:13 公開日:2022-10-11
# ソースコードに意味のある注意を抽出する:開発者とニューラルモデルコードの探索に関する実証的研究

Extracting Meaningful Attention on Source Code: An Empirical Study of Developer and Neural Model Code Exploration ( http://arxiv.org/abs/2210.05506v1 )

ライセンス: Link先を確認
Matteo Paltenghi, Rahul Pandita, Austin Z. Henley, Albert Ziegler(参考訳) OpenAI CodexやAlphaCodeのようなコードのニューラルモデルの有効性は、少なくとも人間のものと同等のモデルのコーディング能力を示唆している。 しかし、従来の研究はこれらのモデルを生の完成のためにのみ使用しており、モデル推論が注意重みの形で他の下流タスクにどのように使用できるかを無視している。 注意重みを無視することは、それらのモデルが問い合わせた時に計算したもののかなりの部分を破棄することを意味する。 この研究は、これらの大規模な事前訓練モデルに埋め込まれた知識から利益を得るために、コード探索をサポートするためにこれらの貴重な注意重みを後処理する複数のアプローチを比較します。 具体的には、大きくて一般公開されているトレーニング済みのニューラルモデルであるcodegenの注意信号が、開発者がコードについて同じ意味を持つ質問に答えるときに、どのようにコードを見たり、探ったりするかを比較します。 実験的な評価の核心は、92セッション以上のコードでセンスメイキングの質問に答える25人の開発者からなる、新しいアイトラッキングデータセットを収集し、手作業で注釈付けし、オープンソースにしました。 コード探索を行う開発者の基礎的真実に対する注意信号の5つの注意非依存的ヒューリスティックと10の注意に基づくポスト処理アプローチを実証的に評価した。 データセットの寄与と実験的な研究以外にも、神経モデルの注意メカニズムが伝統的に用いられてきたことを超えて、完全に分析的な解決策を備えた事前訓練されたモデルの注意信号の新しい実践的応用も紹介する。

The high effectiveness of neural models of code, such as OpenAI Codex and AlphaCode, suggests coding capabilities of models that are at least comparable to those of humans. However, previous work has only used these models for their raw completion, ignoring how the model reasoning, in the form of attention weights, can be used for other downstream tasks. Disregarding the attention weights means discarding a considerable portion of what those models compute when queried. To profit more from the knowledge embedded in these large pre-trained models, this work compares multiple approaches to post-process these valuable attention weights for supporting code exploration. Specifically, we compare to which extent the transformed attention signal of CodeGen, a large and publicly available pretrained neural model, agrees with how developers look at and explore code when each answering the same sense-making questions about code. At the core of our experimental evaluation, we collect, manually annotate, and open-source a novel eye-tracking dataset comprising 25 developers answering sense-making questions on code over 92 sessions. We empirically evaluate five attention-agnostic heuristics and ten attention-based post processing approaches of the attention signal against our ground truth of developers exploring code, including the novel concept of follow-up attention which exhibits the highest agreement. Beyond the dataset contribution and the empirical study, we also introduce a novel practical application of the attention signal of pre-trained models with completely analytical solutions, going beyond how neural models' attention mechanisms have traditionally been used.
翻訳日:2022-10-12 15:19:49 公開日:2022-10-11
# 知識駆動型新しい薬物推奨

Knowledge-Driven New Drug Recommendation ( http://arxiv.org/abs/2210.05572v1 )

ライセンス: Link先を確認
Zhenbang Wu, Huaxiu Yao, Zhe Su, David M Liebovitz, Lucas M Glass, James Zou, Chelsea Finn, Jimeng Sun(参考訳) 薬物推奨は、医師が患者の健康状態に基づいてパーソナライズされた薬を処方するのを助ける。 既存の薬物レコメンデーションソリューションは、監督されたマルチラベル分類設定を採用しており、多くの患者から十分な処方薬データしか扱わない。 しかし、新しく認可された薬物は、履歴的な処方データを持っておらず、既存の医薬品推奨法を活用できない。 これに対処するため、我々は新しい薬物推奨を数発学習問題として定式化する。 しかし、既存の数発学習アルゴリズムを直接適用することは、(1)疾患と薬物の複雑な関係と、(2)新しい薬物をまだ使用していない多くの偽陰性患者という2つの課題に直面している。 これらの課題に対処するため, EDGE を提案し, 少数の支援患者の処方薬データに制限のある新薬の推奨に迅速に適応する。 EDGEは、既存の薬物と新薬のギャップを埋めるために、薬物依存型多型数発学習者を維持している。 具体的には、EDGEは、この薬物オントロジーを利用して、新しい薬物と既存の薬物を同様の治療効果で結びつけ、オントロジーに基づく薬物表現を学習する。 このような薬物表現は、複雑な患者の健康状態をキャプチャする表現型の集合からなる表現型駆動の患者表現の計量空間をカスタマイズするために使用される。 最後に、EDGEは外部薬物放出知識ベースを用いて偽陰性監視信号を除去する。 EDGEを2つの実世界のデータセット、MIMIC-IV(Public EHR data)とプライベート産業クレームデータで評価する。 その結果, EDGEは, ROC-AUCスコアよりも7.3%向上していることがわかった。

Drug recommendation assists doctors in prescribing personalized medications to patients based on their health conditions. Existing drug recommendation solutions adopt the supervised multi-label classification setup and only work with existing drugs with sufficient prescription data from many patients. However, newly approved drugs do not have much historical prescription data and cannot leverage existing drug recommendation methods. To address this, we formulate the new drug recommendation as a few-shot learning problem. Yet, directly applying existing few-shot learning algorithms faces two challenges: (1) complex relations among diseases and drugs and (2) numerous false-negative patients who were eligible but did not yet use the new drugs. To tackle these challenges, we propose EDGE, which can quickly adapt to the recommendation for a new drug with limited prescription data from a few support patients. EDGE maintains a drug-dependent multi-phenotype few-shot learner to bridge the gap between existing and new drugs. Specifically, EDGE leverages the drug ontology to link new drugs to existing drugs with similar treatment effects and learns ontology-based drug representations. Such drug representations are used to customize the metric space of the phenotype-driven patient representations, which are composed of a set of phenotypes capturing complex patient health status. Lastly, EDGE eliminates the false-negative supervision signal using an external drug-disease knowledge base. We evaluate EDGE on two real-world datasets: the public EHR data (MIMIC-IV) and private industrial claims data. Results show that EDGE achieves 7.3% improvement on the ROC-AUC score over the best baseline.
翻訳日:2022-10-12 15:19:20 公開日:2022-10-11
# 欠落データモデルの因果的および反事実的視点

Causal and counterfactual views of missing data models ( http://arxiv.org/abs/2210.05558v1 )

ライセンス: Link先を確認
Razieh Nabi, Rohit Bhattacharya, Ilya Shpitser, James Robins(参考訳) 因果推論の根本的な問題は欠落データ問題であり、全ての実験単位に対して1つの潜在的な応答のみが観察されるため、2つの仮説的処理課題に対する応答の比較は困難である。 本稿では,データの欠如は因果推論の一形態である,というコンバース・ビューの意義について考察する。 観測された法則から完全なデータ法則を回復する失われたデータ問題は、(事実とは逆に)観測可能であった値に対応する反事実変数上の合同分布の同定としてどのように見なされるかを明確にする。 因果推論に類似した図面を描き, 疑似変数や観測変数上で定義されたグラフィカルモデルを用いて, 欠落データの識別仮定を符号化する方法を示す。 この観点からデータ識別の欠如に関する最近の知見を概観する。 その際、欠落データと因果識別理論の興味深い類似点と相違点に注目する。

It is often said that the fundamental problem of causal inference is a missing data problem -- the comparison of responses to two hypothetical treatment assignments is made difficult because for every experimental unit only one potential response is observed. In this paper, we consider the implications of the converse view: that missing data problems are a form of causal inference. We make explicit how the missing data problem of recovering the complete data law from the observed law can be viewed as identification of a joint distribution over counterfactual variables corresponding to values had we (possibly contrary to fact) been able to observe them. Drawing analogies with causal inference, we show how identification assumptions in missing data can be encoded in terms of graphical models defined over counterfactual and observed variables. We review recent results in missing data identification from this viewpoint. In doing so, we note interesting similarities and differences between missing data and causal identification theories.
翻訳日:2022-10-12 15:18:39 公開日:2022-10-11
# 生成前駆体を用いた不特定相検索

Misspecified Phase Retrieval with Generative Priors ( http://arxiv.org/abs/2210.05571v1 )

ライセンス: Link先を確認
Zhaoqiang Liu, Xinshao Wang, Jiulong Liu(参考訳) 本稿では,モデルミス種別と生成前の相検索について検討する。 特に、$n$次元の信号$\mathbf{x}$ を$m$ i.i.d. から推定し、ここで$f$ は未知の非線形リンク関数であり、$\mathbf{a} \in \mathbb{r}^n$ は標準ガウスベクトルである。 我々は、不特定位相探索問題に対応する$\mathrm{Cov}[y,(\mathbf{a}^T\mathbf{x})^2] \ne 0$を仮定する。 さらに、基礎となる信号 $\mathbf{x}$ は、有界な$k$-次元入力を持つ $l$-lipschitz 連続生成モデルの範囲にあると仮定される。 第1段階はスペクトル初期化の役割を担い、第2段階は第1段階によって生成された推定ベクトルを反復的に洗練する2段階アプローチを提案する。 どちらのステップも、適切な条件下では、$\sqrt{(k\log L)\cdot (\log m)/m}$の統計的速度を享受することを示す。 画像データセットの実験を行い、我々のアプローチがいくつかの競合する手法に匹敵する、あるいははるかに優れることを示す。

In this paper, we study phase retrieval under model misspecification and generative priors. In particular, we aim to estimate an $n$-dimensional signal $\mathbf{x}$ from $m$ i.i.d.~realizations of the single index model $y = f(\mathbf{a}^T\mathbf{x})$, where $f$ is an unknown and possibly random nonlinear link function and $\mathbf{a} \in \mathbb{R}^n$ is a standard Gaussian vector. We make the assumption $\mathrm{Cov}[y,(\mathbf{a}^T\mathbf{x})^2] \ne 0$, which corresponds to the misspecified phase retrieval problem. In addition, the underlying signal $\mathbf{x}$ is assumed to lie in the range of an $L$-Lipschitz continuous generative model with bounded $k$-dimensional inputs. We propose a two-step approach, for which the first step plays the role of spectral initialization and the second step refines the estimated vector produced by the first step iteratively. We show that both steps enjoy a statistical rate of order $\sqrt{(k\log L)\cdot (\log m)/m}$ under suitable conditions. Experiments on image datasets are performed to demonstrate that our approach performs on par with or even significantly outperforms several competing methods.
翻訳日:2022-10-12 15:18:17 公開日:2022-10-11
# マスク付きオートエンコーダを用いた自己教師モデルによるCTスキャン分類

Self-supervised Model Based on Masked Autoencoders Advance CT Scans Classification ( http://arxiv.org/abs/2210.05073v1 )

ライセンス: Link先を確認
Jiashu Xu, Sergii Stirenko(参考訳) 新型コロナウイルスの感染拡大は2019年から続いている。 したがって, 診断支援のため, 医用CTスキャンを分類することが特に重要である。 現在、教師付きディープラーニングアルゴリズムは、医療用ctスキャンの分類タスクで大きな成功を収めているが、医療用画像データセットはしばしば専門的な画像アノテーションを必要としており、多くの研究データセットは公開されていない。 この問題を解決するために,本論文は自己教師付き学習アルゴリズム MAE に触発され,ImageNet 上で事前学習した MAE モデルを用いて CT Scans データセット上で転送学習を行う。 この方法はモデルの一般化性能を改善し、小さなデータセットに過度に適合するリスクを回避する。 COVID-CTデータセットとSARS-CoV-2データセットに関する広範な実験を通じて、本論文におけるSSLベースの手法と、他の最先端の教師あり学習に基づく事前学習法との比較を行った。 実験結果から,本手法はモデルの一般化性能をより効果的に向上し,小規模データセットのオーバーフィットリスクを回避できることがわかった。 このモデルは、両方のテストデータセットで教師あり学習とほぼ同じ精度を達成した。 最後に, アブレーション実験は, 本手法の有効性とその有効性を十分に実証することを目的としている。

The coronavirus pandemic has been going on since the year 2019, and the trend is still not abating. Therefore, it is particularly important to classify medical CT scans to assist in medical diagnosis. At present, Supervised Deep Learning algorithms have made a great success in the classification task of medical CT scans, but medical image datasets often require professional image annotation, and many research datasets are not publicly available. To solve this problem, this paper is inspired by the self-supervised learning algorithm MAE and uses the MAE model pre-trained on ImageNet to perform transfer learning on CT Scans dataset. This method improves the generalization performance of the model and avoids the risk of overfitting on small datasets. Through extensive experiments on the COVID-CT dataset and the SARS-CoV-2 dataset, we compare the SSL-based method in this paper with other state-of-the-art supervised learning-based pretraining methods. Experimental results show that our method improves the generalization performance of the model more effectively and avoids the risk of overfitting on small datasets. The model achieved almost the same accuracy as supervised learning on both test datasets. Finally, ablation experiments aim to fully demonstrate the effectiveness of our method and how it works.
翻訳日:2022-10-12 15:17:38 公開日:2022-10-11
# 低資源環境下でのcovid-19関連ネパールつぶやき分類

COVID-19-related Nepali Tweets Classification in a Low Resource Setting ( http://arxiv.org/abs/2210.05425v1 )

ライセンス: Link先を確認
Rabin Adhikari, Safal Thapaliya, Nirajan Basnet, Samip Poudel, Aman Shakya, Bishesh Khanal(参考訳) 新型コロナウイルス(COVID-19)のパンデミックに関連するさまざまな話題について、世界中の何十億人もの人々が地元言語でソーシャルメディアプラットフォームを使用して意見を述べている。 世界保健機関(WHO)を含むいくつかの組織は、新型コロナウイルス関連のツイートをさまざまなトピックに分類する自動ソーシャルメディア分析ツールを開発した。 しかし、パンデミックと戦うツールは非常に少ない言語に限られており、いくつかの国では利益を享受できない。 多言語または低リソース言語固有のツールが開発されているが、ネパール語など、その範囲を広げる必要がある。 本稿では,ネパール語を用いたTwitterコミュニティ内で最も一般的な8つのトピックを特定し,そのキーワードを含むネパール語ツイートを自動的に収集するオンラインプラットフォームを構築し,8つのトピックに分類し,Webベースのダッシュボードでその結果を視覚化する。 ネパール語ツイート分類のための最先端多言語言語モデルと1つのジェネリック(mBERT)ともう1つのネパール語ファミリー固有モデル(MuRIL)の比較を行った。 以上の結果から,モデルの性能はデータサイズに依存し,MuRILはより大きなデータセットに対して良好であることがわかった。 アノテーション付きデータ、モデル、Webベースのダッシュボードはhttps://github.com/naamiinepal/covid-tweet-classificationでオープンソース化されている。

Billions of people across the globe have been using social media platforms in their local languages to voice their opinions about the various topics related to the COVID-19 pandemic. Several organizations, including the World Health Organization, have developed automated social media analysis tools that classify COVID-19-related tweets into various topics. However, these tools that help combat the pandemic are limited to very few languages, making several countries unable to take their benefit. While multi-lingual or low-resource language-specific tools are being developed, they still need to expand their coverage, such as for the Nepali language. In this paper, we identify the eight most common COVID-19 discussion topics among the Twitter community using the Nepali language, set up an online platform to automatically gather Nepali tweets containing the COVID-19-related keywords, classify the tweets into the eight topics, and visualize the results across the period in a web-based dashboard. We compare the performance of two state-of-the-art multi-lingual language models for Nepali tweet classification, one generic (mBERT) and the other Nepali language family-specific model (MuRIL). Our results show that the models' relative performance depends on the data size, with MuRIL doing better for a larger dataset. The annotated data, models, and the web-based dashboard are open-sourced at https://github.com/naamiinepal/covid-tweet-classification.
翻訳日:2022-10-12 14:56:35 公開日:2022-10-11
# 効率的な映像品質評価のための周辺代表サンプリング

Neighbourhood Representative Sampling for Efficient End-to-end Video Quality Assessment ( http://arxiv.org/abs/2210.05357v1 )

ライセンス: Link先を確認
Haoning Wu, Chaofeng Chen, Liang Liao, Jingwen Hou, Wenxiu Sun, Qiong Yan, Jinwei Gu, Weisi Lin(参考訳) 現実世界のビデオの解像度の増大は、深層ビデオ品質評価(VQA)の効率性と精度のジレンマを示す。 一方、オリジナルの解像度を維持することは、許容できない計算コストにつながる。 一方、再サイズ化や収穫といった既存の慣行は、細部や内容の喪失によってオリジナル映像の品質が変化し、品質評価に悪影響を及ぼす。 人間の視覚系における空間的時間的冗長性や視覚的符号化理論の研究から得られた知見から、近隣地域の品質情報は典型的に類似しており、VQAの効果的な品質に敏感な地区代表者方式を検討する動機となっている。 そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを得る。 フルレゾリューションビデオは、まず、予め設定された時空間格子を持つミニキューブに分割し、時間整合性代表をサンプリングして、VQAの入力として機能する断片を構成する。 さらに,フラグメントに特化して設計されたネットワークアーキテクチャであるFragment Attention Network (FANet) を設計する。 フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、現在の最先端と比較して1/1612 FLOPしか必要とせず、すべてのVQAベンチマークの既存のアプローチよりも大幅にパフォーマンスが向上した。 コード、モデル、デモはhttps://github.com/timothyhtimothy/FAST-VQA-and-FasterVQAで公開されている。

The increased resolution of real-world videos presents a dilemma between efficiency and accuracy for deep Video Quality Assessment (VQA). On the one hand, keeping the original resolution will lead to unacceptable computational costs. On the other hand, existing practices, such as resizing and cropping, will change the quality of original videos due to the loss of details and contents, and are therefore harmful to quality assessment. With the obtained insight from the study of spatial-temporal redundancy in the human visual system and visual coding theory, we observe that quality information around a neighbourhood is typically similar, motivating us to investigate an effective quality-sensitive neighbourhood representatives scheme for VQA. In this work, we propose a unified scheme, spatial-temporal grid mini-cube sampling (St-GMS) to get a novel type of sample, named fragments. Full-resolution videos are first divided into mini-cubes with preset spatial-temporal grids, then the temporal-aligned quality representatives are sampled to compose the fragments that serve as inputs for VQA. In addition, we design the Fragment Attention Network (FANet), a network architecture tailored specifically for fragments. With fragments and FANet, the proposed efficient end-to-end FAST-VQA and FasterVQA achieve significantly better performance than existing approaches on all VQA benchmarks while requiring only 1/1612 FLOPs compared to the current state-of-the-art. Codes, models and demos are available at https://github.com/timothyhtimothy/FAST-VQA-and-FasterVQA.
翻訳日:2022-10-12 14:56:13 公開日:2022-10-11
# HiFECap: 単分子的高忠実性と人的パフォーマンスの表現的キャプチャ

HiFECap: Monocular High-Fidelity and Expressive Capture of Human Performances ( http://arxiv.org/abs/2210.05665v1 )

ライセンス: Link先を確認
Yue Jiang, Marc Habermann, Vladislav Golyanik, Christian Theobalt(参考訳) 没入型体験を実現するためには,コンピュータグラフィックスやビジョンの多くの応用において,単眼的3次元ヒューマンパフォーマンスキャプチャが不可欠である。 しかし、人間の詳細な捕獲には、骨格のポーズ、衣服を含む動的表面、手のジェスチャー、表情など、複数の側面の追跡が必要である。 既存の単分子法ではこれら全ての成分の関節追跡ができない。 そこで本研究では,人間のポーズ,服装,表情,手などを単一のrgbビデオから同時にキャプチャする,ニューラルヒューマンパフォーマンスキャプチャ手法であるhifecapを提案する。 提案したネットワークアーキテクチャ,慎重に設計されたトレーニング戦略,テンプレートメッシュへのパラメトリック顔と手モデルの緊密な統合が,これらすべての個々の側面のキャプチャを可能にしていることを実証する。 重要な点として,本手法では,衣類のしわの変形など,従来のものよりも優れた高周波の細部も捉えている。 また、HiFECapは、人間のあらゆる側面を初めて捉えながら、最先端の人間のパフォーマンスキャプチャーアプローチよりも質的に、定量的に優れていることを示す。

Monocular 3D human performance capture is indispensable for many applications in computer graphics and vision for enabling immersive experiences. However, detailed capture of humans requires tracking of multiple aspects, including the skeletal pose, the dynamic surface, which includes clothing, hand gestures as well as facial expressions. No existing monocular method allows joint tracking of all these components. To this end, we propose HiFECap, a new neural human performance capture approach, which simultaneously captures human pose, clothing, facial expression, and hands just from a single RGB video. We demonstrate that our proposed network architecture, the carefully designed training strategy, and the tight integration of parametric face and hand models to a template mesh enable the capture of all these individual aspects. Importantly, our method also captures high-frequency details, such as deforming wrinkles on the clothes, better than the previous works. Furthermore, we show that HiFECap outperforms the state-of-the-art human performance capture approaches qualitatively and quantitatively while for the first time capturing all aspects of the human.
翻訳日:2022-10-12 14:55:44 公開日:2022-10-11
# 進化的ニューラルアーキテクチャ探索アルゴリズムの設計における待ち時間の解析

Analysis of Expected Hitting Time for Designing Evolutionary Neural Architecture Search Algorithms ( http://arxiv.org/abs/2210.05397v1 )

ライセンス: Link先を確認
Zeqiong Lv, Chao Qian, Gary G. Yen, and Yanan Sun(参考訳) 進化的計算に基づくニューラルネットワーク探索(ENAS)は、ディープニューラルネットワークのアーキテクチャ設計を自動化する一般的な手法である。 近年、様々なENASアルゴリズムが提案され、様々な実世界のアプリケーションで有望な性能を示している。 これらの画期的なアプリケーションとは対照的に、ENAS問題に対して期待される性能と許容可能な計算予算の両方を考慮し、合理的な実行時間(主に発生数、人口規模、進化演算子の影響)を割り当てる理論的ガイドラインは存在しない。 平均的な世代を示す期待ヒット時間(eht)は、enasアルゴリズムの実行時間を分析すると考えられている。 本稿では、共通構成、探索空間分割、遷移確率推定、ヒット時間解析を含むENASアルゴリズムのEHTを推定するための一般的なフレームワークを提案する。 提案したフレームワークを利用することで、異なる突然変異演算子を持ついわゆる$\lambda$+$\lambda$)-ENASアルゴリズムを検討し、EHT {0} の下限を推定する。 さらに,nas-bench-101アーキテクチャ探索問題に関する理論的結果について検討し,「ビットベースフェアミュータント」戦略による1ビット突然変異は「子孫ベースのフェアミュータント」戦略よりも時間が少なく,ビットワイズ突然変異演算子はq$-bitミュータント演算子よりも時間が少なくなることを示した。 我々の知る限り、これはENASの理論に焦点を当てた最初の研究であり、上記の観測は効率的なENASアルゴリズムの設計に大いに役立つだろう。

Evolutionary computation-based neural architecture search (ENAS) is a popular technique for automating architecture design of deep neural networks. In recent years, various ENAS algorithms have been proposed and shown promising performance on diverse real-world applications. In contrast to these groundbreaking applications, there is no theoretical guideline for assigning a reasonable running time (mainly affected by the generation number, population size, and evolution operator) given both the anticipated performance and acceptable computation budget on ENAS problems. The expected hitting time (EHT), which refers to the average generations, is considered to analyze the running time of ENAS algorithms. This paper proposes a general framework for estimating the EHT of ENAS algorithms, which includes common configuration, search space partition, transition probability estimation, and hitting time analysis. By exploiting the proposed framework, we consider the so-called ($\lambda$+$\lambda$)-ENAS algorithms with different mutation operators and manage to estimate the lower bounds of the EHT {which are critical for the algorithm to find the global optimum}. Furthermore, we study the theoretical results on the NAS-Bench-101 architecture searching problem, and the results show that the one-bit mutation with "bit-based fair mutation" strategy needs less time than the "offspring-based fair mutation" strategy, and the bitwise mutation operator needs less time than the $q$-bit mutation operator. To the best of our knowledge, this is the first work focusing on the theory of ENAS, and the above observation will be substantially helpful in designing efficient ENAS algorithms.
翻訳日:2022-10-12 14:55:26 公開日:2022-10-11
# 正規化検索と学習によるAI協調

Human-AI Coordination via Human-Regularized Search and Learning ( http://arxiv.org/abs/2210.05125v1 )

ライセンス: Link先を確認
Hengyuan Hu, David J Wu, Adam Lerer, Jakob Foerster, Noam Brown(参考訳) 我々は、人間の行動のデータセットを与えられた部分的に観察可能な完全に協調した環境で、人間とうまく協力するAIエージェントを作ることの問題を考察する。 人間のデータ規則化検索手法である piKL に着想を得た結果,ハナビベンチマークにおいて,実際の人間と協調する上で高い性能を実現する3段階のアルゴリズムを開発した。 まず、正規化探索アルゴリズムと行動クローニングを用いて、多様なスキルレベルをキャプチャするより良い人間モデルを作成する。 そして,政策正規化の考え方を強化学習に統合し,人間のモデルに対する人間的な最良の反応を訓練する。 最後に,人間と遊べる際の配布外問題に対処するために,テスト時のベストレスポンスポリシーの上に正規化検索を適用した。 本手法を2つの大規模実験で評価した。 まず,本手法は,アドホックチームで多種多様な人間プレイヤーのグループと対戦する際の,専門家よりも優れることを示す。 第2に,提案手法は,専門家が2つのエージェントと繰り返し演奏させることで,行動クローンのベースラインに対するバニラのベスト応答を上回ることを示す。

We consider the problem of making AI agents that collaborate well with humans in partially observable fully cooperative environments given datasets of human behavior. Inspired by piKL, a human-data-regularized search method that improves upon a behavioral cloning policy without diverging far away from it, we develop a three-step algorithm that achieve strong performance in coordinating with real humans in the Hanabi benchmark. We first use a regularized search algorithm and behavioral cloning to produce a better human model that captures diverse skill levels. Then, we integrate the policy regularization idea into reinforcement learning to train a human-like best response to the human model. Finally, we apply regularized search on top of the best response policy at test time to handle out-of-distribution challenges when playing with humans. We evaluate our method in two large scale experiments with humans. First, we show that our method outperforms experts when playing with a group of diverse human players in ad-hoc teams. Second, we show that our method beats a vanilla best response to behavioral cloning baseline by having experts play repeatedly with the two agents.
翻訳日:2022-10-12 14:53:59 公開日:2022-10-11
# diffroll:unsupervised pretraining機能を持つ拡散型生成音楽転写

DiffRoll: Diffusion-based Generative Music Transcription with Unsupervised Pretraining Capability ( http://arxiv.org/abs/2210.05148v1 )

ライセンス: Link先を確認
Kin Wai Cheuk, Ryosuke Sawata, Toshimitsu Uesaka, Naoki Murata, Naoya Takahashi, Shusuke Takahashi, Dorien Herremans, Yuki Mitsufuji(参考訳) 本稿では,自動音楽書き起こし(amt)に取り組むための新しい生成手法diffrollを提案する。 AMTを、スペクトログラムをピアノロールに変換するために訓練された識別タスクとして扱う代わりに、スペクトログラムに条件付けされた純粋ガウス雑音から現実的なピアノロールを生成するための条件生成タスクとみなす。 この新しいAMTの定式化により、DiffRollは曲の書き起こし、生成、そしてインペイントまでできる。 分類器のない性質のため、DiffRollはピアノロールのみが利用可能な未ペアデータセットでトレーニングすることもできる。 実験の結果, diffroll は17.9パーセンテージ (ppt.) で, 従来の手法より3.70ppt (3.70ppt) も優れていることがわかった。

In this paper we propose a novel generative approach, DiffRoll, to tackle automatic music transcription (AMT). Instead of treating AMT as a discriminative task in which the model is trained to convert spectrograms into piano rolls, we think of it as a conditional generative task where we train our model to generate realistic looking piano rolls from pure Gaussian noise conditioned on spectrograms. This new AMT formulation enables DiffRoll to transcribe, generate and even inpaint music. Due to the classifier-free nature, DiffRoll is also able to be trained on unpaired datasets where only piano rolls are available. Our experiments show that DiffRoll outperforms its discriminative counterpart by 17.9 percentage points (ppt.) and our ablation studies also indicate that it outperforms similar existing methods by 3.70 ppt.
翻訳日:2022-10-12 14:53:41 公開日:2022-10-11
# 対話型強化学習シナリオに対する広義のアドバイス

Broad-persistent Advice for Interactive Reinforcement Learning Scenarios ( http://arxiv.org/abs/2210.05187v1 )

ライセンス: Link先を確認
Francisco Cruz, Adam Bignold, Hung Son Nguyen, Richard Dazeley, Peter Vamplew(参考訳) 強化学習シナリオでインタラクティブなアドバイスを使用することで、自律エージェントの学習プロセスをスピードアップすることができる。 現在のインタラクティブ強化学習研究は、現在の状態にのみ関連するユーザアドバイスを提供するリアルタイムインタラクションに限られている。 さらに、各インタラクションが提供する情報は保持されず、単一の使用後にエージェントによって破棄される。 本稿では,提供された知識を保持・再利用する方法を提案する。 その結果, 広範囲なアドバイスを用いることで, エージェントの性能が向上し, トレーナーに必要なインタラクションの数も減少することがわかった。

The use of interactive advice in reinforcement learning scenarios allows for speeding up the learning process for autonomous agents. Current interactive reinforcement learning research has been limited to real-time interactions that offer relevant user advice to the current state only. Moreover, the information provided by each interaction is not retained and instead discarded by the agent after a single use. In this paper, we present a method for retaining and reusing provided knowledge, allowing trainers to give general advice relevant to more than just the current state. Results obtained show that the use of broad-persistent advice substantially improves the performance of the agent while reducing the number of interactions required for the trainer.
翻訳日:2022-10-12 14:53:25 公開日:2022-10-11
# 確率システムにおける領域安定化のための学習制御政策

Learning Control Policies for Region Stabilization in Stochastic Systems ( http://arxiv.org/abs/2210.05304v1 )

ライセンス: Link先を確認
Matin Ansaripour, Mathias Lechner, {\DJ}or{\dj}e \v{Z}ikeli\'c, Krishnendu Chatterjee, Thomas A. Henzinger(参考訳) 確率的システムにおいて,特定の安定化領域内を確率1ドルで安定化することを保証する制御ポリシーの学習問題を考察する。 このアプローチは,本研究で紹介するsrsm(stabilizing ranking supermartingales)という新しい概念に基づいている。 我々のsRSMは、制御ポリシに一度入力した時点で安定化領域を残せないシステムに限定して適用可能な、従来の研究で提案された手法の制限を克服する。 本稿では,ニューラルネットワークとして学習した確率-$1$の安定性を正式に証明する sRSM とともに制御ポリシを学習する学習手順を提案する。 実験により,我々の学習手順は,実際の安定政策を確実に学習できることを示した。

We consider the problem of learning control policies in stochastic systems which guarantee that the system stabilizes within some specified stabilization region with probability $1$. Our approach is based on the novel notion of stabilizing ranking supermartingales (sRSMs) that we introduce in this work. Our sRSMs overcome the limitation of methods proposed in previous works whose applicability is restricted to systems in which the stabilizing region cannot be left once entered under any control policy. We present a learning procedure that learns a control policy together with an sRSM that formally certifies probability-$1$ stability, both learned as neural networks. Our experimental evaluation shows that our learning procedure can successfully learn provably stabilizing policies in practice.
翻訳日:2022-10-12 14:53:16 公開日:2022-10-11
# ネットワーク感度と勾配を用いたディープラーニングモデル圧縮

Deep learning model compression using network sensitivity and gradients ( http://arxiv.org/abs/2210.05111v1 )

ライセンス: Link先を確認
Madhumitha Sakthi, Niranjan Yadla, Raj Pawate(参考訳) ディープラーニングモデルの圧縮は、ディープラーニングモデルのエッジデプロイメントの改善と重要な分野である。 モデルのサイズとそれに対応する電力消費量の増加を考えると、モデルの性能を著しく低下させることなく、モデルのサイズと計算要件を減少させることが不可欠である。 本稿では,非拘束条件と再訓練条件の両方に対するモデル圧縮アルゴリズムを提案する。 原データへのアクセスの欠如や必要な計算資源の欠如によりモデルの再学習が不可能な場合において,ネットワークパラメータの感度を用いた深層学習モデルの圧縮のためのBin & Quantアルゴリズムを提案する。 これにより、音声コマンドと制御モデルの13倍圧縮とDeepSpeech2モデルの7倍圧縮が得られる。 モデルの再トレーニングが可能であり,精度の低下に最大限の圧縮が必要となる場合,我々は新しい勾配重み付きk平均クラスタリングアルゴリズム(GWK)を提案する。 この方法は、与えられたクラスタにおける重要な重み値の同定に勾配を使い、その値に対してセントロイドを練り込み、感度の高い重みに重きを置く。 本手法は,製品量子化とEWGS[1]アルゴリズムを効果的に組み合わせて,量子化モデルのサブ-1ビット表現を行う。 resnet20、resnet56、mobilenetv2などのモデルでcifar10データセット上でgwkアルゴリズムをテストし、浮動小数点モデルに比べて絶対損失の2%未満で量子化されたモデル上で35倍の圧縮を示す。

Deep learning model compression is an improving and important field for the edge deployment of deep learning models. Given the increasing size of the models and their corresponding power consumption, it is vital to decrease the model size and compute requirement without a significant drop in the model's performance. In this paper, we present model compression algorithms for both non-retraining and retraining conditions. In the first case where retraining of the model is not feasible due to lack of access to the original data or absence of necessary compute resources while only having access to off-the-shelf models, we propose the Bin & Quant algorithm for compression of the deep learning models using the sensitivity of the network parameters. This results in 13x compression of the speech command and control model and 7x compression of the DeepSpeech2 models. In the second case when the models can be retrained and utmost compression is required for the negligible loss in accuracy, we propose our novel gradient-weighted k-means clustering algorithm (GWK). This method uses the gradients in identifying the important weight values in a given cluster and nudges the centroid towards those values, thereby giving importance to sensitive weights. Our method effectively combines product quantization with the EWGS[1] algorithm for sub-1-bit representation of the quantized models. We test our GWK algorithm on the CIFAR10 dataset across a range of models such as ResNet20, ResNet56, MobileNetv2 and show 35x compression on quantized models for less than 2% absolute loss in accuracy compared to the floating-point models.
翻訳日:2022-10-12 14:46:47 公開日:2022-10-11
# uav合成データセットを用いた地震後のコンピュータビジョン検査

Computer Vision based inspection on post-earthquake with UAV synthetic dataset ( http://arxiv.org/abs/2210.05282v1 )

ライセンス: Link先を確認
Mateusz \.Zarski, Bartosz W\'ojcik, Jaros{\l}aw A. Miszczak, Bart{\l}omiej Blachowski, Mariusz Ostrowski(参考訳) 地震の影響を受けた地域は広大で、しばしば完全に覆うことが困難であり、地震自体が突然の出来事であり、同時に複数の欠陥を引き起こし、従来の手作業による手法では効果的に追跡できない。 本稿では,1つのパイプラインで構成された深層学習モデルの相互接続集合を用いて,突発事象後の損傷検出問題に対する革新的なアプローチを示し,モデルのシームレスな修正と交換を可能にする。 パイプラインのモデルは合成データセットで訓練され、実際の状況下で無人航空機(UAV)でさらに評価され使用されるように適応された。 この記事に示す方法のおかげで、建物の欠陥を検知し、構成を部品に分割し、1回のドローン飛行に基づいて技術的条件を推定する精度が向上します。

The area affected by the earthquake is vast and often difficult to entirely cover, and the earthquake itself is a sudden event that causes multiple defects simultaneously, that cannot be effectively traced using traditional, manual methods. This article presents an innovative approach to the problem of detecting damage after sudden events by using an interconnected set of deep machine learning models organized in a single pipeline and allowing for easy modification and swapping models seamlessly. Models in the pipeline were trained with a synthetic dataset and were adapted to be further evaluated and used with unmanned aerial vehicles (UAVs) in real-world conditions. Thanks to the methods presented in the article, it is possible to obtain high accuracy in detecting buildings defects, segmenting constructions into their components and estimating their technical condition based on a single drone flight.
翻訳日:2022-10-12 14:46:20 公開日:2022-10-11
# 局所線形化による安定かつ効率的な対向訓練

Stable and Efficient Adversarial Training through Local Linearization ( http://arxiv.org/abs/2210.05373v1 )

ライセンス: Link先を確認
Zhuorong Li and Daiwei Yu(参考訳) 近年,強靭性と効率性を示す一段階の対人訓練が急増している。 しかし、「カタストロフィックオーバーフィッティング(catastrophic overfitting)」と呼ばれる現象が観察されており、これはシングルステップの防御でよく見られ、FGSM対人訓練の使用にフラストレーションを与える可能性がある。 そこで本研究では, 強靭なモデルと破滅的な過適合モデルとを区別した局所特性を活用して, 破滅的な過適合を緩和する新しい手法であるSEAT(Stable and Efficient Adversarial Training)を提案する。 提案したSEATは、SEAT損失を最小限に抑えることは、スムーズな経験的リスクをもたらすことが示され、堅牢性をもたらすという理論的な根拠がある。 実験により, 提案手法は破滅的オーバーフィッティングを緩和し, 有効防御性能に優れることを示した。 pgd-50攻撃下でのl_\infty$perturbations of radius 8/255$のcifar-10の1ステップの精度は51%に達し、3%の計算コストで10ステップ反復攻撃訓練の性能に匹敵する。

There has been a recent surge in single-step adversarial training as it shows robustness and efficiency. However, a phenomenon referred to as ``catastrophic overfitting" has been observed, which is prevalent in single-step defenses and may frustrate attempts to use FGSM adversarial training. To address this issue, we propose a novel method, Stable and Efficient Adversarial Training (SEAT), which mitigates catastrophic overfitting by harnessing on local properties that distinguish a robust model from that of a catastrophic overfitted model. The proposed SEAT has strong theoretical justifications, in that minimizing the SEAT loss can be shown to favour smooth empirical risk, thereby leading to robustness. Experimental results demonstrate that the proposed method successfully mitigates catastrophic overfitting, yielding superior performance amongst efficient defenses. Our single-step method can reach 51% robust accuracy for CIFAR-10 with $l_\infty$ perturbations of radius $8/255$ under a strong PGD-50 attack, matching the performance of a 10-step iterative adversarial training at merely 3% computational cost.
翻訳日:2022-10-12 14:46:05 公開日:2022-10-11
# ディープフェイク検出のための集約層

Aggregating Layers for Deepfake Detection ( http://arxiv.org/abs/2210.05478v1 )

ライセンス: Link先を確認
Amir Jevnisek, Shai Avidan(参考訳) 顔操作(ディープフェイク)や合成顔生成の人気が高まり、堅牢な偽造検出ソリューションを開発する必要性が高まっている。 この領域のほとんどの研究は、テストセットのDeepfakesがネットワークのトレーニングに使用されたのと同じDeepfakeアルゴリズムから来ていると仮定している。 これは物事の実践方法ではない。 代わりに、ネットワークが1つのDeepfakeアルゴリズムでトレーニングされ、別のアルゴリズムで生成されたDeepfakesでテストされる場合を検討します。 通常、監督されたテクニックは、深いバックボーンから視覚的特徴抽出のパイプラインに従い、次にバイナリ分類ヘッドが続く。 代わりに、アルゴリズムは1つのバックボーンネットワークのすべてのレイヤから抽出された機能を集約し、フェイクを検出する。 本稿では,2つの関心領域(ディープフェイク検出と合成画像検出)に対するアプローチを評価し,SOTAの結果が得られた。

The increasing popularity of facial manipulation (Deepfakes) and synthetic face creation raises the need to develop robust forgery detection solutions. Crucially, most work in this domain assume that the Deepfakes in the test set come from the same Deepfake algorithms that were used for training the network. This is not how things work in practice. Instead, we consider the case where the network is trained on one Deepfake algorithm, and tested on Deepfakes generated by another algorithm. Typically, supervised techniques follow a pipeline of visual feature extraction from a deep backbone, followed by a binary classification head. Instead, our algorithm aggregates features extracted across all layers of one backbone network to detect a fake. We evaluate our approach on two domains of interest - Deepfake detection and Synthetic image detection, and find that we achieve SOTA results.
翻訳日:2022-10-12 14:45:21 公開日:2022-10-11
# ディープニューラルネットワークは、何に自信を持って知覚するか? 高確信度クラス多様体の有効次元とその低信頼境界

What does a deep neural network confidently perceive? The effective dimension of high certainty class manifolds and their low confidence boundaries ( http://arxiv.org/abs/2210.05546v1 )

ライセンス: Link先を確認
Stanislav Fort, Ekin Dogus Cubuk, Surya Ganguli, Samuel S. Schoenholz(参考訳) ディープニューラルネットワーク分類器は、入力空間を各クラスの高い信頼領域に分割する。 これらのクラス多様体(CM)の幾何学は、モデルのパフォーマンスに広く研究され、密接に関連している。 我々はガウス幅の概念とゴードンの脱出定理を利用して、様々な次元のランダムなアフィン部分空間を持つトモグラフィ的交叉を通してCMとその境界の有効次元を正確に推定する。 CMの次元、一般化、ロバスト性の間のいくつかの関係を示す。 特にCM次元がどのように依存するかを考察する。 1)データセット。 2)アーキテクチャ(ResNet、WideResNet \& Vision Transformerを含む) 3)初期化。 4) 訓練の段階。 5) クラス。 6)ネットワーク幅。 7) アンサンブルサイズ, 8) ラベルランダム化。 9)トレーニングセットのサイズ、及び 10)データ破損に対する堅牢性。 高い性能とより堅牢なモデルが高次元CMを持つという図が一緒に現れる。 さらに,cmsの交差によるセンシングに関する新たな視点を提案する。 私たちのコードはhttps://github.com/stanislavfort/slice-dice-optimize/にあります。

Deep neural network classifiers partition input space into high confidence regions for each class. The geometry of these class manifolds (CMs) is widely studied and intimately related to model performance; for example, the margin depends on CM boundaries. We exploit the notions of Gaussian width and Gordon's escape theorem to tractably estimate the effective dimension of CMs and their boundaries through tomographic intersections with random affine subspaces of varying dimension. We show several connections between the dimension of CMs, generalization, and robustness. In particular we investigate how CM dimension depends on 1) the dataset, 2) architecture (including ResNet, WideResNet \& Vision Transformer), 3) initialization, 4) stage of training, 5) class, 6) network width, 7) ensemble size, 8) label randomization, 9) training set size, and 10) robustness to data corruption. Together a picture emerges that higher performing and more robust models have higher dimensional CMs. Moreover, we offer a new perspective on ensembling via intersections of CMs. Our code is at https://github.com/stanislavfort/slice-dice-optimize/
翻訳日:2022-10-12 14:45:05 公開日:2022-10-11
# Prompt Entailmentによるイベントコーディングパイプラインの再考

Rethinking the Event Coding Pipeline with Prompt Entailment ( http://arxiv.org/abs/2210.05257v1 )

ライセンス: Link先を確認
Cl\'ement Lefebvre, Niklas Stoehr(参考訳) 危機を監視するために、ニュースから政治イベントが抽出される。 大量の構造化されていない全文イベント記述は、ケースバイケース分析、特に低リソースの人道支援組織では管理できない。 これにより、イベントをイベントタイプ(イベントコーディングと呼ばれるタスク)に分類する需要が生じる。 一般的に、ドメインの専門家はイベントタイプのオントロジーを作り、アノテーションは大きなデータセットをラベル付けし、技術の専門家は教師付きコーディングシステムを開発する。 In this work, we propose PR-ENT, a new event coding approach that is more flexible and resource-efficient, while maintaining competitive accuracy: first, we extend an event description such as "Military injured two civilians'' by a template, e.g. "People were [Z]" and prompt a pre-trained (cloze) language model to fill the slot Z. Second, we select answer candidates Z* = {"injured'', "hurt"...} by treating the event description as premise and the filled templates as hypothesis in a textual entailment task. これによりドメインの専門家は、ラベル付きプロンプトとしてコードブックを直接ドラフトし、回答候補を解釈することができる。 このHuman-in-the-loopプロセスは、インタラクティブなコードブック設計ツールによってガイドされます。 イベント記述とプロンプトテンプレートの摂動,語彙制限,コンテキスト情報の削除など,いくつかの堅牢性チェックでpr-entを評価した。

For monitoring crises, political events are extracted from the news. The large amount of unstructured full-text event descriptions makes a case-by-case analysis unmanageable, particularly for low-resource humanitarian aid organizations. This creates a demand to classify events into event types, a task referred to as event coding. Typically, domain experts craft an event type ontology, annotators label a large dataset and technical experts develop a supervised coding system. In this work, we propose PR-ENT, a new event coding approach that is more flexible and resource-efficient, while maintaining competitive accuracy: first, we extend an event description such as "Military injured two civilians'' by a template, e.g. "People were [Z]" and prompt a pre-trained (cloze) language model to fill the slot Z. Second, we select answer candidates Z* = {"injured'', "hurt"...} by treating the event description as premise and the filled templates as hypothesis in a textual entailment task. This allows domain experts to draft the codebook directly as labeled prompts and interpretable answer candidates. This human-in-the-loop process is guided by our interactive codebook design tool. We evaluate PR-ENT in several robustness checks: perturbing the event description and prompt template, restricting the vocabulary and removing contextual information.
翻訳日:2022-10-12 14:44:48 公開日:2022-10-11
# データセットを組み合わせることでサンプル数を増やし、モデルフィッティングを改善する

Combining datasets to increase the number of samples and improve model fitting ( http://arxiv.org/abs/2210.05165v1 )

ライセンス: Link先を確認
Thu Nguyen, Rabindra Khadka, Nhan Phan, Anis Yazidi, P{\aa}l Halvorsen, Michael A. Riegler(参考訳) 多くのユースケースにおいて、異なるデータセットからの情報を組み合わせることは、特にデータセットの少なくとも1つからのサンプル数が小さい場合に、機械学習モデルのパフォーマンスを改善するために興味深い。 しかし、そのような場合の潜在的な課題は、データセット間で共通の機能があるにもかかわらず、これらのデータセットの特徴が同一ではないことである。 この課題に取り組むため,我々はインプテーションに基づくコンバインドデータセット(comimp)という新しいフレームワークを提案する。 さらに,データ集合を結合する前に次元を減らすために,pca-comimpの原理成分分析(principal component analysis,pca-comimp)を用いたcomimpの変種を提案する。 これはデータセット間で共有されていない多数の機能がある場合に有効である。 さらに、我々のフレームワークは、欠落したデータ、すなわち欠落したエントリを入力し、異なるデータセットを組み合わせることで、データ前処理にも利用できる。 提案手法のパワーとその使用可能性を説明するために, 回帰, 分類, 各種データタイプ(表型データ, 時系列データ, 組み合わせるべきデータセットが欠落している場合)について実験を行った。 また,この手法をトランスファーラーニングに応用し,モデルトレーニングの改善をさらに進める方法について検討した。 提案手法は,より小さなデータセット上での予測モデルの精度を大幅に向上できるため,転送学習に類似していることが示唆された。 さらに、小さなデータセットを組み合わせることで、パフォーマンスをかなりのマージンで向上させ、転送学習で使用する場合、さらに改善することができる。

For many use cases, combining information from different datasets can be of interest to improve a machine learning model's performance, especially when the number of samples from at least one of the datasets is small. However, a potential challenge in such cases is that the features from these datasets are not identical, even though there are some commonly shared features among the datasets. To tackle this challenge, we propose a novel framework called Combine datasets based on Imputation (ComImp). In addition, we propose a variant of ComImp that uses Principle Component Analysis (PCA), PCA-ComImp in order to reduce dimension before combining datasets. This is useful when the datasets have a large number of features that are not shared between them. Furthermore, our framework can also be utilized for data preprocessing by imputing missing data, i.e., filling in the missing entries while combining different datasets. To illustrate the power of the proposed methods and their potential usages, we conduct experiments for various tasks: regression, classification, and for different data types: tabular data, time series data, when the datasets to be combined have missing data. We also investigate how the devised methods can be used with transfer learning to provide even further model training improvement. Our results indicate that the proposed methods are somewhat similar to transfer learning in that the merge can significantly improve the accuracy of a prediction model on smaller datasets. In addition, the methods can boost performance by a significant margin when combining small datasets together and can provide extra improvement when being used with transfer learning.
翻訳日:2022-10-12 14:38:27 公開日:2022-10-11
# ステップサイズが大きいSGDはスパース特徴を学習する

SGD with large step sizes learns sparse features ( http://arxiv.org/abs/2210.05337v1 )

ライセンス: Link先を確認
Maksym Andriushchenko, Aditya Varre, Loucas Pillaud-Vivien, Nicolas Flammarion(参考訳) ニューラルネットワークのトレーニングにおいて,SGD(Stochastic Gradient Descent)のダイナミクスの重要な特徴を紹介する。 大きなステップサイズで 広く使われる経験的な観察をお見せします (i)イテレートを谷の一方から他方へジャンプさせ、損失安定を引き起こす (II)この安定化は、単純な予測子に対して暗黙的に偏見するバウンディング方向と直交する隠れ確率力学を誘導する。 さらに,より長いステップサイズでSGDを高く保ちつつも,暗黙の正規化がうまく機能し,疎らな表現を見出すことができることを示す。 特に、ステップサイズスケジュールに影響されたSGDトレーニングダイナミクスからのみ正規化効果が得られるように、明示的な正規化は使用されない。 したがって、これらの観測により、ステップサイズのスケジュールを通じて、勾配とノイズの両方がニューラルネットワークのロスランドスケープを通してSGDダイナミクスを一緒に駆動する方法が明らかにされる。 我々は、単純なニューラルネットワークモデルの研究と、確率過程に触発された質的議論を通じて、これらの発見を理論的に正当化する。 最後に、この分析により、ニューラルネットワークをトレーニングする際の一般的な実践と現象の観察に新たな光を当てることができる。 私たちの実験のコードはhttps://github.com/tml-epfl/sgd-sparse-featuresで利用可能です。

We showcase important features of the dynamics of the Stochastic Gradient Descent (SGD) in the training of neural networks. We present empirical observations that commonly used large step sizes (i) lead the iterates to jump from one side of a valley to the other causing loss stabilization, and (ii) this stabilization induces a hidden stochastic dynamics orthogonal to the bouncing directions that biases it implicitly toward simple predictors. Furthermore, we show empirically that the longer large step sizes keep SGD high in the loss landscape valleys, the better the implicit regularization can operate and find sparse representations. Notably, no explicit regularization is used so that the regularization effect comes solely from the SGD training dynamics influenced by the step size schedule. Therefore, these observations unveil how, through the step size schedules, both gradient and noise drive together the SGD dynamics through the loss landscape of neural networks. We justify these findings theoretically through the study of simple neural network models as well as qualitative arguments inspired from stochastic processes. Finally, this analysis allows to shed a new light on some common practice and observed phenomena when training neural networks. The code of our experiments is available at https://github.com/tml-epfl/sgd-sparse-features.
翻訳日:2022-10-12 14:38:00 公開日:2022-10-11
# UCBに基づくトップ2アルゴリズムの非漸近解析

Non-Asymptotic Analysis of a UCB-based Top Two Algorithm ( http://arxiv.org/abs/2210.05431v1 )

ライセンス: Link先を確認
Marc Jourdan, R\'emy Degenne(参考訳) バンディット識別のためのトップ2サンプリングルールは、2つの候補アーム、リーダー、挑戦者の中から次のアームを選択する方法である。 その単純さと優れた経験的パフォーマンスにより、近年は注目を集めている。 固定信頼の最良の腕の識別では、上位2つの方法の理論的保証は、エラーレベルが失われるときのみ漸近的に得られる。 任意の誤差レベルを保持できる上位2アルゴリズムのサンプル複雑性に関する最初の非漸近上限を導出する。 本分析では,後悔最小化アルゴリズムをリーダとして使用するのに十分な特性を強調する。 UCBアルゴリズムに満足しており、提案したUCBベースのTop Twoアルゴリズムは、漸近的でない保証と競合的な経験的性能を同時に享受する。

A Top Two sampling rule for bandit identification is a method which selects the next arm to sample from among two candidate arms, a leader and a challenger. Due to their simplicity and good empirical performance, they have received increased attention in recent years. For fixed-confidence best arm identification, theoretical guarantees for Top Two methods have only been obtained in the asymptotic regime, when the error level vanishes. We derive the first non-asymptotic upper bound on the expected sample complexity of a Top Two algorithm holding for any error level. Our analysis highlights sufficient properties for a regret minimization algorithm to be used as leader. They are satisfied by the UCB algorithm and our proposed UCB-based Top Two algorithm enjoys simultaneously non-asymptotic guarantees and competitive empirical performance.
翻訳日:2022-10-12 14:37:20 公開日:2022-10-11
# 観察されていない共同創設者の存在下での介入セットからの因果効果の排除

Disentangling Causal Effects from Sets of Interventions in the Presence of Unobserved Confounders ( http://arxiv.org/abs/2210.05446v1 )

ライセンス: Link先を確認
Olivier Jeunen, Ciar\'an M. Gilligan-Lee, Rishabh Mehrotra, Mounia Lalmas(参考訳) 因果的推論は介入の影響を理解することを可能にするため、多くの領域において因果的疑問に答える能力は不可欠である。 多くのアプリケーションでは、特定の時間に1つの介入しかできない。 しかし、いくつかの重要な領域では、複数の介入が同時に適用される。 共同した介入から単一介入の効果を分離することは難しい課題であり、特に同時に適用された介入が相互作用できるためである。 この問題は、治療と結果の両方に影響を与える観察されていない共同創設者によって、なおも難しくなっています。 我々は,観察データと介入セットから単一介入の効果を学習することを目指して,この問題に対処する。 これは一般には不可能であると証明するが、非線型連続的な構造因果モデルの下で、加法的、多変量ガウスノイズで達成可能であることを示す識別証明を提供する。 重要なことは、観察された共変体を組み込んで不均一な治療効果を学習する方法である。 識別可能性の証明に基づいて,異なるレジームからデータをプールし,組み合わせ確率を最大化することにより,因果モデルパラメータを学習するアルゴリズムを提案する。 本手法の有効性は,合成データと実世界データの両方において実証的に実証される。

The ability to answer causal questions is crucial in many domains, as causal inference allows one to understand the impact of interventions. In many applications, only a single intervention is possible at a given time. However, in some important areas, multiple interventions are concurrently applied. Disentangling the effects of single interventions from jointly applied interventions is a challenging task -- especially as simultaneously applied interventions can interact. This problem is made harder still by unobserved confounders, which influence both treatments and outcome. We address this challenge by aiming to learn the effect of a single-intervention from both observational data and sets of interventions. We prove that this is not generally possible, but provide identification proofs demonstrating that it can be achieved under non-linear continuous structural causal models with additive, multivariate Gaussian noise -- even when unobserved confounders are present. Importantly, we show how to incorporate observed covariates and learn heterogeneous treatment effects. Based on the identifiability proofs, we provide an algorithm that learns the causal model parameters by pooling data from different regimes and jointly maximizing the combined likelihood. The effectiveness of our method is empirically demonstrated on both synthetic and real-world data.
翻訳日:2022-10-12 14:37:07 公開日:2022-10-11
# GENIE:高次拡散解法

GENIE: Higher-Order Denoising Diffusion Solvers ( http://arxiv.org/abs/2210.05475v1 )

ライセンス: Link先を確認
Tim Dockhorn, Arash Vahdat, Karsten Kreis(参考訳) denoising diffusion models (ddms) は生成モデルの強力なクラスとして登場した。 前方拡散過程は緩やかにデータを摂動させ、深層モデルは徐々に消音するように学習する。 合成は学習モデルによって定義される微分方程式(DE)を解くのに等しい。 DEを解くには、高品質な生成のために遅い反復解法が必要である。 本研究では,高次解法(GENIE: Higher-Order Denoising Diffusion Solvers)を提案する。 我々の解法は摂動データ分布の高次勾配、すなわち高次スコア関数に依存している。 実際には,ジャコビアンベクター製品(JVP)のみが必要であり,自動微分による1次スコアネットワークから抽出することを提案する。 そして、jvpを別個のニューラルネットワークに蒸留することで、合成中に新しいスペンサーに必要な高次項を効率的に計算できるのです。 1階のスコアネットワークの上に、小さなヘッドをトレーニングするだけでよいのです。 我々は、複数の画像生成ベンチマーク上でGENIEを検証し、GENIEがすべての従来の解法よりも優れていることを示す。 ddmsで生成プロセスを根本的に変更する最近の手法とは異なり、われわれのジェネリーは真の生成deを解決し、符号化やガイドサンプリングのような応用も可能にしている。 プロジェクトページとコード: https://nv-tlabs.github.io/genie。

Denoising diffusion models (DDMs) have emerged as a powerful class of generative models. A forward diffusion process slowly perturbs the data, while a deep model learns to gradually denoise. Synthesis amounts to solving a differential equation (DE) defined by the learnt model. Solving the DE requires slow iterative solvers for high-quality generation. In this work, we propose Higher-Order Denoising Diffusion Solvers (GENIE): Based on truncated Taylor methods, we derive a novel higher-order solver that significantly accelerates synthesis. Our solver relies on higher-order gradients of the perturbed data distribution, that is, higher-order score functions. In practice, only Jacobian-vector products (JVPs) are required and we propose to extract them from the first-order score network via automatic differentiation. We then distill the JVPs into a separate neural network that allows us to efficiently compute the necessary higher-order terms for our novel sampler during synthesis. We only need to train a small additional head on top of the first-order score network. We validate GENIE on multiple image generation benchmarks and demonstrate that GENIE outperforms all previous solvers. Unlike recent methods that fundamentally alter the generation process in DDMs, our GENIE solves the true generative DE and still enables applications such as encoding and guided sampling. Project page and code: https://nv-tlabs.github.io/GENIE.
翻訳日:2022-10-12 14:36:50 公開日:2022-10-11
# 帯域フィードバックを用いた非定常確率最適化の適応性について

On Adaptivity in Non-stationary Stochastic Optimization With Bandit Feedback ( http://arxiv.org/abs/2210.05584v1 )

ライセンス: Link先を確認
Yining Wang(参考訳) 本稿では,バンディットフィードバックと動的後悔尺度を用いた非定常確率的最適化問題について検討する。 besbes et al. (2015) の独創的な研究は、集約関数の変化が前もって知られているとき、単純な再スタートアルゴリズムが最適な動的後悔を達成することを示している。 本研究では,wei と luo (2021) のマルチスケールサンプリングフレームワークと組み合わせることで,関数変更予算の事前知識を必要とせず,非定常確率的最適化における最適動的後悔を実現する,固定ステップサイズの確率的最適化アルゴリズムを考案した。 また,固定ベンチマークに対して高い確率で良好な後悔を達成できるアルゴリズムを動的ベンチマークに対して良好な後悔を達成できるアルゴリズムに自動的に変換できることが,幅広い帯域幅の凸最適化アルゴリズムに適用できることを示す。

In this paper we study the non-stationary stochastic optimization question with bandit feedback and dynamic regret measures. The seminal work of Besbes et al. (2015) shows that, when aggregated function changes is known a priori, a simple re-starting algorithm attains the optimal dynamic regret. In this work, we designed a stochastic optimization algorithm with fixed step sizes, which combined together with the multi-scale sampling framework of Wei and Luo (2021) achieves the optimal dynamic regret in non-stationary stochastic optimization without requiring prior knowledge of function change budget, thereby closes a question that has been open for a while. We also establish an additional result showing that any algorithm achieving good regret against stationary benchmarks with high probability could be automatically converted to an algorithm that achieves good regret against dynamic benchmarks, which is applicable to a wide class of bandit convex optimization algorithms.
翻訳日:2022-10-12 14:36:30 公開日:2022-10-11
# map:不確かさを欠く不確かさを認識できる視覚言語事前学習モデル

MAP: Modality-Agnostic Uncertainty-Aware Vision-Language Pre-training Model ( http://arxiv.org/abs/2210.05335v1 )

ライセンス: Link先を確認
Yatai Ji, Junjie Wang, Yuan Gong, Lin Zhang, Yanru Zhu, Hongfa Wang, Jiaxing Zhang, Tetsuya Sakai, Yujiu Yang(参考訳) マルチモーダルな意味理解は、しばしば不確実性を扱う必要があり、つまり、得られたメッセージは複数のターゲットを参照する傾向がある。 このような不確実性は、モーダル内およびモーダル間不確実性を含む我々の解釈に問題がある。 この不確実性のモデリング、特にラベルのないデータセットの事前トレーニングやタスク固有のダウンストリームタスクの微調整についてはほとんど研究されていない。 そこで本研究では,高次多様意味情報を用いて確率分布エンコーダ(pde)を介して,すべてのモダリティの表現を確率分布として投影する。 さらに、一般的な事前学習フレームワークと不確実性モデリングを統合し、分布ベース視覚言語コントラスト学習(D-VLC)、分布ベースマスケッド言語モデリング(D-MLM)、分布ベース画像テキストマッチング(D-ITM)といった適切な事前学習タスクを提案する。 微調整されたモデルは、画像テキスト検索、視覚的質問応答、視覚的推論、視覚的推論などの下流タスクに適応し、最先端の結果を達成する。 コードはhttps://github.com/iigroup/mapでリリースされる。

Multimodal semantic understanding often has to deal with uncertainty, which means the obtained message tends to refer to multiple targets. Such uncertainty is problematic for our interpretation, including intra-modal and inter-modal uncertainty. Little effort studies the modeling of this uncertainty, particularly in pre-training on unlabeled datasets and fine-tuning in task-specific downstream tasks. To address this, we project the representations of all modalities as probabilistic distributions via a Probability Distribution Encoder (PDE) by utilizing rich multimodal semantic information. Furthermore, we integrate uncertainty modeling with popular pre-training frameworks and propose suitable pre-training tasks: Distribution-based Vision-Language Contrastive learning (D-VLC), Distribution-based Masked Language Modeling (D-MLM), and Distribution-based Image-Text Matching (D-ITM). The fine-tuned models are applied to challenging downstream tasks, including image-text retrieval, visual question answering, visual reasoning, and visual entailment, and achieve state-of-the-art results. Code is released at https://github.com/IIGROUP/MAP.
翻訳日:2022-10-12 14:36:12 公開日:2022-10-11
# AIソリューションの説明可能性について:クロスドメイン調査

On Explainability in AI-Solutions: A Cross-Domain Survey ( http://arxiv.org/abs/2210.05173v1 )

ライセンス: Link先を確認
Simon Daniel Duque Anton, Daniel Schneider, Hans Dieter Schotten(参考訳) 人工知能(AI)は、述語論理アルゴリズムと人間の制御を上回る可能性をますます示している。 システムモデルを自動的に導出する際、AIアルゴリズムは人間には検出できないデータの関係を学習する。 しかし、この大きな強みは、AIの手法も疑わしい。 モデルが複雑になればなるほど、人間が意思決定の理由を理解するのが難しくなる。 現在、完全に自動化されたAIアルゴリズムは少ないため、すべてのアルゴリズムは人間のオペレーターに推論を提供する必要がある。 データエンジニアにとって、正確性や感度といった指標は十分です。 しかし、モデルが非専門家と相互作用している場合、説明は理解できなければならない。 この研究は、この話題に関する広範な文献調査を提供し、その大部分は、他の調査から成っている。 結論は、決定を説明する方法と、決定を説明する理由にマッピングされる。 説明可能性に関する理由や方法の多様性が,個々の説明フレームワークに結びつくことを示唆する。

Artificial Intelligence (AI) increasingly shows its potential to outperform predicate logic algorithms and human control alike. In automatically deriving a system model, AI algorithms learn relations in data that are not detectable for humans. This great strength, however, also makes use of AI methods dubious. The more complex a model, the more difficult it is for a human to understand the reasoning for the decisions. As currently, fully automated AI algorithms are sparse, every algorithm has to provide a reasoning for human operators. For data engineers, metrics such as accuracy and sensitivity are sufficient. However, if models are interacting with non-experts, explanations have to be understandable. This work provides an extensive survey of literature on this topic, which, to a large part, consists of other surveys. The findings are mapped to ways of explaining decisions and reasons for explaining decisions. It shows that the heterogeneity of reasons and methods of and for explainability lead to individual explanatory frameworks.
翻訳日:2022-10-12 14:29:41 公開日:2022-10-11
# ランダム初期化リカレントネットワークのスクランブル現象について

On Scrambling Phenomena for Randomly Initialized Recurrent Networks ( http://arxiv.org/abs/2210.05212v1 )

ライセンス: Link先を確認
Vaggos Chatziafratis, Ioannis Panageas, Clayton Sanford, Stelios Andrew Stavroulakis(参考訳) リカレントニューラルネットワーク(RNN)はしばしば複雑なダイナミクスを示し、初期化プロセスに対する感度はトレーニングを難しくする。 近年の研究では、爆発または消失する勾配が発生した場合に解析される現象に光を当てている。 本稿では,rnnとカオス力学系の形式的関係を指摘し,爆発勾配が示唆するものよりも,rnnに関する定性的に強い現象を証明した。 我々の主な結果は、標準初期化(He, Xavierなど)の下では、RNNはネットワークの幅の確率 \textit{constant} で \textit{Li-Yorke chaos} を示すことを証明している。 これは実験的に観察された『textit{scrambling} 』現象を説明するもので、近傍の点の軌道はいくつかの時間ステップの間は任意に近いように見えるが、将来の時間ステップでは遠く離れるだろう。 フィードフォワードとは対照的に、RNNのカオス的挙動は小さな摂動の下で維持され、その表現力はフィードバックの繰り返し回数において指数関数的であることを示す。 我々の技術的議論は、非線形のアクティベーションの下でランダムウォークとしてRNNを見ることに依存しており、秩序からカオスへの位相遷移につながるある種の高次固定点の存在を研究する。

Recurrent Neural Networks (RNNs) frequently exhibit complicated dynamics, and their sensitivity to the initialization process often renders them notoriously hard to train. Recent works have shed light on such phenomena analyzing when exploding or vanishing gradients may occur, either of which is detrimental for training dynamics. In this paper, we point to a formal connection between RNNs and chaotic dynamical systems and prove a qualitatively stronger phenomenon about RNNs than what exploding gradients seem to suggest. Our main result proves that under standard initialization (e.g., He, Xavier etc.), RNNs will exhibit \textit{Li-Yorke chaos} with \textit{constant} probability \textit{independent} of the network's width. This explains the experimentally observed phenomenon of \textit{scrambling}, under which trajectories of nearby points may appear to be arbitrarily close during some timesteps, yet will be far away in future timesteps. In stark contrast to their feedforward counterparts, we show that chaotic behavior in RNNs is preserved under small perturbations and that their expressive power remains exponential in the number of feedback iterations. Our technical arguments rely on viewing RNNs as random walks under non-linear activations, and studying the existence of certain types of higher-order fixed points called \textit{periodic points} that lead to phase transitions from order to chaos.
翻訳日:2022-10-12 14:29:29 公開日:2022-10-11
# グラフトランスフォーマによる組立シーケンスの計画

Planning Assembly Sequence with Graph Transformer ( http://arxiv.org/abs/2210.05236v1 )

ライセンス: Link先を確認
Lin Ma, Jiangtao Gong, Hao Xu, Hao Chen, Hao Zhao, Wenbing Huang and Guyue Zhou(参考訳) アセンブリシーケンス計画(asp)は現代の製造業にとって不可欠なプロセスであり、np完全であることが証明されているため、この分野の研究者にとって効果的で効率的なソリューションが課題となっている。 本稿では,自己コンパイル型 ASP データベース上で学習,実証を行う ASP 問題のためのグラフ変換器ベースのフレームワークを提案する。 aspデータベースにはlegoモデルの自己収集セットが含まれている。 LEGOモデルは、元の構造と特徴抽出の徹底的な解析の後、異種グラフ構造に抽象化される。 ground truthアセンブリシーケンスは最初にブルートフォースサーチによって生成され、その後手動で人間の合理的な習慣に合わせて調整される。 この自己収集型aspデータセットに基づいて,集合計画における潜在ルールを学習するためのヘテロジニアスグラフ変換フレームワークを提案する。 提案したフレームワークを一連の実験で評価した。 その結果、予測真理列と基底真理列の類似性は、Kendallの$\tau$で測定された中間相関である0.44に達することを示した。 一方、ノードの特徴とエッジの特徴の異なる影響を比較し、さらなる研究のためのベンチマークとして、実現可能で合理的なアセンブリシーケンスを生成した。 私たちのデータセットとコードはhttps://github.com/AIR-DISCOVER/ICRA\_ASP.orgで公開されています。

Assembly sequence planning (ASP) is the essential process for modern manufacturing, proven to be NP-complete thus its effective and efficient solution has been a challenge for researchers in the field. In this paper, we present a graph-transformer based framework for the ASP problem which is trained and demonstrated on a self-collected ASP database. The ASP database contains a self-collected set of LEGO models. The LEGO model is abstracted to a heterogeneous graph structure after a thorough analysis of the original structure and feature extraction. The ground truth assembly sequence is first generated by brute-force search and then adjusted manually to in line with human rational habits. Based on this self-collected ASP dataset, we propose a heterogeneous graph-transformer framework to learn the latent rules for assembly planning. We evaluated the proposed framework in a series of experiment. The results show that the similarity of the predicted and ground truth sequences can reach 0.44, a medium correlation measured by Kendall's $\tau$. Meanwhile, we compared the different effects of node features and edge features and generated a feasible and reasonable assembly sequence as a benchmark for further research. Our data set and code is available on https://github.com/AIR-DISCOVER/ICRA\_ASP.
翻訳日:2022-10-12 14:28:59 公開日:2022-10-11
# 大規模幾何学学習のための内在次元

Intrinsic Dimension for Large-Scale Geometric Learning ( http://arxiv.org/abs/2210.05301v1 )

ライセンス: Link先を確認
Maximilian Stubbemann, Tom Hanika, Friedrich Martin Schneider(参考訳) 次元の概念はデータの複雑さを理解するために不可欠である。 データセットの次元を決定するためのナイーブなアプローチは、属性の数に基づいています。 より洗練された手法は、データポイント間の距離など、より複雑な特徴関数を用いる内在次元(ID)の概念を導出する。 しかし、これらのアプローチの多くは経験的観察に基づいており、現代のデータセットの幾何学的特徴に対応できず、公理的な基礎を欠いている。 別のアプローチがV. Pestovによって提案され、彼は内在次元を公理的に測度現象の数学的集中と結びつけた。 これを計算する最初の方法と関連するidの概念は、大規模な実世界のデータセットでは計算が難しかった。 本研究は,その公理的ID関数を決定するための計算可能な手法を導出する。 さらに、複雑なデータの幾何学的性質がモデリングにおいてどのように説明されるかを示す。 特に、グラフデータのような近隣情報をidに組み込むための原則的な方法を提案する。 これにより,共通グラフ学習手順に対する新たな洞察が得られます。

The concept of dimension is essential to grasp the complexity of data. A naive approach to determine the dimension of a dataset is based on the number of attributes. More sophisticated methods derive a notion of intrinsic dimension (ID) that employs more complex feature functions, e.g., distances between data points. Yet, many of these approaches are based on empirical observations, cannot cope with the geometric character of contemporary datasets, and do lack an axiomatic foundation. A different approach was proposed by V. Pestov, who links the intrinsic dimension axiomatically to the mathematical concentration of measure phenomenon. First methods to compute this and related notions for ID were computationally intractable for large-scale real-world datasets. In the present work, we derive a computationally feasible method for determining said axiomatic ID functions. Moreover, we demonstrate how the geometric properties of complex data are accounted for in our modeling. In particular, we propose a principle way to incorporate neighborhood information, as in graph data, into the ID. This allows for new insights into common graph learning procedures, which we illustrate by experiments on the Open Graph Benchmark.
翻訳日:2022-10-12 14:28:39 公開日:2022-10-11
# LECO:タスク固有のリワードのための学習可能なエピソードカウント

LECO: Learnable Episodic Count for Task-Specific Intrinsic Reward ( http://arxiv.org/abs/2210.05409v1 )

ライセンス: Link先を確認
Daejin Jo, Sungwoong Kim, Daniel Wontae Nam, Taehwan Kwon, Seungeun Rho, Jongmin Kim, Donghoon Lee(参考訳) エピソードカウントは、単純だが効果的な本質的なモチベーションを設計するために広く使われてきた。 しかし、高次元状態空間と長時間にわたるエピソードカウントの使用は、徹底的な状態圧縮と高速ハッシュを必要とするため、そのような硬く複雑な探査環境での厳密な利用を妨げている。 さらに、エピソード数におけるタスク非関連観測からの干渉は、その本質的なモチベーションがタスク関連の重要な状態の変化を見逃すことを招きかねない。 この問題を解決するため,本稿では,難解な探索問題においてタスク固有の内在的な報酬として効率的に機能する,学習可能なハッシュベースのエピソディックカウントを提案する。 特に、提案する本質的報酬は、前者がベクトル量子化された変分オートエンコーダを用いて離散状態符号を自動的に取得し、後者がモジュレータを学習してタスク固有の特有報酬を最適化してエピソドイノリティを規制する、エピソドイノリティとタスク固有の変調からなる。 提案したLECOは、強化学習中の探索から搾取への自動移行を可能にする。 従来の探査手法と対照的にLECOは,MiniGrid や DMLab の環境において,探索の難しさを解消し,また大規模状態空間にも拡張可能であることを示す。

Episodic count has been widely used to design a simple yet effective intrinsic motivation for reinforcement learning with a sparse reward. However, the use of episodic count in a high-dimensional state space as well as over a long episode time requires a thorough state compression and fast hashing, which hinders rigorous exploitation of it in such hard and complex exploration environments. Moreover, the interference from task-irrelevant observations in the episodic count may cause its intrinsic motivation to overlook task-related important changes of states, and the novelty in an episodic manner can lead to repeatedly revisit the familiar states across episodes. In order to resolve these issues, in this paper, we propose a learnable hash-based episodic count, which we name LECO, that efficiently performs as a task-specific intrinsic reward in hard exploration problems. In particular, the proposed intrinsic reward consists of the episodic novelty and the task-specific modulation where the former employs a vector quantized variational autoencoder to automatically obtain the discrete state codes for fast counting while the latter regulates the episodic novelty by learning a modulator to optimize the task-specific extrinsic reward. The proposed LECO specifically enables the automatic transition from exploration to exploitation during reinforcement learning. We experimentally show that in contrast to the previous exploration methods LECO successfully solves hard exploration problems and also scales to large state spaces through the most difficult tasks in MiniGrid and DMLab environments.
翻訳日:2022-10-12 14:28:08 公開日:2022-10-11
# 政策最適化の発見

Discovered Policy Optimisation ( http://arxiv.org/abs/2210.05639v1 )

ライセンス: Link先を確認
Chris Lu, Jakub Grudzien Kuba, Alistair Letcher, Luke Metz, Christian Schroeder de Witt, Jakob Foerster(参考訳) この10年は強化学習(RL)に革命的であり、複雑な意思決定と制御の問題を解決することができる。 成功したRL法は、数学的導出、直観、実験を用いて手作りされた。 このアプローチには大きな欠点があり、効率的でロバストなメソッドを発見するためのプロトコルではなく、rl問題に対する特定の解決策をもたらす。 対照的に、メタ学習の新興分野は、自動機械学習メソッド最適化のためのツールキットを提供し、この欠陥に対処する可能性がある。 しかし、最小の事前構造を持つRLアルゴリズムを発見しようとするブラックボックスアプローチは、今のところ成功していない。 PPOのようなRLアルゴリズムを含むミラーラーニングは、潜在的なフレームワークを提供する。 本稿では,「ドリフト」関数をメタラーニングすることでミラーラーニング空間を探索する。 我々は、その結果を学習政策最適化(LPO)と呼ぶ。 LPOを解析することにより、新しい閉形式RLアルゴリズムであるDiscovered Policy Optimisation (DPO)を定式化するポリシー最適化に関する独自の洞察を得る。 ブラックス環境における実験により,LPOとDPOの最先端性能が確認できた。

The last decade has been revolutionary for reinforcement learning (RL) - it can now solve complex decision and control problems. Successful RL methods were handcrafted using mathematical derivations, intuition, and experimentation. This approach has a major shortcoming: It results in specific solutions to the RL problem, rather than a protocol for discovering efficient and robust methods. In contrast, the emerging field of meta-learning provides a toolkit for automatic machine learning method optimisation, potentially addressing this flaw. However, black-box approaches which attempt to discover RL algorithms with minimal prior structure have thus far not been successful. Mirror Learning, which includes RL algorithms, such as PPO, offers a potential framework. In this paper we explore the Mirror Learning space by meta-learning a "drift" function. We refer to the result as Learnt Policy Optimisation (LPO). By analysing LPO we gain original insights into policy optimisation which we use to formulate a novel, closed-form RL algorithm, Discovered Policy Optimisation (DPO). Our experiments in Brax environments confirm state-of-the-art performance of LPO and DPO, as well as their transfer to unseen settings.
翻訳日:2022-10-12 14:27:37 公開日:2022-10-11
# InQMAD: インクリメンタル量子計測異常検出

InQMAD: Incremental Quantum Measurement Anomaly Detection ( http://arxiv.org/abs/2210.05061v1 )

ライセンス: Link先を確認
Joseph Gallego-Mejia and Oscar Bustos-Brinez and Fabio Gonzalez(参考訳) ストリーム異常検出(Streaming Anomaly detection)とは、データストリーム内の異常データサンプルを検出する問題を指す。 この問題は,概念ドリフトや継続的学習など,古典的および深い異常検出手法が対応できないという課題を提起する。 最先端のフロー異常検出手法は、移動平均のように高周波の値を制限することができず、シームレスな外れ値を取り除き、エンドツーエンドのディープラーニングアーキテクチャでトレーニングできないハッシュ関数や近隣の関数を使って固定メモリに依存している。 本稿では,ランダムフーリエ特徴と指数的移動平均密度と見なすことのできる量子計測と密度行列のメカニズムに基づく連続密度推定を行う新しい漸進的異常検出法を提案する。 無限のデータを処理でき、更新の複雑さは一定の$o(1)$である。 12のストリーミングデータセットを用いた12の最先端ストリーミング異常検出アルゴリズムに対する体系的評価を行った。

Streaming anomaly detection refers to the problem of detecting anomalous data samples in streams of data. This problem poses challenges that classical and deep anomaly detection methods are not designed to cope with, such as conceptual drift and continuous learning. State-of-the-art flow anomaly detection methods rely on fixed memory using hash functions or nearest neighbors that may not be able to constrain high-frequency values as in a moving average or remove seamless outliers and cannot be trained in an end-to-end deep learning architecture. We present a new incremental anomaly detection method that performs continuous density estimation based on random Fourier features and the mechanism of quantum measurements and density matrices that can be viewed as an exponential moving average density. It can process potentially endless data and its update complexity is constant $O(1)$. A systematic evaluation against 12 state-of-the-art streaming anomaly detection algorithms using 12 streaming datasets is presented.
翻訳日:2022-10-12 14:26:32 公開日:2022-10-11
# 音声視覚イベントの局所化における映像レベルのセマンティック一貫性の活用

Leveraging the Video-level Semantic Consistency of Event for Audio-visual Event Localization ( http://arxiv.org/abs/2210.05242v1 )

ライセンス: Link先を確認
Yuanyuan Jiang, Jianqin Yin, Yonghao Dang(参考訳) 近年,視聴覚イベントのローカライゼーションが注目されている。 既存の方法のほとんどは、ビデオ全体から分離した各ビデオセグメントを独立してエンコードし、分類することに限定されることが多い(イベントのセグメントレベルの表現と見なすこともできる)。 しかし、同じフルビデオ内のイベントのセマンティックな一貫性を無視する(これはイベントの動画レベルの表現と見なすことができる)。 本稿では,既存の手法とは対照的に,avタスクのための映像レベルの意味的一貫性ガイダンスネットワークを提案する。 具体的には,イベントの映像レベルのセマンティクス一貫性を探索するイベントセマンティクス一貫性モデリング(escm)モジュールを提案する。 クロスモーダルイベント表現抽出器(CERE)とイントラモーダルセマンティック一貫性増強器(ISCE)の2つのコンポーネントから構成される。 CEREは、音声および視覚モジュールを含むビデオレベルでのイベントセマンティック表現を得るために提案される。 さらに、ISCEは、ビデオレベルのイベントセマンティック表現を事前知識として捉え、各モード内のイベントの意味的連続性に焦点を合わせる。 さらに,ネットワークが無関係なセグメントペアをフィルタする新たな負のペアフィルタ損失と,弱い教師付き設定下でのイベントのカテゴリ間のギャップをさらに増加させるための新しい平滑な損失を提案する。 我々は,公開avデータセット上で広範囲な実験を行い,完全かつ弱い教師付き設定において最先端の手法よりも優れており,提案手法の有効性を検証している。

Audio-visual event localization has attracted much attention in recent years. Most existing methods are often limited to independently encoding and classifying each video segment separated from the full video (which can be regarded as the segment-level representations of events). However, they ignore the semantic consistency of the event within the same full video (which can be considered as the video-level representations of events). In contrast to existing methods, we propose a novel video-level semantic consistency guidance network for the AVE task. Specifically, we propose an event semantic consistency modeling (ESCM) module to explore the video-level semantic consistency of events. It consists of two components: cross-modal event representation extractor (CERE) and intra-modal semantic consistency enhancer (ISCE). CERE is proposed to obtain the event semantic representation at the video level including, audio and visual modules. Furthermore, ISCE takes the video-level event semantic representation as the prior knowledge to guide the model to focus on the semantic continuity of the event within each modality. Moreover, we propose a new negative pair filter loss to encourage the network to filter out the irrelevant segment pairs and a new smooth loss to further increase the gap between different categories of events under the weakly-supervised setting. We perform extensive experiments on the public AVE dataset and outperform the state-of-the-art methods in both fully and weakly supervised settings, thus verifying the effectiveness of our method.
翻訳日:2022-10-12 14:20:36 公開日:2022-10-11
# ソースレスクロスドメイン顔認識のためのクラスタレベルの擬似ラベリング

Cluster-level pseudo-labelling for source-free cross-domain facial expression recognition ( http://arxiv.org/abs/2210.05246v1 )

ライセンス: Link先を確認
Alessandro Conti, Paolo Rota, Yiming Wang and Elisa Ricci(参考訳) 視覚データから感情を自動的に理解することは、人間の行動を理解するための基本的なタスクである。 Facial Expression Recognition (FER)のために考案されたモデルは、多くのデータセットで優れたパフォーマンスを示してきたが、ドメインシフトによって異なるデータセットでトレーニングされテストされた場合、しばしば深刻なパフォーマンス劣化に悩まされる。 さらに,顔画像は高感度なデータと見なされるため,大規模データセットのモデルトレーニングへのアクセシビリティは否定されることが多い。 本研究では,fer に対する最初の Source-Free Unsupervised Domain Adaptation (SFUDA) 手法を提案する。 本手法は,自己教師付き事前学習を活用し,対象データから優れた特徴表現を学習し,クラスタ内統計量を考慮した新しい頑健なクラスタレベルの擬似ラベル戦略を提案する。 提案手法の有効性を4つの適応方式で検証し,既存のSFUDA法をFERに適用した場合に常に上回っており,UDA設定におけるFER法と同等であることを示す。

Automatically understanding emotions from visual data is a fundamental task for human behaviour understanding. While models devised for Facial Expression Recognition (FER) have demonstrated excellent performances on many datasets, they often suffer from severe performance degradation when trained and tested on different datasets due to domain shift. In addition, as face images are considered highly sensitive data, the accessibility to large-scale datasets for model training is often denied. In this work, we tackle the above-mentioned problems by proposing the first Source-Free Unsupervised Domain Adaptation (SFUDA) method for FER. Our method exploits self-supervised pretraining to learn good feature representations from the target data and proposes a novel and robust cluster-level pseudo-labelling strategy that accounts for in-cluster statistics. We validate the effectiveness of our method in four adaptation setups, proving that it consistently outperforms existing SFUDA methods when applied to FER, and is on par with methods addressing FER in the UDA setting.
翻訳日:2022-10-12 14:20:12 公開日:2022-10-11
# 低データレジームのための完全連結層の有効性

The Unreasonable Effectiveness of Fully-Connected Layers for Low-Data Regimes ( http://arxiv.org/abs/2210.05657v1 )

ライセンス: Link先を確認
Peter Kocsis, Peter S\'uken\'ik, Guillem Bras\'o, Matthias Nie{\ss}ner, Laura Leal-Taix\'e, Ismail Elezi(参考訳) 畳み込みニューラルネットワークは、近年、MLPベースのアーキテクチャのトランスフォーマーが競争力を発揮し始めるまで、多くのコンピュータビジョンタスクを解決する標準であった。 これらのアーキテクチャは通常、膨大な量の重みを持ち、巨大なデータセットでトレーニングする必要がある。 本稿では,少量データからの一般化を改善するための,単純かつ効果的なフレームワークを提案する。 我々は、cnnを完全接続(fc)層で拡張し、このアーキテクチャ変更が低データレジームに与える影響を示す。 さらに, 運転時に余分なfc層を利用するが, 試験中はそれを回避できるオンライン共同知識蒸留法を提案する。 これにより、テスト時に重みを増加させることなく、cnnベースのモデルの一般化を改善できます。 我々は、広範囲のネットワークバックボーンと、教師付き学習とアクティブ学習に関する標準データセットの分類実験を行う。 提案実験は,全接続層を含まないネットワークを著しく上回り,推論中に余分なパラメータを加えることなく,教師付き設定において最大16\%の検証精度が向上した。

Convolutional neural networks were the standard for solving many computer vision tasks until recently, when Transformers of MLP-based architectures have started to show competitive performance. These architectures typically have a vast number of weights and need to be trained on massive datasets; hence, they are not suitable for their use in low-data regimes. In this work, we propose a simple yet effective framework to improve generalization from small amounts of data. We augment modern CNNs with fully-connected (FC) layers and show the massive impact this architectural change has in low-data regimes. We further present an online joint knowledge-distillation method to utilize the extra FC layers at train time but avoid them during test time. This allows us to improve the generalization of a CNN-based model without any increase in the number of weights at test time. We perform classification experiments for a large range of network backbones and several standard datasets on supervised learning and active learning. Our experiments significantly outperform the networks without fully-connected layers, reaching a relative improvement of up to $16\%$ validation accuracy in the supervised setting without adding any extra parameters during inference.
翻訳日:2022-10-12 14:19:53 公開日:2022-10-11
# コード変換機械翻訳のチェックと方法

Checks and Strategies for Enabling Code-Switched Machine Translation ( http://arxiv.org/abs/2210.05096v1 )

ライセンス: Link先を確認
Thamme Gowda, Mozhdeh Gheini, Jonathan May(参考訳) コードスイッチングは多言語話者の間で共通の現象であり、単一の会話の文脈内で2つ以上の言語間の交替が起こる。 言語間をシームレスに切り替えることができるが、多言語ニューラルネットワーク翻訳(NMT)モデルはこのような突然の入力変化に対して堅牢ではない。 本研究は,多言語NMTモデルのコード切替テキスト処理能力について検討する。 まず,切り替え能力を測定するためのチェックを提案する。 次に,NMTモデルがコードスイッチングをサポートする能力を向上する,シンプルで効果的なデータ拡張手法について検討する。 最後に,注意モジュールのガラスボックス解析を用いて,ロバスト性向上におけるこれらの手法の有効性を示す。

Code-switching is a common phenomenon among multilingual speakers, where alternation between two or more languages occurs within the context of a single conversation. While multilingual humans can seamlessly switch back and forth between languages, multilingual neural machine translation (NMT) models are not robust to such sudden changes in input. This work explores multilingual NMT models' ability to handle code-switched text. First, we propose checks to measure switching capability. Second, we investigate simple and effective data augmentation methods that can enhance an NMT model's ability to support code-switching. Finally, by using a glass-box analysis of attention modules, we demonstrate the effectiveness of these methods in improving robustness.
翻訳日:2022-10-12 14:19:16 公開日:2022-10-11
# OpenQAにおける連接表とテキスト検索のための混合モダリティ表現学習と事前学習

Mixed-modality Representation Learning and Pre-training for Joint Table-and-Text Retrieval in OpenQA ( http://arxiv.org/abs/2210.05197v1 )

ライセンス: Link先を確認
Junjie Huang, Wanjun Zhong, Qian Liu, Ming Gong, Daxin Jiang and Nan Duan(参考訳) より包括的な情報を提供するオープンドメイン質問応答(OpenQA)には、表やテキストのリソースからエビデンスを取得することが不可欠である。 しかし,表文の不一致やデータの疎度の問題により,効率的な表文検索の訓練は困難である。 上記の課題に対処するために,表とテキストの証拠を共同検索する最適化された OpenQA Table-Text Retriever (OTTeR) を導入する。 まず,モダリティ強調表現と混合モダリティ否定サンプリング戦略の2つのメカニズムによる混合モダリティ表現学習の強化を提案する。 次に,データのスパーシティ問題を緩和し,一般検索能力を向上させるため,検索中心の混合モダリティ合成前訓練を行う。 実験の結果,OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に向上することが示された。 包括的分析により,提案手法の有効性を検証した。 さらに, OTTeRを組み込んだOpenQAシステムでは, 下流QAタスクにおいて, 従来の最良システムよりも10.1\%の精度向上を実現している。 コードとデータは、 \url{https://github.com/Jun-jie-Huang/OTTeR}で公開されている。 }

Retrieving evidences from tabular and textual resources is essential for open-domain question answering (OpenQA), which provides more comprehensive information. However, training an effective dense table-text retriever is difficult due to the challenges of table-text discrepancy and data sparsity problem. To address the above challenges, we introduce an optimized OpenQA Table-Text Retriever (OTTeR) to jointly retrieve tabular and textual evidences. Firstly, we propose to enhance mixed-modality representation learning via two mechanisms: modality-enhanced representation and mixed-modality negative sampling strategy. Secondly, to alleviate data sparsity problem and enhance the general retrieval ability, we conduct retrieval-centric mixed-modality synthetic pre-training. Experimental results demonstrate that OTTeR substantially improves the performance of table-and-text retrieval on the OTT-QA dataset. Comprehensive analyses examine the effectiveness of all the proposed mechanisms. Besides, equipped with OTTeR, our OpenQA system achieves the state-of-the-art result on the downstream QA task, with 10.1\% absolute improvement in terms of the exact match over the previous best system. \footnote{All the code and data are available at \url{https://github.com/Jun-jie-Huang/OTTeR}.}
翻訳日:2022-10-12 14:19:04 公開日:2022-10-11
# リレーショナルアテンション:グラフ構造化タスク用変圧器の一般化

Relational Attention: Generalizing Transformers for Graph-Structured Tasks ( http://arxiv.org/abs/2210.05062v1 )

ライセンス: Link先を確認
Cameron Diao and Ricky Loynd(参考訳) トランスフォーマーは、タスク固有のエンティティとその属性を表す実数値ベクターの集合を柔軟に操作し、各ベクターは1つのワードピーストークンとその位置をシーケンスでエンコードするか、あるいは全く位置を持たない情報の一部で操作する。 しかし、セットプロセッサとして、トランスフォーマーは、ノードがエンティティを表現し、エッジがエンティティ間の関係を表現する、より一般的なグラフ構造化データよりは不利である。 この欠点に対処するため、変換器の注意を一般化し、各変換器層におけるエッジベクトルを考慮・更新する。 我々は,このリレーショナルトランスフォーマを,CLRSアルゴリズム推論ベンチマークを含む多種多様なグラフ構造化タスクで評価する。 そこでは、グラフ構造化データを推論するように設計された最先端のグラフニューラルネットワークを劇的に上回ります。 我々の分析は、これらの利得は、集合上のグラフのより大きい表現性を利用する関係的注意の固有の能力に起因することを示している。

Transformers flexibly operate over sets of real-valued vectors representing task-specific entities and their attributes, where each vector might encode one word-piece token and its position in a sequence, or some piece of information that carries no position at all. But as set processors, transformers are at a disadvantage in reasoning over more general graph-structured data where nodes represent entities and edges represent relations between entities. To address this shortcoming, we generalize transformer attention to consider and update edge vectors in each transformer layer. We evaluate this relational transformer on a diverse array of graph-structured tasks, including the large and challenging CLRS Algorithmic Reasoning Benchmark. There, it dramatically outperforms state-of-the-art graph neural networks expressly designed to reason over graph-structured data. Our analysis demonstrates that these gains are attributable to relational attention's inherent ability to leverage the greater expressivity of graphs over sets.
翻訳日:2022-10-12 14:18:25 公開日:2022-10-11
# DHRL: 長軸・スパース階層強化学習のためのグラフベースアプローチ

DHRL: A Graph-Based Approach for Long-Horizon and Sparse Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2210.05150v1 )

ライセンス: Link先を確認
Seungjae Lee, Jigang Kim, Inkyu Jang, H. Jin Kim(参考訳) 階層強化学習(HRL)は、時間的抽象化を利用して複雑な制御タスクに顕著な進歩をもたらした。 しかし、従来のHRLアルゴリズムは環境が大きくなるにつれて深刻なデータ非効率に悩まされることが多い。 拡張されたコンポーネントである$i.e.$、ゴールスペースとエピソードの長さは、両方のレベルがエピソード全体の地平線を共有しているため、高レベルと低レベルの両方のポリシーに負担を課す。 本稿では,階層強化学習(dhrl)におけるグラフを用いた地平線分離手法を提案する。高レベル・低レベル政策の地平線を分離し,グラフを用いて両地平線の長さの差を橋渡しすることで,この問題を軽減できる。 DHRLは、より長い時間的抽象化と複雑なタスクの高速なトレーニングを容易にする、自由に拡張可能なハイレベルアクションインターバルを提供する。 提案手法は,典型的なHRL環境において,最先端のHRLアルゴリズムより優れている。 さらに、DHRLは長く複雑な移動と操作を行う。

Hierarchical Reinforcement Learning (HRL) has made notable progress in complex control tasks by leveraging temporal abstraction. However, previous HRL algorithms often suffer from serious data inefficiency as environments get large. The extended components, $i.e.$, goal space and length of episodes, impose a burden on either one or both high-level and low-level policies since both levels share the total horizon of the episode. In this paper, we present a method of Decoupling Horizons Using a Graph in Hierarchical Reinforcement Learning (DHRL) which can alleviate this problem by decoupling the horizons of high-level and low-level policies and bridging the gap between the length of both horizons using a graph. DHRL provides a freely stretchable high-level action interval, which facilitates longer temporal abstraction and faster training in complex tasks. Our method outperforms state-of-the-art HRL algorithms in typical HRL environments. Moreover, DHRL achieves long and complex locomotion and manipulation tasks.
翻訳日:2022-10-12 14:18:09 公開日:2022-10-11
# 信頼性の高いオフライン強化学習のためのConser Weightive Behavioral Cloning

ConserWeightive Behavioral Cloning for Reliable Offline Reinforcement Learning ( http://arxiv.org/abs/2210.05158v1 )

ライセンス: Link先を確認
Tung Nguyen, Qinqing Zheng, Aditya Grover(参考訳) オフライン強化学習(RL)の目標は、静的なログ付きデータセットからほぼ最適なポリシを学ぶことで、高価なオンラインインタラクションをサイドステッピングすることだ。 行動クローン(BC)は、教師あり学習を通じてオフラインの軌跡を模倣することで、オフラインRLに対する簡単なソリューションを提供する。 近年の進歩(Chen et al., 2021; Janner et al., 2021; Emmons et al., 2021)は、望まれる将来のリターンを条件づけることで、BCはよりシンプルで訓練の安定性を享受しつつ、価値ベースのリターンと競争力を発揮することを示した。 しかし、オフラインデータセットにおけるリターンの分布は任意に歪め、最適化されるため、テスト時に専門家のリターンを条件付けるのに特有の課題となる。 CWBC(Conser Weightive Behavioral Cloning)は、軌道重み付けと保守的正規化という2つの重要な要素を持つオフラインRLの条件付きBCCの性能を改善するための、シンプルで効果的な手法である。 軌道重み付けは条件付きbcにおけるバイアス分散トレードオフに対処し、低リターン軌道(典型的には豊富)と高リターン軌道(典型的には少数)の両方から学ぶための原理的なメカニズムを提供する。 さらに,既存のBC法における保守主義の概念を解析し,データ分布に近い政策を明示的に奨励する新たな保守的正規化を提案する。 このレギュラライザは、より信頼性の高いパフォーマンスを実現し、評価中に条件付け値のアドホックなチューニングの必要性をなくす。 我々は,Reinforcement Learning via Supervised Learning (RvS) (Emmons et al., 2021) とDecision Transformer (DT) (Chen et al., 2021) の文脈でCWBCをインスタンス化する。 コードはhttps://github.com/tung-nd/cwbcで入手できる。

The goal of offline reinforcement learning (RL) is to learn near-optimal policies from static logged datasets, thus sidestepping expensive online interactions. Behavioral cloning (BC) provides a straightforward solution to offline RL by mimicking offline trajectories via supervised learning. Recent advances (Chen et al., 2021; Janner et al., 2021; Emmons et al., 2021) have shown that by conditioning on desired future returns, BC can perform competitively to their value-based counterparts, while enjoying much more simplicity and training stability. However, the distribution of returns in the offline dataset can be arbitrarily skewed and suboptimal, which poses a unique challenge for conditioning BC on expert returns at test time. We propose ConserWeightive Behavioral Cloning (CWBC), a simple and effective method for improving the performance of conditional BC for offline RL with two key components: trajectory weighting and conservative regularization. Trajectory weighting addresses the bias-variance tradeoff in conditional BC and provides a principled mechanism to learn from both low return trajectories (typically plentiful) and high return trajectories (typically few). Further, we analyze the notion of conservatism in existing BC methods, and propose a novel conservative regularize that explicitly encourages the policy to stay close to the data distribution. The regularizer helps achieve more reliable performance, and removes the need for ad-hoc tuning of the conditioning value during evaluation. We instantiate CWBC in the context of Reinforcement Learning via Supervised Learning (RvS) (Emmons et al., 2021) and Decision Transformer (DT) (Chen et al., 2021), and empirically show that it significantly boosts the performance and stability of prior methods on various offline RL benchmarks. Code is available at https://github.com/tung-nd/cwbc.
翻訳日:2022-10-12 14:17:52 公開日:2022-10-11
# エンドツーエンド音声認識のための教師アンサンブル学習のプライベートアグリゲーションに関する実験的研究

An Experimental Study on Private Aggregation of Teacher Ensemble Learning for End-to-End Speech Recognition ( http://arxiv.org/abs/2210.05614v1 )

ライセンス: Link先を確認
Chao-Han Huck Yang, I-Fan Chen, Andreas Stolcke, Sabato Marco Siniscalchi, Chin-Hui Lee(参考訳) differential privacy (dp) は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザ情報を保護するための1つのデータ保護手段である。 このようなノイズの摂動は、プライバシー予算$\varepsilon$を満たすために、自動音声認識(asr)において深刻な性能低下をもたらす。 教師アンサンブル(pate)のプライベートアグリゲーションは、$\varepsilon$の小さな値で制御されるノイズ効果を扱う際にasrの精度を向上させるためにアンサンブル確率を利用する。 本研究では,pate学習を動的パターン,すなわち音声に拡張し,音響データの漏洩を回避するためにasrについて,最初の実験を行った。 我々は、オープンソースのLibriSpeechとTIMITコーパスを用いて、LAS、ハイブリッドアテンション/CTC、RNNトランスデューサを含む3つのエンドツーエンドディープモデルを評価する。 PATE学習強化型ASRモデルは、特に厳格なDP予算下ではDP-SGDの基準よりも優れており、LibriSpeechで評価されたRNNトランスデューサモデルの単語誤り率を26.2%から27.5%削減した。 また,パブリック音声コーパスを事前学習したDP保存型ASRソリューションも導入した。

Differential privacy (DP) is one data protection avenue to safeguard user information used for training deep models by imposing noisy distortion on privacy data. Such a noise perturbation often results in a severe performance degradation in automatic speech recognition (ASR) in order to meet a privacy budget $\varepsilon$. Private aggregation of teacher ensemble (PATE) utilizes ensemble probabilities to improve ASR accuracy when dealing with the noise effects controlled by small values of $\varepsilon$. In this work, we extend PATE learning to work with dynamic patterns, namely speech, and perform one very first experimental study on ASR to avoid acoustic data leakage. We evaluate three end-to-end deep models, including LAS, hybrid attention/CTC, and RNN transducer, on the open-source LibriSpeech and TIMIT corpora. PATE learning-enhanced ASR models outperform the benchmark DP-SGD mechanisms, especially under strict DP budgets, giving relative word error rate reductions between 26.2% and 27.5% for RNN transducer model evaluated with LibriSpeech. We also introduce another DP-preserving ASR solution with public speech corpus pre-training.
翻訳日:2022-10-12 14:12:32 公開日:2022-10-11
# IsoVec:単語埋め込み空間の相対同型制御

IsoVec: Controlling the Relative Isomorphism of Word Embedding Spaces ( http://arxiv.org/abs/2210.05098v1 )

ライセンス: Link先を確認
Kelly Marchisio, Neha Verma, Kevin Duh, Philipp Koehn(参考訳) 単言語単語埋め込み空間から高品質な翻訳辞書を抽出する能力は、空間の幾何学的類似性、すなわちその「同型」の度合いに依存する。 単語埋め込み学習の結果、基礎となる空間が非同型となるという、欠陥のある言語間マッピングの根本原因に対処する。 我々は, スキップグラム損失関数に直接同型の大域的測度を組み込んで, 訓練された単語埋め込み空間の相対的同型を増大させ, 共通の言語間空間にマッピングする能力を向上させる。 その結果、一般的なデータ条件、ドメインミスマッチ、トレーニングアルゴリズムの相違によるバイリンガル語彙誘導が改善された。 私たちはIsoVecをhttps://github.com/kellymarchisio/isovec.comでリリースします。

The ability to extract high-quality translation dictionaries from monolingual word embedding spaces depends critically on the geometric similarity of the spaces -- their degree of "isomorphism." We address the root-cause of faulty cross-lingual mapping: that word embedding training resulted in the underlying spaces being non-isomorphic. We incorporate global measures of isomorphism directly into the skipgram loss function, successfully increasing the relative isomorphism of trained word embedding spaces and improving their ability to be mapped to a shared cross-lingual space. The result is improved bilingual lexicon induction in general data conditions, under domain mismatch, and with training algorithm dissimilarities. We release IsoVec at https://github.com/kellymarchisio/isovec.
翻訳日:2022-10-12 14:11:38 公開日:2022-10-11
# NLPにおける変圧器のバッチ正規化失敗の理解

Understanding the Failure of Batch Normalization for Transformers in NLP ( http://arxiv.org/abs/2210.05153v1 )

ライセンス: Link先を確認
Jiaxi Wang, Ji Wu, Lei Huang(参考訳) バッチ正規化(BN)は、ディープニューラルネットワークのトレーニングを加速し、コンピュータビジョン(CV)タスクの一般化を改善するための、中核的で一般的なテクニックである。 しかし、レイヤー正規化(Layer Normalization, LN)が支配する自然言語処理(NLP)では、その地位を守れない。 本稿では, Transformer モデルを用いた NLP タスクにおいて, BN が LN よりも悪い性能を示す理由について述べる。 BN のトレーニングと推論の矛盾が NLP における BN の失敗に繋がる主要な原因であることがわかった。 この不整合を定量的に測定するためにtid(training inference discrepancy)を定義し、画像分類、ニューラルネットワーク翻訳、言語モデリング、シーケンスラベリング、テキスト分類タスクなどの広範な実験によって、tidがbnのパフォーマンスを示すことができることを明らかにした。 TIDがトレーニングによって小さく保たれた場合、BNはLNよりもはるかに優れたテスト性能が得られることがわかった。 TIDの爆発を抑制するために,バッチ統計とBNの人口統計とのギャップを狭めるため,単純な正規化項を追加する正規化BN(RBN)を提案する。 RBNは10のデータセットと2つの共通のTransformer\footnote{Ourコードは \url{https://github.com/wjxts/RegularizedBN}}で利用可能である。

Batch Normalization (BN) is a core and prevalent technique in accelerating the training of deep neural networks and improving the generalization on Computer Vision (CV) tasks. However, it fails to defend its position in Natural Language Processing (NLP), which is dominated by Layer Normalization (LN). In this paper, we are trying to answer why BN usually performs worse than LN in NLP tasks with Transformer models. We find that the inconsistency between training and inference of BN is the leading cause that results in the failure of BN in NLP. We define Training Inference Discrepancy (TID) to quantitatively measure this inconsistency and reveal that TID can indicate BN's performance, supported by extensive experiments, including image classification, neural machine translation, language modeling, sequence labeling, and text classification tasks. We find that BN can obtain much better test performance than LN when TID keeps small through training. To suppress the explosion of TID, we propose Regularized BN (RBN) that adds a simple regularization term to narrow the gap between batch statistics and population statistics of BN. RBN improves the performance of BN consistently and outperforms or is on par with LN on 17 out of 20 settings, involving ten datasets and two common variants of Transformer\footnote{Our code is available at \url{https://github.com/wjxts/RegularizedBN}}.
翻訳日:2022-10-12 14:11:24 公開日:2022-10-11
# 模倣から統合へ:事前学習言語モデルの知識統合

From Mimicking to Integrating: Knowledge Integration for Pre-Trained Language Models ( http://arxiv.org/abs/2210.05230v1 )

ライセンス: Link先を確認
Lei Li, Yankai Lin, Xuancheng Ren, Guangxiang Zhao, Peng Li, Jie Zhou, Xu Sun(参考訳) リリース済みの事前学習言語モデル(PLM)の再利用方法を検討することで、計算コストと潜在的な環境サイドエフェクトを大幅に削減することができる。 本稿では,新しいPLM再利用パラダイムであるKnowledge Integration(KI)について検討する。 ヒューマンアノテーションが利用できないkiは、異なる分類問題に特化した異なる教師plmからの知識を、汎用的な学生モデルに統合することを目指している。 これを実現するために,まず仮想黄金監督と教師予測の相関関係を導出する。 次に,モデル不確実性-認識知識統合(muki)フレームワークを設計し,学生の黄金の監督を回復する。 特に、mukiはモンテカルロ・ドロップアウトを採用し、監督統合のモデルの不確かさを推定している。 不確実性スコアのマージンに基づくインスタンス単位での再重み付け機構がさらに組み込まれ、教師からの潜在的な矛盾する監督に対処する。 実験の結果,mukiはベンチマークデータセットのベースラインよりも大幅に改善されていることがわかった。 さらに分析した結果,MUKIは教師モデルと異種アーキテクチャを融合する上で,さらに言語間データセットを専攻する教師にも有効であることがわかった。

Investigating better ways to reuse the released pre-trained language models (PLMs) can significantly reduce the computational cost and the potential environmental side-effects. This paper explores a novel PLM reuse paradigm, Knowledge Integration (KI). Without human annotations available, KI aims to merge the knowledge from different teacher-PLMs, each of which specializes in a different classification problem, into a versatile student model. To achieve this, we first derive the correlation between virtual golden supervision and teacher predictions. We then design a Model Uncertainty--aware Knowledge Integration (MUKI) framework to recover the golden supervision for the student. Specifically, MUKI adopts Monte-Carlo Dropout to estimate model uncertainty for the supervision integration. An instance-wise re-weighting mechanism based on the margin of uncertainty scores is further incorporated, to deal with the potential conflicting supervision from teachers. Experimental results demonstrate that MUKI achieves substantial improvements over baselines on benchmark datasets. Further analysis shows that MUKI can generalize well for merging teacher models with heterogeneous architectures, and even teachers major in cross-lingual datasets.
翻訳日:2022-10-12 14:10:54 公開日:2022-10-11
# カーネルによる言語モデルの微調整

A Kernel-Based View of Language Model Fine-Tuning ( http://arxiv.org/abs/2210.05643v1 )

ライセンス: Link先を確認
Sadhika Malladi, Alexander Wettig, Dingli Yu, Danqi Chen, Sanjeev Arora(参考訳) 訓練済み言語モデル(LM)を微調整することで、特に低データ設定でNLPタスクを解決するのが標準になっている。 例えば、数十のトレーニングポイントで10^8$以上のパラメータを持つモデルの微調整が過度に適合しない理由など、経験的成功に関する最小限の理論的な理解がある。 ランダム初期化に適する無限広帯域ネットワークの勾配勾配ダイナミクスの研究モデルであるニューラル・タンジェント・カーネル(NTK)が,事前学習したLMの微調整について検討する。 この研究はコンピュータビジョンタスク(wei et al., 2022)におけるntkの性能に触発されたものである。 我々はまた、NTK形式をAdamとの微調整にまで拡張する。 我々は,ダウンストリームタスクがプロンプトによって言語モデリング問題として定式化されると,ntkレンズはsgdとadamとの微調整時にモデル更新を合理的に記述できることを示す広範な実験を行う。 このカーネルビューはパラメータ効率のよいサブスペースベースの微調整手法の成功の理由も示唆している。 最後に、テンソルプログラム(yang, 2020)による研究結果の形式的説明への道筋を提案する。

It has become standard to solve NLP tasks by fine-tuning pre-trained language models (LMs), especially in low-data settings. There is minimal theoretical understanding of empirical success, e.g., why fine-tuning a model with $10^8$ or more parameters on a couple dozen training points does not result in overfitting. We investigate whether the Neural Tangent Kernel (NTK) - which originated as a model to study the gradient descent dynamics of infinitely wide networks with suitable random initialization - describes fine-tuning of pre-trained LMs. This study was inspired by the decent performance of NTK for computer vision tasks (Wei et al., 2022). We also extend the NTK formalism to fine-tuning with Adam. We present extensive experiments that show that once the downstream task is formulated as a language modeling problem through prompting, the NTK lens can often reasonably describe the model updates during fine-tuning with both SGD and Adam. This kernel view also suggests an explanation for success of parameter-efficient subspace-based fine-tuning methods. Finally, we suggest a path toward a formal explanation for our findings via Tensor Programs (Yang, 2020).
翻訳日:2022-10-12 14:10:36 公開日:2022-10-11
# 視覚トランスフォーマーを用いた細粒度画像転送

Fine-Grained Image Style Transfer with Visual Transformers ( http://arxiv.org/abs/2210.05176v1 )

ライセンス: Link先を確認
Jianbo Wang, Huan Yang, Jianlong Fu, Toshihiko Yamasaki, and Baining Guo(参考訳) 畳み込みニューラルネットワーク(convolutional neural network)の開発により、画像スタイル転送が注目を集めている。 しかし、既存のほとんどのアプローチでは、スタイルパターンをコンテンツイメージ(例えばAdaINやWCT)に転送するためにグローバルな特徴変換を採用している。 このような設計は通常、入力画像の空間情報を破壊し、細粒度のスタイルパターンをスタイル転送結果に転送しない。 そこで本研究では,コンテンツとスタイルイメージの両方を視覚トークンに分割し,よりきめ細かなスタイル変換を実現するSTTR(Style TRansformer)ネットワークを提案する。 特にSTTRでは2つの注意機構が採用されている。 まず,類似トークンをグループ化して学習できるように,コンテンツやスタイルトークンのエンコードにセルフアテンションを使うことを提案する。 次に、きめ細かいスタイル変換を奨励するコンテンツとスタイルトークンの相互接続を採用します。 そこで本研究では,STTRと既存のアプローチを比較するために,合計1000票の被験者50名を対象に,Amazon Mechanical Turk(AMT)のユーザスタディを実施している。 広汎な評価は、視覚的快楽スタイルの転送結果を生成するためのSTTRの有効性と効率を示す。

With the development of the convolutional neural network, image style transfer has drawn increasing attention. However, most existing approaches adopt a global feature transformation to transfer style patterns into content images (e.g., AdaIN and WCT). Such a design usually destroys the spatial information of the input images and fails to transfer fine-grained style patterns into style transfer results. To solve this problem, we propose a novel STyle TRansformer (STTR) network which breaks both content and style images into visual tokens to achieve a fine-grained style transformation. Specifically, two attention mechanisms are adopted in our STTR. We first propose to use self-attention to encode content and style tokens such that similar tokens can be grouped and learned together. We then adopt cross-attention between content and style tokens that encourages fine-grained style transformations. To compare STTR with existing approaches, we conduct user studies on Amazon Mechanical Turk (AMT), which are carried out with 50 human subjects with 1,000 votes in total. Extensive evaluations demonstrate the effectiveness and efficiency of the proposed STTR in generating visually pleasing style transfer results.
翻訳日:2022-10-12 14:08:41 公開日:2022-10-11
# Mind's Eye: シミュレーションによる基底言語モデル推論

Mind's Eye: Grounded Language Model Reasoning through Simulation ( http://arxiv.org/abs/2210.05359v1 )

ライセンス: Link先を確認
Ruibo Liu, Jason Wei, Shixiang Shane Gu, Te-Yen Wu, Soroush Vosoughi, Claire Cui, Denny Zhou, Andrew M. Dai(参考訳) 人間とAIの効果的なコミュニケーションは、世界の共有された経験に依存している。 テキストのみに基づいてトレーニングすることで、現在の言語モデル(lms)は、現実世界における人間の基礎的な経験を欠いている。 我々は,物理世界における基礎言語モデル推論のパラダイムであるマインドズアイを提示する。 物理推論問題から,計算物理エンジン(DeepMindのMuJoCo)を用いて計算結果をシミュレートし,そのシミュレーション結果を入力の一部として用いることにより,言語モデルで推論を行うことができる。 物理アライメントベンチマークにおける39のタスクの実験では、マインドアイは大きなマージン(ゼロショット27.9%、絶対精度46.0%)で推論能力を向上できることが示されている。 心の目を搭載した小さな言語モデルは、100倍の大きさのモデルと同様のパフォーマンスを得ることができる。 最後に, アブレーション研究により, 心の眼の頑健性を確認した。

Successful and effective communication between humans and AI relies on a shared experience of the world. By training solely on written text, current language models (LMs) miss the grounded experience of humans in the real-world -- their failure to relate language to the physical world causes knowledge to be misrepresented and obvious mistakes in their reasoning. We present Mind's Eye, a paradigm to ground language model reasoning in the physical world. Given a physical reasoning question, we use a computational physics engine (DeepMind's MuJoCo) to simulate the possible outcomes, and then use the simulation results as part of the input, which enables language models to perform reasoning. Experiments on 39 tasks in a physics alignment benchmark demonstrate that Mind's Eye can improve reasoning ability by a large margin (27.9% zero-shot, and 46.0% few-shot absolute accuracy improvement on average). Smaller language models armed with Mind's Eye can obtain similar performance to models that are 100x larger. Finally, we confirm the robustness of Mind's Eye through ablation studies.
翻訳日:2022-10-12 14:03:03 公開日:2022-10-11
# 判別型言語モデルの事前学習のためのインスタンス規則化

Instance Regularization for Discriminative Language Model Pre-training ( http://arxiv.org/abs/2210.05471v1 )

ライセンス: Link先を確認
Zhuosheng Zhang, Hai Zhao, Ming Zhou(参考訳) 弁別事前学習言語モデル(prlms)は、2つの手続き(ennoising と denoising )を扱う自動エンコーダのデノイジングとして一般化することができる。 まず、エンノナイジングプロセスは任意のノナイジング関数でテキストを破損させ、トレーニングインスタンスを構築する。 そして、劣化したトークンを復元するために、認知言語モデルを訓練する。 既存の研究は、エンノベーションまたはデノシングの独立戦略を最適化することで進歩している。 彼らはトレーニングプロセスを通じてトレーニングインスタンスを平等に扱うが、個々のコントリビュートにはほとんど注意を払わない。 事例貢献の明示的なシグナルをモデル化するために, 言語モデル事前学習において, 劣化した文から元の文を復元する複雑性を推定することを提案する。 推定には、注目データ構築プロセスの腐敗度と、注目データ構築プロセスの予測信頼度が含まれる。 自然言語理解と読み理解ベンチマークによる実験結果から,本手法は事前学習効率,有効性,頑健性が向上することが示された。 コードはhttps://github.com/cooelf/InstanceRegで公開されている。

Discriminative pre-trained language models (PrLMs) can be generalized as denoising auto-encoders that work with two procedures, ennoising and denoising. First, an ennoising process corrupts texts with arbitrary noising functions to construct training instances. Then, a denoising language model is trained to restore the corrupted tokens. Existing studies have made progress by optimizing independent strategies of either ennoising or denosing. They treat training instances equally throughout the training process, with little attention on the individual contribution of those instances. To model explicit signals of instance contribution, this work proposes to estimate the complexity of restoring the original sentences from corrupted ones in language model pre-training. The estimations involve the corruption degree in the ennoising data construction process and the prediction confidence in the denoising counterpart. Experimental results on natural language understanding and reading comprehension benchmarks show that our approach improves pre-training efficiency, effectiveness, and robustness. Code is publicly available at https://github.com/cooelf/InstanceReg
翻訳日:2022-10-12 14:02:46 公開日:2022-10-11
# グラフニューラルネットワークを用いた証拠認識型偽ニュース検出のための逆コントラスト学習

Adversarial Contrastive Learning for Evidence-aware Fake News Detection with Graph Neural Networks ( http://arxiv.org/abs/2210.05498v1 )

ライセンス: Link先を確認
Junfei Wu, Weizhi Xu, Qiang Liu, Shu Wu, Liang Wang(参考訳) 偽ニュースの拡散と有害性は、インターネット上で重大な問題であり、偽ニュースの自動検出の開発を後押ししている。 本稿では,証拠に基づく偽ニュースの検出に焦点をあて,複数の証拠を用いてニュースの妥当性(すなわちクレーム)を探究する。 従来の手法のほとんどは、まずシーケンシャルモデルを用いて意味情報を埋め込み、次にアテンション機構に基づいてクレームとエビデンス相互作用をキャプチャする。 効果はあるものの、3つの弱点に悩まされている。 第一に、逐次モデルでは、証拠にバラバラに散在する関連する情報を統合できない。 第二に、証拠の余分な情報は役に立たないか有害かもしれないと過小評価する。 第3に、不十分なデータ利用は、モデルによって取得された表現の分離性と信頼性を制限する。 これらの問題を解決するために,コントラッシブラーニング(Contrastive Learning,略称GETRAL)を用いたグラフベースのSEmantic Structure miningフレームワークを提案する。 具体的には,まずクレームとエビデンスをグラフ構造データとしてモデル化し,長距離意味依存を捉える。 その結果,グラフ構造学習により情報冗長性を低減した。 次に、詳細なセマンティック表現をクレーム-エビデンス相互作用モジュールに入力して予測を行う。 最後に、逆コントラスト学習モジュールを適用し、データを完全に活用し、表現学習を強化する。 総合的な実験により、最新技術よりもgeralが優れていることが証明され、グラフ構造とコントラスト学習による意味マイニングの有効性が検証された。

The prevalence and perniciousness of fake news have been a critical issue on the Internet, which stimulates the development of automatic fake news detection in turn. In this paper, we focus on evidence-based fake news detection, where several evidences are utilized to probe the veracity of news (i.e., a claim). Most previous methods first employ sequential models to embed the semantic information and then capture the claim-evidence interaction based on attention mechanisms. Despite their effectiveness, they still suffer from three weaknesses. Firstly, sequential models fail to integrate the relevant information that is scattered far apart in evidences. Secondly, they underestimate much redundant information in evidences may be useless or harmful. Thirdly, insufficient data utilization limits the separability and reliability of representations captured by the model. To solve these problems, we propose a unified Graph-based sEmantic structure mining framework with ConTRAstive Learning, namely GETRAL in short. Specifically, we first model claims and evidences as graph-structured data to capture the long-distance semantic dependency. Consequently, we reduce information redundancy by performing graph structure learning. Then the fine-grained semantic representations are fed into the claim-evidence interaction module for predictions. Finally, an adversarial contrastive learning module is applied to make full use of data and strengthen representation learning. Comprehensive experiments have demonstrated the superiority of GETRAL over the state-of-the-arts and validated the efficacy of semantic mining with graph structure and contrastive learning.
翻訳日:2022-10-12 14:02:28 公開日:2022-10-11
# モデルカスケード:NLPシステムの効率化と精度向上に向けて

Model Cascading: Towards Jointly Improving Efficiency and Accuracy of NLP Systems ( http://arxiv.org/abs/2210.05528v1 )

ライセンス: Link先を確認
Neeraj Varshney and Chitta Baral(参考訳) すべてのインスタンスは、正しい予測のために大きなモデルを通して推論が必要か? いくつかのインスタンスは簡単で、小さなキャパシティモデルでも正しく答えられる。 これはシステムの計算効率を改善する機会を提供する。 本研究では,様々なキャパシティのモデルの集合を用いて,高精度かつ効率的に予測を行う簡易な手法である「モデルカスケード」について検討する。 カスケーディングで利用可能なモデルの数(K値)が異なる複数のタスク設定における包括的な実験を通して、カスケーディングが計算効率と予測精度の両方を改善することを示す。 例えば、K=3設定では、カスケードは最大88.93%の計算コストを節約し、最大2.18%の改善で常に優れた予測精度を達成する。 また,カスケードに追加モデルを導入する効果について検討し,効率の向上がさらに促進されることを示した。 最後に,本研究により,実世界のアプリケーションに広く採用できる効率的なNLPシステムの開発が促進されることを期待する。

Do all instances need inference through the big models for a correct prediction? Perhaps not; some instances are easy and can be answered correctly by even small capacity models. This provides opportunities for improving the computational efficiency of systems. In this work, we present an explorative study on 'model cascading', a simple technique that utilizes a collection of models of varying capacities to accurately yet efficiently output predictions. Through comprehensive experiments in multiple task settings that differ in the number of models available for cascading (K value), we show that cascading improves both the computational efficiency and the prediction accuracy. For instance, in K=3 setting, cascading saves up to 88.93% computation cost and consistently achieves superior prediction accuracy with an improvement of up to 2.18%. We also study the impact of introducing additional models in the cascade and show that it further increases the efficiency improvements. Finally, we hope that our work will facilitate development of efficient NLP systems making their widespread adoption in real-world applications possible.
翻訳日:2022-10-12 14:02:04 公開日:2022-10-11
# 翻訳による低リソース言語のためのバイオメディカル知識の充実

Enriching Biomedical Knowledge for Low-resource Language Through Translation ( http://arxiv.org/abs/2210.05598v1 )

ライセンス: Link先を確認
Long Phan, Tai Dang, Hieu Tran, Vy Phan, Lam D. Chau, and Trieu H. Trinh(参考訳) バイオメディカルデータとベンチマークは、ベトナム語などの英語以外の低リソース言語では極めて価値が高いが、非常に限られている。 本稿では,英語-ベトナム語における最先端翻訳モデルを用いて,前訓練されたデータと,生物医学領域における教師付きデータの両方を翻訳・生成する。 このような大規模な翻訳により、高品質なPubMedコーパスから2000万の翻訳抽象化をトレーニングした、事前訓練されたEncoder-Decoder TransformerモデルであるViPubmedT5を導入する。 ViPubMedT5は、要約と頭文字の曖昧さの2つの異なるバイオメディカルベンチマークで最先端の結果を示す。 さらに,最近公開されたen-vi翻訳モデルを用いてベトナム語から翻訳された新しいnlpタスクであるvimednliをリリースし,既存の手法によるvipubmedt5に対する評価を行った。

Biomedical data and benchmarks are highly valuable yet very limited in low-resource languages other than English such as Vietnamese. In this paper, we make use of a state-of-the-art translation model in English-Vietnamese to translate and produce both pretrained as well as supervised data in the biomedical domains. Thanks to such large-scale translation, we introduce ViPubmedT5, a pretrained Encoder-Decoder Transformer model trained on 20 million translated abstracts from the high-quality public PubMed corpus. ViPubMedT5 demonstrates state-of-the-art results on two different biomedical benchmarks in summarization and acronym disambiguation. Further, we release ViMedNLI - a new NLP task in Vietnamese translated from MedNLI using the recently public En-vi translation model and carefully refined by human experts, with evaluations of existing methods against ViPubmedT5.
翻訳日:2022-10-12 14:01:48 公開日:2022-10-11
# MTet:英語とベトナム語のための多言語翻訳

MTet: Multi-domain Translation for English and Vietnamese ( http://arxiv.org/abs/2210.05610v1 )

ライセンス: Link先を確認
Chinh Ngo, Trieu H. Trinh, Long Phan, Hieu Tran, Tai Dang, Hieu Nguyen, Minh Nguyen and Minh-Thang Luong(参考訳) MTetは,英語-ベトナム語翻訳のための最大公用並列コーパスである。 MTetは4.2Mの高品質な訓練文対とベトナムの研究コミュニティによって改良された多ドメインテストからなる。 英ベトナム語翻訳の以前の研究と組み合わせて、既存の並列データセットを620万の文対に拡大する。 また、英語とベトナム語向けの最初の事前訓練されたモデル envit5 もリリースします。 両資源を組み合わせたモデルでは,従来より1.6倍の精度でBLEUスコアを最大2ポイント上回る結果が得られた。

We introduce MTet, the largest publicly available parallel corpus for English-Vietnamese translation. MTet consists of 4.2M high-quality training sentence pairs and a multi-domain test set refined by the Vietnamese research community. Combining with previous works on English-Vietnamese translation, we grow the existing parallel dataset to 6.2M sentence pairs. We also release the first pretrained model EnViT5 for English and Vietnamese languages. Combining both resources, our model significantly outperforms previous state-of-the-art results by up to 2 points in translation BLEU score, while being 1.6 times smaller.
翻訳日:2022-10-12 14:01:20 公開日:2022-10-11
# コントラストトレーニングによる半構造化文書のゼロショット分類の改善

Contrastive Training Improves Zero-Shot Classification of Semi-structured Documents ( http://arxiv.org/abs/2210.05613v1 )

ライセンス: Link先を確認
Muhammad Khalifa, Yogarshi Vyas, Shuai Wang, Graham Horwood, Sunil Mallya, Miguel Ballesteros(参考訳) 半構造化文書の分類をゼロショットで検討する。 半構造化文書の分類は標準的な非構造化文書よりも困難であり、位置、レイアウト、スタイル情報はそれらの文書の解釈において重要な役割を果たす。 トレーニングとテストの両方でカテゴリが固定される標準的な分類設定は、新しいドキュメントカテゴリが発生する可能性のある動的環境では不足している。 我々は、新しいunseenクラスで推論が行われるゼロショット設定にのみ焦点を合わせます。 この課題に対処するために,事前学習と微調整の両目的を両立するマッチング型アプローチを提案する。 その結果,教師なしおよび教師なしのゼロショット設定において,事前学習段階からマクロf$_1$が大幅に向上した。

We investigate semi-structured document classification in a zero-shot setting. Classification of semi-structured documents is more challenging than that of standard unstructured documents, as positional, layout, and style information play a vital role in interpreting such documents. The standard classification setting where categories are fixed during both training and testing falls short in dynamic environments where new document categories could potentially emerge. We focus exclusively on the zero-shot setting where inference is done on new unseen classes. To address this task, we propose a matching-based approach that relies on a pairwise contrastive objective for both pretraining and fine-tuning. Our results show a significant boost in Macro F$_1$ from the proposed pretraining step in both supervised and unsupervised zero-shot settings.
翻訳日:2022-10-12 14:01:04 公開日:2022-10-11
# 質問を用いた映像コーパスにおける視覚的回答の探索

Learning to Locate Visual Answer in Video Corpus Using Question ( http://arxiv.org/abs/2210.05423v1 )

ライセンス: Link先を確認
Bin Li, Yixuan Weng, Bin Sun and Shutao Li(参考訳) そこで本研究では,自然言語質問を用いた無意味・無意味な教示ビデオの膨大なコレクションにおける視覚的回答の探索を目的とした,ビデオコーパスビジュアル回答ローカライズ(vcval)という新しいタスクを提案する。 このタスクには、視覚と言語、ビデオ検索、通訳理解、視覚応答のローカライゼーションといった様々なスキルが必要です。 そこで本研究では,ビデオコーパス検索と視覚応答のローカライゼーションタスクを共同でトレーニングする,VCVALのためのクロスモーダル・コントラッシブ・グローバルスパン(CCGS)手法を提案する。 より正確には、事前学習した言語モデルに要素毎の視覚情報を付加し、融合情報を用いて新たなグローバルスパン予測器を設計して、映像の質問・回答意味を高める。 グローバル・スパン・コントラスト学習は, 正・負のサンプルをグローバル・スパン・マトリックスと区別するために採用されている。 我々はMedVidCQAという新しいデータセットを再構築し、VCVALタスクをベンチマークし、提案手法はビデオコーパス検索と視覚応答ローカライゼーションタスクの両方において最先端(SOTA)を達成する。 最も重要なことは、教示ビデオを理解するための新しい道を開き、広範な実験に関する詳細な分析を行い、さらなる研究に役立てることである。

We introduce a novel task, named video corpus visual answer localization (VCVAL), which aims to locate the visual answer in a large collection of untrimmed, unsegmented instructional videos using a natural language question. This task requires a range of skills - the interaction between vision and language, video retrieval, passage comprehension, and visual answer localization. To solve these, we propose a cross-modal contrastive global-span (CCGS) method for the VCVAL, jointly training the video corpus retrieval and visual answer localization tasks. More precisely, we enhance the video question-answer semantic by adding element-wise visual information into the pre-trained language model, and designing a novel global-span predictor through fusion information to locate the visual answer point. The Global-span contrastive learning is adopted to differentiate the span point in the positive and negative samples with the global-span matrix. We have reconstructed a new dataset named MedVidCQA and benchmarked the VCVAL task, where the proposed method achieves state-of-the-art (SOTA) both in the video corpus retrieval and visual answer localization tasks. Most importantly, we pave a new path for understanding the instructional videos, performing detailed analyses on extensive experiments, which ushers in further research.
翻訳日:2022-10-12 14:00:18 公開日:2022-10-11
# ViLPAct:マルチモーダルヒューマンアクティビティの総合化のためのベンチマーク

ViLPAct: A Benchmark for Compositional Generalization on Multimodal Human Activities ( http://arxiv.org/abs/2210.05556v1 )

ライセンス: Link先を確認
Terry Yue Zhuo and Yaqing Liao and Yuecheng Lei and Lizhen Qu and Gerard de Melo and Xiaojun Chang and Yazhou Ren and Zenglin Xu(参考訳) ViLPActは人間の活動計画のための新しい視覚モデルベンチマークである。 エンボディされたAIエージェントは、最初のアクティビティと意図をビデオクリップに基づいて人間の将来の行動を推論し、予測できるタスクのために設計されている。 データセットは、クラウドソーシングによる意図で拡張された \charadesの2.9kビデオ、マルチチョイスの質問テストセット、そして4つの強力なベースラインで構成されている。 ベースラインの1つはマルチモーダル知識ベース(MKB)に基づくニューロシンボリックアプローチを実装し、もう1つは最近の最先端(SOTA)手法に適応した深層生成モデルである。 我々の広範な実験によると、重要な課題は構成の一般化と両方のモダリティからの情報の効果的な利用である。

We introduce ViLPAct, a novel vision-language benchmark for human activity planning. It is designed for a task where embodied AI agents can reason and forecast future actions of humans based on video clips about their initial activities and intents in text. The dataset consists of 2.9k videos from \charades extended with intents via crowdsourcing, a multi-choice question test set, and four strong baselines. One of the baselines implements a neurosymbolic approach based on a multi-modal knowledge base (MKB), while the other ones are deep generative models adapted from recent state-of-the-art (SOTA) methods. According to our extensive experiments, the key challenges are compositional generalization and effective use of information from both modalities.
翻訳日:2022-10-12 13:59:52 公開日:2022-10-11
# 逆行性増強による人体計測の推定

Human Body Measurement Estimation with Adversarial Augmentation ( http://arxiv.org/abs/2210.05667v1 )

ライセンス: Link先を確認
Nataniel Ruiz, Miriam Bellver, Timo Bolkart, Ambuj Arora, Ming C. Lin, Javier Romero, Raja Bala(参考訳) 本稿では,人体形状の3次元計測をシルエット画像から推定するボディー計測ネットワーク(bmnet)を提案する。 BMnetのトレーニングは、実際の被験者のデータに基づいて行われ、挑戦的な体形を発見し合成する新しい対人体シミュレータ(ABS)で強化される。 ABSはSkinned Multiperson linear (SMPL) body modelに基づいており、潜時SMPL形状パラメータに対するBMnet測定予測誤差を最大化することを目的としている。 ABSはこれらのパラメータに対して完全に微分可能であり、ループ内のBMnetによるバックプロパゲーションを通じて訓練されたエンドツーエンドである。 実験により、ABSは、BMnetのトレーニングセットにおける極端なBMIボディの希薄さと整合した、極端なBMI(overtical body mass indices)を持つ体のような敵の例を効果的に発見することが示された。 したがって、ABSは、未表現の身体形状を予測する際のトレーニングデータと潜在的な失敗のギャップを明らかにすることができる。 以上の結果から,ABSを用いたBMnetのトレーニングでは,Augmentationやランダムなボディ形状サンプリングに比べて,実物での計測精度を最大10%向上することがわかった。 さらに本手法は, sota測定推定法を最大3倍精度で上回っている。 最後に、本分野の研究をさらに促進するために、写真シルエットと実際の被験者の身体測定に関する最初の挑戦的な大規模データセットであるbodymをリリースする。 プロジェクトサイト: https://adversarialbodysim.github.io

We present a Body Measurement network (BMnet) for estimating 3D anthropomorphic measurements of the human body shape from silhouette images. Training of BMnet is performed on data from real human subjects, and augmented with a novel adversarial body simulator (ABS) that finds and synthesizes challenging body shapes. ABS is based on the skinned multiperson linear (SMPL) body model, and aims to maximize BMnet measurement prediction error with respect to latent SMPL shape parameters. ABS is fully differentiable with respect to these parameters, and trained end-to-end via backpropagation with BMnet in the loop. Experiments show that ABS effectively discovers adversarial examples, such as bodies with extreme body mass indices (BMI), consistent with the rarity of extreme-BMI bodies in BMnet's training set. Thus ABS is able to reveal gaps in training data and potential failures in predicting under-represented body shapes. Results show that training BMnet with ABS improves measurement prediction accuracy on real bodies by up to 10%, when compared to no augmentation or random body shape sampling. Furthermore, our method significantly outperforms SOTA measurement estimation methods by as much as 3x. Finally, we release BodyM, the first challenging, large-scale dataset of photo silhouettes and body measurements of real human subjects, to further promote research in this area. Project website: https://adversarialbodysim.github.io
翻訳日:2022-10-12 13:53:56 公開日:2022-10-11
# 効果的なマージン正規化の観点からの対向ロバスト性向上

Boosting Adversarial Robustness From The Perspective of Effective Margin Regularization ( http://arxiv.org/abs/2210.05118v1 )

ライセンス: Link先を確認
Ziquan Liu and Antoni B. Chan(参考訳) ディープニューラルネットワーク(DNN)の敵対的脆弱性は、ここ数年で積極的に研究されている。 本稿では,分類タスクにおいて最もよく用いられる損失関数であるクロスエントロピー損失のスケール変化特性と,ディープニューラルネットワークの有効マージンと逆ロバスト性に与える影響について検討する。 損失関数はロジットスケーリングに不変ではないため、有効重量ノルムの増大は損失がゼロに近づき、その勾配は消失するが、有効マージンは適切に最大化されない。 典型的なDNNでは、正規化されていない場合、標準トレーニングは大きな有効マージンを学習せず、敵の脆弱性につながることが示される。 実効マージンを最大化し,頑健なDNNを学習するために,トレーニング中の実効重量ノルムを正規化することを提案する。 フィードフォワードDNNに関する実証研究は,提案した有効マージン正則化(EMR)が大きな有効マージンを学習し,標準トレーニングと逆トレーニングの両方において対向的堅牢性を高めることを示す。 大規模モデルでは,EMRは基本対向訓練,TRADES,および2つの正規化ベースラインより優れ,大幅な改善が見られた。 さらに、複数の強力な敵防御方法(マートとメール)と組み合わせると、eprはさらにロバスト性を高めます。

The adversarial vulnerability of deep neural networks (DNNs) has been actively investigated in the past several years. This paper investigates the scale-variant property of cross-entropy loss, which is the most commonly used loss function in classification tasks, and its impact on the effective margin and adversarial robustness of deep neural networks. Since the loss function is not invariant to logit scaling, increasing the effective weight norm will make the loss approach zero and its gradient vanish while the effective margin is not adequately maximized. On typical DNNs, we demonstrate that, if not properly regularized, the standard training does not learn large effective margins and leads to adversarial vulnerability. To maximize the effective margins and learn a robust DNN, we propose to regularize the effective weight norm during training. Our empirical study on feedforward DNNs demonstrates that the proposed effective margin regularization (EMR) learns large effective margins and boosts the adversarial robustness in both standard and adversarial training. On large-scale models, we show that EMR outperforms basic adversarial training, TRADES and two regularization baselines with substantial improvement. Moreover, when combined with several strong adversarial defense methods (MART and MAIL), our EMR further boosts the robustness.
翻訳日:2022-10-12 13:53:33 公開日:2022-10-11
# stsc-snn:時間的畳み込みとスパイクニューラルネットワークのための時空間シナプス接続

STSC-SNN: Spatio-Temporal Synaptic Connection with Temporal Convolution and Attention for Spiking Neural Networks ( http://arxiv.org/abs/2210.05241v1 )

ライセンス: Link先を確認
Chengting Yu, Zheming Gu, Da Li, Gaoang Wang, Aili Wang and Erping Li(参考訳) ニューロモルフィックコンピューティングのアルゴリズムモデルの一つであるスパイキングニューラルネットワーク(SNN)は、時間的情報処理能力、低消費電力、高い生物学的信頼性により、多くの研究の注目を集めている。 時空間的特徴を効率的に抽出する能力は、イベントストリームの処理に適している。 しかし、SNNの既存のシナプス構造は、ほぼ完全な接続や空間的2次元畳み込みであり、どちらも時間的依存関係を適切に抽出できない。 本研究では,生物学的シナプスから着想を得て,時空間的シナプス接続sn(stsc-snn)モデルを提案する。 具体的には,時間的畳み込みと注意機構を取り入れ,シナプスフィルタリングとゲーティング機能を実装する。 時間依存性を持つ内因性シナプスモデルによって分類タスクにおけるsnsの性能が向上することを示す。 さらに,空間的・時間的受容場の変化による性能への影響について検討し,SNNにおける時間的モジュールの再評価を行う。 本手法はDVS128ゲスチャ(ジェスチャー認識)、N-MNIST、CIFAR10-DVS(画像分類)、SHD(音声桁認識)などのニューロモルフィックなデータセットを用いて検討した。 その結果,提案モデルは,ほぼすべてのデータセットにおいて最先端の精度を上回っていることがわかった。

Spiking Neural Networks (SNNs), as one of the algorithmic models in neuromorphic computing, have gained a great deal of research attention owing to temporal information processing capability, low power consumption, and high biological plausibility. The potential to efficiently extract spatio-temporal features makes it suitable for processing the event streams. However, existing synaptic structures in SNNs are almost full-connections or spatial 2D convolution, neither of which can extract temporal dependencies adequately. In this work, we take inspiration from biological synapses and propose a spatio-temporal synaptic connection SNN (STSC-SNN) model, to enhance the spatio-temporal receptive fields of synaptic connections, thereby establishing temporal dependencies across layers. Concretely, we incorporate temporal convolution and attention mechanisms to implement synaptic filtering and gating functions. We show that endowing synaptic models with temporal dependencies can improve the performance of SNNs on classification tasks. In addition, we investigate the impact of performance vias varied spatial-temporal receptive fields and reevaluate the temporal modules in SNNs. Our approach is tested on neuromorphic datasets, including DVS128 Gesture (gesture recognition), N-MNIST, CIFAR10-DVS (image classification), and SHD (speech digit recognition). The results show that the proposed model outperforms the state-of-the-art accuracy on nearly all datasets.
翻訳日:2022-10-12 13:53:07 公開日:2022-10-11
# 言語モデルは特定できるのか? どうやって?

Can Language Models Be Specific? How? ( http://arxiv.org/abs/2210.05159v1 )

ライセンス: Link先を確認
Jie Huang, Kevin Chen-Chuan Chang, Jinjun Xiong, Wen-mei Hwu(参考訳) 優れたスピーカーは、正しいことだけでなく、望むときに具体化できる能力も備えており、言語モデルもそうである。 本稿では,事前学習型言語モデル(plm)の言語がどの程度具体的であるかを測定することを提案する。 これを実現するために,マスク付きトークン予測タスクをプロンプトで形成することにより,特異性テストのためのベンチマークを構築する新しい手法を提案する。 例えば、``j が与えられる。 K・ローリングは[MASK]で生まれた. 例えば、イングランドの代わりにイェートなど、より具体的な答えがPLMによって満たされるかどうかを検証したい。 評価の結果,既存のPLMはより具体的な回答を少ししか好まないことがわかった。 具体性に影響を与える要因を特定し,具体性を改善するための2つのプロンプトベースの手法を設計する。 以上の結果から,提案手法によりモデルの特異性が向上できることが示唆された。 この研究は、言語モデリングの新しい洞察を与え、研究コミュニティにこの重要だが未調査の問題をさらに探求するよう促すことができると信じています。

A good speaker not only needs to be correct, but also has the ability to be specific when desired, and so are language models. In this paper, we propose to measure how specific the language of pre-trained language models (PLMs) is. To achieve this, we introduce a novel approach to build a benchmark for specificity testing by forming masked token prediction tasks with prompts. For instance, given ``J. K. Rowling was born in [MASK].'', we want to test whether a more specific answer will be better filled in by PLMs, e.g., Yate instead of England. From our evaluations, we show that existing PLMs have only a slight preference for more specific answers. We identify underlying factors affecting the specificity and design two prompt-based methods to improve the specificity. Results show that the specificity of the models can be improved by the proposed methods without additional training. We believe this work can provide new insights for language modeling and encourage the research community to further explore this important but understudied problem.
翻訳日:2022-10-12 13:52:03 公開日:2022-10-11
# 訴訟検索のための多視点コントラスト学習を用いた法的要素指向モデリング

Legal Element-oriented Modeling with Multi-view Contrastive Learning for Legal Case Retrieval ( http://arxiv.org/abs/2210.05188v1 )

ライセンス: Link先を確認
Zhaowei Wang(参考訳) クエリケースが与えられた関連事例の検索を目的とした訴訟検索は、法律システムにおいて不可欠な役割を担っている。 近年の研究では,従来のアドホック検索モデルの性能向上が試みられているが,クエリが数百のトークンを含む法的ケースであるため,法的ケース検索は依然として困難である。 法的ケースはキーワードクエリよりもずっと長く複雑です。 それとは別に、法的関連性の定義は一般的な定義を超えている。 一般的な話題的関連性に加えて、関連するケースには、現在のケースの判断を支援する類似の状況と法的要素が含まれる。 本稿では,多視点コントラスト学習目標を用いた訴訟検索のための対話型ネットワークを提案する。 ケースビューや要素ビューを含む対照的な学習ビューは、上記の課題を克服することを目指している。 ケースビューコントラスト学習は、事前学習された言語モデル(PLM)エンコーダによって生成された関連する法的ケース表現間の隠れた空間距離を最小化する。 要素ビューは、ケースの法的な要素を変更して、ネットワークの法的な関連性をよりよく計算する。 これを実現するために,法律要素知識認識指標を用いて事例の法的要素を検出する。 関連事例検索のベンチマークについて広範な実験を行った。 評価の結果,提案手法は既存手法よりも大幅に改善されていることがわかった。

Legal case retrieval, which aims to retrieve relevant cases given a query case, plays an essential role in the legal system. While recent research efforts improve the performance of traditional ad-hoc retrieval models, legal case retrieval is still challenging since queries are legal cases, which contain hundreds of tokens. Legal cases are much longer and more complicated than keywords queries. Apart from that, the definition of legal relevance is beyond the general definition. In addition to general topical relevance, the relevant cases also involve similar situations and legal elements, which can support the judgment of the current case. In this paper, we propose an interaction-focused network for legal case retrieval with a multi-view contrastive learning objective. The contrastive learning views, including case-view and element-view, aim to overcome the above challenges. The case-view contrastive learning minimizes the hidden space distance between relevant legal case representations produced by a pre-trained language model (PLM) encoder. The element-view builds positive and negative instances by changing legal elements of cases to help the network better compute legal relevance. To achieve this, we employ a legal element knowledge-aware indicator to detect legal elements of cases. We conduct extensive experiments on the benchmark of relevant case retrieval. Evaluation results indicate our proposed method obtains significant improvement over the existing methods.
翻訳日:2022-10-12 13:51:45 公開日:2022-10-11
# CHAE:キャラクタ、アクション、感情による微調整可能なストーリー生成

CHAE: Fine-Grained Controllable Story Generation with Characters, Actions and Emotions ( http://arxiv.org/abs/2210.05221v1 )

ライセンス: Link先を確認
Xinpeng Wang, Han Jiang, Zhihua Wei, Shanlin Zhou(参考訳) 近年、ストーリー生成は興味深いが挑戦的なNLPタスクとして現れている。 既存の研究は、キーワードやアウトラインから流動的でコヒーレントなストーリーを生成することを目的としており、感情、スタイル、トピックなど、ストーリーのグローバルな特徴をコントロールしようとするものもある。 しかし、これらの作品はストーリーの粗い粒度の制御に重点を置いており、ストーリーの詳細に対する制御を無視している。 このギャップを埋めるために, キャラクター, 対応する行動, 感情を任意に割り当てた, カスタマイズされたストーリーの生成を可能にする, ストーリーのきめ細かい制御モデルを提案する。 自動手動評価と人的手動評価の総合的な実験結果から,本手法の優位性を示した。 きめ細かなパーソナライズドガイダンスに従ってストーリを生成するためのコントロール性が強く,方法論の有効性が明らかにされています。 私たちのコードはhttps://github.com/victorup/chaeで利用可能です。

Story generation has emerged as an interesting yet challenging NLP task in recent years. Some existing studies aim at generating fluent and coherent stories from keywords and outlines; while others attempt to control the global features of the story, such as emotion, style and topic. However, these works focus on coarse-grained control on the story, neglecting control on the details of the story, which is also crucial for the task. To fill the gap, this paper proposes a model for fine-grained control on the story, which allows the generation of customized stories with characters, corresponding actions and emotions arbitrarily assigned. Extensive experimental results on both automatic and human manual evaluations show the superiority of our method. It has strong controllability to generate stories according to the fine-grained personalized guidance, unveiling the effectiveness of our methodology. Our code is available at https://github.com/victorup/CHAE.
翻訳日:2022-10-12 13:51:27 公開日:2022-10-11
# PatternRank: 事前学習言語モデルの活用と教師なしキーフレーズ抽出のための音声の一部

PatternRank: Leveraging Pretrained Language Models and Part of Speech for Unsupervised Keyphrase Extraction ( http://arxiv.org/abs/2210.05245v1 )

ライセンス: Link先を確認
Tim Schopf, Simon Klimek, Florian Matthes(参考訳) キーワード抽出は、与えられたテキストから最も関連性の高いフレーズの小さなセットを自動的に選択するプロセスである。 改良されたキーフレーズ抽出アプローチは、大量のラベル付きトレーニングデータを必要とし、トレーニングデータの領域外では性能が良くない(Bennani-Smires et al., 2018)。 本稿では,事前学習された言語モデルと単一文書からの教師なしキーフレーズ抽出のためのpart-of-speechを用いたパターンランクを提案する。 実験の結果,PatternRankは従来の最先端手法よりも高精度,リコール,F1スコアを実現していることがわかった。 さらに,提案するKeyphraseVectorizersパッケージは,候補となるキーフレーズの選択のための音声パターンの変更を容易にし,任意のドメインへのアプローチの適応を可能にする。

Keyphrase extraction is the process of automatically selecting a small set of most relevant phrases from a given text. Supervised keyphrase extraction approaches need large amounts of labeled training data and perform poorly outside the domain of the training data (Bennani-Smires et al., 2018). In this paper, we present PatternRank, which leverages pretrained language models and part-of-speech for unsupervised keyphrase extraction from single documents. Our experiments show PatternRank achieves higher precision, recall and F1 -scores than previous state-of-the-art approaches. In addition, we present the KeyphraseVectorizers package, which allows easy modification of part-of-speech patterns for candidate keyphrase selection, and hence adaptation of our approach to any domain.
翻訳日:2022-10-12 13:51:10 公開日:2022-10-11
# once is enough: 高速文対モデリングのための軽量クロスアテンション

Once is Enough: A Light-Weight Cross-Attention for Fast Sentence Pair Modeling ( http://arxiv.org/abs/2210.05261v1 )

ライセンス: Link先を確認
Yuanhang Yang, shiyi qi, Cuiyun Gao, Zenglin Xu, Yulan He, Qifan Wang and Chuanyi Liu(参考訳) トランスフォーマーベースのモデルは、応答選択や自然言語推論(NLI)といった文対モデリングタスクで大きな成功を収めた。 これらのモデルは通常、入力ペアに対してクロスアテンションを実行するため、計算コストは禁じられる。 近年、高速計算のためのデュアルエンコーダと遅延インタラクションアーキテクチャを提案する。 しかし、クロスアテンションの表現と計算スピードアップのバランスはいまだよく調整する必要がある。 そこで本稿では,効率的な文対モデリングのための新しいパラダイムミックスエンコーダを提案する。 mixencoderには軽量なクロスアテンション機構がある。 クエリ-候補相互作用を並列にモデリングしながら、クエリエンコーディングのみを実行する。 4つのタスクで実施された大規模な実験により、MixEncoderは、より高価なクロスアテンションモデルと同等の性能を保ちながら、文ペアリングを113倍高速化できることが示された。

Transformer-based models have achieved great success on sentence pair modeling tasks, such as answer selection and natural language inference (NLI). These models generally perform cross-attention over input pairs, leading to prohibitive computational costs. Recent studies propose dual-encoder and late interaction architectures for faster computation. However, the balance between the expressive of cross-attention and computation speedup still needs better coordinated. To this end, this paper introduces a novel paradigm MixEncoder for efficient sentence pair modeling. MixEncoder involves a light-weight cross-attention mechanism. It conducts query encoding only once while modeling the query-candidate interaction in parallel. Extensive experiments conducted on four tasks demonstrate that our MixEncoder can speed up sentence pairing by over 113x while achieving comparable performance as the more expensive cross-attention models.
翻訳日:2022-10-12 13:50:55 公開日:2022-10-11
# スケジューリングサンプリングによるマークアップ・ツー・イメージ拡散モデル

Markup-to-Image Diffusion Models with Scheduled Sampling ( http://arxiv.org/abs/2210.05147v1 )

ライセンス: Link先を確認
Yuntian Deng, Noriyuki Kojima, Alexander M. Rush(参考訳) 画像生成の最近の進歩に基づき,画像にマークアップを描画するための完全データ駆動型アプローチを提案する。 このアプローチは拡散モデルに基づいており、ガウス雑音分布の上の消音演算のシーケンスを用いてデータの分布をパラメータ化する。 本研究では,拡散認知過程を逐次決定過程とみなし,擬似学習問題における露出バイアス問題と類似した複合的誤りを示すことを示す。 これらの問題を緩和するため,本手法は拡散訓練に適応する。 数式(LaTeX)、テーブルレイアウト(HTML)、シート音楽(LilyPond)、分子画像(SMILES)の4つのマークアップデータセットについて実験を行った。 これらの実験は, 拡散過程の有効性を検証し, 生成問題の修正に計画的サンプリングを用いた。 これらの結果から,マークアップ・トゥ・イメージタスクは生成画像モデルの診断・解析に有用な制御された構成条件を示すことがわかった。

Building on recent advances in image generation, we present a fully data-driven approach to rendering markup into images. The approach is based on diffusion models, which parameterize the distribution of data using a sequence of denoising operations on top of a Gaussian noise distribution. We view the diffusion denoising process as a sequential decision making process, and show that it exhibits compounding errors similar to exposure bias issues in imitation learning problems. To mitigate these issues, we adapt the scheduled sampling algorithm to diffusion training. We conduct experiments on four markup datasets: mathematical formulas (LaTeX), table layouts (HTML), sheet music (LilyPond), and molecular images (SMILES). These experiments each verify the effectiveness of the diffusion process and the use of scheduled sampling to fix generation issues. These results also show that the markup-to-image task presents a useful controlled compositional setting for diagnosing and analyzing generative image models.
翻訳日:2022-10-12 13:45:35 公開日:2022-10-11
# VER: オンラインRLのスケーリングは、身体的再配置におけるナビゲーションの創発につながる

VER: Scaling On-Policy RL Leads to the Emergence of Navigation in Embodied Rearrangement ( http://arxiv.org/abs/2210.05064v1 )

ライセンス: Link先を確認
Erik Wijmans and Irfan Essa and Dhruv Batra(参考訳) 我々は、異種環境(異なる環境がロールアウトを生成するのに非常に異なる時間を要する)において、バッチ化されたオンライン強化学習を効率的にスケールする技術であるVariable Experience Rollout(VER)を紹介します。 VERは同期型と非同期型のRLメソッド(SyncOnRLとAsyncOnRL)の長所と短所を組み合わせたものだ。 VERは(SyncOnRLのような)政治上の経験から学び、(AsyncOnRLのような)同期ポイントを持たない。 VERは、フォトリアリスティックな3Dシミュレーション環境において、幅広いエンボディナビゲーションとモバイル操作タスクにおいて、大幅な、一貫したスピードアップをもたらす。 具体的には、habitat 1.0におけるpointgoal navigationとobjectgoal navigationにおいて、verはdd-ppoよりも60-100%高速(1.6-2倍のスピードアップ)である。 Habitat 2.0のモバイル操作タスク(オープン冷蔵庫/キャビネット、ピック/プレースオブジェクト)では、1GPUでは150%(2.5倍)、DD-PPOより170%(2.7倍)高速である。 SampleFactory(現在の技術であるAsyncOnRL)と比較すると、VERは1GPU上での速度と一致し、8GPUで70%高速(1.7倍のスピードアップ)でサンプリング効率が向上している。 これらのスピードアップを利用して、Home Assistant Benchmark(HAB)におけるGeometricGoal再構成タスクのチェーンスキルをトレーニングする。 目立たないスキルでナビゲーションが驚くほど現れるのに、ナビゲーションは一切必要ありません。 特にピックスキルには、ロボットがテーブルからオブジェクトを拾うことが含まれる。 トレーニング中、ロボットは常にテーブルの近くに産み出され、ナビゲートする必要はなかった。 しかし、ベースムーブメントがアクションスペースの一部である場合、ロボットはナビゲートを学び、50%の成功で新しい環境でオブジェクトを選択し、驚くほど高い分散の一般化を示す。

We present Variable Experience Rollout (VER), a technique for efficiently scaling batched on-policy reinforcement learning in heterogenous environments (where different environments take vastly different times to generate rollouts) to many GPUs residing on, potentially, many machines. VER combines the strengths of and blurs the line between synchronous and asynchronous on-policy RL methods (SyncOnRL and AsyncOnRL, respectively). VER learns from on-policy experience (like SyncOnRL) and has no synchronization points (like AsyncOnRL). VER leads to significant and consistent speed-ups across a broad range of embodied navigation and mobile manipulation tasks in photorealistic 3D simulation environments. Specifically, for PointGoal navigation and ObjectGoal navigation in Habitat 1.0, VER is 60-100% faster (1.6-2x speedup) than DD-PPO, the current state of art distributed SyncOnRL, with similar sample efficiency. For mobile manipulation tasks (open fridge/cabinet, pick/place objects) in Habitat 2.0 VER is 150% faster (2.5x speedup) on 1 GPU and 170% faster (2.7x speedup) on 8 GPUs than DD-PPO. Compared to SampleFactory (the current state-of-the-art AsyncOnRL), VER matches its speed on 1 GPU, and is 70% faster (1.7x speedup) on 8 GPUs with better sample efficiency. We leverage these speed-ups to train chained skills for GeometricGoal rearrangement tasks in the Home Assistant Benchmark (HAB). We find a surprising emergence of navigation in skills that do not ostensible require any navigation. Specifically, the Pick skill involves a robot picking an object from a table. During training the robot was always spawned close to the table and never needed to navigate. However, we find that if base movement is part of the action space, the robot learns to navigate then pick an object in new environments with 50% success, demonstrating surprisingly high out-of-distribution generalization.
翻訳日:2022-10-12 13:44:19 公開日:2022-10-11
# 動的分布校正によるインスタンス依存ラベルノイズ対策

Tackling Instance-Dependent Label Noise with Dynamic Distribution Calibration ( http://arxiv.org/abs/2210.05126v1 )

ライセンス: Link先を確認
Manyi Zhang, Yuxin Ren, Zihao Wang, Chun Yuan(参考訳) インスタンスに依存したラベルノイズは現実的だが、ラベル破壊プロセスはインスタンスに直接依存する。 これは、トレーニングとテストデータの分布の間に厳しい分布変化を引き起こし、トレーニングされたモデルの一般化を妨げる。 以前の仕事はこの問題に取り組むのに多大な努力を払った。 残念ながら、これらの作品は常に強い仮定に頼り、理論的な保証なしにヒューリスティックなままである。 本稿では,インスタンス依存ラベル雑音を伴う学習における分布変化に対処するため,動的分布分割戦略を提案する。 具体的には,学習データがラベルノイズによって破壊される前に,各クラスは特徴レベルの多変量ガウス分布に従うことを仮定する。 ラベルノイズはガウス分布をシフトするために外れ値を生成する。 学習中にシフト分布を校正するために,多変量ガウス分布の平均と共分散に基づく2つの方法を提案する。 この平均に基づく手法は、理論上はラベルノイズに対して高品質なモデルを訓練することが保証されているロバスト平均推定のために再帰的な次元還元方式で動作する。 共分散に基づく手法は, モデルロバスト性を改善するために実験的に検証された分散乱れ方式で動作する。 合成ラベルノイズと実世界の未知雑音を含むデータセットに対して,本手法の有効性と有効性を示す。

Instance-dependent label noise is realistic but rather challenging, where the label-corruption process depends on instances directly. It causes a severe distribution shift between the distributions of training and test data, which impairs the generalization of trained models. Prior works put great effort into tackling the issue. Unfortunately, these works always highly rely on strong assumptions or remain heuristic without theoretical guarantees. In this paper, to address the distribution shift in learning with instance-dependent label noise, a dynamic distribution-calibration strategy is adopted. Specifically, we hypothesize that, before training data are corrupted by label noise, each class conforms to a multivariate Gaussian distribution at the feature level. Label noise produces outliers to shift the Gaussian distribution. During training, to calibrate the shifted distribution, we propose two methods based on the mean and covariance of multivariate Gaussian distribution respectively. The mean-based method works in a recursive dimension-reduction manner for robust mean estimation, which is theoretically guaranteed to train a high-quality model against label noise. The covariance-based method works in a distribution disturbance manner, which is experimentally verified to improve the model robustness. We demonstrate the utility and effectiveness of our methods on datasets with synthetic label noise and real-world unknown noise.
翻訳日:2022-10-12 13:43:41 公開日:2022-10-11
# 鋭さを意識した最小化をより強くする:スパース化摂動アプローチ

Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation Approach ( http://arxiv.org/abs/2210.05177v1 )

ライセンス: Link先を確認
Peng Mi, Li Shen, Tianhe Ren, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji, Dacheng Tao(参考訳) ディープニューラルネットワークは、複雑で非凸なロスランドスケープによって引き起こされる一般化に苦しむことが多い。 人気のソリューションのひとつにSAM(Sharpness-Aware Minimization)がある。これは、重量に摂動を加える際のトレーニング損失の最大化を最小化することによって、損失景観を円滑にする。 しかし、SAMの全てのパラメータに対する非差別的な摂動は、過度な計算、すなわちStochastic Gradient Descent (SGD)のような一般的なオプティマイザのオーバーヘッドを2倍にする。 本稿では,二元マスクによるスパース摂動を実現するための,スパースSAM(SSAM)と呼ばれる効率的かつ効果的なトレーニング手法を提案する。 スパースマスクを得るには、それぞれfisher informationとdynamic sparse trainingに基づく2つのソリューションを提供する。 さらに、理論上は SSAM が SAM と同じ速度で収束できること、すなわち$O(\log T/\sqrt{T})$ を証明している。 スパースSAMはトレーニングアクセラレーションの可能性を秘めているだけでなく、ロスランドスケープを効果的に滑らかにする。 CIFAR10, CIFAR100, ImageNet-1Kの広範囲な実験結果から, SAM法よりも優れた効率性が確認された。 コードは \url{https://github.com/Mi-Peng/Sparse-Sharpness-Aware-Minimization} で利用可能である。

Deep neural networks often suffer from poor generalization caused by complex and non-convex loss landscapes. One of the popular solutions is Sharpness-Aware Minimization (SAM), which smooths the loss landscape via minimizing the maximized change of training loss when adding a perturbation to the weight. However, we find the indiscriminate perturbation of SAM on all parameters is suboptimal, which also results in excessive computation, i.e., double the overhead of common optimizers like Stochastic Gradient Descent (SGD). In this paper, we propose an efficient and effective training scheme coined as Sparse SAM (SSAM), which achieves sparse perturbation by a binary mask. To obtain the sparse mask, we provide two solutions which are based onFisher information and dynamic sparse training, respectively. In addition, we theoretically prove that SSAM can converge at the same rate as SAM, i.e., $O(\log T/\sqrt{T})$. Sparse SAM not only has the potential for training acceleration but also smooths the loss landscape effectively. Extensive experimental results on CIFAR10, CIFAR100, and ImageNet-1K confirm the superior efficiency of our method to SAM, and the performance is preserved or even better with a perturbation of merely 50% sparsity. Code is availiable at \url{https://github.com/Mi-Peng/Sparse-Sharpness-Aware-Minimization}.
翻訳日:2022-10-12 13:43:21 公開日:2022-10-11
# クラス内変動のモデル化による連続学習

Continual Learning by Modeling Intra-Class Variation ( http://arxiv.org/abs/2210.05398v1 )

ライセンス: Link先を確認
Longhui Yu, Tianyang Hu, Lanqing Hong, Zhen Liu, Adrian Weller, Weiyang Liu(参考訳) データやタスクがシーケンシャルに提示された場合、ニューラルネットワークの性能は低下する。 人間とは異なり、ニューラルネットワークは壊滅的な記憶の喪失に苦しむため、生涯学習は不可能である。 この問題に対処するために,メモリベースの連続学習が積極的に研究され,最も優れた方法の1つとして注目されている。 記憶に基づく連続学習を考察し,大惨事の回避には表現空間のばらつきが不可欠であることを示す。 そこで本研究では,モデル非依存の変動(学習したニューラルネットワークの知識を伴わずに変動が生成される)とモデルに基づく変動(学習したニューラルネットワークで変動が条件づけられる)という2種類の摂動を用いて表現を多様化することを提案する。 表現的変化の拡大が連続学習を改善するための一般的な原則であることを示す。 最後に,本手法を単純なプラグ・アンド・プレイコンポーネントとして,メモリベースの連続学習手法を多数連続的に改善できることを実証する実験を行った。

It has been observed that neural networks perform poorly when the data or tasks are presented sequentially. Unlike humans, neural networks suffer greatly from catastrophic forgetting, making it impossible to perform life-long learning. To address this issue, memory-based continual learning has been actively studied and stands out as one of the best-performing methods. We examine memory-based continual learning and identify that large variation in the representation space is crucial for avoiding catastrophic forgetting. Motivated by this, we propose to diversify representations by using two types of perturbations: model-agnostic variation (i.e., the variation is generated without the knowledge of the learned neural network) and model-based variation (i.e., the variation is conditioned on the learned neural network). We demonstrate that enlarging representational variation serves as a general principle to improve continual learning. Finally, we perform empirical studies which demonstrate that our method, as a simple plug-and-play component, can consistently improve a number of memory-based continual learning methods by a large margin.
翻訳日:2022-10-12 13:42:54 公開日:2022-10-11
# 周波数対応自己教師付き単眼深度推定

Frequency-Aware Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2210.05479v1 )

ライセンス: Link先を確認
Xingyu Chen, Thomas H. Li, Ruonan Zhang, Ge Li(参考訳) 自己教師付き単眼深度推定モデル(MDE)を汎用的に拡張する2つの手法を提案する。 本手法の高一般化性は,測光損失関数の基本的およびユビキタスな問題を解くことによって達成される。 特に,空間周波数の観点からは,特定の被写体境界における測光損失による不正確な監督を抑制するために,まず曖昧度マスキングを提案し,その原因は画素レベルの曖昧さにさかのぼる。 第2に,高周波領域における光量損失のロバスト化を目的とした新しい周波数適応ガウス低パスフィルタを提案する。 画像のぼやけを最初に提案し,解釈可能な解析により深度推定精度を向上させる。 どちらのモジュールも軽量で、パラメータを追加せず、手動でネットワーク構造を変更する必要もない。 実験により,提案手法は,最先端を主張する者を含む多数の既存モデルに性能向上をもたらすと同時に,余分な推論計算をまったく導入しないことを示した。

We present two versatile methods to generally enhance self-supervised monocular depth estimation (MDE) models. The high generalizability of our methods is achieved by solving the fundamental and ubiquitous problems in photometric loss function. In particular, from the perspective of spatial frequency, we first propose Ambiguity-Masking to suppress the incorrect supervision under photometric loss at specific object boundaries, the cause of which could be traced to pixel-level ambiguity. Second, we present a novel frequency-adaptive Gaussian low-pass filter, designed to robustify the photometric loss in high-frequency regions. We are the first to propose blurring images to improve depth estimators with an interpretable analysis. Both modules are lightweight, adding no parameters and no need to manually change the network structures. Experiments show that our methods provide performance boosts to a large number of existing models, including those who claimed state-of-the-art, while introducing no extra inference computation at all.
翻訳日:2022-10-12 13:42:35 公開日:2022-10-11
# OPERA: 階層的スーパービジョンによるOmni-Supervised Representation Learning

OPERA: Omni-Supervised Representation Learning with Hierarchical Supervisions ( http://arxiv.org/abs/2210.05557v1 )

ライセンス: Link先を確認
Chengkun Wang, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu(参考訳) 現代のコンピュータビジョンにおける事前訓練と細分化のパラダイムは、自己教師あり学習の成功を促進する。 しかし、大量のラベル付きデータが利用可能になると、自然に疑問が生まれます: 自己と完全な監視信号の両方で、よりよいモデルをトレーニングする方法? 本稿では,Omni-suPErvised Representation leArning(OPERA)を解決策として提案する。 ラベル付きデータとラベル付きデータからの監督の統一的な視点を提供し,教師付き学習と自己教師付き学習の統一的な枠組みを提案する。 画像ごとに階層的なプロキシ表現の集合を抽出し、対応するプロキシ表現に自己および全監督を課す。 畳み込みニューラルネットワークとビジョントランスフォーマーの併用実験は、画像分類、セグメンテーション、オブジェクト検出においてOPERAの優位性を実証している。 コードは、https://github.com/wangck20/OPERA.comで入手できる。

The pretrain-finetune paradigm in modern computer vision facilitates the success of self-supervised learning, which tends to achieve better transferability than supervised learning. However, with the availability of massive labeled data, a natural question emerges: how to train a better model with both self and full supervision signals? In this paper, we propose Omni-suPErvised Representation leArning with hierarchical supervisions (OPERA) as a solution. We provide a unified perspective of supervisions from labeled and unlabeled data and propose a unified framework of fully supervised and self-supervised learning. We extract a set of hierarchical proxy representations for each image and impose self and full supervisions on the corresponding proxy representations. Extensive experiments on both convolutional neural networks and vision transformers demonstrate the superiority of OPERA in image classification, segmentation, and object detection. Code is available at: https://github.com/wangck20/OPERA.
翻訳日:2022-10-12 13:42:17 公開日:2022-10-11
# ジェネリックイベント境界検出のための運動認識自己スーパービジョン

Motion Aware Self-Supervision for Generic Event Boundary Detection ( http://arxiv.org/abs/2210.05574v1 )

ライセンス: Link先を確認
Ayush K. Rai, Tarun Krishna, Julia Dietlmeier, Kevin McGuinness, Alan F. Smeaton, Noel E. O'Connor(参考訳) ジェネリックイベント境界検出(GEBD)の課題は、人間によって自然に認識されるビデオのモーメントを、ジェネリックおよび分類のないイベント境界として検出することである。 ビデオ中の時間的変化と空間的変化を動的にモデル化することは、GEBDの解決を難しくする。 既存のアプローチには、アーキテクチャ設計の選択の観点から非常に複雑で洗練されたパイプラインが含まれます。 本稿では,GEBDタスクにおける空間的・時間的多様性に対処するため,単純で効果的な自己監督手法を再検討し,異なる動作特徴学習モジュールで拡張することでこの問題に対処する。 我々は,提案手法の有効性を他の自己監視型手法と比較し,提案手法の有効性を実証するために,挑戦的なkinetics-gebdとtaposデータセットに関する広範な実験を行った。 また,この単純な自己教師付きアプローチは,明示的な動作固有のプリテキストタスクを伴わずに動作特徴を学習できることを示す。

The task of Generic Event Boundary Detection (GEBD) aims to detect moments in videos that are naturally perceived by humans as generic and taxonomy-free event boundaries. Modeling the dynamically evolving temporal and spatial changes in a video makes GEBD a difficult problem to solve. Existing approaches involve very complex and sophisticated pipelines in terms of architectural design choices, hence creating a need for more straightforward and simplified approaches. In this work, we address this issue by revisiting a simple and effective self-supervised method and augment it with a differentiable motion feature learning module to tackle the spatial and temporal diversities in the GEBD task. We perform extensive experiments on the challenging Kinetics-GEBD and TAPOS datasets to demonstrate the efficacy of the proposed approach compared to the other self-supervised state-of-the-art methods. We also show that this simple self-supervised approach learns motion features without any explicit motion-specific pretext task.
翻訳日:2022-10-12 13:42:02 公開日:2022-10-11
# ファウショット学習のための言語モデルの連続学習

Continual Training of Language Models for Few-Shot Learning ( http://arxiv.org/abs/2210.05549v1 )

ライセンス: Link先を確認
Zixuan Ke, Haowei Lin, Yijia Shao, Hu Xu, Lei Shu, and Bing Liu(参考訳) 大規模言語モデル(LM)の適用に関する最近の研究は、多くのNLPアプリケーションにおいて印象的な性能を実現している。 ラベルのないドメインコーパスを使用してLMを適応または後トレーニングすることで、ドメイン内のエンドタスクのパフォーマンスをさらに向上させることができる。 本論文は,lmを無ラベルドメインコーパスのシーケンスで段階的に訓練し,その知識を拡大し,そのスキルを忘れずにlmを継続的に拡張する問題を提案する。 目標は、これらのドメインにおける数発のエンドタスク学習を改善することだ。 結果として得られたシステムはCPT(Continual PostTraining)と呼ばれ、私たちの知る限り、最初の継続的なポストトレーニングシステムである。 実験結果から有効性が確認された。

Recent work on applying large language models (LMs) achieves impressive performance in many NLP applications. Adapting or posttraining an LM using an unlabeled domain corpus can produce even better performance for end-tasks in the domain. This paper proposes the problem of continually extending an LM by incrementally post-train the LM with a sequence of unlabeled domain corpora to expand its knowledge without forgetting its previous skills. The goal is to improve the few-shot end-task learning in these domains. The resulting system is called CPT (Continual PostTraining), which to our knowledge, is the first continual post-training system. Experimental results verify its effectiveness.
翻訳日:2022-10-12 13:36:23 公開日:2022-10-11
# エンティティ定義によるエンティティの曖昧さ

Entity Disambiguation with Entity Definitions ( http://arxiv.org/abs/2210.05648v1 )

ライセンス: Link先を確認
Luigi Procopio, Simone Conia, Edoardo Barba, Roberto Navigli(参考訳) ローカルモデルは、最近Entity Disambiguation (ED)において驚くべきパフォーマンスを達成し、生成的および抽出的定式化が最も有望な研究方向である。 しかし、以前の研究は、各候補のテキスト表現として、ウィキペディアのタイトルのみを使用することに限られていた。 この戦略は確かに効果的だが、特にタイトルが互いに十分な情報や区別ができない場合には、いくつかの重要な問題が発生する。 本稿では、この制限に対処し、より表現力のあるテキスト表現がどの程度緩和できるかを検討する。 我々は、EDの標準ベンチマークに対する我々のアプローチを徹底的に評価し、抽出的定式化がこれらの表現に特に適していることを見出した。 私たちはコード、データ、モデルのチェックポイントをhttps://github.com/sapienzanlp/extendでリリースします。

Local models have recently attained astounding performances in Entity Disambiguation (ED), with generative and extractive formulations being the most promising research directions. However, previous works limited their studies to using, as the textual representation of each candidate, only its Wikipedia title. Although certainly effective, this strategy presents a few critical issues, especially when titles are not sufficiently informative or distinguishable from one another. In this paper, we address this limitation and investigate to what extent more expressive textual representations can mitigate it. We thoroughly evaluate our approach against standard benchmarks in ED and find extractive formulations to be particularly well-suited to these representations: we report a new state of the art on 2 out of 6 benchmarks we consider and strongly improve the generalization capability over unseen patterns. We release our code, data and model checkpoints at https://github.com/SapienzaNLP/extend.
翻訳日:2022-10-12 13:35:45 公開日:2022-10-11
# LARF:汚染モデルを混合した2レベル注意型ランダム林

LARF: Two-level Attention-based Random Forests with a Mixture of Contamination Models ( http://arxiv.org/abs/2210.05168v1 )

ライセンス: Link先を確認
Andrei V. Konstantinov and Lev V. Utkin(参考訳) LARF(Leaf Attention-based Random Forest)と呼ばれる注意に基づくランダム林の新しいモデルを提案する。 モデルの背後にある最初のアイデアは、2段階の注意の導入であり、その中の1つは「リーフ」の注意であり、各木の葉に注意のメカニズムが適用される。 第二のレベルは「葉」の注意による木の注意である。 2つ目のアイデアは、注意のソフトマックス操作を異なるパラメータによるソフトマックス操作の重み付け和に置き換えることである。 これはフーバーの汚染モデルの混合を適用して実装され、softmaxパラメータの値を選択することで定義された"ヘッド"とマルチヘッド注意の類似物と見なすことができる。 注意パラメータは2次最適化問題の解法によって単純に訓練される。 モデルのチューニングプロセスを簡略化するため,2次最適化問題を解くことにより,トレーニング対象の汚染パラメータを調整し,それらを計算することを提案する。 実データセットを用いた多くの数値実験がLARFの研究のために実施されている。 提案されたアルゴリズムのコードはhttps://github.com/andruekonst/leaf-attention-forestにある。

New models of the attention-based random forests called LARF (Leaf Attention-based Random Forest) are proposed. The first idea behind the models is to introduce a two-level attention, where one of the levels is the "leaf" attention and the attention mechanism is applied to every leaf of trees. The second level is the tree attention depending on the "leaf" attention. The second idea is to replace the softmax operation in the attention with the weighted sum of the softmax operations with different parameters. It is implemented by applying a mixture of the Huber's contamination models and can be regarded as an analog of the multi-head attention with "heads" defined by selecting a value of the softmax parameter. Attention parameters are simply trained by solving the quadratic optimization problem. To simplify the tuning process of the models, it is proposed to make the tuning contamination parameters to be training and to compute them by solving the quadratic optimization problem. Many numerical experiments with real datasets are performed for studying LARFs. The code of proposed algorithms can be found in https://github.com/andruekonst/leaf-attention-forest.
翻訳日:2022-10-12 13:34:30 公開日:2022-10-11
# コントラストウェイトプルーニングによる効率的脱バイアス

Efficient debiasing with contrastive weight pruning ( http://arxiv.org/abs/2210.05247v1 )

ライセンス: Link先を確認
Geon Yeong Park, Sangmin Lee, Sang Wan Lee, Jong Chul Ye(参考訳) ニューラルネットワークはしばしば、一般化しない誤解を招く統計的証拠を提供する刺激的に相関した特徴に偏っている。 これは根本的な疑問を提起する:「最適な非バイアス機能サブネットワークは、ひどくバイアスのかかるネットワークに存在するのか?もしそうなら、そのようなサブネットワークをどうやって抽出するか?」。 このような最適なサブネットワークが存在することは、地表面偏りのないサンプルの指導による研究は少ないが、バイアスのあるトレーニングデータセットを持つ最適なサブネットワークを見つける方法は、実際には未検討である。 これに対処するために、我々はまず、強いスプリアス相関の存在下で、偏りのないサブネットワークを探索する既存のアルゴリズムの潜在的な制限を警告する理論的な洞察を示す。 さらに,構造学習におけるバイアス強調サンプルの重要性を解明する。 これらの観測により、高価なグループアノテーションなしで非バイアスのサブネットを探索するDCWP(Debiased Contrastive Weight Pruning)アルゴリズムを提案する。 実験の結果,パラメータ数が大幅に減少しているにもかかわらず,本手法は最先端のデバイアス法よりも優れていた。

Neural networks are often biased to spuriously correlated features that provide misleading statistical evidence that does not generalize. This raises a fundamental question: "Does an optimal unbiased functional subnetwork exist in a severely biased network? If so, how to extract such subnetwork?" While few studies have revealed the existence of such optimal subnetworks with the guidance of ground-truth unbiased samples, the way to discover the optimal subnetworks with biased training dataset is still unexplored in practice. To address this, here we first present our theoretical insight that alerts potential limitations of existing algorithms in exploring unbiased subnetworks in the presence of strong spurious correlations. We then further elucidate the importance of bias-conflicting samples on structure learning. Motivated by these observations, we propose a Debiased Contrastive Weight Pruning (DCWP) algorithm, which probes unbiased subnetworks without expensive group annotations. Experimental results demonstrate that our approach significantly outperforms state-of-the-art debiasing methods despite its considerable reduction in the number of parameters.
翻訳日:2022-10-12 13:34:11 公開日:2022-10-11
# 低位正規化を用いた自己監督型デバイアス

Self-supervised debiasing using low rank regularization ( http://arxiv.org/abs/2210.05248v1 )

ライセンス: Link先を確認
Geon Yeong Park, Chanyong Jung, Jong Chul Ye, Sang Wan Lee(参考訳) スプリアス相関はディープニューラルネットワークにおいて強いバイアスを引き起こし、一般化能力を妨げる可能性がある。 既存のデバイアス手法のほとんどは、スプリアス属性またはターゲットラベルの完全な監視を必要とするが、両方のアノテーションの限られた量からデバイアスモデルのトレーニングはまだ未解決の問題である。 このような制約を克服するため,我々はまず,潜在表現のスペクトル解析によって興味深い現象について検討した。 また,ランクの正則化は,高度に相関した特徴を促進させる方法で,このバイアスを増幅できることを示した。 これらの観測により,ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。 まず、偏りのあるエンコーダを自己監督的に正規化して事前訓練し、エンコーダに素早い相関属性を学習させる意味的ボトルネックとして機能する。 このバイアスエンコーダは、下流タスクでバイアスコンフリクトサンプルを発見して重み付けするために使用され、メインモデルを効果的にデバイアスするのに役立つ。 特筆すべきは、提案された脱バイアスフレームワークは、自己教師付き学習ベースラインの一般化性能を著しく向上させ、場合によっては最先端の脱バイアスアプローチよりも優れていることである。

Spurious correlations can cause strong biases in deep neural networks, impairing generalization ability. While most of existing debiasing methods require full supervisions on either spurious attributes or target labels, training a debiased model from a limited amount of both annotations is still an open issue. To overcome such limitations, we first examined an interesting phenomenon by the spectral analysis of latent representations: spuriously correlated, easy-to-learn attributes make neural networks inductively biased towards encoding lower effective rank representations. We also show that a rank regularization can amplify this bias in a way that encourages highly correlated features. Motivated by these observations, we propose a self-supervised debiasing framework that is potentially compatible with unlabeled samples. We first pretrain a biased encoder in a self-supervised manner with the rank regularization, serving as a semantic bottleneck to enforce the encoder to learn the spuriously correlated attributes. This biased encoder is then used to discover and upweight bias-conflicting samples in a downstream task, serving as a boosting to effectively debias the main model. Remarkably, the proposed debiasing framework significantly improves the generalization performance of self-supervised learning baselines and, in some cases, even outperforms state-of-the-art supervised debiasing approaches.
翻訳日:2022-10-12 13:33:55 公開日:2022-10-11
# Q-Learningにおける過大評価バイアスの影響要因

Factors of Influence of the Overestimation Bias of Q-Learning ( http://arxiv.org/abs/2210.05262v1 )

ライセンス: Link先を確認
Julius Wagenbach and Matthia Sabatelli(参考訳) 本研究では,学習率$\alpha$,割引率$\gamma$,報酬信号$r$が,q学習アルゴリズムの過推定バイアスに与える影響について検討した。 ニューラルネットワークを関数近似器として用いる必要がある環境における予備的な結果は、3つのパラメータが過大評価に大きく影響していることを示している。 Q-Learning の時間差目標における指数移動平均 $r$ を用いて、$\alpha$ と $\gamma$ を慎重にチューニングすることにより、過去にその過大評価バイアスに対処したいくつかの一般的なモデルフリーメソッドよりも精度の高い値推定を学習できることが示される。

We study whether the learning rate $\alpha$, the discount factor $\gamma$ and the reward signal $r$ have an influence on the overestimation bias of the Q-Learning algorithm. Our preliminary results in environments which are stochastic and that require the use of neural networks as function approximators, show that all three parameters influence overestimation significantly. By carefully tuning $\alpha$ and $\gamma$, and by using an exponential moving average of $r$ in Q-Learning's temporal difference target, we show that the algorithm can learn value estimates that are more accurate than the ones of several other popular model-free methods that have addressed its overestimation bias in the past.
翻訳日:2022-10-12 13:33:32 公開日:2022-10-11
# オークションメカニズムにおける置換同分散の利点

Benefits of Permutation-Equivariance in Auction Mechanisms ( http://arxiv.org/abs/2210.05579v1 )

ライセンス: Link先を確認
Tian Qin, Fengxiang He, Dingfeng Shi, Wenbing Huang, Dacheng Tao(参考訳) 競売人の収入を最大化しつつ、入札者の後悔を最小化するインセンティブ互換のオークションメカニズムを設計することは、経済学において重要かつ複雑な問題である。 ニューラルネットワークによる最適なオークションメカニズムの学習を通じて、注目すべき進歩が達成されている。 本稿では,一般的な付加価値評価と対称的評価設定を考える。すなわち,一組のアイテムのバリュエーションを集合内のすべてのアイテムのバリュエーションの和として定義し,入札者及び/又はアイテムが置換された場合のバリュエーション分布を不変とする。 我々は、置換同変ニューラルネットワークには大きな利点があることを証明した: 置換同変は、期待された元ポストの後悔を減らし、モデル一般化性を改善し、予測される収益不変性を維持できる。 このことは、置換等分散が理論上最適に支配的な戦略インセンティブ互換条件に近づくのに役立ち、所望の一般化に必要なサンプルの複雑さを減少させることを意味する。 広範な実験は我々の理論を完全に支持する。 我々の知る限り、これはオークション機構における置換等価性の利点を理解するための最初の研究である。

Designing an incentive-compatible auction mechanism that maximizes the auctioneer's revenue while minimizes the bidders' ex-post regret is an important yet intricate problem in economics. Remarkable progress has been achieved through learning the optimal auction mechanism by neural networks. In this paper, we consider the popular additive valuation and symmetric valuation setting; i.e., the valuation for a set of items is defined as the sum of all items' valuations in the set, and the valuation distribution is invariant when the bidders and/or the items are permutated. We prove that permutation-equivariant neural networks have significant advantages: the permutation-equivariance decreases the expected ex-post regret, improves the model generalizability, while maintains the expected revenue invariant. This implies that the permutation-equivariance helps approach the theoretically optimal dominant strategy incentive compatible condition, and reduces the required sample complexity for desired generalization. Extensive experiments fully support our theory. To our best knowledge, this is the first work towards understanding the benefits of permutation-equivariance in auction mechanisms.
翻訳日:2022-10-12 13:33:18 公開日:2022-10-11
# 視覚知覚の過パラメータ直接適応モデルに向けて

Toward an Over-parameterized Direct-Fit Model of Visual Perception ( http://arxiv.org/abs/2210.03850v2 )

ライセンス: Link先を確認
Xin Li(参考訳) 本稿では,視覚知覚の過度なパラメータ化・直接適合モデルのための,単純・複雑セルの計算モデリング問題を再考する。 従来の知見とは異なり、単純な細胞と複雑な細胞間の並列結合機構とシーケンシャル結合機構の違いを強調する。 空間分割と構成を抽象化する新しい提案が,我々の新しい階層構造の基礎として開発されている。 この構成は、既存のk-d木の積トポロジーに基づく一般化として解釈でき、高次元空間におけるブルート力直接適合に適している。 構築されたモデルは、神経科学と心理学のいくつかの古典的な実験に応用されている。 構築された視覚モデルの反スパース符号化解釈を提供し、$\ell_{\infty}$-optimization に基づく動的プログラミング(DP)のような近似近傍探索にどのように導かれるかを示す。 また、非対称(デコーダがより重要である)オートエンコーダとスパイクニューラルネットワーク(SNN)に基づく2つの実装についても簡単に論じる。

In this paper, we revisit the problem of computational modeling of simple and complex cells for an over-parameterized and direct-fit model of visual perception. Unlike conventional wisdom, we highlight the difference in parallel and sequential binding mechanisms between simple and complex cells. A new proposal for abstracting them into space partitioning and composition is developed as the foundation of our new hierarchical construction. Our construction can be interpreted as a product topology-based generalization of the existing k-d tree, making it suitable for brute-force direct-fit in a high-dimensional space. The constructed model has been applied to several classical experiments in neuroscience and psychology. We provide an anti-sparse coding interpretation of the constructed vision model and show how it leads to a dynamic programming (DP)-like approximate nearest-neighbor search based on $\ell_{\infty}$-optimization. We also briefly discuss two possible implementations based on asymmetrical (decoder matters more) auto-encoder and spiking neural networks (SNN), respectively.
翻訳日:2022-10-12 11:21:29 公開日:2022-10-11
# LMQFormer:軽量除雪用ラプラスガイド型マスククエリトランス

LMQFormer: A Laplace-Prior-Guided Mask Query Transformer for Lightweight Snow Removal ( http://arxiv.org/abs/2210.04787v2 )

ライセンス: Link先を確認
Junhong Lin, Nanfeng Jiang, Zhentao Zhang, Weiling Chen and Tiesong Zhao(参考訳) 除雪は、雪の地域を見つけ、痕跡を修復することなくクリーンな画像を復元することを目的としている。 雨の規則性や半透明性とは異なり、様々なパターンと劣化の降雪は背景をひどく損なう。 その結果、最先端の除雪方法は、通常、大きなパラメータサイズを保持する。 本稿では,Laplace Mask Query Transformer (LMQFormer) と呼ばれる軽量だが高効率な除雪ネットワークを提案する。 まず,雪の先行知識として粗いマスクを生成するためのLaplace-VQVAEを提案する。 マスクをデータセットに使用する代わりに、雪の情報エントロピーと回復の計算コストの両方を削減することを目的としている。 第2に、粗いマスクで雪を取り除くためにMask Query Transformer(MQFormer)を設計し、2つの並列エンコーダとハイブリッドデコーダを使用して、軽量な要求下で広範な雪の特徴を学習する。 第3に、粗いマスクを特定の数のクエリに変換するDMQA(Duplicated Mask Query Attention)を開発し、パラメータを減らしたMQFormerの注意領域を制限する。 また, 提案モデルの有効性を実証し, パラメータが大幅に減少し, 走行時間が低くなることにより, 最先端の除雪性能が得られることを示した。

Snow removal aims to locate snow areas and recover clean images without repairing traces. Unlike the regularity and semitransparency of rain, snow with various patterns and degradations seriously occludes the background. As a result, the state-of-the-art snow removal methods usually retains a large parameter size. In this paper, we propose a lightweight but high-efficient snow removal network called Laplace Mask Query Transformer (LMQFormer). Firstly, we present a Laplace-VQVAE to generate a coarse mask as prior knowledge of snow. Instead of using the mask in dataset, we aim at reducing both the information entropy of snow and the computational cost of recovery. Secondly, we design a Mask Query Transformer (MQFormer) to remove snow with the coarse mask, where we use two parallel encoders and a hybrid decoder to learn extensive snow features under lightweight requirements. Thirdly, we develop a Duplicated Mask Query Attention (DMQA) that converts the coarse mask into a specific number of queries, which constraint the attention areas of MQFormer with reduced parameters. Experimental results in popular datasets have demonstrated the efficiency of our proposed model, which achieves the state-of-the-art snow removal quality with significantly reduced parameters and the lowest running time.
翻訳日:2022-10-12 11:21:15 公開日:2022-10-11
# Asymptotically unbiased Instance-wise regularized partial AUC Optimization: Theory and Algorithm

Asymptotically Unbiased Instance-wise Regularized Partial AUC Optimization: Theory and Algorithm ( http://arxiv.org/abs/2210.03967v2 )

ライセンス: Link先を確認
Huiyang Shao, Qianqian Xu, Zhiyong Yang, Shilong Bao, Qingming Huang(参考訳) ROC曲線下の部分領域(PAUC)は、一方向部分AUC(OPAUC)と二方向部分AUC(TPAUC)を含み、決定制約を考慮しなければならない場合に広く採用されている、特定の偽正のレートおよび/または真正のレート間隔内のバイナリ分類器の平均性能を測定する。 その結果,ここ数年でPAUC最適化が機械学習コミュニティの注目を集めている。 それでも、既存の手法のほとんどはPAUCをほぼ最適化するしかなく、制御不能なバイアスにつながる。 幸いなことに、最近の研究は分布的ロバスト最適化によるpauc最適化問題の偏りのない定式化を示している。 しかしながら、これは、特にtpaucのスケーラビリティの制限されたw.r.t.サンプルサイズと収束速度の遅いaucのペアワイズな定式化に基づいている。 この問題に対処するため, 漸近的に偏りのない事例的手法で, 問題を単純化する手法を提案する。 OPAUC と TPAUC の双方に対して、インスタンスワイズ関数の極小正規化問題を非凸的に包含する。 これに加えて、効率的な解法は、サンプルサイズと時間複雑度$O(\epsilon^{-1/3})$の線形パーイテレーション計算複雑性を楽しみ、$\epsilon$定常点に達する。 さらに,ミニマックスの修正は,一般化誤差を副生成物として理論的解析を促進することも見出した。 既存の結果と比較すると、より容易に証明でき、実数値出力の仮説に対処できる新しい誤差境界が提示される。 最後に,いくつかのベンチマークデータセットにおける広範囲な実験を行い,本手法の有効性を実証した。

The Partial Area Under the ROC Curve (PAUC), typically including One-way Partial AUC (OPAUC) and Two-way Partial AUC (TPAUC), measures the average performance of a binary classifier within a specific false positive rate and/or true positive rate interval, which is a widely adopted measure when decision constraints must be considered. Consequently, PAUC optimization has naturally attracted increasing attention in the machine learning community within the last few years. Nonetheless, most of the existing methods could only optimize PAUC approximately, leading to inevitable biases that are not controllable. Fortunately, a recent work presents an unbiased formulation of the PAUC optimization problem via distributional robust optimization. However, it is based on the pair-wise formulation of AUC, which suffers from the limited scalability w.r.t. sample size and a slow convergence rate, especially for TPAUC. To address this issue, we present a simpler reformulation of the problem in an asymptotically unbiased and instance-wise manner. For both OPAUC and TPAUC, we come to a nonconvex strongly concave minimax regularized problem of instance-wise functions. On top of this, we employ an efficient solver enjoys a linear per-iteration computational complexity w.r.t. the sample size and a time-complexity of $O(\epsilon^{-1/3})$ to reach a $\epsilon$ stationary point. Furthermore, we find that the minimax reformulation also facilitates the theoretical analysis of generalization error as a byproduct. Compared with the existing results, we present new error bounds that are much easier to prove and could deal with hypotheses with real-valued outputs. Finally, extensive experiments on several benchmark datasets demonstrate the effectiveness of our method.
翻訳日:2022-10-12 11:20:53 公開日:2022-10-11
# 温度の非対称なスケーリングは、ネットワークをもっと大きくする

Asymmetric Temperature Scaling Makes Larger Networks Teach Well Again ( http://arxiv.org/abs/2210.04427v2 )

ライセンス: Link先を確認
Xin-Chun Li, Wen-Shu Fan, Shaoming Song, Yinchuan Li, Bingshuai Li, Yunfeng Shao, De-Chuan Zhan(参考訳) 知識蒸留(英: knowledge distillation, kd)は、よく発達したニューラルネットワーク("it teacher})の知識をより弱いもの("it student})に移すことを目的としている。 特異な現象は、より正確なモデルが必ずしも良く教えるとは限らないことであり、温度調整は不一致の容量を緩和することもできない。 これを説明するために、KDの有効性を3つの部分に分解する: {\it correct guidance}, {\it smooth regularization}, {\it class discriminability}。 最後の言葉は、教師がkdで提供する「間違ったクラス確率」の区別性を記述する。 複雑な教師は自信過剰であり、伝統的な温度スケーリングは「itクラス判別可能性」の有効性を制限する傾向がある。 そこで,本論文では,より高温度/低温度を正・低温度クラスに別々に適用する非対称温度スケーリング (ats) を提案する。 ATSは、教師のラベルにおける間違ったクラス確率のばらつきを拡大し、生徒に可能な限り、間違ったクラスとターゲットクラスとの絶対的な親和性を把握させる。 理論的解析と広範囲な実験により,ATSの有効性が示された。 mindspore で開発されたデモは \url{https://gitee.com/lxcnju/ats-mindspore} で利用可能であり、 \url{https://gitee.com/mindspore/models/tree/master/research/cv/ats} で利用可能である。

Knowledge Distillation (KD) aims at transferring the knowledge of a well-performed neural network (the {\it teacher}) to a weaker one (the {\it student}). A peculiar phenomenon is that a more accurate model doesn't necessarily teach better, and temperature adjustment can neither alleviate the mismatched capacity. To explain this, we decompose the efficacy of KD into three parts: {\it correct guidance}, {\it smooth regularization}, and {\it class discriminability}. The last term describes the distinctness of {\it wrong class probabilities} that the teacher provides in KD. Complex teachers tend to be over-confident and traditional temperature scaling limits the efficacy of {\it class discriminability}, resulting in less discriminative wrong class probabilities. Therefore, we propose {\it Asymmetric Temperature Scaling (ATS)}, which separately applies a higher/lower temperature to the correct/wrong class. ATS enlarges the variance of wrong class probabilities in the teacher's label and makes the students grasp the absolute affinities of wrong classes to the target class as discriminative as possible. Both theoretical analysis and extensive experimental results demonstrate the effectiveness of ATS. The demo developed in Mindspore is available at \url{https://gitee.com/lxcnju/ats-mindspore} and will be available at \url{https://gitee.com/mindspore/models/tree/master/research/cv/ats}.
翻訳日:2022-10-12 11:20:20 公開日:2022-10-11
# 医療におけるmlの堅牢性に対する個人差の驚くべき影響

Everything is Varied: The Surprising Impact of Individual Variation on ML Robustness in Medicine ( http://arxiv.org/abs/2210.04555v2 )

ライセンス: Link先を確認
Andrea Campagner, Lorenzo Famiglini, Anna Carobene, Federico Cabitza(参考訳) 医学的環境では、個体差(IV)とは、集団差や誤差ではなく、対象内変異(intra-subject variation)であり、特定の事例や測定過程に関連する変動の本質的、特徴的パターンである。 ivを考慮に入れると、医療データの適切な分析には重要であると考えられてきたが、この不確実性の原因とその堅牢性への影響は機械学習(ml)では無視されている。 このギャップを埋めるために、IVがMLのパフォーマンスと一般化にどのように影響し、その影響を緩和するかを検討する。 具体的には、統計学習の枠組みにおけるIVの問題を定式化するための方法論的貢献と、新型コロナウイルスの診断のための世界最大規模の実験用医療データセットに基づく実験を通して、以下の結果を示す。 1) 共通最先端mlモデルは、データにおけるivの存在によって深刻な影響を受ける。 2)データ強化とデータ不整合に基づく高度な学習戦略と適切な学習設計は,IVに対する堅牢性向上に有効である。 本研究は,臨床環境におけるMLの安全な展開を可能にするために,IVを正しく評価することの重要性を示唆するものである。

In medical settings, Individual Variation (IV) refers to variation that is due not to population differences or errors, but rather to within-subject variation, that is the intrinsic and characteristic patterns of variation pertaining to a given instance or the measurement process. While taking into account IV has been deemed critical for proper analysis of medical data, this source of uncertainty and its impact on robustness have so far been neglected in Machine Learning (ML). To fill this gap, we look at how IV affects ML performance and generalization and how its impact can be mitigated. Specifically, we provide a methodological contribution to formalize the problem of IV in the statistical learning framework and, through an experiment based on one of the largest real-world laboratory medicine datasets for the problem of COVID-19 diagnosis, we show that: 1) common state-of-the-art ML models are severely impacted by the presence of IV in data; and 2) advanced learning strategies, based on data augmentation and data imprecisiation, and proper study designs can be effective at improving robustness to IV. Our findings demonstrate the critical relevance of correctly accounting for IV to enable safe deployment of ML in clinical settings.
翻訳日:2022-10-12 11:19:43 公開日:2022-10-11
# 方向グラフ上のMAPFの小さな解仮説は真である

The Small Solution Hypothesis for MAPF on Directed Graphs Is True ( http://arxiv.org/abs/2210.04590v2 )

ライセンス: Link先を確認
Bernhard Nebel(参考訳) 有向グラフ上のマルチエージェントパスフィンディングの計算複雑性の決定は、長年にわたり未解決の問題であった。 最近になって、問題はnp-hardであることが判明した。 さらに、強く連結されたダイグラフの短い解仮説が成り立つと、NP内であることが証明されている。 本稿では,この仮説が真であることを示す。

The determination of the computational complexity of multi-agent pathfinding on directed graphs has been an open problem for many years. Only recently, it has been established that the problem is NP-hard. Further, it has been proved that it is in NP, provided the short solution hypothesis for strongly connected digraphs holds. In this paper, it is shown that this hypothesis is indeed true.
翻訳日:2022-10-12 11:19:20 公開日:2022-10-11
# euの若い人口における主な死因の特定

Identifying patterns of main causes of death in the young EU population ( http://arxiv.org/abs/2210.04469v2 )

ライセンス: Link先を確認
Simona Korenjak-\v{C}erne and Nata\v{s}a Kej\v{z}ar(参考訳) 死亡パターンの研究は、多くの分野で人気のある研究テーマである。 特に年齢と性別の組み合わせによる死亡の主な死因の死亡パターンに関心がある。 シンボルデータ分析 (SDA) を用い, 死亡原因の年齢, 性別, パターンの3次元を含む。 本研究は、若年層に類似した死亡パターンを持つeu諸国のクラスターを識別するための代替手法を提案するとともに、死亡率の分布に関する包括的情報について、年齢・性別の異なるグループによる主な死因について検討するものである。 特定クラスタにおける死亡パターンと,その他の社会デマトグラフィー指標との関係について検討する。 最新の完全なデータとして、EUの2016年の原油死亡率のデータを使用します。

The study of mortality patterns is a popular research topic in many areas. We are particularly interested in mortality patterns among main causes of death associated with age-gender combinations. We use symbolic data analysis (SDA) and include three dimensions: age, gender, and patterns across main causes of death. In this study, we present an alternative method to identify clusters of EU countries with similar mortality patterns in the young population, while considering comprehensive information on the distribution of deaths among the main causes of death by different age-gender groups. We explore possible relationships between mortality patterns in the identified clusters and some other sociodemographic indicators. We use EU data of crude mortality rates from 2016, as the most recent complete data available.
翻訳日:2022-10-12 11:19:15 公開日:2022-10-11
# 混合応答に対するベイジアンスパース回帰とファグ製造における実行量予測への応用

Bayesian Sparse Regression for Mixed Multi-Responses with Application to Runtime Metrics Prediction in Fog Manufacturing ( http://arxiv.org/abs/2210.04811v2 )

ライセンス: Link先を確認
Xiaoyu Chen, Xiaoning Kang, Ran Jin, and Xinwei Deng(参考訳) フォグ製造は、異なる産業用インターネットアーキテクチャの下で予測的な計算負荷オフロード手法によって制御される分散フォグ計算ユニットを通じて、従来の製造システムを大幅に強化することができる。 予測オフロード法は、多変量混合型応答(連続、カウント、バイナリ)を含むランタイムパフォーマンスメトリクスの正確な予測と不確実性の定量化に大きく依存していることが知られている。 本研究では,多変量混合応答に対するベイズ的スパース回帰を提案し,実行時性能指標の予測を強化し,統計的推測を可能にする。 提案手法は,実行時性能指標の混合型をモデル化するために,グループ選択と個別変数選択の両方を考慮する。 複数の応答間の条件依存性を精度行列を用いてグラフィカルモデルにより記述し、グラフのスパース推定を可能にするためにスパイク・アンド・スラブ前処理を用いる。 提案手法は, 予測精度の向上だけでなく, モデルパラメータの統計的推論やフォグ製造における予測によって, 予測モデルをより解釈しやすくする。 霧製造におけるシミュレーション研究と実例を用いて,提案モデルの有効性を実証する。

Fog manufacturing can greatly enhance traditional manufacturing systems through distributed Fog computation units, which are governed by predictive computational workload offloading methods under different Industrial Internet architectures. It is known that the predictive offloading methods highly depend on accurate prediction and uncertainty quantification of runtime performance metrics, containing multivariate mixed-type responses (i.e., continuous, counting, binary). In this work, we propose a Bayesian sparse regression for multivariate mixed responses to enhance the prediction of runtime performance metrics and to enable the statistical inferences. The proposed method considers both group and individual variable selection to jointly model the mixed types of runtime performance metrics. The conditional dependency among multiple responses is described by a graphical model using the precision matrix, where a spike-and-slab prior is used to enable the sparse estimation of the graph. The proposed method not only achieves accurate prediction, but also makes the predictive model more interpretable with statistical inferences on model parameters and prediction in the Fog manufacturing. A simulation study and a real case example in a Fog manufacturing are conducted to demonstrate the merits of the proposed model.
翻訳日:2022-10-12 11:19:03 公開日:2022-10-11
# AMPose:3次元人物位置推定のためのグローバルローカルアテンションモデル

AMPose: Alternatively Mixed Global-Local Attention Model for 3D Human Pose Estimation ( http://arxiv.org/abs/2210.04216v2 )

ライセンス: Link先を確認
Hongxin Lin, Yunwei Chiu and Peiyuan Wu(参考訳) グラフ畳み込みネットワークは3次元人間のポーズ推定に応用されている。 さらに, ビデオベース方式では, 純粋なトランスフォーマーモデルが期待できる結果を示した。 しかし, 全球的注意によってのみ変換される特徴表現にはヒト骨格の関係性が欠如しているため, 単一フレーム法では関節の物理的結合関係をモデル化する必要がある。 ヒトの関節の物理的結合とグローバルな関係を結合する新しいアーキテクチャを提案する。 本手法を人間3.6mで評価し,最新モデルとの比較を行った。 我々のモデルは他のすべてのモデルよりも優れた結果を示している。 MPI-INF-3DHP上でのデータセット間比較により,モデルの一般化性が向上した。

The graph convolutional network has been applied to 3D human pose estimation. In addition, the pure transformer model recently show the promising result in the video-based method. However, the single-frame method still need to model the physically connected relations among joints because the feature representation transformed only by the global attention has the lack of the relationships of human skeleton. We propose a novel architecture to combine the physically connected and global relations among joints in human. We evaluate our method on Human3.6m and compare with the state-of-the-art models. Our model show superior result over all other models. Our model has better generalization ability by cross-dataset comparison on MPI-INF-3DHP.
翻訳日:2022-10-12 11:18:43 公開日:2022-10-11
# GRANITE: 基本ブロックスループット推定のためのグラフニューラルネットワークモデル

GRANITE: A Graph Neural Network Model for Basic Block Throughput Estimation ( http://arxiv.org/abs/2210.03894v2 )

ライセンス: Link先を確認
Ondrej Sykora and Phitchaya Mangpo Phothilimthana and Charith Mendis and Amir Yazdanbakhsh(参考訳) 分析ハードウェアパフォーマンスモデルは、望ましいハードウェアパフォーマンスメトリクスを素早く推定する。 しかし、高度なマイクロアーキテクチャを持つ現代のプロセッサ向けのこれらの分析モデルの開発は、非常に困難な作業であり、ターゲットマイクロアーキテクチャの内部構造をしっかりと理解する必要がある。 本稿では,各種マイクロアーキテクチャにおける基本ブロックのスループットを推定する機械学習モデルであるGRANITEを紹介する。 GRANITEは基本ブロックのグラフ表現を使用し、命令間の構造的およびデータ的依存関係の両方をキャプチャする。 この表現は、グラフでキャプチャされた関係情報を活用するグラフニューラルネットワークを使用して処理され、より正確なスループット推定を可能にする基本ブロックのリッチなニューラルネットワーク表現を学習する。 提案手法は,x86-64ターゲットの様々な基本ブロックおよびマイクロアーキテクチャに対して平均6.9%の誤差で,基本ブロック性能評価のための新しい最先端技術を構築した。 最近の作業と比較して、トレーニングと推論のスループットを約3.0倍改善しながらエラーを1.7%削減した。 さらに,独立した多層フィードフォワードデコーダネットワークを用いたマルチタスク学習を提案する。 その結果,この手法により学習モデルの精度が向上し,マイクロアーキテクチャごとのトレーニングコストが大幅に削減された。 本研究は, アブレーション実験を広範囲に実施し, 先行研究との比較を行い, 基本ブロック性能推定のための高精度な手法のセットを導出する。

Analytical hardware performance models yield swift estimation of desired hardware performance metrics. However, developing these analytical models for modern processors with sophisticated microarchitectures is an extremely laborious task and requires a firm understanding of target microarchitecture's internal structure. In this paper, we introduce GRANITE, a new machine learning model that estimates the throughput of basic blocks across different microarchitectures. GRANITE uses a graph representation of basic blocks that captures both structural and data dependencies between instructions. This representation is processed using a graph neural network that takes advantage of the relational information captured in the graph and learns a rich neural representation of the basic block that allows more precise throughput estimation. Our results establish a new state-of-the-art for basic block performance estimation with an average test error of 6.9% across a wide range of basic blocks and microarchitectures for the x86-64 target. Compared to recent work, this reduced the error by 1.7% while improving training and inference throughput by approximately 3.0x. In addition, we propose the use of multi-task learning with independent multi-layer feed forward decoder networks. Our results show that this technique further improves precision of all learned models while significantly reducing per-microarchitecture training costs. We perform an extensive set of ablation studies and comparisons with prior work, concluding a set of methods to achieve high accuracy for basic block performance estimation.
翻訳日:2022-10-12 11:18:32 公開日:2022-10-11
# 種々の位置スパイクニューロンを用いたイベント駆動