このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220601となっている論文です。

PDF登録状況(公開日: 20220601)

TitleAuthorsAbstract論文公表日・翻訳日
# MIMO-OFDMの微細タイミングと周波数同期:極端学習アプローチ

Fine Timing and Frequency Synchronization for MIMO-OFDM: An Extreme Learning Approach ( http://arxiv.org/abs/2007.09248v5 )

ライセンス: Link先を確認
Jun Liu, Kai Mei, Xiaochen Zhang, Des McLernon, Dongtang Ma, Jibo Wei and Syed Ali Raza Zaidi(参考訳) 多入力多重出力直交周波数分割多重化(mimo-ofdm)は、タイミングと周波数同期の精度がシステム全体の性能に大きく影響する次世代通信における認知無線(cr)の発展における重要な技術要素である。 本稿では,極端学習機械(ELM)を用いて高精度同期を実現する手法を提案する。 具体的には、同期オフセットによるプリアンブル信号を利用して、2つのEMMを従来のMIMO-OFDMシステムに組み込んで、残留シンボルタイミングオフセット(RSTO)と残留キャリア周波数オフセット(RCFO)の両方を推定する。 シミュレーションの結果,提案手法は付加的な白色ガウス雑音 (AWGN) と周波数選択型フェーディングチャネルの両方で従来の手法よりも優れていた。 さらに,提案手法は,既存の機械学習手法と比較して,完全チャネル状態情報(csi)や計算複雑性を必要とせず,優れた性能を示す。 最後に,提案手法は,チャネルパラメータ(パス数など)の選択や,機械学習の観点からの「一般化能力」の観点からも頑健である。

Multiple-input multiple-output orthogonal frequency-division multiplexing (MIMO-OFDM) is a key technology component in the evolution towards cognitive radio (CR) in next-generation communication in which the accuracy of timing and frequency synchronization significantly impacts the overall system performance. In this paper, we propose a novel scheme leveraging extreme learning machine (ELM) to achieve high-precision synchronization. Specifically, exploiting the preamble signals with synchronization offsets, two ELMs are incorporated into a traditional MIMO-OFDM system to estimate both the residual symbol timing offset (RSTO) and the residual carrier frequency offset (RCFO). The simulation results show that the performance of the proposed ELM-based synchronization scheme is superior to the traditional method under both additive white Gaussian noise (AWGN) and frequency selective fading channels. Furthermore, comparing with the existing machine learning based techniques, the proposed method shows outstanding performance without the requirement of perfect channel state information (CSI) and prohibitive computational complexity. Finally, the proposed method is robust in terms of the choice of channel parameters (e.g., number of paths) and also in terms of "generalization ability" from a machine learning standpoint.
翻訳日:2022-11-09 14:49:47 公開日:2022-06-01
# 電子カルテを用いた医療費の高スループットモデリング

High-Throughput Approach to Modeling Healthcare Costs Using Electronic Healthcare Records ( http://arxiv.org/abs/2011.09497v2 )

ライセンス: Link先を確認
Alex Taylor, Ross Kleiman, Scott Hebbring, Peggy Peissig, David Page(参考訳) 医療費の正確な見積もりは、医療システムにとって、医療費のカバーについて保険会社と計画し、効果的に交渉する上で不可欠である。 医療費を見積もる精度が向上すれば、医療システムとこれらのシステムをサポートする保険会社の双方にとって、患者医療コストと支払いモデルとの整合性が向上する。 本研究は, ウィスコンシン州マーシュフィールドクリニック(Marshfield clinic)で, 6,700の処方薬に関する80,000件の患者から得られた40年間のデータから医療イベントを予測するための汎用的な機械学習手法の結果を報告する。 この手法を用いて構築したモデルは、個々の医薬品の処方薬を予測する同様の研究と比較すると、良好な結果が得られた。 大規模医療システムにおける全ての薬物の包括的予測モデルの提供に加えて、この研究で取られたアプローチは、他の幅広い医療イベントに適用可能なことの恩恵を受ける。

Accurate estimation of healthcare costs is crucial for healthcare systems to plan and effectively negotiate with insurance companies regarding the coverage of patient-care costs. Greater accuracy in estimating healthcare costs would provide mutual benefit for both health systems and the insurers that support these systems by better aligning payment models with patient-care costs. This study presents the results of a generalizable machine learning approach to predicting medical events built from 40 years of data from >860,000 patients pertaining to >6,700 prescription medications, courtesy of Marshfield Clinic in Wisconsin. It was found that models built using this approach performed well when compared to similar studies predicting physician prescriptions of individual medications. In addition to providing a comprehensive predictive model for all drugs in a large healthcare system, the approach taken in this research benefits from potential applicability to a wide variety of other medical events.
翻訳日:2022-09-24 04:37:44 公開日:2022-06-01
# 浅層ニューラルネットワークとその漸近展開に対する正規化効果

Normalization effects on shallow neural networks and related asymptotic expansions ( http://arxiv.org/abs/2011.10487v3 )

ライセンス: Link先を確認
Jiahui Yu and Konstantinos Spiliopoulos(参考訳) 我々は浅層(単一層)ニューラルネットワークを考察し,確率的勾配勾配のトレーニングにおいて,隠れ単位の数が$N$となり,勾配勾配のステップが無限に増加するにつれて,その性能を特徴付ける。 特に、ニューラルネットワークの正規化に繋がる異なるスケーリングスキームが、ネットワークの統計的出力に及ぼす影響を調査し、1/\sqrt{N}$と平均1/N$の正規化の間のギャップを埋める。 本研究では,隠れ単位の数が無限に増大するにつれて,スケーリングパラメータに関して,ニューラルネットワークの統計的出力の漸近展開を開発する。 この拡張に基づき、n$ の先頭にバイアス分散のトレードオフがないことを数学的に証明し、バイアスと分散(どちらも明確に特徴付けられる)の両方が隠れた単位の数が増え、時間が増えるにつれて減少することを示した。 さらに,n$の先頭値に対して,スケーリングパラメータによる暗黙の正規化が平均場正規化に近づくにつれて,ニューラルネットワークの統計的出力のばらつきが減少することを示した。 MNISTとCIFAR10データセットの数値的研究は、ニューラルネットワークの正規化が平均場正規化に近づくにつれて、テストとトレーニングの精度が単調に向上することを示している。

We consider shallow (single hidden layer) neural networks and characterize their performance when trained with stochastic gradient descent as the number of hidden units $N$ and gradient descent steps grow to infinity. In particular, we investigate the effect of different scaling schemes, which lead to different normalizations of the neural network, on the network's statistical output, closing the gap between the $1/\sqrt{N}$ and the mean-field $1/N$ normalization. We develop an asymptotic expansion for the neural network's statistical output pointwise with respect to the scaling parameter as the number of hidden units grows to infinity. Based on this expansion, we demonstrate mathematically that to leading order in $N$, there is no bias-variance trade off, in that both bias and variance (both explicitly characterized) decrease as the number of hidden units increases and time grows. In addition, we show that to leading order in $N$, the variance of the neural network's statistical output decays as the implied normalization by the scaling parameter approaches the mean field normalization. Numerical studies on the MNIST and CIFAR10 datasets show that test and train accuracy monotonically improve as the neural network's normalization gets closer to the mean field normalization.
翻訳日:2022-09-23 05:41:25 公開日:2022-06-01
# (参考訳) ロボットマニピュレーションのためのアクティブ推論

Active Inference for Robotic Manipulation ( http://arxiv.org/abs/2206.10313v1 )

ライセンス: CC BY 4.0
Tim Schneider, Boris Belousov, Hany Abdulsamad, Jan Peters(参考訳) ロボット操作は、過去数十年におけるロボット工学と機械学習の大きな進歩にもかかわらず、ほとんど未解決の問題である。 操作の中心的な課題の1つは部分的可観測性であり、エージェントは通常、事前に操作している環境とオブジェクトの全ての物理的性質を知らない。 部分的に可観測性を明示的に扱う最近の理論はアクティブ推論である。 これは、エージェントにゴール指向だけでなく、環境に関する情報も含む方法で行動させることによって実現される。 本研究は,エージェントがボールのバランスをとる必要があるロボット操作タスクに対して,能動的推論を適用したものである。 この作業の報酬は少ないので、この環境を探索するには、エージェントは、純粋に好奇心によって駆動される、余分なフィードバックなしでボールのバランスをとることを学ぶ必要がある。 アクティブ推論によって引き起こされる情報探索行動により,エージェントはこれらの難易度の高い環境を体系的に探索できることを示す。 最後に,情報探索目的の使用はスパース環境において有益であり,有向探索を行わない手法が失敗するタスクをエージェントが解決できると結論づけた。

Robotic manipulation stands as a largely unsolved problem despite significant advances in robotics and machine learning in the last decades. One of the central challenges of manipulation is partial observability, as the agent usually does not know all physical properties of the environment and the objects it is manipulating in advance. A recently emerging theory that deals with partial observability in an explicit manner is Active Inference. It does so by driving the agent to act in a way that is not only goal-directed but also informative about the environment. In this work, we apply Active Inference to a hard-to-explore simulated robotic manipulation tasks, in which the agent has to balance a ball into a target zone. Since the reward of this task is sparse, in order to explore this environment, the agent has to learn to balance the ball without any extrinsic feedback, purely driven by its own curiosity. We show that the information-seeking behavior induced by Active Inference allows the agent to explore these challenging, sparse environments systematically. Finally, we conclude that using an information-seeking objective is beneficial in sparse environments and allows the agent to solve tasks in which methods that do not exhibit directed exploration fail.
翻訳日:2022-06-27 03:43:11 公開日:2022-06-01
# (参考訳) ロマンティック計算

Romantic-Computing ( http://arxiv.org/abs/2206.11864v1 )

ライセンス: CC BY 4.0
Elizabeth Horishny(参考訳) 本稿では,様々なテキスト生成モデルが初期の英語ロマン主義のスタイルで詩を書く能力を比較した。 これらのモデルには、長い短期記憶を持つ文字レベルリカレントニューラルネットワーク、Hugging FaceのGPT-2、OpenAIのGPT-3、EleutherAIのGPT-NEOが含まれる。 音節数とコヒーレンスを自動評価指標GRUENを用いて測定した。 キャラクタレベルリカレントニューラルネットワークは、トランスモデルに比べてはるかにパフォーマンスが悪かった。 また,パラメータサイズが大きくなるにつれて,変圧器モデルの詩の質が向上した。 これらのモデルは通常、創造的なコンテキストでは比較されず、喜んで貢献します。

In this paper we compare various text generation models' ability to write poetry in the style of early English Romanticism. These models include: Character-Level Recurrent Neural Networks with Long Short-Term Memory, Hugging Face's GPT-2, OpenAI's GPT-3, and EleutherAI's GPT-NEO. Quality was measured based syllable count and coherence with the automatic evaluation metric GRUEN. Character-Level Recurrent Neural Networks performed far worse compared to transformer models. And, as parameter-size increased, the quality of transformer models' poems improved. These models are typically not compared in a creative context, and we are happy to contribute.
翻訳日:2022-06-27 03:36:38 公開日:2022-06-01
# (参考訳) 深層学習に基づく偽ニュース検出のためのマルチポリシーフレームワーク

A Multi-Policy Framework for Deep Learning-Based Fake News Detection ( http://arxiv.org/abs/2206.11866v1 )

ライセンス: CC BY 4.0
Jo\~ao Vitorino, Tiago Dias, Tiago Fonseca, Nuno Oliveira, Isabel Pra\c{c}a(参考訳) 接続性は、世界中の人々が急速に普及する情報に簡単にアクセスできる現代社会において、ますます活発な役割を担っている。 しかし、より相互に繋がった社会は故意に誤った情報を広めることができる。 フェイクニュースのネガティブな影響を軽減するためには,検出方法の改善が不可欠である。 深層学習技術を用いて偽ニュース検出を自動化するフレームワークであるMPSC(Multi-Policy Statement Checker)を導入し、文自体と関連するニュース記事を分析し、それが信頼できるか疑わしいかを予測する。 提案フレームワークは,実データと偽ニュースを含む4つの統合データセットを用いて評価した。 また,Long-Short Term Memory (LSTM), Gated Recurrent Unit (GRU), Bidirectional Encoder Representations from Transformers (BERT)モデルを用いて,語彙的特徴と構文的特徴を両立させる訓練を行い,その性能評価を行った。 その結果,マルチポリシー解析により疑わしい文を確実に識別でき,偽ニュースの検出に有利であることが判明した。

Connectivity plays an ever-increasing role in modern society, with people all around the world having easy access to rapidly disseminated information. However, a more interconnected society enables the spread of intentionally false information. To mitigate the negative impacts of fake news, it is essential to improve detection methodologies. This work introduces Multi-Policy Statement Checker (MPSC), a framework that automates fake news detection by using deep learning techniques to analyze a statement itself and its related news articles, predicting whether it is seemingly credible or suspicious. The proposed framework was evaluated using four merged datasets containing real and fake news. Long-Short Term Memory (LSTM), Gated Recurrent Unit (GRU) and Bidirectional Encoder Representations from Transformers (BERT) models were trained to utilize both lexical and syntactic features, and their performance was evaluated. The obtained results demonstrate that a multi-policy analysis reliably identifies suspicious statements, which can be advantageous for fake news detection.
翻訳日:2022-06-27 03:28:39 公開日:2022-06-01
# サンプルhd:同時動作と動作計画学習環境

SAMPLE-HD: Simultaneous Action and Motion Planning Learning Environment ( http://arxiv.org/abs/2206.10312v1 )

ライセンス: Link先を確認
Michal Nazarczuk and Tony Ng and Krystian Mikolajczyk(参考訳) 人間は、非常に高いレベルのマルチモーダル理解能力を示しており、可読性や聞き取りの知識は、私たちにとって簡単であり、周囲の環境と非常に正確な相互作用を可能にする。 様々なシミュレーション環境は、シーン理解、質問応答、空間探索、視覚ナビゲーションに関連するタスクのデータの提供に焦点を当てている。 本研究では,シミュレーションの視覚的側面と行動的側面の両方を,操作設定における対話的推論を学習するための新しい環境に包含するソリューションを提供する。 SAMPLE-HD環境は、小さな家庭オブジェクトからなる様々なシーンを生成し、手続き的に操作のための言語命令を生成し、トレーニングデータとして機能する地上真実パスを生成する。

Humans exhibit incredibly high levels of multi-modal understanding - combining visual cues with read, or heard knowledge comes easy to us and allows for very accurate interaction with the surrounding environment. Various simulation environments focus on providing data for tasks related to scene understanding, question answering, space exploration, visual navigation. In this work, we are providing a solution to encompass both, visual and behavioural aspects of simulation in a new environment for learning interactive reasoning in manipulation setup. SAMPLE-HD environment allows to generate various scenes composed of small household objects, to procedurally generate language instructions for manipulation, and to generate ground truth paths serving as training data.
翻訳日:2022-06-26 08:23:00 公開日:2022-06-01
# hyu at semeval-2022 task 2: 文脈化の異なるレベルを考慮した効果的な慣用性検出

HYU at SemEval-2022 Task 2: Effective Idiomaticity Detection with Consideration at Different Levels of Contextualization ( http://arxiv.org/abs/2206.11854v1 )

ライセンス: Link先を確認
Youngju Joung, Taeuk Kim(参考訳) 我々は,多語表現の慣用性をよりよく識別するために,異なるレベルの文脈化の様々な側面を考慮できる統一的なフレームワークを提案する。 広範な実験を通じて,対象mweの相互および内部関係コンテキストに基づくアプローチが,関連モデルの性能向上に有効であることを実証する。 また、semeval-2022タスク2のタスクに関する私たちの経験を詳しく共有して、同じタスクに対する今後の作業が、このメリットを享受できるようにしています。

We propose a unified framework that enables us to consider various aspects of contextualization at different levels to better identify the idiomaticity of multi-word expressions. Through extensive experiments, we demonstrate that our approach based on the inter- and inner-sentence context of a target MWE is effective in improving the performance of related models. We also share our experience in detail on the task of SemEval-2022 Tasks 2 such that future work on the same task can be benefited from this.
翻訳日:2022-06-26 08:22:48 公開日:2022-06-01
# (参考訳) api仕様からの自然言語文生成

Natural Language Sentence Generation from API Specifications ( http://arxiv.org/abs/2206.06868v1 )

ライセンス: CC BY 4.0
Siyu Huo, Kushal Mukherjee, Jayachandu Bandlamudi, Vatche Isahagian, Vinod Muthusamy and Yara Rizk(参考訳) APIは至るところにあり、企業のタスクの自動化を支援する自動化ソリューションへのアクセスを提供する。 残念ながら、それらを必要とするビジネスユーザーにはアクセスできないかもしれないが、それらを活用するために必要な技術的スキルが備わっていない。 これらのAPIをチャットボット機能でラップすることは、これらの自動化ソリューションをインタラクティブにするためのソリューションのひとつだ。 本研究では,ユーザからの自然言語の発話を理解するために,チャットボット内で重要なコンポーネントである意図認識モデルを訓練するための文を生成するシステムを提案する。 深層学習モデルに基づくアプローチの評価は有望で刺激的な結果を示し,ヒューマン・イン・ザ・ループインタラクションはシステムをさらに改善する。

APIs are everywhere; they provide access to automation solutions that could help businesses automate some of their tasks. Unfortunately, they may not be accessible to the business users who need them but are not equipped with the necessary technical skills to leverage them. Wrapping these APIs with chatbot capabilities is one solution to make these automation solutions interactive. In this work, we propose a system to generate sentences to train intent recognition models, a crucial component within chatbots to understand natural language utterances from users. Evaluation of our approach based on deep learning models showed promising and inspiring results, and the human-in-the-loop interaction will provide further improvement on the system.
翻訳日:2022-06-20 00:51:15 公開日:2022-06-01
# 物体検出のための視覚変換器

Visual Transformer for Object Detection ( http://arxiv.org/abs/2206.06323v1 )

ライセンス: Link先を確認
Michael Yang(参考訳) 畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンアプリケーションにおいて最初のパラダイム選択である。 しかし、畳み込み操作は、ピクセルの局所的な近傍でのみ動作するという重大な弱点があるため、周辺地域のグローバルな情報を見逃している。 一方、トランスフォーマーや自己認識ネットワークは、入力の長距離相互作用を捉えるための最近の進歩として登場したが、それらは主に、ニューラルネットワークの翻訳、画像キャプション、その他の自然言語処理タスクのようなシーケンスモデリングタスクに応用されている。 トランスフォーマーは自然言語関連のタスクに適用され、有望な結果を得た。 しかし、視覚関連タスクにおけるその応用は満足には程遠い。 本稿では,畳み込みニューラルネットワークの弱点とトランスフォーマーの弱点の両方を考慮することで,畳み込みの代替として,認知的視覚課題や物体検出に自己照準を用いることを検討する。 本稿では,このモデルである dettransnet を提案する。 大規模な実験により、我々のモデルは、ResNetsを含む多くの異なるモデルとスケールでCOCOのオブジェクト検出を一貫して改善し、パラメータの数を同じに保ちます。 特に,本手法は,COCOオブジェクト検出タスクにおいて,他のベースラインモデルよりも平均1.2%精度の向上を実現する。

Convolutional Neural networks (CNN) have been the first choice of paradigm in many computer vision applications. The convolution operation however has a significant weakness which is it only operates on a local neighborhood of pixels, thus it misses global information of the surrounding neighbors. Transformers, or Self-attention networks to be more specific, on the other hand, have emerged as a recent advance to capture long range interactions of the input, but they have mostly been applied to sequence modeling tasks such as Neural Machine Translation, Image captioning and other Natural Language Processing tasks. Transformers has been applied to natural language related tasks and achieved promising results. However, its applications in visual related tasks are far from being satisfying. Taking into consideration of both the weaknesses of Convolutional Neural Networks and those of the Transformers, in this paper, we consider the use of self-attention for discriminative visual tasks, object detection, as an alternative to convolutions. In this paper, we propose our model: DetTransNet. Extensive experiments show that our model leads to consistent improvements in object detection on COCO across many different models and scales, including ResNets, while keeping the number of parameters similar. In particular, our method achieves a 1.2% Average Precision improvement on COCO object detection task over other baseline models.
翻訳日:2022-06-19 23:35:46 公開日:2022-06-01
# (参考訳) RLSS:シーケンスシーン生成のための深層強化学習アルゴリズム

RLSS: A Deep Reinforcement Learning Algorithm for Sequential Scene Generation ( http://arxiv.org/abs/2206.02544v1 )

ライセンス: CC BY 4.0
Azimkhon Ostonov, Peter Wonka, Dominik L. Michels(参考訳) 逐次シーン生成のための強化学習アルゴリズム RLSS を提案する。 これは、生成問題に近似ポリシー最適化(PPO)アルゴリズムを用いることに基づいている。 特に,学習過程に欲求探索アルゴリズムを組み込むことにより,行動空間を効果的に削減する方法を検討する。 実験により,本手法は比較的多数のアクションに収束し,事前定義された設計目的のシーン生成を学習できることを実証した。 このアプローチでは、オブジェクトを仮想シーンに反復的に配置する。 各ステップで、ネットワークはどのオブジェクトを配置するかを選択し、最大報酬をもたらす位置を選択する。 最後のアクションが望ましい特性をもたらす場合、高い報酬が割り当てられるが、制約違反は罰せられる。 屋内計画問題の解決とAngry Birdsレベルの生成により,多種多様なシーンを効率よく生成できる手法を実証した。

We present RLSS: a reinforcement learning algorithm for sequential scene generation. This is based on employing the proximal policy optimization (PPO) algorithm for generative problems. In particular, we consider how to effectively reduce the action space by including a greedy search algorithm in the learning process. Our experiments demonstrate that our method converges for a relatively large number of actions and learns to generate scenes with predefined design objectives. This approach is placing objects iteratively in the virtual scene. In each step, the network chooses which objects to place and selects positions which result in maximal reward. A high reward is assigned if the last action resulted in desired properties whereas the violation of constraints is penalized. We demonstrate the capability of our method to generate plausible and diverse scenes efficiently by solving indoor planning problems and generating Angry Birds levels.
翻訳日:2022-06-12 21:30:20 公開日:2022-06-01
# (参考訳) hycedis:deep document intelligenceシステムのためのハイブリッド信頼性エンジン

HYCEDIS: HYbrid Confidence Engine for Deep Document Intelligence System ( http://arxiv.org/abs/2206.02628v1 )

ライセンス: CC BY 4.0
Bao-Sinh Nguyen, Quang-Bach Tran, Tuan-Anh Nguyen Dang, Duc Nguyen, Hung Le(参考訳) AIモデルの信頼性を測定することは、現実の産業システムにAIを安全にデプロイするために重要である。 信頼度測定の1つの重要な応用は、スキャンされた文書から情報抽出である。 しかし,現在最先端の深層学習情報抽出器に信頼性スコアを提供する方法はない。 本稿では,文書情報抽出タスクにおける現在のディープラーニングモデルの信頼度を測定するための,完全かつ新しいアーキテクチャを提案する。 我々のアーキテクチャはマルチモーダル・コンフォーマル予測器と変分クラスタ指向異常検出器から構成されており、ホストモデルの変更を必要とせず、その出力に対する信頼性を忠実に見積もるように訓練されている。 我々は,本アーキテクチャを実世界のデータセット上で評価し,競合する信頼度推定器を巨大なマージンで上回るだけでなく,分布外データに対する一般化能力を示す。

Measuring the confidence of AI models is critical for safely deploying AI in real-world industrial systems. One important application of confidence measurement is information extraction from scanned documents. However, there exists no solution to provide reliable confidence score for current state-of-the-art deep-learning-based information extractors. In this paper, we propose a complete and novel architecture to measure confidence of current deep learning models in document information extraction task. Our architecture consists of a Multi-modal Conformal Predictor and a Variational Cluster-oriented Anomaly Detector, trained to faithfully estimate its confidence on its outputs without the need of host models modification. We evaluate our architecture on real-wold datasets, not only outperforming competing confidence estimators by a huge margin but also demonstrating generalization ability to out-of-distribution data.
翻訳日:2022-06-12 21:17:52 公開日:2022-06-01
# DCGANを用いた胎児頭部超音波画像合成のための画質評価に関する実証的研究

Empirical Study of Quality Image Assessment for Synthesis of Fetal Head Ultrasound Imaging with DCGANs ( http://arxiv.org/abs/2206.01731v1 )

ライセンス: Link先を確認
Thea Bautista and Jacqueline Matthew and Hamideh Kerdegari and Laura Peralta Pereira and Miguel Xochicale(参考訳) 本研究は,高パラメータヒューリスティックスと画像品質評価からなる胎児頭部超音波の合成生成のためのDCGANの実証的研究である。 本研究では,画像サイズ,エポック,データサイズ入力,学習率の違いが,相互情報(mi),fr\'echetインセプション距離(fid),ピーク信号対雑音比(psnr),局所バイナリパターンベクトル(lbpv)の4つの指標に与える影響を示す実験を行った。 その結果, FID, LBPvは画像品質スコアと強い相関が認められた。 この作業を再現するリソースは \url{https://github.com/xfetus/miua2022} にある。

In this work, we present an empirical study of DCGANs for synthetic generation of fetal head ultrasound, consisting of hyperparameter heuristics and image quality assessment. We present experiments to show the impact of different image sizes, epochs, data size input, and learning rates for quality image assessment on four metrics: mutual information (MI), fr\'echet inception distance (FID), peak-signal-to-noise ratio (PSNR), and local binary pattern vector (LBPv). The results show that FID and LBPv have stronger relationship with clinical image quality scores. The resources to reproduce this work are available at \url{https://github.com/xfetus/miua2022}.
翻訳日:2022-06-12 09:40:16 公開日:2022-06-01
# 非滑らかな自動微分 : 安価な勾配原理とその他の複雑性結果

Nonsmooth automatic differentiation: a cheap gradient principle and other complexity results ( http://arxiv.org/abs/2206.01730v1 )

ライセンス: Link先を確認
J\'er\^ome Bolte (TSE), Ryan Boustany (TSE), Edouard Pauwels (IRIT), B\'eatrice Pesquet-Popescu(参考訳) 我々は,多種多様な非滑らかなプログラムに対して,アルゴリズム微分の後方モードと前方モードの計算コストを推定する簡単なモデルを提供する。 有名な例として、有名なreluと畳み込みニューラルネットワークとその標準損失関数がある。 近年の保守的勾配の概念を用いて、多くの具体的応用を包含するバックプロパゲーションのための「非滑らかな安価勾配原理」を確立した。 非滑らかなバックプロパゲーションの安価さは、今日では次元に依存しない最悪のケースの見積もりを持つ同時進行アプローチとは対照的である。 この手法を理解するために,多数の方向微分の計算の複雑さを行列の乗算の複雑性に関連付ける。 これは、そのタスクのADを改善するための根本的な制限を示しています。 最後に、クラーク級数を計算するための最速のアルゴリズムは次元において線形であるが、単純なニューラルネットワークに対して2つの異なるクラーク級数を計算するのはNP-Hardである。

We provide a simple model to estimate the computational costs of the backward and forward modes of algorithmic differentiation for a wide class of nonsmooth programs. Prominent examples are the famous relu and convolutional neural networks together with their standard loss functions. Using the recent notion of conservative gradients, we then establish a "nonsmooth cheap gradient principle" for backpropagation encompassing most concrete applications. Nonsmooth backpropagation's cheapness contrasts with concurrent forward approaches which have, at this day, dimensional-dependent worst case estimates. In order to understand this class of methods, we relate the complexity of computing a large number of directional derivatives to that of matrix multiplication. This shows a fundamental limitation for improving forward AD for that task. Finally, while the fastest algorithms for computing a Clarke subgradient are linear in the dimension, it appears that computing two distinct Clarke (resp. lexicographic) subgradients for simple neural networks is NP-Hard.
翻訳日:2022-06-12 09:40:01 公開日:2022-06-01
# ResAct: Residual Actor を用いたシーケンシャルレコメンデーションにおける長期的エンゲージメントの強化

ResAct: Reinforcing Long-term Engagement in Sequential Recommendation with Residual Actor ( http://arxiv.org/abs/2206.02620v1 )

ライセンス: Link先を確認
Wanqi Xue, Qingpeng Cai, Ruohan Zhan, Dong Zheng, Peng Jiang, Bo An(参考訳) デイリーアクティブユーザ(DAU)や居住時間といったプロダクト運用メトリクスに直接影響するため、シーケンシャルなレコメンデーションにおける即時エンゲージメントよりも長期エンゲージメントが望ましい。 一方、強化学習(RL)は、長期的エンゲージメントを逐次的に最適化するための有望な枠組みとして広く見なされている。 しかし、高価なオンラインインタラクションのため、長期的エンゲージメントを最適化する際、RLアルゴリズムが状態-行動値の推定、探索、特徴抽出を行うのは非常に困難である。 本稿では,オンライン・サービス・ポリシーに近いが,それに近い政策を求めるResActを提案する。 このようにして、学習方針の近傍で十分なデータを収集し、状態行動の値を適切に推定できるようにし、オンライン探索を行う必要はない。 巨大な政策空間のため、この政策を直接最適化することは難しい。 代わりにResActは、まずオンラインの振る舞いを再構築し、改善することで解決する。 私たちの主な貢献は4倍です。 まず、複数の行動推定器をサンプリングすることで、オンラインサービスポリシーの動作を再構築する生成モデルを設計する。 第2に,動作改善のための残差を出力できる残差アクターを訓練するための効果的な学習パラダイムを設計する。 第3に、2つの情報理論正則化器による特徴の抽出を促進し、特徴の表現性と簡潔さを確認する。 第4に,我々は数百万のセッションからなる実世界のデータセットを広範囲に実験し,この手法は長期的なエンゲージメント最適化タスクにおいて最先端のベースラインを著しく上回っている。

Long-term engagement is preferred over immediate engagement in sequential recommendation as it directly affects product operational metrics such as daily active users (DAUs) and dwell time. Meanwhile, reinforcement learning (RL) is widely regarded as a promising framework for optimizing long-term engagement in sequential recommendation. However, due to expensive online interactions, it is very difficult for RL algorithms to perform state-action value estimation, exploration and feature extraction when optimizing long-term engagement. In this paper, we propose ResAct which seeks a policy that is close to, but better than, the online-serving policy. In this way, we can collect sufficient data near the learned policy so that state-action values can be properly estimated, and there is no need to perform online exploration. Directly optimizing this policy is difficult due to the huge policy space. ResAct instead solves it by first reconstructing the online behaviors and then improving it. Our main contributions are fourfold. First, we design a generative model which reconstructs behaviors of the online-serving policy by sampling multiple action estimators. Second, we design an effective learning paradigm to train the residual actor which can output the residual for action improvement. Third, we facilitate the extraction of features with two information theoretical regularizers to confirm the expressiveness and conciseness of features. Fourth, we conduct extensive experiments on a real world dataset consisting of millions of sessions, and our method significantly outperforms the state-of-the-art baselines in various of long term engagement optimization tasks.
翻訳日:2022-06-12 09:39:31 公開日:2022-06-01
# 分子コンフォーメータ生成のためのねじり拡散

Torsional Diffusion for Molecular Conformer Generation ( http://arxiv.org/abs/2206.01729v1 )

ライセンス: Link先を確認
Bowen Jing, Gabriele Corso, Jeffrey Chang, Regina Barzilay, Tommi Jaakkola(参考訳) 分子コンホメータ生成は計算化学の基本的な課題である。 いくつかの機械学習アプローチが開発されているが、最先端のケミノフォマティクス法に勝るものはない。 本稿では,ハイパートーラス上の拡散過程と外因性-内因性スコアモデルを通じて,ねじれ角の空間で動作する新しい拡散フレームワークであるねじり拡散を提案する。 薬物様分子の標準ベンチマークでは、ねじり拡散は、RMSDと化学特性の両方の観点から機械学習や化学計算法と比較して優れたコンホメーラーアンサンブルを生成し、従来の拡散に基づくモデルよりも桁違いに高速である。 さらに、我々のモデルは、最初の一般化可能なボルツマン生成器を構築するために使われる正確な確率を与える。 コードはhttps://github.com/gcorso/torsional-diffusionで入手できる。

Molecular conformer generation is a fundamental task in computational chemistry. Several machine learning approaches have been developed, but none have outperformed state-of-the-art cheminformatics methods. We propose torsional diffusion, a novel diffusion framework that operates on the space of torsion angles via a diffusion process on the hypertorus and an extrinsic-to-intrinsic score model. On a standard benchmark of drug-like molecules, torsional diffusion generates superior conformer ensembles compared to machine learning and cheminformatics methods in terms of both RMSD and chemical properties, and is orders of magnitude faster than previous diffusion-based models. Moreover, our model provides exact likelihoods, which we employ to build the first generalizable Boltzmann generator. Code is available at https://github.com/gcorso/torsional-diffusion.
翻訳日:2022-06-12 09:37:27 公開日:2022-06-01
# 薬物・標的相互作用予測のための連想学習機構

Associative Learning Mechanism for Drug-Target Interaction Prediction ( http://arxiv.org/abs/2205.15364v2 )

ライセンス: Link先を確認
Zhiqin Zhu, Zheng Yao, Guanqiu Qi, Neal Mazur, Baisen Cong(参考訳) 薬物開発に必要なプロセスとして、特定のタンパク質に選択的に結合できる化合物を見つけることは極めて困難で費用がかかる。 薬物標的親和性(DTA)は、薬物標的相互作用(DTI)の強さを表すものであり、過去10年間のDTI予測課題において重要な役割を果たしてきた。 深層学習はdta関連研究に応用されているが、既存の解は薬物化合物分子/タンパク質標的の分子表現学習における分子サブ構造間の基本的な相関を無視している。 さらに、従来の手法はDTA予測プロセスの解釈可能性に欠けていた。 これにより分子間相互作用の特徴情報が失われ、予測性能に影響を及ぼす。 そこで本稿では,対話型学習とオートエンコーダによるdta予測手法を提案する。 提案モデルは、薬物/タンパク質分子表現学習モジュールによって単一の分子配列の特徴情報をキャプチャする能力を高め、対話型情報学習モジュールによる分子配列対間の情報相互作用を補完する。 DTA値予測モジュールは、薬物対相互作用情報を融合してDTAの予測値を出力する。 また,提案手法は,実値と予測値との確率分布の一貫性を高めるため,dta予測モデルの合同分布におけるエビデンス下限値(elbo)を最大化することが理論的に証明されている。 その結果, MT-DTAは, 他の比較法よりも優れた性能を示すことがわかった。

As a necessary process in drug development, finding a drug compound that can selectively bind to a specific protein is highly challenging and costly. Drug-target affinity (DTA), which represents the strength of drug-target interaction (DTI), has played an important role in the DTI prediction task over the past decade. Although deep learning has been applied to DTA-related research, existing solutions ignore fundamental correlations between molecular substructures in molecular representation learning of drug compound molecules/protein targets. Moreover, traditional methods lack the interpretability of the DTA prediction process. This results in missing feature information of intermolecular interactions, thereby affecting prediction performance. Therefore, this paper proposes a DTA prediction method with interactive learning and an autoencoder mechanism. The proposed model enhances the corresponding ability to capture the feature information of a single molecular sequence by the drug/protein molecular representation learning module and supplements the information interaction between molecular sequence pairs by the interactive information learning module. The DTA value prediction module fuses the drug-target pair interaction information to output the predicted value of DTA. Additionally, this paper theoretically proves that the proposed method maximizes evidence lower bound (ELBO) for the joint distribution of the DTA prediction model, which enhances the consistency of the probability distribution between the actual value and the predicted value. The experimental results confirm mutual transformer-drug target affinity (MT-DTA) achieves better performance than other comparative methods.
翻訳日:2022-06-12 09:32:43 公開日:2022-06-01
# ダンサーを誘引者に縛る

Binding Dancers Into Attractors ( http://arxiv.org/abs/2206.02558v1 )

ライセンス: Link先を確認
Franziska Kaltenberger, Sebastian Otte, Martin V. Butz(参考訳) 環境下での観察を効果的に知覚し、プロセスする上で、特徴結合と視点取りは重要な認知能力である。 特徴結合は観測された特徴を1つのエンティティに結合し、ゲシュタルトと呼ばれる。 パースペクティブテイキングは、知覚を標準的なオブザーバ中心の参照フレームに転送する。 本稿では,両課題を解決する再帰的ニューラルネットワークモデルを提案する。 まずLSTMをトレーニングし、標準的視点から3次元運動力学を予測する。 次に,新しい視点と特徴配置で類似した動作ダイナミクスを示す。 振り返り推論は、標準的視点の推論を可能にする。 頑健な相互排他的ソフトマックス選択スキームと組み合わせて、ランダムな特徴配置を並べ替え、既知のゲシュタルト知覚に正確に結び付ける。 アーキテクチャの認知的妥当性の証拠を裏付けるために、回転するダンサーの2つのゲシュタルト解釈を取り入れたシルエット錯覚の挙動を検証した。 本システムは、錯覚の曖昧さを解消する代替アトラクタに回転図形の情報を柔軟に結合し、各深さ解釈と対応する回転方向を想像する。 最後に,提案手法の普遍性について考察する。

To effectively perceive and process observations in our environment, feature binding and perspective taking are crucial cognitive abilities. Feature binding combines observed features into one entity, called a Gestalt. Perspective taking transfers the percept into a canonical, observer-centered frame of reference. Here we propose a recurrent neural network model that solves both challenges. We first train an LSTM to predict 3D motion dynamics from a canonical perspective. We then present similar motion dynamics with novel viewpoints and feature arrangements. Retrospective inference enables the deduction of the canonical perspective. Combined with a robust mutual-exclusive softmax selection scheme, random feature arrangements are reordered and precisely bound into known Gestalt percepts. To corroborate evidence for the architecture's cognitive validity, we examine its behavior on the silhouette illusion, which elicits two competitive Gestalt interpretations of a rotating dancer. Our system flexibly binds the information of the rotating figure into the alternative attractors resolving the illusion's ambiguity and imagining the respective depth interpretation and the corresponding direction of rotation. We finally discuss the potential universality of the proposed mechanisms.
翻訳日:2022-06-12 08:46:04 公開日:2022-06-01
# dynaformer: 老化認識型電池放電予測のためのディープラーニングモデル

Dynaformer: A Deep Learning Model for Ageing-aware Battery Discharge Prediction ( http://arxiv.org/abs/2206.02555v1 )

ライセンス: Link先を確認
Luca Biggio, Tommaso Bendinelli, Chetan Kulkarni, Olga Fink(参考訳) 電気化学電池は私たちの社会のユビキタスな装置です。 ミッションクリティカルな用途に採用する場合、運用上の意思決定を支援するために、高度に可変な環境および運用条件下での排出終了を正確に予測する能力が重要となる。 電池の電荷と放電の位相の正確な予測モデルが存在するが、老化のモデル化とその性能への影響は未だよく分かっていない。 このような理解の欠如は、しばしば不正確なモデルや、バッテリーの老朽化や状態が著しく変化するたびに時間を要するキャリブレーション手順を引き起こす。 これは、効率的で堅牢なバッテリ管理システムを現実に展開する上で、大きな障害となる。 本稿では,キャリブレーションを必要とせずに,劣化レベルの電池の電圧放電曲線を予測できる手法を提案する。 特に,限られた数の電圧・電流サンプルから老化状態を同時推定し,実電池のフル電圧放電曲線を高精度に予測可能な,新しいトランスフォーマベースのディープラーニングアーキテクチャであるdynaformerを提案する。 実験の結果, 訓練されたモデルは, 様々な複雑度の入力電流プロファイルに有効であり, 幅広い劣化レベルに対して頑健であることがわかった。 シミュレーションデータ上でのフレームワークの性能を評価することに加えて、最小限の微調整により、シミュレーションと電池の集合から収集した実データの間のシミュレーションと実際のギャップを埋めることができることを示す。 提案手法では,制御可能かつ予測可能な方法での放電終了までバッテリ駆動システムの利用が可能となり,運用サイクルを著しく延長し,コストを削減できる。

Electrochemical batteries are ubiquitous devices in our society. When they are employed in mission-critical applications, the ability to precisely predict the end of discharge under highly variable environmental and operating conditions is of paramount importance in order to support operational decision-making. While there are accurate predictive models of the processes underlying the charge and discharge phases of batteries, the modelling of ageing and its effect on performance remains poorly understood. Such a lack of understanding often leads to inaccurate models or the need for time-consuming calibration procedures whenever the battery ages or its conditions change significantly. This represents a major obstacle to the real-world deployment of efficient and robust battery management systems. In this paper, we propose for the first time an approach that can predict the voltage discharge curve for batteries of any degradation level without the need for calibration. In particular, we introduce Dynaformer, a novel Transformer-based deep learning architecture which is able to simultaneously infer the ageing state from a limited number of voltage/current samples and predict the full voltage discharge curve for real batteries with high precision. Our experiments show that the trained model is effective for input current profiles of different complexities and is robust to a wide range of degradation levels. In addition to evaluating the performance of the proposed framework on simulated data, we demonstrate that a minimal amount of fine-tuning allows the model to bridge the simulation-to-real gap between simulations and real data collected from a set of batteries. The proposed methodology enables the utilization of battery-powered systems until the end of discharge in a controlled and predictable way, thereby significantly prolonging the operating cycles and reducing costs.
翻訳日:2022-06-12 08:45:29 公開日:2022-06-01
# (参考訳) 交通シミュレーションにおける現実的人間行動生成のための階層的歩行者行動モデル

A Hierarchical Pedestrian Behavior Model to Generate Realistic Human Behavior in Traffic Simulation ( http://arxiv.org/abs/2206.01601v1 )

ライセンス: CC BY 4.0
Scott Larter, Rodrigo Queiroz, Sean Sedwards, Atrisha Sarkar, Krzysztof Czarnecki(参考訳) 歩行者行動のモデル化は自動運転車の開発とテストに不可欠である。 本研究では,行動木を用いて高レベルな意思決定を行う階層的歩行者行動モデルを提案し,適応型社会力モデルを用いて低レベル運動プランナーが実行する操作を生成する。 我々の作業の完全な実装は、シナリオ定義と実行エンジンであるGeoScenario Serverに統合され、歩行者シミュレーションで車両シミュレーション機能を拡張する。 拡張環境は、自動運転車のシナリオベースのテストプロセスを支援するために、車両と歩行者の両方を含むテストシナリオをシミュレートできる。 提示された階層モデルは、道路構造が異なる別々の場所で収集された2つの実世界のデータセット上で評価される。 提案モデルでは,歩行者ごとの経路情報のみを考慮し,現実の歩行者の軌跡を高精度に再現し,意思決定精度を98%以上とした。

Modelling pedestrian behavior is crucial in the development and testing of autonomous vehicles. In this work, we present a hierarchical pedestrian behavior model that generates high-level decisions through the use of behavior trees, in order to produce maneuvers executed by a low-level motion planner using an adapted Social Force model. A full implementation of our work is integrated into GeoScenario Server, a scenario definition and execution engine, extending its vehicle simulation capabilities with pedestrian simulation. The extended environment allows simulating test scenarios involving both vehicles and pedestrians to assist in the scenario-based testing process of autonomous vehicles. The presented hierarchical model is evaluated on two real-world data sets collected at separate locations with different road structures. Our model is shown to replicate the real-world pedestrians' trajectories with a high degree of fidelity and a decision-making accuracy of 98% or better, given only high-level routing information for each pedestrian.
翻訳日:2022-06-07 09:28:34 公開日:2022-06-01
# (参考訳) プログラムを組み合わせた学習プログラム

Learning programs by combining programs ( http://arxiv.org/abs/2206.01614v1 )

ライセンス: CC0 1.0
Andrew Cropper(参考訳) 帰納論理プログラミングの目標は、例を一般化する一連のルール(論理プログラム)を誘導することである。 多くの規則とリテラルでプログラムを誘導することは大きな課題である。 この課題に取り組むために、プログラムを \emph{non-separable} フラグメントに分解し、個別にフラグメントを学び、それらを組み合わせる。 私たちは、生成、テスト、組み合わせ、制約ループでアプローチを実装しています。 当社のanytimeアプローチは,最適かつ再帰的,大規模プログラムを学習し,述語発明を支援する。 プログラム合成や帰納的汎用ゲームプレイを含む複数の領域に対する実験により,既存の手法と比較して予測精度を高め,学習時間を短縮できることが示された。

The goal of inductive logic programming is to induce a set of rules (a logic program) that generalises examples. Inducing programs with many rules and literals is a major challenge. To tackle this challenge, we decompose programs into \emph{non-separable} fragments, learn fragments separately, and then combine them. We implement our approach in a generate, test, combine, and constrain loop. Our anytime approach can learn optimal, recursive, and large programs and supports predicate invention. Our experiments on multiple domains (including program synthesis and inductive general game playing) show that our approach can increase predictive accuracies and reduce learning times compared to existing approaches.
翻訳日:2022-06-07 09:13:25 公開日:2022-06-01
# (参考訳) Snow Mountain:低資源言語における聖書のオーディオ録音のデータセット

Snow Mountain: Dataset of Audio Recordings of The Bible in Low Resource Languages ( http://arxiv.org/abs/2206.01205v1 )

ライセンス: CC BY-SA 4.0
Kavitha Raju, Anjaly V, Ryan Lish, Joel Mathew(参考訳) 自動音声認識(asr)は、現代の世界では有用性が高まっている。 英語のような大量のトレーニングデータを持つ言語には、多くのASRモデルが利用可能である。 しかし、低リソース言語は表現に乏しい。 これに応えて、低リソースの北インドの言語で聖書のオーディオ録音をオープンライセンスでフォーマットしたデータセットを作成し、リリースします。 我々は、複数の実験分割を設定し、このデータを用いて将来の研究のベースラインとなる2つの競合ASRモデルを訓練し、分析する。

Automatic Speech Recognition (ASR) has increasing utility in the modern world. There are a many ASR models available for languages with large amounts of training data like English. However, low-resource languages are poorly represented. In response we create and release an open-licensed and formatted dataset of audio recordings of the Bible in low-resource northern Indian languages. We setup multiple experimental splits and train and analyze two competitive ASR models to serve as the baseline for future research using this data.
翻訳日:2022-06-07 09:02:42 公開日:2022-06-01
# カオスシステムの演算子推論に基づく非インタラクティブ還元モデル

Non-Intrusive Reduced Models based on Operator Inference for Chaotic Systems ( http://arxiv.org/abs/2206.01604v1 )

ライセンス: Link先を確認
Jo\~ao Lucas de Sousa Almeida, Arthur Cancellieri Pires, Klaus Feine Vaz Cid, Alberto Costa Nogueira Junior(参考訳) 本研究は、カオス力学系の状態を予測するための物理駆動機械学習技術演算子推論(opinf)を探求する。 OpInfは、離散化されたモデルに現れる全順序作用素にアクセスすることなく、縮小空間における多項式作用素の近似を推論する非侵襲的なアプローチを提供する。 物理系のデータセットは従来の数値解法を用いて生成され、主成分分析(PCA)を介して低次元空間に投影される。 潜在空間において、最小二乗問題は二次多項式作用素に適合するように設定され、これはその後、同じ空間で外挿を生成するために時間積分スキームに使用される。 一旦解決すると、元の空間における外挿を再構成する逆PCA演算が適用される。 OpInf予測の品質は、正規化ルート平均正方形誤差(NRMSE)メトリックで評価され、VPT(Valid Prediction Time)が計算される。 カオスシステム Lorenz 96 と Kuramoto-Sivashinsky 方程式を考慮に入れた数値実験により, バックプロパゲーションやリカレントニューラルネットワークなどの最先端の機械学習手法を上回る, VPT を用いた OpInf 縮小順序モデルの予測能力を示す。 ランダム化初期条件に基づく最良の結果から、ロレンツ96系は、それぞれF=8とF=10に対応する6.66または3.19のリャプノフ時間単位を予測でき、一方KS系は794のリャプノフ時間単位を達成できた。

This work explores the physics-driven machine learning technique Operator Inference (OpInf) for predicting the state of chaotic dynamical systems. OpInf provides a non-intrusive approach to infer approximations of polynomial operators in reduced space without having access to the full order operators appearing in discretized models. Datasets for the physics systems are generated using conventional numerical solvers and then projected to a low-dimensional space via Principal Component Analysis (PCA). In latent space, a least-squares problem is set to fit a quadratic polynomial operator which is subsequently employed in a time-integration scheme in order to produce extrapolations in the same space. Once solved, the inverse PCA operation is applied for reconstructing the extrapolations in the original space. The quality of the OpInf predictions is assessed via the Normalized Root Mean Squared Error (NRMSE) metric from which the Valid Prediction Time (VPT) is computed. Numerical experiments considering the chaotic systems Lorenz 96 and the Kuramoto-Sivashinsky equation show promising forecasting capabilities of the OpInf reduced order models with VPT ranges that outperform state-of-the-art machine learning methods such as backpropagation and reservoir computing recurrent neural networks [1]. The best results based on randomized initial conditions show that Lorenz 96 system can be forecasted up to 6.66 or 3.19 Lyapunov time units corresponding to the forcing terms F=8 and F=10, respectively, while the KS system achieved remarkable 794 Lyapunov time units.
翻訳日:2022-06-06 15:23:07 公開日:2022-06-01
# OmniXAI: 説明可能なAIのためのライブラリ

OmniXAI: A Library for Explainable AI ( http://arxiv.org/abs/2206.01612v1 )

ライセンス: Link先を確認
Wenzhuo Yang and Hung Le and Silvio Savarese and Steven C.H. Hoi(参考訳) 我々は,eXplainable AI(XAI)のオープンソースPythonライブラリであるOmniXAIを紹介した。このライブラリは,全方向で説明可能なAI機能と,さまざまな解釈可能な機械学習技術を提供し,機械学習(ML)による意思決定の理解と解釈の問題点に対処する。 OmniXAIは、MLプロセスのさまざまな段階(データ探索、機能エンジニアリング、モデル開発、評価、意思決定など)におけるさまざまなデータ、モデル、説明方法の説明を必要とするデータサイエンティスト、ML研究者、実践者にとって、説明可能なAIを簡単にするワンストップの包括的なライブラリである。 具体的には、複数のデータ型(タブラルデータ、画像、テキスト、時系列)、複数のMLモデル(従来のPyTorch/TensorFlowのScikit-learnおよびディープラーニングモデルにおけるML)、"モデル固有"や"モデル非依存"(機能属性の説明、反ファクト的説明、勾配に基づく説明など)を含む、多種多様な説明方法を含む、統一インターフェースに統合された多種多様な説明方法群を含む。 実践者向けには、ライブラリは、数行のコードを記述するだけでアプリケーションの説明を生成するための使いやすい統一インターフェースと、さまざまな説明を視覚化し、意思決定に関するさらなる洞察を提供するguiダッシュボードを提供する。 本技術報告では,OmniXAIの設計原則,システムアーキテクチャ,主要機能について述べるとともに,さまざまな種類のデータ,タスク,モデルにまたがるいくつかの例を示す。

We introduce OmniXAI, an open-source Python library of eXplainable AI (XAI), which offers omni-way explainable AI capabilities and various interpretable machine learning techniques to address the pain points of understanding and interpreting the decisions made by machine learning (ML) in practice. OmniXAI aims to be a one-stop comprehensive library that makes explainable AI easy for data scientists, ML researchers and practitioners who need explanation for various types of data, models and explanation methods at different stages of ML process (data exploration, feature engineering, model development, evaluation, and decision-making, etc). In particular, our library includes a rich family of explanation methods integrated in a unified interface, which supports multiple data types (tabular data, images, texts, time-series), multiple types of ML models (traditional ML in Scikit-learn and deep learning models in PyTorch/TensorFlow), and a range of diverse explanation methods including "model-specific" and "model-agnostic" ones (such as feature-attribution explanation, counterfactual explanation, gradient-based explanation, etc). For practitioners, the library provides an easy-to-use unified interface to generate the explanations for their applications by only writing a few lines of codes, and also a GUI dashboard for visualization of different explanations for more insights about decisions. In this technical report, we present OmniXAI's design principles, system architectures, and major functionalities, and also demonstrate several example use cases across different types of data, tasks, and models.
翻訳日:2022-06-06 13:00:49 公開日:2022-06-01
# ポジティブなラベルなしコントラスト学習

Positive Unlabeled Contrastive Learning ( http://arxiv.org/abs/2206.01206v1 )

ライセンス: Link先を確認
Anish Acharya and Sujay Sanghavi and Li Jing and Bhargav Bhushanam and Dhruv Choudhary and Michael Rabbat and Inderjit Dhillon(参考訳) ラベル付きデータに対する自己教師付き事前学習とラベル付きデータの教師付き微調整は、限定されたラベル付き例から学ぶための一般的なパラダイムである。 本稿では,このパラダイムを,いくつかのラベル付き正の例とラベルなしのサンプルのみを用いてバイナリ分類器を学習する,古典的正の非ラベル付き(pu)設定に拡張する。 本稿では,有意な非ラベル付き入力データから有用な表現を学習するために,使用可能な明示的(ラベル付きサンプルから)と暗黙的(ラベル付きサンプルから)の監督を利用する,新しいPU学習対象の非ラベル付きノイズコントラスト推定(puNCE)を提案する。 基礎となるアイデアは、各トレーニングサンプルに個々の重みを割り当てることであり、ラベル付き正は単位重みを与えられ、ラベルなしのサンプルは複製され、一方のコピーは正にラベル付けされ、もう一方のコピーは負にラベル付けされ、その重みは$\pi$と$(1-\pi)$である。 視覚と自然言語のタスクにわたる広範な実験により、puNCEは限定的な監督の下で、既存の教師なしおよび教師なしのコントラストベースラインよりも一貫して改善されていることが明らかになった。

Self-supervised pretraining on unlabeled data followed by supervised finetuning on labeled data is a popular paradigm for learning from limited labeled examples. In this paper, we investigate and extend this paradigm to the classical positive unlabeled (PU) setting - the weakly supervised task of learning a binary classifier only using a few labeled positive examples and a set of unlabeled samples. We propose a novel PU learning objective positive unlabeled Noise Contrastive Estimation (puNCE) that leverages the available explicit (from labeled samples) and implicit (from unlabeled samples) supervision to learn useful representations from positive unlabeled input data. The underlying idea is to assign each training sample an individual weight; labeled positives are given unit weight; unlabeled samples are duplicated, one copy is labeled positive and the other as negative with weights $\pi$ and $(1-\pi)$ where $\pi$ denotes the class prior. Extensive experiments across vision and natural language tasks reveal that puNCE consistently improves over existing unsupervised and supervised contrastive baselines under limited supervision.
翻訳日:2022-06-06 12:58:05 公開日:2022-06-01
# (参考訳) WaveMix-Lite:画像解析のための資源効率の高いニューラルネットワーク

WaveMix-Lite: A Resource-efficient Neural Network for Image Analysis ( http://arxiv.org/abs/2205.14375v2 )

ライセンス: CC BY 4.0
Pranav Jeevan, Kavitha Viswanathan, Amit Sethi(参考訳) ニューラルネットワークの画像解析タスクを一般化する能力の高まりは、パラメータやレイヤの数の増加、データセットのサイズ、トレーニングとテストの計算、gpu ramといったコストがかかっている。 我々は、リソースを少なくしながら、同時代のトランスフォーマーや畳み込みニューラルネットワーク(CNN)と同等に一般化できる新しいアーキテクチャ、WaveMix-Liteを導入する。 WaveMix-Liteは2次元離散ウェーブレット変換を用いて画素の空間情報を効率的に混合する。 wavemix-liteは多彩でスケーラブルなアーキテクチャフレームワークで、画像分類やセマンティクスセグメンテーションなど、トランスフォーマーやcnnとは異なり、アーキテクチャの変更を必要とせずに、複数のビジョンタスクに使用できる。 単一のgpuでトレーニングしながら、複数の精度ベンチマークを満たしたり、超えたりすることができる。 例えば、5つのemnistデータセットで最先端の精度を達成し、imagenet-1k(64$\times$64イメージ)でcnnとtransformersを上回り、cityscapes validation setで75.32 %のmiouを達成し、同等のcnnやtransformersのgpuramの5分の1以下を使用した。 実験の結果,ニューラルアーキテクチャの畳み込み要素は画像のシフト不変性を利用するが,新しいタイプの層(ウェーブレット変換など)は物体のスケール不変性や有限空間範囲といった画像のさらなる特性を利用することができることがわかった。

Gains in the ability to generalize on image analysis tasks for neural networks have come at the cost of increased number of parameters and layers, dataset sizes, training and test computations, and GPU RAM. We introduce a new architecture -- WaveMix-Lite -- that can generalize on par with contemporary transformers and convolutional neural networks (CNNs) while needing fewer resources. WaveMix-Lite uses 2D-discrete wavelet transform to efficiently mix spatial information from pixels. WaveMix-Lite seems to be a versatile and scalable architectural framework that can be used for multiple vision tasks, such as image classification and semantic segmentation, without requiring significant architectural changes, unlike transformers and CNNs. It is able to meet or exceed several accuracy benchmarks while training on a single GPU. For instance, it achieves state-of-the-art accuracy on five EMNIST datasets, outperforms CNNs and transformers in ImageNet-1K (64$\times$64 images), and achieves an mIoU of 75.32 % on Cityscapes validation set, while using less than one-fifth the number parameters and half the GPU RAM of comparable CNNs or transformers. Our experiments show that while the convolutional elements of neural architectures exploit the shift-invariance property of images, new types of layers (e.g., wavelet transform) can exploit additional properties of images, such as scale-invariance and finite spatial extents of objects.
翻訳日:2022-06-04 21:03:01 公開日:2022-06-01
# (参考訳) 外分布データを用いた全スライド画像の頸腺細胞検出

Cervical Glandular Cell Detection from Whole Slide Image with Out-Of-Distribution Data ( http://arxiv.org/abs/2205.14625v2 )

ライセンス: CC BY 4.0
Ziquan Wei, Shenghua Cheng, Jing Cai, Shaoqun Zeng, Xiuli Liu, and Zehua Wang(参考訳) 頸部腺癌スクリーニングのコンピュータ診断において,頸部腺細胞(gc)の検出は重要なステップである。 扁平上皮が主要細胞である頚椎スミアのGCを正確に認識することは困難である。 スメア全体に存在するout-of-distribution(ood)データは、gc検出のための機械学習システムの信頼性を低下させる。 しかし,SOTA(State-Of-The-Art)深層学習モデルでは,興味のある領域の病理学者よりも高い確率でFP(Mass False Positive)予測を行うことができた。 本稿では,8つの隣り合う自己注意機構を用いてFP問題を解こうとするGCのモルフォロジー的事前知識に基づく新しいPolarNetを提案する。 これはGCの核の極方向を推定する。 プラグインモジュールとして、PolarNetは深い機能と一般的なオブジェクト検出モデルの信頼性をガイドすることができる。 実験の結果, 4つの異なるフレームワークをベースとした一般的なモデルでは, FPを小さな画像集合で拒否し, 平均精度(mAP)を$\text{0.007}\sim\text{0.015}$で向上させることができることがわかった。 PolarNetをプラグインすることで、デプロイされたC++プログラムは、外部WSIからの上位20個のGC検出の精度を8.8\%向上し、計算時間14.4秒を犠牲にした。 コードはhttps://github.com/Chrisa142857/PolarNet-GCdetで入手できる。

Cervical glandular cell (GC) detection is a key step in computer-aided diagnosis for cervical adenocarcinomas screening. It is challenging to accurately recognize GCs in cervical smears in which squamous cells are the major. Widely existing Out-Of-Distribution (OOD) data in the entire smear leads decreasing reliability of machine learning system for GC detection. Although, the State-Of-The-Art (SOTA) deep learning model can outperform pathologists in preselected regions of interest, the mass False Positive (FP) prediction with high probability is still unsolved when facing such gigapixel whole slide image. This paper proposed a novel PolarNet based on the morphological prior knowledge of GC trying to solve the FP problem via a self-attention mechanism in eight-neighbor. It estimates the polar orientation of nucleus of GC. As a plugin module, PolarNet can guide the deep feature and predicted confidence of general object detection models. In experiments, we discovered that general models based on four different frameworks can reject FP in small image set and increase the mean of average precision (mAP) by $\text{0.007}\sim\text{0.015}$ in average, where the highest exceeds the recent cervical cell detection model 0.037. By plugging PolarNet, the deployed C++ program improved by 8.8\% on accuracy of top-20 GC detection from external WSIs, while sacrificing 14.4 s of computational time. Code is available in https://github.com/Chrisa142857/PolarNet-GCdet
翻訳日:2022-06-04 14:56:41 公開日:2022-06-01
# (参考訳) anchor prediction: トピックモデリングアプローチ

Anchor Prediction: A Topic Modeling Approach ( http://arxiv.org/abs/2205.14631v2 )

ライセンス: CC BY 4.0
Jean Dupuy, Adrien Guille and Julien Jacques(参考訳) ウィキペディアのようなハイパーリンクで接続されたドキュメントのネットワークはユビキタスである。 ハイパーリンクは著者によって挿入され、テキストを充実させ、ネットワーク経由のナビゲーションを容易にする。 しかし、著者は関連するハイパーリンクのほんの一部だけを挿入する傾向がある。 本稿では,アンカー予測と呼ばれるアノテーションについて述べる。 概念的には、リンク予測やエンティティリンクに近いが、それを解決するのに特定の方法を開発する必要があるタスクである。 ソースドキュメントとターゲットドキュメントが与えられた場合、このタスクは、ソースドキュメント内のアンカーを自動的に識別する。 本研究では,ソース文書中のアンカーの局所的コンテキストと対象文書の全内容の関数として,文書間の指向されたリンクをモデル化するコンテキスト化関係トピックモデルcrtmを提案する。 このモデルは、先の言及やタイトルの辞書や外部の知識グラフに頼ることなく、対象ドキュメントに与えられたソースドキュメント内のアンカーを予測するために使うことができる。 作者は、新しいドキュメントと接続すべきターゲットドキュメントセットを指定して、ハイパーリンクを自動的に提案することで、CRTMの恩恵を受けることができる。 また、読んでいるドキュメントの間にハイパーリンクを動的に挿入することで、読者にもメリットがあります。 いくつかのウィキペディアコーパス(英語、イタリア語、ドイツ語)で実施された実験は、アンカー予測の実用的有用性を強調し、我々のアプローチの妥当性を示す。

Networks of documents connected by hyperlinks, such as Wikipedia, are ubiquitous. Hyperlinks are inserted by the authors to enrich the text and facilitate the navigation through the network. However, authors tend to insert only a fraction of the relevant hyperlinks, mainly because this is a time consuming task. In this paper we address an annotation, which we refer to as anchor prediction. Even though it is conceptually close to link prediction or entity linking, it is a different task that require developing a specific method to solve it. Given a source document and a target document, this task consists in automatically identifying anchors in the source document, i.e words or terms that should carry a hyperlink pointing towards the target document. We propose a contextualized relational topic model, CRTM, that models directed links between documents as a function of the local context of the anchor in the source document and the whole content of the target document. The model can be used to predict anchors in a source document, given the target document, without relying on a dictionary of previously seen mention or title, nor any external knowledge graph. Authors can benefit from CRTM, by letting it automatically suggest hyperlinks, given a new document and the set of target document to connect to. It can also benefit to readers, by dynamically inserting hyperlinks between the documents they're reading. Experiments conducted on several Wikipedia corpora (in English, Italian and German) highlight the practical usefulness of anchor prediction and demonstrate the relevancy of our approach.
翻訳日:2022-06-04 13:23:37 公開日:2022-06-01
# (参考訳) 大規模テストグラフにおけるメッセージパージングGNNのOODリンク予測一般化機能

OOD Link Prediction Generalization Capabilities of Message-Passing GNNs in Larger Test Graphs ( http://arxiv.org/abs/2205.15117v2 )

ライセンス: CC BY 4.0
Yangze Zhou, Gitta Kutyniok, Bruno Ribeiro(参考訳) この研究は、グラフニューラルネットワーク(gnns)のようなグラフメッセージパッシングニューラルネットワーク(gmpnn)が、トレーニンググラフよりもデプロイ(テスト)グラフのサイズが大きい、誘導的分散(ood)リンク予測タスクを実行する能力に関する、最初の理論的研究を提供する。 まず,gMPNNで得られた置換同変(構造)ノード埋め込みに基づくリンク予測器が,テストグラフが大きくなるにつれてランダムな推測に収束することを示す。 次に、構造的対(2ノード)埋め込みを出力し、テストグラフが大きくなるにつれて、これらの埋め込みが連続関数の埋め込みに収束し、OODを予測できることを示す。 ランダムグラフにおける実験結果は理論結果と一致している。

This work provides the first theoretical study on the ability of graph Message Passing Neural Networks (gMPNNs) -- such as Graph Neural Networks (GNNs) -- to perform inductive out-of-distribution (OOD) link prediction tasks, where deployment (test) graph sizes are larger than training graphs. We first prove non-asymptotic bounds showing that link predictors based on permutation-equivariant (structural) node embeddings obtained by gMPNNs can converge to a random guess as test graphs get larger. We then propose a theoretically-sound gMPNN that outputs structural pairwise (2-node) embeddings and prove non-asymptotic bounds showing that, as test graphs grow, these embeddings converge to embeddings of a continuous function that retains its ability to predict links OOD. Empirical results on random graphs show agreement with our theoretical results.
翻訳日:2022-06-04 09:58:29 公開日:2022-06-01
# (参考訳) Gator: ゲーティングによるニューラルネットワークのカスタマイズ可能なチャネルプルーニング

Gator: Customizable Channel Pruning of Neural Networks with Gating ( http://arxiv.org/abs/2205.15404v2 )

ライセンス: CC BY 4.0
Eli Passov, Eli David, and Nathan S. Netanyahu(参考訳) ニューラルネットワーク(NN)アプリケーションの台頭により、圧縮への関心が高まり、特に追加のハードウェアを必要としないチャネルプルーニングに焦点が当てられている。 ほとんどのプルーニング手法では、ネットワークを微調整して除去するチャネルを決定するために、単一層操作またはグローバルスキームを使用する。 本稿では,個別チャネルのプルーニングのための学習ゲーティング機構を一時的に追加し,メモリによる計算コストの削減,(理論的な)スピードアップ(FLOP),実用的,ハードウェア固有のスピードアップを目的とした補助的損失のトレーニングを行うチャネルプルーニング手法であるGatorを提案する。 Gatorは、NN層間の依存関係の新たな定式化を導入し、ほとんどの従来の方法とは対照的に、ResNetのハイウェイ上のレイヤやResNetブロック全体の削除など、シークエンシャルでない部分のプルーニングを可能にする。 ImageNetでトレーニングされたResNet-50に対するゲーターのプルーニングは、50%のFLOPを0.4%の精度で削減するなど、最先端(SOTA)の結果を生成する。 また、gatorは1.4倍の高速化でgpuレイテンシの点で、以前のpruningモデルよりも優れている。 さらに、同様のランタイムでは、MobileNetV2やSqueezeNetと比較して、トップ5の精度が向上している。 この作業のソースコードは、https://github.com/elipassov/gator.com/で入手できる。

The rise of neural network (NN) applications has prompted an increased interest in compression, with a particular focus on channel pruning, which does not require any additional hardware. Most pruning methods employ either single-layer operations or global schemes to determine which channels to remove followed by fine-tuning of the network. In this paper we present Gator, a channel-pruning method which temporarily adds learned gating mechanisms for pruning of individual channels, and which is trained with an additional auxiliary loss, aimed at reducing the computational cost due to memory, (theoretical) speedup (in terms of FLOPs), and practical, hardware-specific speedup. Gator introduces a new formulation of dependencies between NN layers which, in contrast to most previous methods, enables pruning of non-sequential parts, such as layers on ResNet's highway, and even removing entire ResNet blocks. Gator's pruning for ResNet-50 trained on ImageNet produces state-of-the-art (SOTA) results, such as 50% FLOPs reduction with only 0.4%-drop in top-5 accuracy. Also, Gator outperforms previous pruning models, in terms of GPU latency by running 1.4 times faster. Furthermore, Gator achieves improved top-5 accuracy results, compared to MobileNetV2 and SqueezeNet, for similar runtimes. The source code of this work is available at: https://github.com/EliPassov/gator.
翻訳日:2022-06-04 09:55:46 公開日:2022-06-01
# (参考訳) GCoNet+: より強力なグループ協調型オブジェクト検出器

GCoNet+: A Stronger Group Collaborative Co-Salient Object Detector ( http://arxiv.org/abs/2205.15469v2 )

ライセンス: CC BY 4.0
Peng Zheng, Huazhu Fu, Deng-Ping Fan, Qi Fan, Jie Qin and Luc Van Gool(参考訳) 本稿では,gconet+と呼ばれる,自然場面における協調的物体を効果的かつ効率的に識別可能な,新しいエンドツーエンドグループ協調学習ネットワークを提案する。 提案したGCoNet+は、以下の2つの重要な基準に基づいて、マイニングコンセンサス表現により、コサリエントオブジェクト検出(CoSOD)のための新しい最先端性能を実現する。 1) 群内コンパクト性は, 群親和性モジュール (GAM) を用いて, 共塩性オブジェクト間の整合性をよりよく定式化する。 2) 新しいグループ協調モジュール(gcm)コンディショニングの導入により, 雑音が出力に与える影響を効果的に抑制できるグループ間分離性について検討した。 精度をさらに向上するため、我々は以下の一連の単純で効果的なコンポーネントを設計する。 一 モデル学習を意味レベルで促進する反復補助分類モジュール(RACM) 二 モデルが最終予測の質を向上させることを支援する信頼性向上モジュール(CEM) 三 より識別的特徴を学ぶためにモデルを導くグループベースの対称三重項損失(gst) CoCA、CoSOD3k、CoSal2015という3つの挑戦的なベンチマークに関する大規模な実験は、GCoNet+が既存の12の最先端モデルより優れていることを示した。 コードはhttps://github.com/ZhengPeng7/GCoNet_plusでリリースされた。

In this paper, we present a novel end-to-end group collaborative learning network, termed GCoNet+, which can effectively and efficiently (250 fps) identify co-salient objects in natural scenes. The proposed GCoNet+ achieves the new state-of-the-art performance for co-salient object detection (CoSOD) through mining consensus representations based on the following two essential criteria: 1) intra-group compactness to better formulate the consistency among co-salient objects by capturing their inherent shared attributes using our novel group affinity module (GAM); 2) inter-group separability to effectively suppress the influence of noisy objects on the output by introducing our new group collaborating module (GCM) conditioning on the inconsistent consensus. To further improve the accuracy, we design a series of simple yet effective components as follows: i) a recurrent auxiliary classification module (RACM) promoting the model learning at the semantic level; ii) a confidence enhancement module (CEM) helping the model to improve the quality of the final predictions; and iii) a group-based symmetric triplet (GST) loss guiding the model to learn more discriminative features. Extensive experiments on three challenging benchmarks, i.e., CoCA, CoSOD3k, and CoSal2015, demonstrate that our GCoNet+ outperforms the existing 12 cutting-edge models. Code has been released at https://github.com/ZhengPeng7/GCoNet_plus.
翻訳日:2022-06-04 09:43:23 公開日:2022-06-01
# (参考訳) 微分可能な不変因果発見

Differentiable Invariant Causal Discovery ( http://arxiv.org/abs/2205.15638v2 )

ライセンス: CC BY 4.0
Yu Wang, An Zhang, Xiang Wang, Xiangnan He, Tat-Seng Chua(参考訳) 観測データから因果構造を学ぶことは、機械学習の基本的な課題である。 一般的に用いられる微分可能な因果探索法の大部分は識別不可能であり、この問題をデータバイアスによる連続的な最適化タスクに変換する。 多くの実生活環境では、データは異なる環境から収集され、そこでは機能的関係は環境間で一定であり、加法的雑音の分布は様々である。 本稿では,微分可能不変因果関係発見(dicd)を提案し,微分可能枠組みに基づく多環境情報を活用し,スプリアスエッジと誤った因果関係の学習を回避した。 特に、dicdは環境依存相関を取り除きながら、環境不変因果関係を発見することを目的としている。 さらに, 対象構造方程式モデルを強制する制約を定式化し, 環境をまたいで最適に維持する。 提案したDICDの識別可能性に関する理論的保証は,十分な環境条件下で提供される。 合成および実世界のデータセットに関する大規模な実験は、DICDがSHDの36%まで最先端の因果発見手法より優れていることを検証している。 私たちのコードは受け入れ次第オープンソースになります。

Learning causal structure from observational data is a fundamental challenge in machine learning. The majority of commonly used differentiable causal discovery methods are non-identifiable, turning this problem into a continuous optimization task prone to data biases. In many real-life situations, data is collected from different environments, in which the functional relations remain consistent across environments, while the distribution of additive noises may vary. This paper proposes Differentiable Invariant Causal Discovery (DICD), utilizing the multi-environment information based on a differentiable framework to avoid learning spurious edges and wrong causal directions. Specifically, DICD aims to discover the environment-invariant causation while removing the environment-dependent correlation. We further formulate the constraint that enforces the target structure equation model to maintain optimal across the environments. Theoretical guarantees for the identifiability of proposed DICD are provided under mild conditions with enough environments. Extensive experiments on synthetic and real-world datasets verify that DICD outperforms state-of-the-art causal discovery methods up to 36% in SHD. Our code will be open-sourced upon acceptance.
翻訳日:2022-06-04 09:09:23 公開日:2022-06-01
# (参考訳) d$^2$nerf:単眼ビデオからの動的および静的オブジェクトの自己教師付きデカップリング

D$^2$NeRF: Self-Supervised Decoupling of Dynamic and Static Objects from a Monocular Video ( http://arxiv.org/abs/2205.15838v2 )

ライセンス: CC BY-SA 4.0
Tianhao Wu, Fangcheng Zhong, Andrea Tagliasacchi, Forrester Cole, Cengiz Oztireli(参考訳) モノクロビデオが与えられると、静的な環境を回復しながら動的オブジェクトのセグメンテーションとデカップリングは、マシンインテリジェンスにおいて広く研究されている問題である。 既存のソリューションは通常、イメージドメインでこの問題にアプローチし、パフォーマンスと環境の理解を制限します。 本研究では,単眼映像を撮影し,シャドウを含む動く物体を静的背景から分離する3次元シーン表現を学習する自己教師付き手法である,decoupled dynamic neural radiance field (d$^2$nerf)を導入する。 本手法は,運動物体と静的背景を2つの異なる神経放射場で表現し,時間変化を許容する。 このアプローチの素直な実装は、静的なコンポーネントを引き継ぎ、前者の表現は本質的により一般的であり、過度に適合する傾向にある。 そこで本研究では,現象の分離を促進する新しい損失を提案する。 さらに,動的に動く影を検出し,分離するシャドウフィールドネットワークを提案する。 様々な動的オブジェクトと影を含む新しいデータセットを導入し、動的および静的な3Dオブジェクトの分離、閉塞と影の除去、移動物体のイメージセグメンテーションにおける最先端のアプローチよりも優れた性能が得られることを示す。

Given a monocular video, segmenting and decoupling dynamic objects while recovering the static environment is a widely studied problem in machine intelligence. Existing solutions usually approach this problem in the image domain, limiting their performance and understanding of the environment. We introduce Decoupled Dynamic Neural Radiance Field (D$^2$NeRF), a self-supervised approach that takes a monocular video and learns a 3D scene representation which decouples moving objects, including their shadows, from the static background. Our method represents the moving objects and the static background by two separate neural radiance fields with only one allowing for temporal changes. A naive implementation of this approach leads to the dynamic component taking over the static one as the representation of the former is inherently more general and prone to overfitting. To this end, we propose a novel loss to promote correct separation of phenomena. We further propose a shadow field network to detect and decouple dynamically moving shadows. We introduce a new dataset containing various dynamic objects and shadows and demonstrate that our method can achieve better performance than state-of-the-art approaches in decoupling dynamic and static 3D objects, occlusion and shadow removal, and image segmentation for moving objects.
翻訳日:2022-06-04 07:53:04 公開日:2022-06-01
# (参考訳) なぜこのモデルは未来を予測したのか? 確率的予測の因果的説明に対する閉形式時空サルジェンシー

Why Did This Model Forecast This Future? Closed-Form Temporal Saliency Towards Causal Explanations of Probabilistic Forecasts ( http://arxiv.org/abs/2206.00679v1 )

ライセンス: CC BY-SA 4.0
Chirag Raman, Hayley Hung, Marco Loog(参考訳) 低レベルの人間の行動のダイナミクスを取り巻く予測タスクは、複数の研究領域において重要である。 このような設定では、特定の予測を説明する方法により、ドメインの専門家は行動間の予測的関係についての洞察を得ることができる。 確率的予測モデル(probabilistic forecasting model)を与えられた場合、モデルが予測を行う際に有益と考える観測された窓をどうやって識別できるのか? 我々は、人間の知覚に基礎を置く情報理論的サルマンシーの一般的な定義を構築し、ドメインの重要な属性を利用して予測設定に拡張する: 単一の観察によって、複数の有効な未来がもたらされる。 予測された将来の分布の微分エントロピーの観点から,観測窓の塩分率を表現することを提案する。 予測モデルの内部状態の明示的なトレーニングを必要とする既存の手法とは対照的に,確率予測においてよく用いられる密度関数に対する正則写像に対する閉形式解を求める。 我々は,音声合成対話データセットを用いた発話-ターン予測のサンプルタスクにおいて,提案フレームワークが頭部ポーズ特徴から有意な窓を回収する方法を実証的に示す。

Forecasting tasks surrounding the dynamics of low-level human behavior are of significance to multiple research domains. In such settings, methods for explaining specific forecasts can enable domain experts to gain insights into the predictive relationships between behaviors. In this work, we introduce and address the following question: given a probabilistic forecasting model how can we identify observed windows that the model considers salient when making its forecasts? We build upon a general definition of information-theoretic saliency grounded in human perception and extend it to forecasting settings by leveraging a crucial attribute of the domain: a single observation can result in multiple valid futures. We propose to express the saliency of an observed window in terms of the differential entropy of the resulting predicted future distribution. In contrast to existing methods that either require explicit training of the saliency mechanism or access to the internal states of the forecasting model, we obtain a closed-form solution for the saliency map for commonly used density functions in probabilistic forecasting. We empirically demonstrate how our framework can recover salient observed windows from head pose features for the sample task of speaking-turn forecasting using a synthesized conversation dataset.
翻訳日:2022-06-04 07:00:24 公開日:2022-06-01
# (参考訳) rocoursenet:予測を考慮したリコースモデルの分布的ロバストなトレーニング

RoCourseNet: Distributionally Robust Training of a Prediction Aware Recourse Model ( http://arxiv.org/abs/2206.00700v1 )

ライセンス: CC BY 4.0
Hangzhi Guo, Feiran Jia, Jinghui Chen, Anna Squicciarini, Amulya Yadav(参考訳) 機械学習(ML)モデルに対する対実的(CF)説明は、予測結果に悪影響を及ぼした個人にリコースケースを提供することで、機械学習モデルの予測を説明するエンドユーザーによって好まれる。 既存のcf説明手法は、基盤となるターゲットmlモデルが時間とともに静止していると仮定して、リコースを生成する。 しかしながら、トレーニングデータの分散シフトが一般的に発生するため、mlモデルは常に更新されるため、従来生成されたリコースを無効にすることで、アルゴリズムフレームワークに対するエンドユーザの信頼を損なう可能性がある。 この問題に対処するために,将来のデータシフトに対する予測とロバストなリコースを共同で最適化するトレーニングフレームワークであるrocoursenetを提案する。 主な貢献は3つあります (i)トレーニングデータセットにおける最悪のデータシフトを明示的に考慮し,最悪ケースシフトMLモデルを見つけるための新しい仮想データシフト(VDS)アルゴリズムを提案する。 (ii)rocoursenet内の新しい三段階最適化問題を解くために,逆訓練を活用し,予測とそれに対応するロバストなリコースを同時に生成する。 (iii) 最後に、3つの実世界のデータセットにおけるrocoursenetのパフォーマンスを評価し、ロバストなcf説明の生成においてrocoursenetが最先端のベースラインを10%上回っていることを示す。

Counterfactual (CF) explanations for machine learning (ML) models are preferred by end-users, as they explain the predictions of ML models by providing a recourse case to individuals who are adversely impacted by predicted outcomes. Existing CF explanation methods generate recourses under the assumption that the underlying target ML model remains stationary over time. However, due to commonly occurring distributional shifts in training data, ML models constantly get updated in practice, which might render previously generated recourses invalid and diminish end-users trust in our algorithmic framework. To address this problem, we propose RoCourseNet, a training framework that jointly optimizes for predictions and robust recourses to future data shifts. We have three main contributions: (i) We propose a novel virtual data shift (VDS) algorithm to find worst-case shifted ML models by explicitly considering the worst-case data shift in the training dataset. (ii) We leverage adversarial training to solve a novel tri-level optimization problem inside RoCourseNet, which simultaneously generates predictions and corresponding robust recourses. (iii) Finally, we evaluate RoCourseNet's performance on three real-world datasets and show that RoCourseNet outperforms state-of-the-art baselines by 10% in generating robust CF explanations.
翻訳日:2022-06-04 06:43:15 公開日:2022-06-01
# (参考訳) 何が変わった? 因果メディエーション分析を用いた脱バイアス法の検討

What Changed? Investigating Debiasing Methods using Causal Mediation Analysis ( http://arxiv.org/abs/2206.00701v1 )

ライセンス: CC BY 4.0
Sullam Jeoung, Jana Diesner(参考訳) 従来の研究は、言語モデルのデバイアスが下流タスクにどのように影響するか、特に、デバイアス技術がタスクのパフォーマンスにどのように影響するか、そして、デバイアスされたモデルが下流タスクで公平な予測を行うかどうかを検証してきた。 しかしながら、まだよく分かっていないのは、デバイアス手法が下流タスクに様々な影響を与える理由と、デバイアステクニックが言語モデルの内部コンポーネント、すなわちニューロン、レイヤ、および注意にどのように影響するかである。 本稿では, 因果媒介分析を適用して, 下流課題としての毒性検出に対する脱バイアス法の影響を理解することにより, 脱バイアス言語モデルの内部メカニズムを分解する。 本研究は, バイアス指標の異なるデバイアス化手法の有効性を検証し, モデルの特定の構成要素, 例えば, 第一言語モデルの2つの層, 注意頭などの変化に焦点を合わせることの必要性を示唆する。

Previous work has examined how debiasing language models affect downstream tasks, specifically, how debiasing techniques influence task performance and whether debiased models also make impartial predictions in downstream tasks or not. However, what we don't understand well yet is why debiasing methods have varying impacts on downstream tasks and how debiasing techniques affect internal components of language models, i.e., neurons, layers, and attentions. In this paper, we decompose the internal mechanisms of debiasing language models with respect to gender by applying causal mediation analysis to understand the influence of debiasing methods on toxicity detection as a downstream task. Our findings suggest a need to test the effectiveness of debiasing methods with different bias metrics, and to focus on changes in the behavior of certain components of the models, e.g.,first two layers of language models, and attention heads.
翻訳日:2022-06-04 06:20:05 公開日:2022-06-01
# (参考訳) 密度群集流インフォームドパス計画

Dense Crowd Flow-Informed Path Planning ( http://arxiv.org/abs/2206.00705v1 )

ライセンス: CC BY 4.0
Emily Pruc, Shlomo Zilberstein, and Joydeep Biswas(参考訳) 歩行者とロボットの快適性は、ロボットが人間を含む環境に置かれたときに最も優先される。 歩行者を意識しない移動ロボットの場合、安全への欲求は凍るロボット問題につながり、ロボットが大きな動的な障害物群(歩行者群など)に直面した場合、ロボットが停止する原因となるすべての前方のナビゲーションが安全でないと判断される。 凍ったロボットの問題を避けつつ,社会に順応して移動するために,混み合ったシナリオにおける歩行者の流れを理解することに興味がある。 群衆の歩行者を粒子として扱うことによって、システムは時間に依存した流れ場としてモデル化することができる。 このフローフィールドから、群衆から出てくる動きパターンを反映した異なるフローセグメントを抽出することができる。 これらの動きのパターンは、移動ロボットの制御とナビゲーションの間に説明され、群衆のフロー内で安全に動き、フロー内またはそれ以上の所へ到達することができる。 フローフィールド抽出と離散的ヒューリスティック探索を組み合わせてフローインフォームドパス計画(FIPP)を作成する。 本研究では、軌道を走行するローカルパスプランナーと比較した場合、FIPPを用いたロボットは目標をより早く達成できるだけでなく、シミュレーションと実ロボットの両方で従来の技術を用いたロボットよりも社会的に適合していることを示した。

Both pedestrian and robot comfort are of the highest priority whenever a robot is placed in an environment containing human beings. In the case of pedestrian-unaware mobile robots this desire for safety leads to the freezing robot problem, where a robot confronted with a large dynamic group of obstacles (such as a crowd of pedestrians) would determine all forward navigation unsafe causing the robot to stop in place. In order to navigate in a socially compliant manner while avoiding the freezing robot problem we are interested in understanding the flow of pedestrians in crowded scenarios. By treating the pedestrians in the crowd as particles moved along by the crowd itself we can model the system as a time dependent flow field. From this flow field we can extract different flow segments that reflect the motion patterns emerging from the crowd. These motion patterns can then be accounted for during the control and navigation of a mobile robot allowing it to move safely within the flow of the crowd to reach a desired location within or beyond the flow. We combine flow-field extraction with a discrete heuristic search to create Flow-Informed path planning (FIPP). We provide empirical results showing that when compared against a trajectory-rollout local path planner, a robot using FIPP was able not only to reach its goal more quickly but also was shown to be more socially compliant than a robot using traditional techniques both in simulation and on real robots.
翻訳日:2022-06-04 06:09:46 公開日:2022-06-01
# (参考訳) Split-kl と PAC-Bayes-split-kl の不等式

Split-kl and PAC-Bayes-split-kl Inequalities ( http://arxiv.org/abs/2206.00706v1 )

ライセンス: CC0 1.0
Yi-Shan Wu and Yevgeny Seldin(参考訳) 独立有界確率変数の和に対する測度不等式の新しい濃度を示し、これを分割-kl不等式と呼ぶ。 不等式はkl不等式の組合せ力と低分散を利用する能力を組み合わせたものである。 ベルヌーイ確率変数の場合、kl不等式は経験的ベルンシュタインよりも厳密であるが、有界区間内で値を取る確率変数に対して、経験的ベルンシュタイン不等式は kl よりも厳密である。 提案された分数klの不等式は、両方の世界の最高のものをもたらす。 余剰損失に対する分割-kl不等式の適用について論じる。 また、PAC-Bayes-split-klの不等式を導出し、PAC-Bayes-kl、PAC-Bayes Empirical Bernstein、PAC-Bayes Unexpected Bernstein、PAC-Bayes Empirical Bennettの不等式と比較するために、合成例といくつかのUCCデータセットを用いた。

We present a new concentration of measure inequality for sums of independent bounded random variables, which we name a split-kl inequality. The inequality combines the combinatorial power of the kl inequality with ability to exploit low variance. While for Bernoulli random variables the kl inequality is tighter than the Empirical Bernstein, for random variables taking values inside a bounded interval and having low variance the Empirical Bernstein inequality is tighter than the kl. The proposed split-kl inequality yields the best of both worlds. We discuss an application of the split-kl inequality to bounding excess losses. We also derive a PAC-Bayes-split-kl inequality and use a synthetic example and several UCI datasets to compare it with the PAC-Bayes-kl, PAC-Bayes Empirical Bernstein, PAC-Bayes Unexpected Bernstein, and PAC-Bayes Empirical Bennett inequalities.
翻訳日:2022-06-04 06:00:02 公開日:2022-06-01
# (参考訳) ガウス事前分布下における多項プロビットモデルのベイズ推定

Bayesian Inference for the Multinomial Probit Model under Gaussian Prior Distribution ( http://arxiv.org/abs/2206.00720v1 )

ライセンス: CC BY 4.0
Augusto Fasano, Giovanni Rebaudo, Niccol\`o Anceschi(参考訳) マルチノミカル・プロビット(mnp)モデルは分類データの基本的な回帰モデルである。 Fasano and Durante (2022) は、統一スキュー正規分布のクラスが複数のmnpサンプリングモデルに共役であることを証明した。 これによりモンテカルロサンプルと正確な変分法を開発しベイズ推論を行うことができる。 本稿では,ゼロ平均と独立ガウス前駆の下での離散結合型mnpモデルについて,上記の結果を適用した。 これにより、後方分布のパラメータの簡易表現と変分アルゴリズムの代替導出を得ることができ、fasano and durante (2022) の基本結果の新たな理解と、我々の特別な設定における計算上の利点が得られる。

Multinomial probit (mnp) models are fundamental and widely-applied regression models for categorical data. Fasano and Durante (2022) proved that the class of unified skew-normal distributions is conjugate to several mnp sampling models. This allows to develop Monte Carlo samplers and accurate variational methods to perform Bayesian inference. In this paper, we adapt the abovementioned results for a popular special case: the discrete-choice mnp model under zero mean and independent Gaussian priors. This allows to obtain simplified expressions for the parameters of the posterior distribution and an alternative derivation for the variational algorithm that gives a novel understanding of the fundamental results in Fasano and Durante (2022) as well as computational advantages in our special settings.
翻訳日:2022-06-04 05:24:52 公開日:2022-06-01
# (参考訳) (機械)政策の価値を学習する

(Machine) Learning What Policies Value ( http://arxiv.org/abs/2206.00727v1 )

ライセンス: CC BY 4.0
Daniel Bj\"orkegren, Joshua E. Blumenstock, Samsun Knight(参考訳) 方針が人を優先する場合、より多くの利益があるためか、あるいは優先されているためか? 本稿では,観測された割当決定と一致する値を明らかにする手法を開発した。 機械学習を使って、各個人が介入から得られる利益を見積もり、その割り当てを調整します。 (i)異なる人に割り当てられた厚生重量 二 介入による不均一な治療効果、及び (iii)異なる結果の重み付け。 我々は、メキシコのprogresa anti-povertyプログラムを分析して、このアプローチを実証する。 分析の結果、同プログラムは特定のサブグループ(例えば、先住民の世帯)を優先していたが、これらのグループがより利益を得たという事実は、実際により低い福祉体重を割り当てられたことを示している。 progresaのケースは、このメソッドが既存のポリシーを監査し、価値に合致する将来のポリシーを設計する方法を説明している。

When a policy prioritizes one person over another, is it because they benefit more, or because they are preferred? This paper develops a method to uncover the values consistent with observed allocation decisions. We use machine learning methods to estimate how much each individual benefits from an intervention, and then reconcile its allocation with (i) the welfare weights assigned to different people; (ii) heterogeneous treatment effects of the intervention; and (iii) weights on different outcomes. We demonstrate this approach by analyzing Mexico's PROGRESA anti-poverty program. The analysis reveals that while the program prioritized certain subgroups -- such as indigenous households -- the fact that those groups benefited more implies that they were in fact assigned a lower welfare weight. The PROGRESA case illustrates how the method makes it possible to audit existing policies, and to design future policies that better align with values.
翻訳日:2022-06-04 05:16:01 公開日:2022-06-01
# (参考訳) 学習のためのウォーク:不均質データによるフェデレーション学習のためのランダムウォークアプローチ

Walk for Learning: A Random Walk Approach for Federated Learning from Heterogeneous Data ( http://arxiv.org/abs/2206.00737v1 )

ライセンス: CC BY 4.0
Ghadir Ayache, Venkat Dassari, Salim El Rouayheb(参考訳) 本稿では,グラフのノードに分散したデータに適合するモデルを学習しようとするパラメータサーバ(PS)の問題を考える。 我々は,標準的応用として連合学習(fl)に注目した。 FLの主な課題の1つは、ノードとパラメータサーバの間の通信ボトルネックである。 文献で一般的な解決策は、各ノードがPSに返す前に、各イテレーションでモデルのいくつかのローカルアップデートを行えるようにすることである。 これにより通信ボトルネックが軽減される一方で、異なるノードが所有するデータの統計的不均一性がモデルの収束とバイアスを遅らせることが証明されている。 本研究では,ランダムウォーク(RW)学習アルゴリズムを用いて,コミュニケーションとデータ不均一性問題に対処する。 主なアイデアは、利用可能なノード間の直接接続を活用することであり、通常はPSへの通信よりも「安全」である。 ランダムウォークでは、モデルが「バトン」と見なされ、各イテレーションで更新された後、ノードから隣のノードに渡される。 RWを設計する上での課題は、データの不均一性とデータ分布の不確実性である。 理想的には、より情報的なデータを保持するノードをもっと頻繁に訪れたいと考えています。 この問題を睡眠用マルチアームバンディット (mab) として, 分散低減勾配推定を達成し, 最適サンプリング戦略をサブリニアにアプローチする準最適ノードサンプリング戦略を考案した。 この枠組みに基づき,適応型ランダムウォーク学習アルゴリズムを提案する。 我々はその収束に関する理論的保証を提供する。 解析結果から,提案アルゴリズムが既存のランダムウォークアルゴリズムより優れていることを示す。

We consider the problem of a Parameter Server (PS) that wishes to learn a model that fits data distributed on the nodes of a graph. We focus on Federated Learning (FL) as a canonical application. One of the main challenges of FL is the communication bottleneck between the nodes and the parameter server. A popular solution in the literature is to allow each node to do several local updates on the model in each iteration before sending it back to the PS. While this mitigates the communication bottleneck, the statistical heterogeneity of the data owned by the different nodes has proven to delay convergence and bias the model. In this work, we study random walk (RW) learning algorithms for tackling the communication and data heterogeneity problems. The main idea is to leverage available direct connections among the nodes themselves, which are typically "cheaper" than the communication to the PS. In a random walk, the model is thought of as a "baton" that is passed from a node to one of its neighbors after being updated in each iteration. The challenge in designing the RW is the data heterogeneity and the uncertainty about the data distributions. Ideally, we would want to visit more often nodes that hold more informative data. We cast this problem as a sleeping multi-armed bandit (MAB) to design a near-optimal node sampling strategy that achieves variance-reduced gradient estimates and approaches sub-linearly the optimal sampling strategy. Based on this framework, we present an adaptive random walk learning algorithm. We provide theoretical guarantees on its convergence. Our numerical results validate our theoretical findings and show that our algorithm outperforms existing random walk algorithms.
翻訳日:2022-06-04 05:15:03 公開日:2022-06-01
# (参考訳) 敵攻撃の可逆性について

On the reversibility of adversarial attacks ( http://arxiv.org/abs/2206.00772v1 )

ライセンス: CC BY 4.0
Chau Yi Li, Ricardo S\'anchez-Matilla, Ali Shahin Shamsabadi, Riccardo Mazzon, Andrea Cavallaro(参考訳) 敵対攻撃は、分類器の予測を変える摂動で画像を修正する。 これらの修正された画像は、adversarial exampleとして知られ、ディープニューラルネットワーク分類器の脆弱性を露呈している。 本稿では,オリジナル画像と対応する逆例として予測されるクラス間のマッピングの予測可能性について検討する。 この予測可能性は、元の予測を回収し、結果として誘導された誤分類を逆転させる可能性に関連する。 我々は、この特性を敵攻撃の可逆性と呼び、逆攻撃の元のクラスまたは真クラスを取得する際の精度として可逆性を定量化する。 本稿では,先行する分類結果を用いた分類器に対する敵意攻撃の効果を逆転する手法を提案する。 ベンチマーク分類器における最先端の敵攻撃の可逆性を分析し,その可逆性に影響を与える要因について考察する。

Adversarial attacks modify images with perturbations that change the prediction of classifiers. These modified images, known as adversarial examples, expose the vulnerabilities of deep neural network classifiers. In this paper, we investigate the predictability of the mapping between the classes predicted for original images and for their corresponding adversarial examples. This predictability relates to the possibility of retrieving the original predictions and hence reversing the induced misclassification. We refer to this property as the reversibility of an adversarial attack, and quantify reversibility as the accuracy in retrieving the original class or the true class of an adversarial example. We present an approach that reverses the effect of an adversarial attack on a classifier using a prior set of classification results. We analyse the reversibility of state-of-the-art adversarial attacks on benchmark classifiers and discuss the factors that affect the reversibility.
翻訳日:2022-06-04 04:30:19 公開日:2022-06-01
# (参考訳) ハイパーグラフのコア周辺モデル

Core-periphery Models for Hypergraphs ( http://arxiv.org/abs/2206.00783v1 )

ライセンス: CC BY 4.0
Marios Papachristou, Jon Kleinberg(参考訳) コア周辺構造に対するランダムなハイパーグラフモデルを提案する。 モデルの十分な統計量を活用することで,実際に線形wrtである大規模ハイパーグラフにスケール可能な,新しい統計的推論アルゴリズムを開発した。 ハイパーエッジの数でほぼ直線的な前処理ステップ後のグラフ内のノード数と、スケーラブルなサンプリングアルゴリズム。 我々の推論アルゴリズムはハイパーグラフ内のノードの評判(ランク)に対応する埋め込みを学習することができる。 また、モデルによって生成されるハイパーグラフのコアのサイズに関する理論的境界を与える。 私たちは、microsoft academic graph、stack exchange、githubから抽出された$\sim 10^5$のハイパーエッジまでのハイパーグラフデータを実験し、我々のモデルがベースラインのwrtよりも優れています。 適合性が良い。

We introduce a random hypergraph model for core-periphery structure. By leveraging our model's sufficient statistics, we develop a novel statistical inference algorithm that is able to scale to large hypergraphs with runtime that is practically linear wrt. the number of nodes in the graph after a preprocessing step that is almost linear in the number of hyperedges, as well as a scalable sampling algorithm. Our inference algorithm is capable of learning embeddings that correspond to the reputation (rank) of a node within the hypergraph. We also give theoretical bounds on the size of the core of hypergraphs generated by our model. We experiment with hypergraph data that range to $\sim 10^5$ hyperedges mined from the Microsoft Academic Graph, Stack Exchange, and GitHub and show that our model outperforms baselines wrt. producing good fits.
翻訳日:2022-06-04 04:20:04 公開日:2022-06-01
# (参考訳) ノードアクティベーションの最適化によるニューラルデコーディング

Neural Decoding with Optimization of Node Activations ( http://arxiv.org/abs/2206.00786v1 )

ライセンス: CC BY 4.0
Eliya Nachmani, Yair Be'ery(参考訳) 誤り訂正符号のためのニューラルデコーダを用いた最大ラピッド復号問題を考える。 ニューラルデコーダはノードのアクティベーションに関する2つの新しい損失項によって改善できることを示した。 第1の損失項は、ノードのアクティベーションにスパース制約を課す。 一方、第2の損失項は、優れたパフォーマンスを持つ教師デコーダからのノードのアクティベーションを模倣しようとした。 提案手法は,BCH符号上での最大1.1dB$のデコード性能を向上しながら,ニューラルブリーフ伝搬デコーダと同じ実行時間複雑性とモデルサイズを有する。

The problem of maximum likelihood decoding with a neural decoder for error-correcting code is considered. It is shown that the neural decoder can be improved with two novel loss terms on the node's activations. The first loss term imposes a sparse constraint on the node's activations. Whereas, the second loss term tried to mimic the node's activations from a teacher decoder which has better performance. The proposed method has the same run time complexity and model size as the neural Belief Propagation decoder, while improving the decoding performance by up to $1.1dB$ on BCH codes.
翻訳日:2022-06-04 03:42:22 公開日:2022-06-01
# (参考訳) 連続ベイズ型ニューラルネットワークアンサンブル

Sequential Bayesian Neural Subnetwork Ensembles ( http://arxiv.org/abs/2206.00794v1 )

ライセンス: CC BY 4.0
Sanket Jantre, Sandeep Madireddy, Shrijita Bhattacharya, Tapabrata Maiti, Prasanna Balaprakash(参考訳) モデル多様性に訴えるディープニューラルネットワークアンサンブルは、いくつかのアプリケーションで予測性能とモデル堅牢性を改善するために成功している。 一方, 密度モデルの疎部分ネットワークは, 密度の高いモデルの性能に適合し, 強靭性を高めつつ, モデル複雑性を効果的に減少させることが示されている。 しかし、ほとんどのアンサンブル技術は並列かつコストのかかる複数の評価を必要としており、主に決定論的モデルで提案されている。 本研究では, モデル前処理によるモデル複雑性を系統的に低減し, モデルの1つの前方通過において多様なアンサンブルを生成する動的ベイズニューラルネットワークの逐次アンサンブルを提案する。 センシング戦略は、パラメータ空間の高パフォーマンス領域を見つける探索フェーズと、スパースモデルのコンパクト性を効果的に活用し、多様なアンサンブルを生み出す高パフォーマンスサブネットワークに対応するエネルギーランドスケープの異なるミニマに迅速に収束する複数の搾取フェーズからなる。 提案手法は, CIFAR10, CIFAR100データセットと, CIFAR10-C, CIFAR100-Cの破損による分布外変種に対する予測精度, 不確実性推定, 分布外ロバスト性(OoD)において, 密集頻度およびベイズアンサンブルモデルのベースラインを超えていることを示す。 さらに,本手法は,1つの前進パスを持つアプローチと比較して最も多様なアンサンブルを生成し,場合によっては複数の前進パスを持つアプローチと比較した。

Deep neural network ensembles that appeal to model diversity have been used successfully to improve predictive performance and model robustness in several applications. Whereas, it has recently been shown that sparse subnetworks of dense models can match the performance of their dense counterparts and increase their robustness while effectively decreasing the model complexity. However, most ensembling techniques require multiple parallel and costly evaluations and have been proposed primarily with deterministic models, whereas sparsity induction has been mostly done through ad-hoc pruning. We propose sequential ensembling of dynamic Bayesian neural subnetworks that systematically reduce model complexity through sparsity-inducing priors and generate diverse ensembles in a single forward pass of the model. The ensembling strategy consists of an exploration phase that finds high-performing regions of the parameter space and multiple exploitation phases that effectively exploit the compactness of the sparse model to quickly converge to different minima in the energy landscape corresponding to high-performing subnetworks yielding diverse ensembles. We empirically demonstrate that our proposed approach surpasses the baselines of the dense frequentist and Bayesian ensemble models in prediction accuracy, uncertainty estimation, and out-of-distribution (OoD) robustness on CIFAR10, CIFAR100 datasets, and their out-of-distribution variants: CIFAR10-C, CIFAR100-C induced by corruptions. Furthermore, we found that our approach produced the most diverse ensembles compared to the approaches with a single forward pass and even compared to the approaches with multiple forward passes in some cases.
翻訳日:2022-06-04 03:33:04 公開日:2022-06-01
# (参考訳) 画像分解のためのマルチスケール周波数分離ネットワーク

Multi-scale frequency separation network for image deblurring ( http://arxiv.org/abs/2206.00798v1 )

ライセンス: CC BY 4.0
Yanni Zhang, Qiang Li, Miao Qi, Di Liu, Jun Kong, Jianzhong Wang(参考訳) 画像デブロアリングは、多くのコンピュータビジョンタスクにおいて必須のステップとなっているぼやけた画像から詳細なテクスチャ情報や構造を復元することを目的としている。 画像劣化問題に対処する様々な手法が提案されているが、そのほとんどはぼやけた画像全体を扱い、異なる画像周波数の特性を無視している。 本稿では,マルチスケール周波数分離ネットワーク (MSFS-Net) と呼ばれる画像デブロアリングのための新しい手法を提案する。 MSFS-Netは、エンコーダデコーダネットワークアーキテクチャに周波数分離モジュール(FSM)を導入し、複数のスケールで画像の低周波・高周波情報をキャプチャする。 そして,低周波情報を保持し,劣化時に高周波情報を復元する簡単なサイクル一貫性戦略と高度なコントラスト学習モジュール(CLM)をそれぞれ設計する。 最終的に、異なるスケールの特徴はクロススケール機能融合モジュール(csffm)によって融合される。 ベンチマークデータセットの大規模な実験により、提案したネットワークが最先端の性能を達成することが示された。

Image deblurring aims to restore the detailed texture information or structures from the blurry images, which has become an indispensable step in many computer-vision tasks. Although various methods have been proposed to deal with the image deblurring problem, most of them treated the blurry image as a whole and neglected the characteristics of different image frequencies. In this paper, we present a new method called multi-scale frequency separation network (MSFS-Net) for image deblurring. MSFS-Net introduces the frequency separation module (FSM) into an encoder-decoder network architecture to capture the low and high-frequency information of image at multiple scales. Then, a simple cycle-consistency strategy and a sophisticated contrastive learning module (CLM) are respectively designed to retain the low-frequency information and recover the high-frequency information during deblurring. At last, the features of different scales are fused by a cross-scale feature fusion module (CSFFM). Extensive experiments on benchmark datasets show that the proposed network achieves state-of-the-art performance.
翻訳日:2022-06-04 02:54:22 公開日:2022-06-01
# (参考訳) 分散概念ドリフトに基づくフェデレーション学習

Federated Learning under Distributed Concept Drift ( http://arxiv.org/abs/2206.00799v1 )

ライセンス: CC BY 4.0
Ellango Jothimurugesan, Kevin Hsieh, Jianyu Wang, Gauri Joshi, Phillip B. Gibbons(参考訳) 分散コンセプトドリフト下でのフェデレートラーニング(FL)は、ほとんど探索されていない分野である。 コンセプトドリフトはそれ自体はよく研究された現象であるが、時間と空間(クロスクライアント)でドリフトが発生するため、flには特別な課題がある。 私たちの研究は、両方の次元におけるデータの多様性を明示的に研究した最初のものです。 まず, ドリフト適応に対する先行解は, 単一のグローバルモデルで, 停滞するドリフトに不適であり, マルチモデル解を必要とすることを示す。 我々は,ドリフト適応の問題を時間変動クラスタリング問題として認識し,局所ドリフト検出と階層クラスタリングに基づくドリフトに反応する2つの新しいクラスタリングアルゴリズムを提案する。 経験的評価は,我々のソリューションが既存のベースラインよりもはるかに高い精度を実現し,各段階におけるクライアントのゼロ・トゥルースクラスタリングに関するオラクル知識を持つ理想的なアルゴリズムに匹敵することを示す。

Federated Learning (FL) under distributed concept drift is a largely unexplored area. Although concept drift is itself a well-studied phenomenon, it poses particular challenges for FL, because drifts arise staggered in time and space (across clients). Our work is the first to explicitly study data heterogeneity in both dimensions. We first demonstrate that prior solutions to drift adaptation, with their single global model, are ill-suited to staggered drifts, necessitating multi-model solutions. We identify the problem of drift adaptation as a time-varying clustering problem, and we propose two new clustering algorithms for reacting to drifts based on local drift detection and hierarchical clustering. Empirical evaluation shows that our solutions achieve significantly higher accuracy than existing baselines, and are comparable to an idealized algorithm with oracle knowledge of the ground-truth clustering of clients to concepts at each time step.
翻訳日:2022-06-04 02:37:09 公開日:2022-06-01
# (参考訳) CcHarmony: カラーチェッカーベースの画像調和データセット

CcHarmony: Color-checker based Image Harmonization Dataset ( http://arxiv.org/abs/2206.00800v1 )

ライセンス: CC0 1.0
Haoxu Huang, Li Niu(参考訳) 画像調和は、背景と互換性を持たせるために合成画像の前景を調整し、よりリアルで調和した画像を生成する。 深層画像調和ネットワークの訓練には十分な訓練データが必要であるが, 複合画像と地道調和画像の訓練ペアを取得することは極めて困難である。 したがって、既存の作品では、実画像の前景の外観を調整して合成合成合成画像を作成する。 しかし、このような調整は前景の自然照明変化を忠実に反映するものではない。 本研究では,画像調和データセット構築のための新しい推移的手法について検討する。 具体的には、記録された照明情報を持つ既存のデータセットに基づいて、まず実画像の前景を標準照明条件に変換し、それから元の背景と組み合わせて合成合成合成画像を形成する別の照明条件に変換する。 このようにして、カラーチェッカー (cc) から命名されたccHarmonyと呼ばれる画像調和データセットを構築する。 データセットはhttps://github.com/bcmi/Image-Harmonization-Dataset-ccHarmonyで公開されている。

Image harmonization targets at adjusting the foreground in a composite image to make it compatible with the background, producing a more realistic and harmonious image. Training deep image harmonization network requires abundant training data, but it is extremely difficult to acquire training pairs of composite images and ground-truth harmonious images. Therefore, existing works turn to adjust the foreground appearance in a real image to create a synthetic composite image. However, such adjustment may not faithfully reflect the natural illumination change of foreground. In this work, we explore a novel transitive way to construct image harmonization dataset. Specifically, based on the existing datasets with recorded illumination information, we first convert the foreground in a real image to the standard illumination condition, and then convert it to another illumination condition, which is combined with the original background to form a synthetic composite image. In this manner, we construct an image harmonization dataset called ccHarmony, which is named after color checker (cc). The dataset is available at https://github.com/bcmi/Image-Harmonization-Dataset-ccHarmony.
翻訳日:2022-06-04 02:11:52 公開日:2022-06-01
# 高スループットと応答性を備えたクラウドサービスとしてのドキュメント変換の提供

Delivering Document Conversion as a Cloud Service with High Throughput and Responsiveness ( http://arxiv.org/abs/2206.00785v1 )

ライセンス: Link先を確認
Christoph Auer (1), Michele Dolfi (1), Andr\'e Carvalho (2), Cesar Berrospi Ramis (1), Peter W. J. Staar (1) ((1) IBM Research, (2) SoftINSA Lda.)(参考訳) ドキュメントは知識の発見とビジネス洞察の中心であるため、ドキュメント理解はデータ駆動経済における重要なビジネスプロセスである。 ドキュメントを機械処理可能なフォーマットに変換することは、フォーマットや複雑な構造における大きなバリエーションのため、特に難しい。 そのため、光学文字認識(OCR)、レイアウト解析、テーブル構造回復、図形理解など、特定の課題を解決するために多くのアルゴリズムや機械学習手法が登場した。 主要なクラウドプロバイダすべてが提供する文書理解ソリューションにおいて,このような手法が採用されていることを観察する。 しかし、そのようなサービスがどのように設計され、クラウドでスケールするように最適化されているかについての出版物は少ない。 本稿では,クラウドインフラストラクチャ上での機械学習手法に強く依存して,複雑なデータ処理パイプラインをスケールする上で,特に課題となるドキュメント変換の事例に焦点を当てる。 私たちの主な目的は、明確に定義されたリソース予算で、異なるワークロードプロファイルに対して高いスケーラビリティと応答性を達成することです。 文書変換サービスの要件、設計、実装の選択について概説し、直面した課題を振り返る。 スケーリングの振る舞いとリソース効率の証拠は、2つの代替のワークロード分散戦略とデプロイメント構成のために提供される。 提案手法は,192ノードにわたる3072CPUコア上で,1時間あたり100万以上のPDFページの持続スループットを実現する。

Document understanding is a key business process in the data-driven economy since documents are central to knowledge discovery and business insights. Converting documents into a machine-processable format is a particular challenge here due to their huge variability in formats and complex structure. Accordingly, many algorithms and machine-learning methods emerged to solve particular tasks such as Optical Character Recognition (OCR), layout analysis, table-structure recovery, figure understanding, etc. We observe the adoption of such methods in document understanding solutions offered by all major cloud providers. Yet, publications outlining how such services are designed and optimized to scale in the cloud are scarce. In this paper, we focus on the case of document conversion to illustrate the particular challenges of scaling a complex data processing pipeline with a strong reliance on machine-learning methods on cloud infrastructure. Our key objective is to achieve high scalability and responsiveness for different workload profiles in a well-defined resource budget. We outline the requirements, design, and implementation choices of our document conversion service and reflect on the challenges we faced. Evidence for the scaling behavior and resource efficiency is provided for two alternative workload distribution strategies and deployment configurations. Our best-performing method achieves sustained throughput of over one million PDF pages per hour on 3072 CPU cores across 192 nodes.
翻訳日:2022-06-03 15:29:20 公開日:2022-06-01
# 微分プライベート合成データを用いた非IID環境におけるフェデレーション学習

Federated Learning in Non-IID Settings Aided by Differentially Private Synthetic Data ( http://arxiv.org/abs/2206.00686v1 )

ライセンス: Link先を確認
Huancheng Chen and Haris Vikalo(参考訳) フェデレートラーニング(FL)は、潜在的に多くのクライアントが機械学習モデルを協調的にトレーニングできるようにする、プライバシプロモーティングフレームワークである。 FLシステムでは、サーバがクライアントのモデル更新を収集・集約することで協調を調整し、クライアントのデータはローカルおよびプライベートのままである。 ローカルデータが不均一である場合 -- 学習したグローバルモデルのパフォーマンスが、クライアント間でデータを同一に分散するシナリオに比べて大幅に低下する可能性がある設定 — において、フェデレート学習の大きな課題が生じる。 本稿では,FedDPMS(Federated Differentially Private Means Sharing)を提案する。FLアルゴリズムでは,クライアントが分散自動エンコーダをデプロイして,信頼されたサーバによって通信される遅延データ表現の差分プライベート手段を用いて,ローカルデータセットを合成する。 このような拡張は、プライバシを損なうことなく、クライアント間のデータ不均一性の影響を改善する。 深層画像分類タスクに関する実験により、FedDPMSは異種データ設定に特化して設計された最先端のFL法よりも優れていることを示した。

Federated learning (FL) is a privacy-promoting framework that enables potentially large number of clients to collaboratively train machine learning models. In a FL system, a server coordinates the collaboration by collecting and aggregating clients' model updates while the clients' data remains local and private. A major challenge in federated learning arises when the local data is heterogeneous -- the setting in which performance of the learned global model may deteriorate significantly compared to the scenario where the data is identically distributed across the clients. In this paper we propose FedDPMS (Federated Differentially Private Means Sharing), an FL algorithm in which clients deploy variational auto-encoders to augment local datasets with data synthesized using differentially private means of latent data representations communicated by a trusted server. Such augmentation ameliorates effects of data heterogeneity across the clients without compromising privacy. Our experiments on deep image classification tasks demonstrate that FedDPMS outperforms competing state-of-the-art FL methods specifically designed for heterogeneous data settings.
翻訳日:2022-06-03 15:28:58 公開日:2022-06-01
# dockerに機械学習プロジェクトをデプロイするプラクティスを学ぶ

Studying the Practices of Deploying Machine Learning Projects on Docker ( http://arxiv.org/abs/2206.00699v1 )

ライセンス: Link先を確認
Moses Openja, Forough Majidi, Foutse Khomh, Bhagya Chembakottu, Heng Li(参考訳) Dockerはコンテナ化サービスであり、Webサイト、データベース、アプリケーションのAPI、機械学習(ML)モデルを数行のコードで簡単にデプロイできる。 研究は先頃、MLベースのプロジェクトのデプロイ方法に特に重点を置いていない、一般的なソフトウェアプロジェクトのデプロイにおけるDockerの使用について調査した。 本研究では,DockerがMLベースのプロジェクトのデプロイにどのように使用されているのかを理解するために,探索的研究を行った。 最初のステップとして、Dockerを使用するMLベースのプロジェクトのカテゴリを調査した。 そして、これらのプロジェクトがDockerを使う理由と方法、そして結果のDockerイメージの特徴を調べました。 MLベースのプロジェクトの6つのカテゴリでは、MLアプリケーション、MLOps/AIOps、ツールキット、DLフレームワーク、モデル、ドキュメントなど、デプロイにDockerを使用しています。 私たちは、モデル管理タスク(テスト、トレーニングなど)など、モデル固有のものを含む、Dockerの使用目的を表す21の主要なカテゴリの分類を導出しました。 そして、MLエンジニアが主にDockerイメージを使用して、OS間でソフトウェアを転送する、GPUなどのランタイム、言語制約などのプラットフォーム移植性を支援することを示した。 しかし、イメージレイヤに含まれる大量のファイルが、深くネストされたディレクトリを含むため、MLベースのソフトウェアプロジェクトを構築するためにDockerイメージを実行するために、より多くのリソースが必要であることもわかりました。 MLソフトウェアプロジェクトをコンテナを使ってデプロイする新たなプラクティスに光を当てて、改善すべき側面を強調したいと思っています。

Docker is a containerization service that allows for convenient deployment of websites, databases, applications' APIs, and machine learning (ML) models with a few lines of code. Studies have recently explored the use of Docker for deploying general software projects with no specific focus on how Docker is used to deploy ML-based projects. In this study, we conducted an exploratory study to understand how Docker is being used to deploy ML-based projects. As the initial step, we examined the categories of ML-based projects that use Docker. We then examined why and how these projects use Docker, and the characteristics of the resulting Docker images. Our results indicate that six categories of ML-based projects use Docker for deployment, including ML Applications, MLOps/ AIOps, Toolkits, DL Frameworks, Models, and Documentation. We derived the taxonomy of 21 major categories representing the purposes of using Docker, including those specific to models such as model management tasks (e.g., testing, training). We then showed that ML engineers use Docker images mostly to help with the platform portability, such as transferring the software across the operating systems, runtimes such as GPU, and language constraints. However, we also found that more resources may be required to run the Docker images for building ML-based software projects due to the large number of files contained in the image layers with deeply nested directories. We hope to shed light on the emerging practices of deploying ML software projects using containers and highlight aspects that should be improved.
翻訳日:2022-06-03 15:01:23 公開日:2022-06-01
# グラフ畳み込みネットワークを用いたゲノム組立のアンタングル学習

Learning to Untangle Genome Assembly with Graph Convolutional Networks ( http://arxiv.org/abs/2206.00668v1 )

ライセンス: Link先を確認
Lovro Vr\v{c}ek, Xavier Bresson, Thomas Laurent, Martin Schmitz, Mile \v{S}iki\'c(参考訳) テロメアからテロメアへのヒトDNAの完全配列の決定は30年前に始まり、最終的に2021年に完了した。 この成果は、様々なツールを設計し、最初のギャップレスゲノム配列を達成するために精巧な手動検査を行った多くの専門家の多大な努力の結果である。 しかし、この手法は、特に大量のデータを考えると、組立速度が重要な場合、異なるゲノムを組み立てる一般的な手法としてはほとんど利用できない。 本研究では,ゲノム組立タスクの中心部分に対して,ゲノム配列を再構築する必要のある大規模な組立グラフを解き放つという,異なるアプローチを探求する。 我々の主な動機は、人間工学的ヒューリスティックを減らし、ディープラーニングを使ってより一般化可能な再構築技術を開発することである。 正確には、グラフ畳み込みネットワークを訓練し、正しい経路を見つけることによってアセンブリグラフを解決するための新しい学習フレームワークを提案する。 トレーニングは、解決されたCHM13ヒューマンシーケンスから生成されたデータセットで教師され、実際の人間のPacBio HiFi読み取りを使用して構築されたアセンブリグラフでテストされる。 実験の結果、単一の染色体からのみ生成された模擬グラフに基づいて訓練されたモデルが、他の全ての染色体を著しく解決できることがわかった。 さらに、モデルは、同じグラフ上の最先端の \textit{de novo} アセンブラから手作りのヒューリスティックよりも優れている。 グラフネットワークを持つ再構成染色体はヌクレオチドレベルでより正確であり、より少ないコンチグ数、高いゲノム再構成率、NG50/NGA50アセスメント指標を報告している。

A quest to determine the complete sequence of a human DNA from telomere to telomere started three decades ago and was finally completed in 2021. This accomplishment was a result of a tremendous effort of numerous experts who engineered various tools and performed laborious manual inspection to achieve the first gapless genome sequence. However, such method can hardly be used as a general approach to assemble different genomes, especially when the assembly speed is critical given the large amount of data. In this work, we explore a different approach to the central part of the genome assembly task that consists of untangling a large assembly graph from which a genomic sequence needs to be reconstructed. Our main motivation is to reduce human-engineered heuristics and use deep learning to develop more generalizable reconstruction techniques. Precisely, we introduce a new learning framework to train a graph convolutional network to resolve assembly graphs by finding a correct path through them. The training is supervised with a dataset generated from the resolved CHM13 human sequence and tested on assembly graphs built using real human PacBio HiFi reads. Experimental results show that a model, trained on simulated graphs generated solely from a single chromosome, is able to remarkably resolve all other chromosomes. Moreover, the model outperforms hand-crafted heuristics from a state-of-the-art \textit{de novo} assembler on the same graphs. Reconstructed chromosomes with graph networks are more accurate on nucleotide level, report lower number of contigs, higher genome reconstructed fraction and NG50/NGA50 assessment metrics.
翻訳日:2022-06-03 14:55:15 公開日:2022-06-01
# アンダーサンプルデータからのMR画像再構成のための適応的局所近傍ニューラルネットワーク

Adaptive Local Neighborhood-based Neural Networks for MR Image Reconstruction from Undersampled Data ( http://arxiv.org/abs/2206.00775v1 )

ライセンス: Link先を確認
Shijun Liang, Anish Lahiri and Saiprasad Ravishankar(参考訳) 近年の医用画像再構成技術は, 臨床応用に適した高品質な医用画像の作成を, 低コストで, かつ患者への悪影響を最小限に抑えることに焦点を当てている。 近年の研究では,少ないサンプルのk空間データから深層学習を用いたMR画像の再構成が期待されている。 本研究では,トレーニングセットの小さな適応的に推定された近傍にニューラルネットワークを適合させることにより,再構成時にニューラルネットワークを迅速に推定する手法を提案する。 手短に言うと、本アルゴリズムは、テスト再構成に類似したデータセット内の隣人検索と、これらの隣人に対するローカルネットワークのトレーニングと、テスト再構築の更新を交互に行う。 私たちの再構築モデルは、大規模で多様なトレーニングセットに適合するよりも、再構成されるイメージに構造的に類似したデータセットで学習されるため、新しいスキャンに適応する。 また、比較的高速ながら、トレーニングセットや柔軟なスキャン設定の変更も処理できる。 提案手法はLONDN-MRIと呼ばれ,FastMRIの人工膝関節深部再建ネットワークを用いたマルチコイルデータセットを用いて検証した。 k空間の4倍、8倍アンダーサンプリングと1次元可変密度ランダム位相エンコードアンダーサンプリングマスクで再構成を行った。 提案手法は,大規模データセット上でグローバルにトレーニングされたモデルと比較して,高品質な再構築を実現する。

Recent medical image reconstruction techniques focus on generating high-quality medical images suitable for clinical use at the lowest possible cost and with the fewest possible adverse effects on patients. Recent works have shown significant promise for reconstructing MR images from sparsely sampled k-space data using deep learning. In this work, we propose a technique that rapidly estimates deep neural networks directly at reconstruction time by fitting them on small adaptively estimated neighborhoods of a training set. In brief, our algorithm alternates between searching for neighbors in a data set that are similar to the test reconstruction, and training a local network on these neighbors followed by updating the test reconstruction. Because our reconstruction model is learned on a dataset that is structurally similar to the image being reconstructed rather than being fit on a large, diverse training set, it is more adaptive to new scans. It can also handle changes in training sets and flexible scan settings, while being relatively fast. Our approach, dubbed LONDN-MRI, was validated on the FastMRI multi-coil knee data set using deep unrolled reconstruction networks. Reconstructions were performed at four fold and eight fold undersampling of k-space with 1D variable-density random phase-encode undersampling masks. Our results demonstrate that our proposed locally-trained method produces higher-quality reconstructions compared to models trained globally on larger datasets.
翻訳日:2022-06-03 14:54:46 公開日:2022-06-01
# Meta-SysId:同時同定と予測のためのメタラーニングアプローチ

Meta-SysId: A Meta-Learning Approach for Simultaneous Identification and Prediction ( http://arxiv.org/abs/2206.00694v1 )

ライセンス: Link先を確認
Junyoung Park, Federico Berto, Arec Jamgochian, Mykel J. Kochenderfer, and Jinkyoo Park(参考訳) 本稿では,共通だが未知の法則に支配されるシステム群をモデル化するメタ学習手法であるmeta-sysidを提案する。 古典的なモデリングと識別のアプローチに着想を得て、meta-sysidは共有パラメータを通じて共通法則を表現することを学び、システム固有のコンテキストを計算するためにオンライン最適化に依存している。 最適化に基づくメタラーニング手法と比較して、クラスパラメータとコンテキスト変数の分離は、バッチ計算と簡単なトレーニングスキームを許容しながら計算負担を軽減する。 そこで我々は,Meta-SysIdの多項式回帰,時系列予測,モデルベース制御,実世界の交通予測領域について,メタラーニングベースラインとの競合を実証的に見出した。

In this paper, we propose Meta-SysId, a meta-learning approach to model sets of systems that have behavior governed by common but unknown laws and that differentiate themselves by their context. Inspired by classical modeling-and-identification approaches, Meta-SysId learns to represent the common law through shared parameters and relies on online optimization to compute system-specific context. Compared to optimization-based meta-learning methods, the separation between class parameters and context variables reduces the computational burden while allowing batch computations and a simple training scheme. We test Meta-SysId on polynomial regression, time-series prediction, model-based control, and real-world traffic prediction domains, empirically finding it outperforms or is competitive with meta-learning baselines.
翻訳日:2022-06-03 14:31:34 公開日:2022-06-01
# 境界を知る: オフラインrlにおける明示的な行動クローニングの必要性

Know Your Boundaries: The Necessity of Explicit Behavioral Cloning in Offline RL ( http://arxiv.org/abs/2206.00695v1 )

ライセンス: Link先を確認
Wonjoon Goo, Scott Niekum(参考訳) 我々は,価値学習を制約する行動ポリシーを明示的にクローンするオフライン強化学習(rl)アルゴリズムを提案する。 オフラインRLでは、環境に関する追加情報なしでは、これらのアクションの結果を推定できないため、ポリシーが観測されていないアクションを選択するのを防ぐことがしばしば重要である。 このような制約を実装する直接的な方法の1つは、振る舞いのクローンを通して与えられたデータ分散を明示的にモデル化し、不確実なアクションを選択しないようポリシーを直接強制することである。 しかし、多くのオフラインRLメソッドは、潜在的に複雑な振る舞いポリシーをモデル化する際のエラーに関する懸念から、間接的に制約をインスタンス化する。 この研究では、制約をトレーニングされたモデルで安定的に実現できるため、オフラインrlの動作ポリシーを明示的にモデル化することは可能であるだけでなく、有益であると主張する。 まず、行動閉ざされたモデルを値ベースのオフラインRL手法に組み込むことで、明示的な行動クローニングと価値学習の両方の強みを享受できる理論フレームワークを提案する。 そこで本研究では,スコアに基づく生成モデルを用いた行動クローニング手法を提案する。 提案手法では,D4RL と Robomimic ベンチマーク内の複数のデータセットに対して最先端の性能を示し,テスト対象のデータセット間での競合性能を実現する。

We introduce an offline reinforcement learning (RL) algorithm that explicitly clones a behavior policy to constrain value learning. In offline RL, it is often important to prevent a policy from selecting unobserved actions, since the consequence of these actions cannot be presumed without additional information about the environment. One straightforward way to implement such a constraint is to explicitly model a given data distribution via behavior cloning and directly force a policy not to select uncertain actions. However, many offline RL methods instantiate the constraint indirectly -- for example, pessimistic value estimation -- due to a concern about errors when modeling a potentially complex behavior policy. In this work, we argue that it is not only viable but beneficial to explicitly model the behavior policy for offline RL because the constraint can be realized in a stable way with the trained model. We first suggest a theoretical framework that allows us to incorporate behavior-cloned models into value-based offline RL methods, enjoying the strength of both explicit behavior cloning and value learning. Then, we propose a practical method utilizing a score-based generative model for behavior cloning. With the proposed method, we show state-of-the-art performance on several datasets within the D4RL and Robomimic benchmarks and achieve competitive performance across all datasets tested.
翻訳日:2022-06-03 14:31:17 公開日:2022-06-01
# グラフネットワークを用いたPDE制約逆問題の解法

Learning to Solve PDE-constrained Inverse Problems with Graph Networks ( http://arxiv.org/abs/2206.00711v1 )

ライセンス: Link先を確認
Qingqing Zhao, David B. Lindell, Gordon Wetzstein(参考訳) 学習グラフニューラルネットワーク(GNN)は、物理系の力学をシミュレートする原理的解法の高速かつ正確な代替手段として最近確立されている。 しかし、科学や工学にまたがる多くの応用領域では、フォワードシミュレーションだけでなく、偏微分方程式(PDE)によって定義される制約で逆問題を解決することにも関心がある。 ここでは、PDE制約された逆問題を解決するために、GNNを探索する。 ばらばらな測定値が与えられた場合、我々は pde の初期条件またはパラメータの回復に興味を持っている。 gnnとオートデコーダ型のプリエントを組み合わせることで,初期条件や物理パラメータを,波動方程式やナビエ・ストークス方程式に適用した場合の他の学習手法よりも高精度に推定できることを示す。 また,GNNを用いて計算速度を最大90倍に向上させる。 プロジェクトページ: https://cyanzhao42.github.io/learninverseproblem

Learned graph neural networks (GNNs) have recently been established as fast and accurate alternatives for principled solvers in simulating the dynamics of physical systems. In many application domains across science and engineering, however, we are not only interested in a forward simulation but also in solving inverse problems with constraints defined by a partial differential equation (PDE). Here we explore GNNs to solve such PDE-constrained inverse problems. Given a sparse set of measurements, we are interested in recovering the initial condition or parameters of the PDE. We demonstrate that GNNs combined with autodecoder-style priors are well-suited for these tasks, achieving more accurate estimates of initial conditions or physical parameters than other learned approaches when applied to the wave equation or Navier-Stokes equations. We also demonstrate computational speedups of up to 90x using GNNs compared to principled solvers. Project page: https://cyanzhao42.github.io/LearnInverseProblem
翻訳日:2022-06-03 14:30:52 公開日:2022-06-01
# SolarGAN:Deep Generative Networksによる都市建築ファサードに関する年次日射量時系列

SolarGAN: Synthetic Annual Solar Irradiance Time Series on Urban Building Facades via Deep Generative Networks ( http://arxiv.org/abs/2206.00747v1 )

ライセンス: Link先を確認
Yufei Zhang (1), Arno Schl\"uter (1), Christoph Waibel (1) ((1) Chair of Architecture and Building Systems (A/S), ETH Zurich, Radarweg 29, Zurich, 1043 NX, Switzerland)(参考訳) 組込み型太陽光発電(bipv)は、ビルのエンベロープで利用可能な太陽エネルギーを利用して都市エネルギーシステムを脱炭する有望な技術である。 日射量の評価方法は、特に屋上においてよく確立されているが、建物のファサードの評価は、より複雑な都市的特徴と障害のために、通常より高い労力を必要とする。 既存の物理に基づくシミュレーションプログラムの欠点は、時間解決決定結果を生成するために、手動モデリングと計算時間を必要とすることである。 しかし、太陽放射は非常に断続的であり、その固有の不確実性を示すためには、堅牢なBIPVエネルギーシステムを設計する必要がある。 本稿では, 都市部における時空間分解能のない建物ファサード上で, 年間太陽照度時系列の高忠実度確率アンサンブルを効率的に生成する, 深部生成ネットワーク(DGN)に基づくデータ駆動モデルを提案する。 必要な入力は簡単に入手でき、単純な魚眼画像は3Dモデルから取得したカテゴリーシェーディングマスクである。 原則として、都市環境の実際の写真でさえ、意味的にセグメンテーションされているため利用することができる。 本検証は,物理シミュレーションと比較して生成時系列の忠実度が高いことを示す。 都市環境の特徴をパラメトリックに変化させ, 異なる気候環境下での建築ファサードに対応する時系列をリアルタイムで生成することで, 都市エネルギー計画におけるモデルの有効性を実証する。

Building Integrated Photovoltaics (BIPV) is a promising technology to decarbonize urban energy systems via harnessing solar energy available on building envelopes. While methods to assess solar irradiation, especially on rooftops, are well established, the assessment on building facades usually involves a higher effort due to more complex urban features and obstructions. The drawback of existing physics-based simulation programs is that they require significant manual modelling effort and computing time for generating time resolved deterministic results. Yet, solar irradiation is highly intermittent and representing its inherent uncertainty may be required for designing robust BIPV energy systems. Targeting on these drawbacks, this paper proposes a data-driven model based on Deep Generative Networks (DGN) to efficiently generate high-fidelity stochastic ensembles of annual hourly solar irradiance time series on building facades with uncompromised spatiotemporal resolution at the urban scale. The only input required is easily obtainable, simple fisheye images as categorical shading masks captured from 3D models. In principle, even actual photographs of urban contexts can be utilized, given they are semantically segmented. Our validations exemplify the high fidelity of the generated time series when compared to the physics-based simulator. To demonstrate the model's relevance for urban energy planning, we showcase its potential for generative design by parametrically altering characteristic features of the urban environment and producing corresponding time series on building facades under different climatic contexts in real-time.
翻訳日:2022-06-03 14:30:35 公開日:2022-06-01
# リニアアーキテクチャによるq-learningの安定化と効率的な学習

Stabilizing Q-learning with Linear Architectures for Provably Efficient Learning ( http://arxiv.org/abs/2206.00796v1 )

ライセンス: Link先を確認
Andrea Zanette, Martin J. Wainwright(参考訳) q$-learningアルゴリズムは強化学習のための単純かつ広く使われる確率近似スキームであるが、基本プロトコルは関数近似と連動して不安定性を示すことができる。 このような不安定性は線形関数近似でも観測できる。 実際には、ターゲットネットワークやエクスペリエンスリプレイといったツールが必要と思われるが、これらのメカニズムの個々の貢献は理論的にはよく分かっていない。 本研究は,線形関数近似を用いた基本的な$q$学習プロトコルの探索型を提案する。 私たちのモジュラー分析では、第2の順序更新ルール、ターゲットネットワークのセット、リプレイを体験するメカニズムといったアルゴリズムツールが果たす役割を例示しています。 同時に、このアルゴリズムの最も顕著な特徴、すなわち、ステップ数に依存しない空間複雑性を保ちながら、線形MDP上のアート後悔境界の状態を可能にする。 このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。 このアルゴリズムはインスタンス依存の形式も示しており、その性能は「効果的な」特徴次元に依存する。

The $Q$-learning algorithm is a simple and widely-used stochastic approximation scheme for reinforcement learning, but the basic protocol can exhibit instability in conjunction with function approximation. Such instability can be observed even with linear function approximation. In practice, tools such as target networks and experience replay appear to be essential, but the individual contribution of each of these mechanisms is not well understood theoretically. This work proposes an exploration variant of the basic $Q$-learning protocol with linear function approximation. Our modular analysis illustrates the role played by each algorithmic tool that we adopt: a second order update rule, a set of target networks, and a mechanism akin to experience replay. Together, they enable state of the art regret bounds on linear MDPs while preserving the most prominent feature of the algorithm, namely a space complexity independent of the number of step elapsed. We show that the performance of the algorithm degrades very gracefully under a novel and more permissive notion of approximation error. The algorithm also exhibits a form of instance-dependence, in that its performance depends on the "effective" feature dimension.
翻訳日:2022-06-03 14:28:33 公開日:2022-06-01
# 深海ビデオにおける無脊椎動物の文脈駆動検出

Context-Driven Detection of Invertebrate Species in Deep-Sea Video ( http://arxiv.org/abs/2206.00718v1 )

ライセンス: Link先を確認
R. Austin McEver, Bowen Zhang, Connor Levenson, A S M Iftekhar, B.S. Manjunath(参考訳) 毎年、水中遠隔操作車両(rovs)は、未探査の海洋生息地の数千時間分のビデオを収集し、地球上の生物多様性に関する大量の情報を明らかにする。 しかし、適切なアノテーションと分析が訓練された科学者の時間を必要とするため、この情報を完全に活用することは依然として困難である。 本研究では,水中基質および無脊椎動物分析(dusia)のためのデータセット,ベンチマークスイート,大規模データセットの育成,4つの水中基質の時間的局在化と59種の水中無脊椎動物の時間的・空間的局在化のための実験手法を提案する。 ドゥシアは現在、1080p、30fpsで撮影された25本のビデオで10時間以上の映像を収録している。 各ビデオには、関心の種数に加えて、ビデオ全体での基質の開始と終了時間を示すアノテーションが含まれている。 いくつかのフレームには、図1に示すように、無脊椎動物の興味のある種に対する正確な有界箱の位置がアノテートされている。 われわれの知る限り、dusiaは深海探査のための最初のデータセットであり、動くカメラからの映像には、日光が透過しないかなりの深さに存在する基質のアノテーションと無脊椎動物が含まれている。 さらに, 明示的な基質分類を用いて物体検出ネットワークに影響を与え, その基板に影響を及ぼす基質と種を同時に予測する, コンテキスト駆動型物体検出器 (cdd) を提案する。 また,部分注釈付き有界箱フレームのトレーニングを改善する方法を提案する。 最後に,興味のある無脊椎動物の計数を自動化するためのベースライン手法を提案する。

Each year, underwater remotely operated vehicles (ROVs) collect thousands of hours of video of unexplored ocean habitats revealing a plethora of information regarding biodiversity on Earth. However, fully utilizing this information remains a challenge as proper annotations and analysis require trained scientists time, which is both limited and costly. To this end, we present a Dataset for Underwater Substrate and Invertebrate Analysis (DUSIA), a benchmark suite and growing large-scale dataset to train, validate, and test methods for temporally localizing four underwater substrates as well as temporally and spatially localizing 59 underwater invertebrate species. DUSIA currently includes over ten hours of footage across 25 videos captured in 1080p at 30 fps by an ROV following pre planned transects across the ocean floor near the Channel Islands of California. Each video includes annotations indicating the start and end times of substrates across the video in addition to counts of species of interest. Some frames are annotated with precise bounding box locations for invertebrate species of interest, as seen in Figure 1. To our knowledge, DUSIA is the first dataset of its kind for deep sea exploration, with video from a moving camera, that includes substrate annotations and invertebrate species that are present at significant depths where sunlight does not penetrate. Additionally, we present the novel context-driven object detector (CDD) where we use explicit substrate classification to influence an object detection network to simultaneously predict a substrate and species class influenced by that substrate. We also present a method for improving training on partially annotated bounding box frames. Finally, we offer a baseline method for automating the counting of invertebrate species of interest.
翻訳日:2022-06-03 14:00:58 公開日:2022-06-01
# 3次元生体画像分割のための動的リニアトランス

Dynamic Linear Transformer for 3D Biomedical Image Segmentation ( http://arxiv.org/abs/2206.00771v1 )

ライセンス: Link先を確認
Zheyuan Zhang, Ulas Bagci(参考訳) トランスフォーマーベースのニューラルネットワークは、自己認識機構によるより優れたグローバル情報モデリングのために、多くのバイオメディカルイメージセグメンテーションタスクにおける有望なパフォーマンスを上回っている。 しかし、ほとんどの方法は、必須の3dボリューム情報を無視しながら、2d医療画像用に設計されている。 3次元変圧器に基づくセグメンテーション法の主な課題は、自己アテンション機構 \cite{vaswani2017attention} によって導入された二次複雑性である。 本稿では,エンコーダ・デコーダ方式を用いた3次元医用画像セグメンテーションのための新しいトランスフォーマアーキテクチャを提案する。 さらに,自己注意計算のためのトークン数をさらに削減する動的トークンの概念も新たに導入した。 グローバルな情報モデリングを生かして、異なる階層ステージからの不確実性マップを提供する。 本手法を複数の難易度ct膵臓分節データセット上で評価する。 我々の期待する結果は,新しい3Dトランスフォーマーベースのセグメンタが,単一のアノテーションを用いて高い精度のセグメンテーション性能と正確な不確実性定量化を実現することを示す。 コードはhttps://github.com/freshman97/lintransunet。

Transformer-based neural networks have surpassed promising performance on many biomedical image segmentation tasks due to a better global information modeling from the self-attention mechanism. However, most methods are still designed for 2D medical images while ignoring the essential 3D volume information. The main challenge for 3D transformer-based segmentation methods is the quadratic complexity introduced by the self-attention mechanism \cite{vaswani2017attention}. In this paper, we propose a novel transformer architecture for 3D medical image segmentation using an encoder-decoder style architecture with linear complexity. Furthermore, we newly introduce a dynamic token concept to further reduce the token numbers for self-attention calculation. Taking advantage of the global information modeling, we provide uncertainty maps from different hierarchy stages. We evaluate this method on multiple challenging CT pancreas segmentation datasets. Our promising results show that our novel 3D Transformer-based segmentor could provide promising highly feasible segmentation performance and accurate uncertainty quantification using single annotation. Code is available https://github.com/freshman97/LinTransUNet.
翻訳日:2022-06-03 14:00:32 公開日:2022-06-01
# 局所的仮面再建による自己監督型視覚訓練

Efficient Self-supervised Vision Pretraining with Local Masked Reconstruction ( http://arxiv.org/abs/2206.00790v1 )

ライセンス: Link先を確認
Jun Chen, Ming Hu, Boyang Li, Mohamed Elhoseiny(参考訳) コンピュータビジョンのための自己教師あり学習は非常に進歩し、画像分類、意味セグメンテーション、オブジェクト検出など下流の視覚タスクの多くを改善した。 これらのうち、MAEやBEiTのような自己監督型視覚学習手法は有望な性能を示す。 しかし、彼らのグローバルマスクの再構築メカニズムは計算的に要求されている。 この問題を解決するために,ローカルマスク再構成 (LoMaR) を提案する。この手法は,簡単なトランスフォーマーエンコーダの7$\times$7パッチの小さなウィンドウ内でマスク再構成を行い,画像全体に対するグローバルマスク再構成と比較して効率と精度のトレードオフを改善する。 大規模な実験により、LoMaRはImageNet-1Kの分類において84.1%の精度に達し、MAEの0.5%を上回った。 384$\times$384で事前訓練されたLoMaRを微調整した後、85.4%の精度でMAEを0.6%上回る。 MS COCOでは、LoMaRはオブジェクト検出で0.5$\text{AP}^\text{box}$、インスタンスセグメンテーションで0.5$\text{AP}^\text{mask}$でMAEを上回っている。 例えば448$\times$448画像の事前訓練において、分類精度が0.2%高いmaeよりも3.1$\times$高速である。 この局所マスク再構築学習機構は、他の生成的自己教師付き学習アプローチと容易に統合することができる。 私たちのコードは公開されます。

Self-supervised learning for computer vision has achieved tremendous progress and improved many downstream vision tasks such as image classification, semantic segmentation, and object detection. Among these, generative self-supervised vision learning approaches such as MAE and BEiT show promising performance. However, their global masked reconstruction mechanism is computationally demanding. To address this issue, we propose local masked reconstruction (LoMaR), a simple yet effective approach that performs masked reconstruction within a small window of 7$\times$7 patches on a simple Transformer encoder, improving the trade-off between efficiency and accuracy compared to global masked reconstruction over the entire image. Extensive experiments show that LoMaR reaches 84.1% top-1 accuracy on ImageNet-1K classification, outperforming MAE by 0.5%. After finetuning the pretrained LoMaR on 384$\times$384 images, it can reach 85.4% top-1 accuracy, surpassing MAE by 0.6%. On MS COCO, LoMaR outperforms MAE by 0.5 $\text{AP}^\text{box}$ on object detection and 0.5 $\text{AP}^\text{mask}$ on instance segmentation. LoMaR is especially more computation-efficient on pretraining high-resolution images, e.g., it is 3.1$\times$ faster than MAE with 0.2% higher classification accuracy on pretraining 448$\times$448 images. This local masked reconstruction learning mechanism can be easily integrated into any other generative self-supervised learning approach. Our code will be publicly available.
翻訳日:2022-06-03 14:00:15 公開日:2022-06-01
# ニューラル特徴回帰を用いたデータセット蒸留

Dataset Distillation using Neural Feature Regression ( http://arxiv.org/abs/2206.00719v1 )

ライセンス: Link先を確認
Yongchao Zhou, Ehsan Nezhadarya, Jimmy Ba(参考訳) データセット蒸留は、元のデータセットからほとんどの情報を保存する小さな合成データセットを学ぶことを目的としている。 データセット蒸留は、外ループがメタデータセットを最適化し、内ループが蒸留データ上でモデルを訓練する二段階メタ学習問題として定式化することができる。 この定式化においてメタ勾配計算は重要な課題の1つであり、内部ループ学習手順を微分することで計算とメモリコストが大幅に向上する。 本稿では,frepo(neural feature regression with pooling)を用いて,従来の手法よりも1桁少ないメモリ要求と2桁の高速トレーニングで,最先端のパフォーマンスを実現することで,これらの課題を解決する。 提案アルゴリズムは, データセット蒸留における多種多様なオーバーフィッティングを緩和するモデルプールを用いて, 時間経過による逆プロパゲーションに類似する。 FRePoは、CIFAR100、Tiny ImageNet、ImageNet-1Kの従来の手法よりも大幅に優れている。 さらに,高品質蒸留データは,継続的な学習やメンバーシップ推論の防御など,下流のさまざまなアプリケーションを大幅に改善できることを示す。

Dataset distillation aims to learn a small synthetic dataset that preserves most of the information from the original dataset. Dataset distillation can be formulated as a bi-level meta-learning problem where the outer loop optimizes the meta-dataset and the inner loop trains a model on the distilled data. Meta-gradient computation is one of the key challenges in this formulation, as differentiating through the inner loop learning procedure introduces significant computation and memory costs. In this paper, we address these challenges using neural Feature Regression with Pooling (FRePo), achieving the state-of-the-art performance with an order of magnitude less memory requirement and two orders of magnitude faster training than previous methods. The proposed algorithm is analogous to truncated backpropagation through time with a pool of models to alleviate various types of overfitting in dataset distillation. FRePo significantly outperforms the previous methods on CIFAR100, Tiny ImageNet, and ImageNet-1K. Furthermore, we show that high-quality distilled data can greatly improve various downstream applications, such as continual learning and membership inference defense.
翻訳日:2022-06-03 13:55:08 公開日:2022-06-01
# 字幕内動画のカスケード映像生成

Cascaded Video Generation for Videos In-the-Wild ( http://arxiv.org/abs/2206.00735v1 )

ライセンス: Link先を確認
Lluis Castrejon, Nicolas Ballas, Aaron Courville(参考訳) ビデオは、まずシーンのグローバルビューを概説し、次にローカルの詳細を追加することで作成できる。 このアイデアにインスパイアされた我々は、粗大なアプローチに従うビデオ生成のためのカスケードモデルを提案する。 まず,我々のモデルが低解像度ビデオを生成し,大域的なシーン構造を確立し,その後,さらに大きな解像度で動作するカスケードレベルによって洗練する。 各カスケードレベルをビデオの部分的なビューで順次トレーニングすることで、モデルの計算の複雑さを低減し、多数のフレームを持つ高解像度ビデオにスケーラブルにします。 我々は,本モデルが最先端技術と競合するutf101およびkinetics-600のアプローチを実証的に検証した。 さらに,モデルのスケーリング機能を実証し,48フレームの256x256ピクセルビデオを生成するbdd100kデータセット上で,3レベルモデルをトレーニングします。

Videos can be created by first outlining a global view of the scene and then adding local details. Inspired by this idea we propose a cascaded model for video generation which follows a coarse to fine approach. First our model generates a low resolution video, establishing the global scene structure, which is then refined by subsequent cascade levels operating at larger resolutions. We train each cascade level sequentially on partial views of the videos, which reduces the computational complexity of our model and makes it scalable to high-resolution videos with many frames. We empirically validate our approach on UCF101 and Kinetics-600, for which our model is competitive with the state-of-the-art. We further demonstrate the scaling capabilities of our model and train a three-level model on the BDD100K dataset which generates 256x256 pixels videos with 48 frames.
翻訳日:2022-06-03 13:54:49 公開日:2022-06-01
# マルチスケール再構成のための残差乗算フィルタネットワーク

Residual Multiplicative Filter Networks for Multiscale Reconstruction ( http://arxiv.org/abs/2206.00746v1 )

ライセンス: Link先を確認
Shayan Shekarforoush, David B. Lindell, David J. Fleet, Marcus A. Brubaker(参考訳) MFN(Multiplicative Filter Networks)やBACON(BACON)のようなコーディネートネットワークは、画像や3Dボリュームなどの連続的な信号を表すために使用される周波数スペクトルをある程度制御する。 しかし, 局所的な極小化を回避する上で, 粗粒度最適化が重要な役割を果たす様々な逆問題など, 粗粒度推定が必要な問題には容易に適用できない。 我々は,学習した再構成の周波数サポートをきめ細かな制御で粗大な最適化を可能にする新しい座標ネットワークアーキテクチャとトレーニング手法を提案する。 これは2つの重要な革新によって達成される。 まず,より微細な構造を適合させる際に,一スケールの構造が保存されるようにスキップ接続を組み込む。 第2に、最適化の各段階でモデル周波数スペクトルを制御するための新しい初期化方式を提案する。 これらの修正により、自然画像への粗大なフィッティングのマルチスケール最適化が可能となることを示す。 次に, 単粒子Creo-EM再構成問題に対する合成データセットのモデル評価を行った。 我々は,最先端技術と同等の高解像度マルチスケール構造を学習する。

Coordinate networks like Multiplicative Filter Networks (MFNs) and BACON offer some control over the frequency spectrum used to represent continuous signals such as images or 3D volumes. Yet, they are not readily applicable to problems for which coarse-to-fine estimation is required, including various inverse problems in which coarse-to-fine optimization plays a key role in avoiding poor local minima. We introduce a new coordinate network architecture and training scheme that enables coarse-to-fine optimization with fine-grained control over the frequency support of learned reconstructions. This is achieved with two key innovations. First, we incorporate skip connections so that structure at one scale is preserved when fitting finer-scale structure. Second, we propose a novel initialization scheme to provide control over the model frequency spectrum at each stage of optimization. We demonstrate how these modifications enable multiscale optimization for coarse-to-fine fitting to natural images. We then evaluate our model on synthetically generated datasets for the the problem of single-particle cryo-EM reconstruction. We learn high resolution multiscale structures, on par with the state-of-the art.
翻訳日:2022-06-03 13:54:35 公開日:2022-06-01
# 力学系の制御方程式における数学的操作を発見するベイズ学習

Bayesian Learning to Discover Mathematical Operations in Governing Equations of Dynamic Systems ( http://arxiv.org/abs/2206.00669v1 )

ライセンス: Link先を確認
Hongpeng Zhou, Wei Pan(参考訳) データから方程式を発見することは、動的システムの根底にある現象に対する洞察を与えるため、様々な科学分野にとって重要である。 本研究は,ニューラルネットワークのような階層構造を持つ数理演算ネットワーク(MathONet)を設計することにより,方程式を制御するための新しい表現を提案する。 具体的には、MathONetには複数の一元演算層(例えば sin, cos, log)とバイナリ演算層(例えば +,-)が積み重ねられている。 初期化されたマソネットは一般に冗長な構造を持つスーパーグラフと見なされ、そのサブグラフは支配方程式を導くことができる。 冗長な数学的操作に対して構造的に構築された事前情報を用いてサブグラフを抽出するスパース群ベイズ学習アルゴリズムを開発した。 chaotic lorenz system, lotka-volterra system, kolmogorov-petrovsky-piskunov system を実演することにより,オデウスと pdes の表現を事前に知ることなく,限定的な数学的操作を与えられた観測から常微分方程式 (odes) と偏微分方程式 (pdes) を発見できる。

Discovering governing equations from data is critical for diverse scientific disciplines as they can provide insights into the underlying phenomenon of dynamic systems. This work presents a new representation for governing equations by designing the Mathematical Operation Network (MathONet) with a deep neural network-like hierarchical structure. Specifically, the MathONet is stacked by several layers of unary operations (e.g., sin, cos, log) and binary operations (e.g., +,-), respectively. An initialized MathONet is typically regarded as a super-graph with a redundant structure, a sub-graph of which can yield the governing equation. We develop a sparse group Bayesian learning algorithm to extract the sub-graph by employing structurally constructed priors over the redundant mathematical operations. By demonstrating the chaotic Lorenz system, Lotka-Volterra system, and Kolmogorov-Petrovsky-Piskunov system, the proposed method can discover the ordinary differential equations (ODEs) and partial differential equations (PDEs) from the observations given limited mathematical operations, without any prior knowledge on possible expressions of the ODEs and PDEs.
翻訳日:2022-06-03 13:51:14 公開日:2022-06-01
# 関係特徴の合成とブラックボックス予測器の解説への応用

Composition of Relational Features with an Application to Explaining Black-Box Predictors ( http://arxiv.org/abs/2206.00738v1 )

ライセンス: Link先を確認
Ashwin Srinivasan, A Baskar, Tirtharaj Dash, Devanshu Shah(参考訳) Inductive Logic Programming (ILP) で開発されたリレーショナル機械学習プログラムは、(1)データインスタンス間の複雑な関係をモデル化する能力、(2)モデル構築中にドメイン固有の関係を利用する能力、(3)構築されたモデルは人間可読性であり、しばしば人間の理解に近づく。 しかし、これらのirpライクな手法は、ディープニューラルネットワークの現在の発展を加速させる急速ハードウェア、ソフトウェア、アルゴリズム開発に完全に乗じることができない。 本稿では,関係特徴を関数として扱い,関数の一般化合成の概念を用いてより単純な関数から複素関数を導出する。 モード言語 $\text{M}$ における $\text{M}$-simple 機能の集合の概念を定式化し、2つの合成演算子 ($\rho_1$ と $\rho_2$) を特定し、そこからすべての複雑な特徴を導出できる。 これらの結果を用いて,有向非巡回グラフをラベル付けした合成関係機械 (crm) と呼ばれる「説明可能なニューラルネットワーク」の実装を行った。 CRM の任意のvertex $j$ のvertex-label には、フィーチャー関数 $f_j$ と連続アクティベーション関数 $g_j$ が含まれている。 j$ が "非入力" 頂点であれば、$f_j$ は、直接前者の $j$ の頂点に関連する特徴の合成である。 私たちの焦点はCRMで、入力頂点(直接の前身がない)はすべて、頂点ラベルに$\text{M}$-simple機能を持っています。 このようなCRMを構築し学習するためのランダムな手順を提供する。 CRMの特徴の構成構造に基づく説明の概念を用いて、適切な説明を識別する能力の合成データに関する実証的証拠を提供し、それらの予測に説明を提供しないブラックボックスモデルの「説明機械」としてCRMの使用を実証する。

Relational machine learning programs like those developed in Inductive Logic Programming (ILP) offer several advantages: (1) The ability to model complex relationships amongst data instances; (2) The use of domain-specific relations during model construction; and (3) The models constructed are human-readable, which is often one step closer to being human-understandable. However, these ILP-like methods have not been able to capitalise fully on the rapid hardware, software and algorithmic developments fuelling current developments in deep neural networks. In this paper, we treat relational features as functions and use the notion of generalised composition of functions to derive complex functions from simpler ones. We formulate the notion of a set of $\text{M}$-simple features in a mode language $\text{M}$ and identify two composition operators ($\rho_1$ and $\rho_2$) from which all possible complex features can be derived. We use these results to implement a form of "explainable neural network" called Compositional Relational Machines, or CRMs, which are labelled directed-acyclic graphs. The vertex-label for any vertex $j$ in the CRM contains a feature-function $f_j$ and a continuous activation function $g_j$. If $j$ is a "non-input" vertex, then $f_j$ is the composition of features associated with vertices in the direct predecessors of $j$. Our focus is on CRMs in which input vertices (those without any direct predecessors) all have $\text{M}$-simple features in their vertex-labels. We provide a randomised procedure for constructing and learning such CRMs. Using a notion of explanations based on the compositional structure of features in a CRM, we provide empirical evidence on synthetic data of the ability to identify appropriate explanations; and demonstrate the use of CRMs as 'explanation machines' for black-box models that do not provide explanations for their predictions.
翻訳日:2022-06-03 13:50:49 公開日:2022-06-01
# 都市からシリーズへ:空間的・時間的分析を改善する複雑なネットワークとディープラーニング

From Cities to Series: Complex Networks and Deep Learning for Improved Spatial and Temporal Analytics* ( http://arxiv.org/abs/2206.01176v1 )

ライセンス: Link先を確認
Gabriel Spadon, Jose F. Rodrigues-Jr(参考訳) グラフはしばしば、複雑なトポロジを表現する能力を活用することで、現実世界の実体間の相互作用に関する質問に答えるために使われてきた。 複雑なネットワークはそのような非自明なトポロジを捉えるグラフとして知られており、流行の過程や人口動態、都市の都市化といった人間の現象を表現できる。 複雑なネットワークの調査は、人工知能を含む計算技術に特に重点を置いて、科学の多くの分野に及んでいる。 このような場合、関心の実体間の相互作用の分析は、コンピュータサイエンスにおける最先端の技術を研究対象とするパラダイムであるアルゴリズムの内部学習に変換される。 このパラダイムを探求することで、この論文は複雑なネットワークと機械学習技術を組み合わせて、パンデミック、垂直移動、ストリートネットワークで見られる人間の現象の理解を改善する。 したがって、私たちは次のように貢献します。 一 空間的及び時間的データに観察される動的過程をモデル化し、集中治療単位における伝染伝播、天気予報及び患者モニタリングに応用することができる新しいニューラルネットワークアーキテクチャ 二 ブラジルのすべての都市間の人の移動範囲のリンクを解析し、予測するための機械学習の方法、及び (iii)最も影響力のある頂点を追跡しながら、都市の都市計画における不整合を特定するための技術と、ブラジル及び世界的な都市に適用すること。 我々は,人工知能,厳格な形式主義,豊富な実験において,最先端技術の健全な証拠が得られた。 本研究は,様々な領域における実世界の応用に依拠し,方法論の適用性を示すものである。

Graphs have often been used to answer questions about the interaction between real-world entities by taking advantage of their capacity to represent complex topologies. Complex networks are known to be graphs that capture such non-trivial topologies; they are able to represent human phenomena such as epidemic processes, the dynamics of populations, and the urbanization of cities. The investigation of complex networks has been extrapolated to many fields of science, with particular emphasis on computing techniques, including artificial intelligence. In such a case, the analysis of the interaction between entities of interest is transposed to the internal learning of algorithms, a paradigm whose investigation is able to expand the state of the art in Computer Science. By exploring this paradigm, this thesis puts together complex networks and machine learning techniques to improve the understanding of the human phenomena observed in pandemics, pendular migration, and street networks. Accordingly, we contribute with: (i) a new neural network architecture capable of modeling dynamic processes observed in spatial and temporal data with applications in epidemics propagation, weather forecasting, and patient monitoring in intensive care units; (ii) a machine-learning methodology for analyzing and predicting links in the scope of human mobility between all the cities of Brazil; and, (iii) techniques for identifying inconsistencies in the urban planning of cities while tracking the most influential vertices, with applications over Brazilian and worldwide cities. We obtained results sustained by sound evidence of advances to the state of the art in artificial intelligence, rigorous formalisms, and ample experimentation. Our findings rely upon real-world applications in a range of domains, demonstrating the applicability of our methodologies.
翻訳日:2022-06-03 13:50:07 公開日:2022-06-01
# 異質性とコミュニケーション制約下における分布の協調学習

Collaborative Learning of Distributions under Heterogeneity and Communication Constraints ( http://arxiv.org/abs/2206.00707v1 )

ライセンス: Link先を確認
Xinmeng Huang, Donghwan Lee, Edgar Dobriban, Hamed Hassani(参考訳) 現代の機械学習では、ユーザーはデータを生成する分布を学ぶために協調しなければならない。 コミュニケーションは重大なボトルネックになり得る。 先行研究では、均質なユーザ、すなわちデータが同じ離散分布に従うユーザを調査し、最適な通信効率の方法を提供してきた。 しかし、これらの手法は均質性に大きく依存しており、ユーザの離散分布が不均一である場合の一般的な場合では適用できない。 ここでは, 利用者の離散分布が, 少数のエントリに対してばらばらにしか変化しないような, 自然で扱いやすい不均一性モデルを考える。 まず,ユーザがサーバと通信して中央分布を学習し,ロバスト統計の手法に依存する2段階の手法を提案する。 そして、学習した中央分布を微調整して、ユーザの個別分布を推定する。 異質性モデルと通信制約モデルにおいてシフトは最小最適であることを示す。 さらに,テキスト領域における合成データとn$-gram周波数推定の両方を用いて実験を行い,その効率性について考察した。

In modern machine learning, users often have to collaborate to learn distributions that generate the data. Communication can be a significant bottleneck. Prior work has studied homogeneous users -- i.e., whose data follow the same discrete distribution -- and has provided optimal communication-efficient methods. However, these methods rely heavily on homogeneity, and are less applicable in the common case when users' discrete distributions are heterogeneous. Here we consider a natural and tractable model of heterogeneity, where users' discrete distributions only vary sparsely, on a small number of entries. We propose a novel two-stage method named SHIFT: First, the users collaborate by communicating with the server to learn a central distribution; relying on methods from robust statistics. Then, the learned central distribution is fine-tuned to estimate the individual distributions of users. We show that SHIFT is minimax optimal in our model of heterogeneity and under communication constraints. Further, we provide experimental results using both synthetic data and $n$-gram frequency estimation in the text domain, which corroborate its efficiency.
翻訳日:2022-06-03 13:49:40 公開日:2022-06-01
# Nest Your Adaptive Algorithm for Parameter-Agnostic Nonconvex Minimax Optimization (特集:ユビキタスコンピューティング)

Nest Your Adaptive Algorithm for Parameter-Agnostic Nonconvex Minimax Optimization ( http://arxiv.org/abs/2206.00743v1 )

ライセンス: Link先を確認
Junchi Yang, Xiang Li, Niao He(参考訳) AdaGradやAMSGradのような適応アルゴリズムは、パラメータに依存しない能力のため、非凸最適化に成功している。 しかし、非凸最小値最適化に関しては、適切な時間スケールの分離を伴わない適応最適化器の直接拡張が実際に動作しない場合がある。 このような例は、適応段階化のグラディエントDescent Ascent(GDA)と適応段階化の単純な組み合わせが、原始-双対段階化比が慎重に選択されていない場合、分岐可能であることを証明している。 この問題に対処するため,我々はNested Adaptive framework,NeAda(略してNeAda)を導入し,二変数を制御可能な停止基準で適応的に最大化する内ループと,主変数を適応的に最小化する外ループを新たに導入した。 このような機構はオフザシェルフ適応オプティマイザを備え、原始変数と双対変数の進捗を自動的にバランスさせることができる。 理論的には、非凸強凸ミニマックス問題に対して、NeAda は、問題の滑らかさと強凹度パラメータに関する事前情報なしで、それぞれ決定論的および確率的設定において、ほぼ最適の $\tilde{O}(\epsilon^{-2})$ と $\tilde{O}(\epsilon^{-4})$ の勾配複雑性を達成できることを示す。 我々の知る限り、このアルゴリズムは非凸ミニマックス設定における近似収束率とパラメータ非依存適応を同時に達成する最初のアルゴリズムである。 さらに,簡単なテスト関数と実世界の応用実験により,NeAdaファミリーのロバスト性について述べる。

Adaptive algorithms like AdaGrad and AMSGrad are successful in nonconvex optimization owing to their parameter-agnostic ability -- requiring no a priori knowledge about problem-specific parameters nor tuning of learning rates. However, when it comes to nonconvex minimax optimization, direct extensions of such adaptive optimizers without proper time-scale separation may fail to work in practice. We provide such an example proving that the simple combination of Gradient Descent Ascent (GDA) with adaptive stepsizes can diverge if the primal-dual stepsize ratio is not carefully chosen; hence, a fortiori, such adaptive extensions are not parameter-agnostic. To address the issue, we formally introduce a Nested Adaptive framework, NeAda for short, that carries an inner loop for adaptively maximizing the dual variable with controllable stopping criteria and an outer loop for adaptively minimizing the primal variable. Such mechanism can be equipped with off-the-shelf adaptive optimizers and automatically balance the progress in the primal and dual variables. Theoretically, for nonconvex-strongly-concave minimax problems, we show that NeAda can achieve the near-optimal $\tilde{O}(\epsilon^{-2})$ and $\tilde{O}(\epsilon^{-4})$ gradient complexities respectively in the deterministic and stochastic settings, without prior information on the problem's smoothness and strong concavity parameters. To the best of our knowledge, this is the first algorithm that simultaneously achieves near-optimal convergence rates and parameter-agnostic adaptation in the nonconvex minimax setting. Numerically, we further illustrate the robustness of the NeAda family with experiments on simple test functions and a real-world application.
翻訳日:2022-06-03 13:48:20 公開日:2022-06-01
# 量子等速L2回帰のための対数線形時間系列最適校正アルゴリズム

A Log-Linear Time Sequential Optimal Calibration Algorithm for Quantized Isotonic L2 Regression ( http://arxiv.org/abs/2206.00744v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 量子化された等速L2回帰設定における推定の逐次キャリブレーションについて検討する。 まず、従来の等方性L2回帰解から最適な校正量子化推定が得られることを示す。 我々は従来のPAVAアルゴリズムを変更し、量子化された等速回帰問題のバッチおよびシーケンシャルな最適化のためのキャリブレータを作成する。 我々のアルゴリズムは、線形空間で観測されたサンプルに対する最適な量子化モノトーンマッピングと、新しい非順序標本に対する対数時間を更新することができる。

We study the sequential calibration of estimations in a quantized isotonic L2 regression setting. We start by showing that the optimal calibrated quantized estimations can be acquired from the traditional isotonic L2 regression solution. We modify the traditional PAVA algorithm to create calibrators for both batch and sequential optimization of the quantized isotonic regression problem. Our algorithm can update the optimal quantized monotone mapping for the samples observed so far in linear space and logarithmic time per new unordered sample.
翻訳日:2022-06-03 13:47:43 公開日:2022-06-01
# 不明瞭なデータに対する学習による勾配漏洩攻撃に対する防御

Defense Against Gradient Leakage Attacks via Learning to Obscure Data ( http://arxiv.org/abs/2206.00769v1 )

ライセンス: Link先を確認
Yuxuan Wan, Han Xu, Xiaorui Liu, Jie Ren, Wenqi Fan, Jiliang Tang(参考訳) フェデレートラーニングは、クライアントのデータとモデルトレーニングプロセスを分離する効果的なプライバシー保護学習メカニズムであると考えられている。 しかし、クライアントデータの復元のために意図的に勾配漏洩攻撃を行う攻撃者が存在するため、連合学習は依然としてプライバシリークのリスクにさらされている。 近年,勾配漏洩攻撃を防御するために,勾配摂動法や入力暗号化法などの一般的な戦略が提案されている。 しかし、これらの防御はモデルの性能を大幅に犠牲にするか、より高度な攻撃によって回避される。 本稿では,不明瞭なデータに学習することで,クライアントのデータのプライバシーを保護する新たな防御手法を提案する。 我々の防御法は, 原試料とは全く異なる合成試料を生成できるが, 予測特性を最大に保存し, モデル性能を保証できる。 さらに, 本防衛戦略により, 勾配漏洩攻撃とその変種は, クライアントデータの再構成が極めて困難となる。 提案手法は,最先端手法に比べて高い精度を維持しつつ,より優れたプライバシー保護が得られることを示す。

Federated learning is considered as an effective privacy-preserving learning mechanism that separates the client's data and model training process. However, federated learning is still under the risk of privacy leakage because of the existence of attackers who deliberately conduct gradient leakage attacks to reconstruct the client data. Recently, popular strategies such as gradient perturbation methods and input encryption methods have been proposed to defend against gradient leakage attacks. Nevertheless, these defenses can either greatly sacrifice the model performance, or be evaded by more advanced attacks. In this paper, we propose a new defense method to protect the privacy of clients' data by learning to obscure data. Our defense method can generate synthetic samples that are totally distinct from the original samples, but they can also maximally preserve their predictive features and guarantee the model performance. Furthermore, our defense strategy makes the gradient leakage attack and its variants extremely difficult to reconstruct the client data. Through extensive experiments, we show that our proposed defense method obtains better privacy protection while preserving high accuracy compared with state-of-the-art methods.
翻訳日:2022-06-03 13:47:34 公開日:2022-06-01
# エネルギー材料コーパスのトピックモデリングにおける予測精度と解釈可能性のトレードオフ評価

Assessing the trade-off between prediction accuracy and interpretability for topic modeling on energetic materials corpora ( http://arxiv.org/abs/2206.00773v1 )

ライセンス: Link先を確認
Monica Puerto, Mason Kellett, Rodanthi Nikopoulou, Mark D. Fuge, Ruth Doherty, Peter W. Chung, and Zois Boukouvalas(参考訳) エネルギー研究の量と多様性が増大するにつれて、将来の研究パイプラインを合理化するためには、機械認識のトピック識別が必要である。 自動トピック識別プロセスの構成は、文書表現の作成と分類からなる。 しかし、エネルギー研究におけるこれらのプロセスの実装は、新しい課題を課している。 エネルギーデータセットには、文書のコンテキストを理解するのに必要な多くの科学的用語が含まれているが、より複雑な文書表現を必要とすることもある。 第二に、分類からの予測はパイプライン内の化学者によって理解され信頼されなければならない。 本研究では,計算複雑性の異なる3つの文書埋め込み手法を実装することにより,予測精度と解釈可能性のトレードオフを検討する。 また,各予測の局所的解釈可能性モデルに依存しない説明(LIME)を導入し,各予測の局所的理解と,エネルギー専門家チームによる分類決定の検証を行った。 本研究は,我々のエネルギティクスの専門家チームが作成した新しいラベル付きエネルギティクスデータセットを用いて行った。

As the amount and variety of energetics research increases, machine aware topic identification is necessary to streamline future research pipelines. The makeup of an automatic topic identification process consists of creating document representations and performing classification. However, the implementation of these processes on energetics research imposes new challenges. Energetics datasets contain many scientific terms that are necessary to understand the context of a document but may require more complex document representations. Secondly, the predictions from classification must be understandable and trusted by the chemists within the pipeline. In this work, we study the trade-off between prediction accuracy and interpretability by implementing three document embedding methods that vary in computational complexity. With our accuracy results, we also introduce local interpretability model-agnostic explanations (LIME) of each prediction to provide a localized understanding of each prediction and to validate classifier decisions with our team of energetics experts. This study was carried out on a novel labeled energetics dataset created and validated by our team of energetics experts.
翻訳日:2022-06-03 13:23:59 公開日:2022-06-01
# あなたの機能はどのくらいバイアスか? グローバル感性分析による公正影響関数の計算

How Biased is Your Feature?: Computing Fairness Influence Functions with Global Sensitivity Analysis ( http://arxiv.org/abs/2206.00667v1 )

ライセンス: Link先を確認
Bishwamittra Ghosh, Debabrota Basu, Kuldeep S. Meel(参考訳) 機械学習の公平性は、高リスク意思決定タスクにおける機械学習の広範な適用によって、大きな注目を集めている。 公平さを目標としない限り、機械学習分類器はデータの特定の人口に対して不公平さ/バイアスを示す可能性がある。 したがって、分類器によって誘導されるバイアスの定量化と緩和が中心的な関心事となっている。 本稿では,分類器のバイアスに対する異なる特徴の影響を定量化することを目的としている。 そこで本研究では,公平性影響関数(fif)の枠組みを提案し,分類器の予測における条件分散のスケールド差分として計算する。 また,特徴のサブセット間の分散分解と局所回帰器を用いてFIFを正確に計算するアルゴリズムであるFairXplainerをインスタンス化し,特徴の交叉効果を捉える。 実験により,FairXplainerは個々の特徴と高次特徴相互作用の影響を捕捉し,既存の局所的説明法よりも高精度にバイアスを推定し,分類器における肯定的/疑似行動によるバイアスの増加/減少を検出する。

Fairness in machine learning has attained significant focus due to the widespread application of machine learning in high-stake decision-making tasks. Unless regulated with a fairness objective, machine learning classifiers might demonstrate unfairness/bias towards certain demographic populations in the data. Thus, the quantification and mitigation of the bias induced by classifiers have become a central concern. In this paper, we aim to quantify the influence of different features on the bias of a classifier. To this end, we propose a framework of Fairness Influence Function (FIF), and compute it as a scaled difference of conditional variances in the prediction of the classifier. We also instantiate an algorithm, FairXplainer, that uses variance decomposition among the subset of features and a local regressor to compute FIFs accurately, while also capturing the intersectional effects of the features. Our experimental analysis validates that FairXplainer captures the influences of both individual features and higher-order feature interactions, estimates the bias more accurately than existing local explanation methods, and detects the increase/decrease in bias due to affirmative/punitive actions in the classifier.
翻訳日:2022-06-03 13:23:05 公開日:2022-06-01
# 高速かつ高精度:適応的な部分探索による計画水平の調整

Fast and Precise: Adjusting Planning Horizon with Adaptive Subgoal Search ( http://arxiv.org/abs/2206.00702v1 )

ライセンス: Link先を確認
Micha{\l} Zawalski, Micha{\l} Tyrolski, Konrad Czechowski, Damian Stachura, Piotr Pi\k{e}kos, Tomasz Odrzyg\'o\'zd\'z, Yuhuai Wu, {\L}ukasz Kuci\'nski, Piotr Mi{\l}o\'s(参考訳) 複雑な推論問題は、優れた行動計画を決定するのに必要な計算コストが異なる状態を含む。 この特性を生かして,計画の地平を適応的に調整する探索法であるadaptive subgoal search (adasubs)を提案する。 この目的のために、AdaSubSは異なる距離で多様なサブゴールの集合を生成する。 到達不能なサブゴールを迅速にフィルタリングし、さらなるサブゴールの実現に重点を置くために検証機構が用いられる。 このように、AdaSubSは、より長いサブゴールによる計画の効率と、短いサブゴールによる細かい制御の恩恵を受ける。 AdaSubSは3つの複雑な推論タスク(Sokoban, the Rubik's Cube, and inequality proving benchmark INT)において階層的計画アルゴリズムをはるかに上回り、INTに新たな最先端技術を設定する。

Complex reasoning problems contain states that vary in the computational cost required to determine a good action plan. Taking advantage of this property, we propose Adaptive Subgoal Search (AdaSubS), a search method that adaptively adjusts the planning horizon. To this end, AdaSubS generates diverse sets of subgoals at different distances. A verification mechanism is employed to filter out unreachable subgoals swiftly and thus allowing to focus on feasible further subgoals. In this way, AdaSubS benefits from the efficiency of planning with longer subgoals and the fine control with the shorter ones. We show that AdaSubS significantly surpasses hierarchical planning algorithms on three complex reasoning tasks: Sokoban, the Rubik's Cube, and inequality proving benchmark INT, setting new state-of-the-art on INT.
翻訳日:2022-06-03 13:22:45 公開日:2022-06-01
# Merlin-Arthur分類器:対話型ブラックボックスによる形式的解釈可能性

Merlin-Arthur Classifiers: Formal Interpretability with Interactive Black Boxes ( http://arxiv.org/abs/2206.00759v1 )

ライセンス: Link先を確認
Stephan W\"aldchen, Kartikey Sharma, Max Zimmer, Sebastian Pokutta(参考訳) 本稿では,ニューラルネットワークなどのブラックボックス分類器を解釈可能なものにするための新たな理論的枠組みを提案する。 対話型証明システムからのmerlin-arthurプロトコルにインスパイアされたこの設定では、2つの関数が協力して分類を一緒に達成する: \emph{prover} は、証明書として小さな特徴の集合を選択し、それを \emph{classifier} に提示する。 第2の逆証明器を含めると、交換された特徴に対する情報理論的保証とゲーム理論的均衡を接続することができる。 特徴とクラス間の相互情報の境界を低くすることができる完全性と健全性の概念を定義する。 理論と実践の整合性を示すため,ニューラルネットワーク分類器の数値実験を行い,クラスに関する特徴の相互情報を明示的に算出し,その枠組みを支援する。

We present a new theoretical framework for making black box classifiers such as Neural Networks interpretable, basing our work on clear assumptions and guarantees. In our setting, which is inspired by the Merlin-Arthur protocol from Interactive Proof Systems, two functions cooperate to achieve a classification together: the \emph{prover} selects a small set of features as a certificate and presents it to the \emph{classifier}. Including a second, adversarial prover allows us to connect a game-theoretic equilibrium to information-theoretic guarantees on the exchanged features. We define notions of completeness and soundness that enable us to lower bound the mutual information between features and class. To demonstrate good agreement between theory and practice, we support our framework by providing numerical experiments for Neural Network classifiers, explicitly calculating the mutual information of features with respect to the class.
翻訳日:2022-06-03 13:22:26 公開日:2022-06-01
# ニューラルコンビネーション最適化ヒューリスティックスの一般化について

On the Generalization of Neural Combinatorial Optimization Heuristics ( http://arxiv.org/abs/2206.00787v1 )

ライセンス: Link先を確認
Sahil Manchanda, Sofia Michel, Darko Drakulic and Jean-Marc Andreoli(参考訳) Neural Combinatorial Optimizationアプローチは、ディープニューラルネットワークの表現性と柔軟性を活用して、ハードコンビネーション最適化(CO)問題の効率的なヒューリスティックを学習している。 しかしながら、現在の手法の多くは一般化に欠けており、与えられたCO問題に対して、異なる特性を持つインスタンスでテストした場合、特定の特性を持つインスタンスで訓練されるヒューリスティックスである。 以前の研究では、トレーニングインスタンスのプロパティの変更に重点を置いていたが、一大のモデルには到達できないと仮定している。 代わりに、与えられたインスタンス分布を個別の学習タスクとしてCO問題の解法を定式化し、メタラーニング手法を調べて様々なタスクのモデルを学習し、新しいタスクに適応する能力の最適化を図る。 本研究では,2つのCO問題を総合例と実例例を用いて実験した結果,メタラーニング手法が2つの最先端モデルの一般化を著しく改善することを示した。

Neural Combinatorial Optimization approaches have recently leveraged the expressiveness and flexibility of deep neural networks to learn efficient heuristics for hard Combinatorial Optimization (CO) problems. However, most of the current methods lack generalization: for a given CO problem, heuristics which are trained on instances with certain characteristics underperform when tested on instances with different characteristics. While some previous works have focused on varying the training instances properties, we postulate that a one-size-fit-all model is out of reach. Instead, we formalize solving a CO problem over a given instance distribution as a separate learning task and investigate meta-learning techniques to learn a model on a variety of tasks, in order to optimize its capacity to adapt to new tasks. Through extensive experiments, on two CO problems, using both synthetic and realistic instances, we show that our proposed meta-learning approach significantly improves the generalization of two state-of-the-art models.
翻訳日:2022-06-03 13:22:10 公開日:2022-06-01
# orc: オンラインロールチェンジを用いたネットワークグループベースの知識蒸留

ORC: Network Group-based Knowledge Distillation using Online Role Change ( http://arxiv.org/abs/2206.01186v1 )

ライセンス: Link先を確認
Junyong Choi, Hyeon Cho, Seockhwa Jeong, Wonjun Hwang(参考訳) 知識蒸留では,全能全能の教師ネットワークではすべての問題を解決できないため,近年,複数の教師による知識蒸留が研究されている。 しかし、一部の未熟な教師が生徒に虚偽の知識を移すことがあるため、その改善は期待したほど良くないこともある。 本稿では,この制限を克服し,複数のネットワークの有効性を活かすために,複数のネットワークを教師グループと学生グループに分割する。 すなわち、学生グループは教師の知識を習得する必要がある未熟なネットワークの集合であり、教師グループは、うまく機能した選択されたネットワークで構成されている。 さらに, オンラインロールチェンジ戦略により, 学生グループの上位ネットワークは, イテレーション毎に教師グループへの昇格が可能であり, その逆も可能である。 教師グループの知識を洗練するために,教師グループの誤り画像を用いて教師グループを訓練した後,教師グループから生徒グループへの集団知識の伝達を成功させた。 CIFAR-10およびCIFAR-100における提案手法の優位性を検証する。 我々はさらにresent, wrn, vgg, mobilenet, shufflenet などの様々なバックボーンアーキテクチャを用いた手法の汎用性を示す。

In knowledge distillation, since a single, omnipotent teacher network cannot solve all problems, multiple teacher-based knowledge distillations have been studied recently. However, sometimes their improvements are not as good as expected because some immature teachers may transfer the false knowledge to the student. In this paper, to overcome this limitation and take the efficacy of the multiple networks, we divide the multiple networks into teacher and student groups, respectively. That is, the student group is a set of immature networks that require learning the teacher's knowledge, while the teacher group consists of the selected networks that have performed well. Furthermore, according to our online role change strategy, the top-ranked networks in the student group are able to promote to the teacher group at every iteration and vice versa. After training the teacher group using the error images of the student group to refine the teacher group's knowledge, we transfer the collective knowledge from the teacher group to the student group successfully. We verify the superiority of the proposed method on CIFAR-10 and CIFAR-100, which achieves high performance. We further show the generality of our method with various backbone architectures such as resent, wrn, vgg, mobilenet, and shufflenet.
翻訳日:2022-06-03 13:20:04 公開日:2022-06-01
# (参考訳) 破滅的予測のない微調整言語モデルの強化学習と分布マッチングについて

On Reinforcement Learning and Distribution Matching for Fine-Tuning Language Models with no Catastrophic Forgetting ( http://arxiv.org/abs/2206.00761v1 )

ライセンス: CC BY 4.0
Tomasz Korbak and Hady Elsahar and Germ\'an Kruszewski and Marc Dymetman(参考訳) 大規模な事前学習モデルの可用性は、トレーニングからスクラッチから微調整パラダイムへと移行した、マシンラーニングの研究と実践の状況を変えつつある。 あるアプリケーションでは、事前訓練された分布を望ましい出力に"nudge"することを目的としているが、別のアプリケーションではサンプル空間上の別の分布に"nudge"することを目標としている。 Reward Maximization (RM) と、最近では Distribution Matching (DM) の2つのパラダイムがこの課題に取り組むために登場した。 RMは、ポリシーグラディエントのような標準強化学習(RL)技術を適用し、報酬信号を徐々に増加させる。 DMはまず、モデルが近似するように微調整されたターゲット分布を明示する。 ここでは、2つのパラダイム間の理論的関係を考察し、RMのために開発されたKL制御のような手法もDMに属するものと解釈できることを示す。 さらに, DMはRMと異なるが, 高勾配分散などの類似の訓練困難に悩まされることが観察された。 2つのパラダイム間の接続を利用してベースラインの概念をDMメソッドにインポートする。 言語モデルからサンプリングされたテキストにトピックや感情、性別分布を制約するなど、一連の制御可能な言語生成タスクにベースラインを追加することのメリットを実証的に検証する。 我々は,制約満足度,安定性,サンプル効率の観点から優れた性能を観察する。

The availability of large pre-trained models is changing the landscape of Machine Learning research and practice, moving from a training-from-scratch to a fine-tuning paradigm. While in some applications the goal is to "nudge" the pre-trained distribution towards preferred outputs, in others it is to steer it towards a different distribution over the sample space. Two main paradigms have emerged to tackle this challenge: Reward Maximization (RM) and, more recently, Distribution Matching (DM). RM applies standard Reinforcement Learning (RL) techniques, such as Policy Gradients, to gradually increase the reward signal. DM prescribes to first make explicit the target distribution that the model is fine-tuned to approximate. Here we explore the theoretical connections between the two paradigms, and show that methods such as KL-control developed for RM can also be construed as belonging to DM. We further observe that while DM differs from RM, it can suffer from similar training difficulties, such as high gradient variance. We leverage connections between the two paradigms to import the concept of baseline into DM methods. We empirically validate the benefits of adding a baseline on an array of controllable language generation tasks such as constraining topic, sentiment, and gender distributions in texts sampled from a language model. We observe superior performance in terms of constraint satisfaction, stability and sample efficiency.
翻訳日:2022-06-03 12:58:40 公開日:2022-06-01
# 政策の混乱という現象

The Phenomenon of Policy Churn ( http://arxiv.org/abs/2206.00730v1 )

ライセンス: Link先を確認
Tom Schaul, Andr\'e Barreto, John Quan, Georg Ostrovski(参考訳) 我々は,価値ベースの強化学習における欲望政策の急速な変化という,政策の混乱の現象を特定し,研究する。 policy churnは驚くほど速いペースで動作し、ほんの一握りの学習アップデート(atariのdqnのような典型的なディープrl設定)で、多くの州で欲張りな行動を変える。 この現象を実証的に特徴付け、特定のアルゴリズムや環境特性に限らないことを検証した。 深層学習にまつわる、ほんの一握りの理由に関する、もっともらしい説明を、多くのアブレーションが取り除くのに役立ちます。 最後に、政策の混乱は有益だが見過ごされている暗黙の探究の形で、新鮮な光の中で$\epsilon$-greedyの探索を流す、すなわち$\epsilon$-noiseが予想よりもはるかに小さな役割を担っている、という仮説を立てる。

We identify and study the phenomenon of policy churn, that is, the rapid change of the greedy policy in value-based reinforcement learning. Policy churn operates at a surprisingly rapid pace, changing the greedy action in a large fraction of states within a handful of learning updates (in a typical deep RL set-up such as DQN on Atari). We characterise the phenomenon empirically, verifying that it is not limited to specific algorithm or environment properties. A number of ablations help whittle down the plausible explanations on why churn occurs to just a handful, all related to deep learning. Finally, we hypothesise that policy churn is a beneficial but overlooked form of implicit exploration that casts $\epsilon$-greedy exploration in a fresh light, namely that $\epsilon$-noise plays a much smaller role than expected.
翻訳日:2022-06-03 12:55:37 公開日:2022-06-01
# 逆合成に基づく音声言語識別のためのデータ拡張

Adversarial synthesis based data-augmentation for code-switched spoken language identification ( http://arxiv.org/abs/2205.15747v2 )

ライセンス: Link先を確認
Parth Shastri, Chirag Patil, Poorval Wanere, Dr. Shrinivas Mahajan, Dr. Abhishek Bhatt, Dr. Hardik Sailor(参考訳) Spoken Language Identification (LID) は、音声セグメント内の言語を分類するために使用される自動音声認識(ASR)の重要なサブタスクである。 自動LIDは多言語国で有用な役割を担っている。 様々な国では、会話中に2つ以上の言語が混在する多言語シナリオのため、言語識別が困難になる。 このような音声の現象をコードミキシング(code-mixing)またはコードスイッチング(code-switching)と呼ぶ。 この性質はインドだけでなく、多くのアジア諸国でも見られる。 このようなコード混合データは見つけるのが難しいため、音声蓋の能力はさらに低下する。 したがって、この研究は主に、コード交換されたクラスのデータ不足の解決策として、データ拡張を使ってこの問題に対処します。 本研究は、英語と混在するIndic言語に焦点をあてる。 Spoken LIDはヒンディー語で実行され、コードには英語が混在している。 本研究では,Mel Spectrograms を用いた音声データに対するGANに基づくデータ拡張手法を提案する。 GANは画像領域における実際のデータ分布を表現する上ですでに正確であることが証明されている。 提案する研究は、音声分類や自動音声認識などの音声領域におけるganの能力を活用する。 GANはマイノリティなコード混合クラスのMelスペクトログラムを生成するために訓練され、次に分類器のデータを増やすために使用される。 GANを使用することで、ベースライン参照として使用される畳み込みリカレントニューラルネットワーク(CRNN)分類器と比較して、Unweighted Average Recallを3.5%改善することができる。

Spoken Language Identification (LID) is an important sub-task of Automatic Speech Recognition(ASR) that is used to classify the language(s) in an audio segment. Automatic LID plays an useful role in multilingual countries. In various countries, identifying a language becomes hard, due to the multilingual scenario where two or more than two languages are mixed together during conversation. Such phenomenon of speech is called as code-mixing or code-switching. This nature is followed not only in India but also in many Asian countries. Such code-mixed data is hard to find, which further reduces the capabilities of the spoken LID. Hence, this work primarily addresses this problem using data augmentation as a solution on the on the data scarcity of the code-switched class. This study focuses on Indic language code-mixed with English. Spoken LID is performed on Hindi, code-mixed with English. This research proposes Generative Adversarial Network (GAN) based data augmentation technique performed using Mel spectrograms for audio data. GANs have already been proven to be accurate in representing the real data distribution in the image domain. Proposed research exploits these capabilities of GANs in speech domains such as speech classification, automatic speech recognition, etc. GANs are trained to generate Mel spectrograms of the minority code-mixed class which are then used to augment data for the classifier. Utilizing GANs give an overall improvement on Unweighted Average Recall by an amount of 3.5% as compared to a Convolutional Recurrent Neural Network (CRNN) classifier used as the baseline reference.
翻訳日:2022-06-03 11:22:30 公開日:2022-06-01
# (参考訳) 推論学習のための理論的枠組み

A Theoretical Framework for Inference Learning ( http://arxiv.org/abs/2206.00164v1 )

ライセンス: CC BY 4.0
Nick Alonso, Beren Millidge, Jeff Krichmar, Emre Neftci(参考訳) backpropagation (bp) はディープラーニングで最も成功し、広く使われているアルゴリズムである。 しかし、BPが必要とする計算は既知の神経生物学との整合が難しい。 この困難は、bpのより生物学的に有望な代替品に対する興味を刺激した。 そのようなアルゴリズムの1つは推論学習アルゴリズム(il)である。 ILは皮質機能の神経生物学モデルと密接な関係を持ち、教師付き学習と自己連想タスクにおいてBPと同等のパフォーマンスを達成した。 しかしBPとは対照的に、ILの数学的基礎はよく理解されていない。 本稿では,ILの新たな理論的枠組みを開発する。 我々の主な成果は、BPによって実装された明示的なSGDとは異なる暗黙の確率勾配勾配勾配(simplicit SGD)と呼ばれる最適化手法を、ILが密接に近似することである。 さらに, ILの標準実装をどのように変更して, 暗黙的SGDをよりよく近似させるかを示す。 提案手法は学習速度におけるilの安定性を大幅に向上させ,その安定性を暗黙的sgdの重要な特性としている。 我々は,我々の理論的解釈をさらに裏付ける広範なシミュレーション結果を提供するとともに,小型のミニバッチで訓練し,BPの性能に適合しながら,ILがより早く収束することを示す。

Backpropagation (BP) is the most successful and widely used algorithm in deep learning. However, the computations required by BP are challenging to reconcile with known neurobiology. This difficulty has stimulated interest in more biologically plausible alternatives to BP. One such algorithm is the inference learning algorithm (IL). IL has close connections to neurobiological models of cortical function and has achieved equal performance to BP on supervised learning and auto-associative tasks. In contrast to BP, however, the mathematical foundations of IL are not well-understood. Here, we develop a novel theoretical framework for IL. Our main result is that IL closely approximates an optimization method known as implicit stochastic gradient descent (implicit SGD), which is distinct from the explicit SGD implemented by BP. Our results further show how the standard implementation of IL can be altered to better approximate implicit SGD. Our novel implementation considerably improves the stability of IL across learning rates, which is consistent with our theory, as a key property of implicit SGD is its stability. We provide extensive simulation results that further support our theoretical interpretations and also demonstrate IL achieves quicker convergence when trained with small mini-batches while matching the performance of BP for large mini-batches.
翻訳日:2022-06-03 07:21:32 公開日:2022-06-01
# (参考訳) DALLE-2の隠れ語彙の発見

Discovering the Hidden Vocabulary of DALLE-2 ( http://arxiv.org/abs/2206.00169v1 )

ライセンス: CC BY 4.0
Giannis Daras and Alexandros G. Dimakis(参考訳) dalle-2には隠された語彙があり、不条理なプロンプトで画像を生成することができる。 例えば、 \texttt{apoploe vesrreaitais} は鳥を意味し、 \texttt{contarra ccetnxniams luryca tanniounons} (時々) は虫や害虫を意味する。 これらのプロンプトは、しばしば分離されるが、時には結合される。 ランダムに思えるが、視覚的概念に対応する単語を見つけるためのブラックボックス方式を提案する。 これは重要なセキュリティと解釈可能性の課題を生み出します。

We discover that DALLE-2 seems to have a hidden vocabulary that can be used to generate images with absurd prompts. For example, it seems that \texttt{Apoploe vesrreaitais} means birds and \texttt{Contarra ccetnxniams luryca tanniounons} (sometimes) means bugs or pests. We find that these prompts are often consistent in isolation but also sometimes in combinations. We present our black-box method to discover words that seem random but have some correspondence to visual concepts. This creates important security and interpretability challenges.
翻訳日:2022-06-03 07:20:20 公開日:2022-06-01
# (参考訳) 変圧器を用いた3次元手ポーズ推定のための逐次文脈学習

Learning Sequential Contexts using Transformer for 3D Hand Pose Estimation ( http://arxiv.org/abs/2206.00171v1 )

ライセンス: CC BY 4.0
Leyla Khaleghi, Joshua Marshall, Ali Etemad(参考訳) 3Dハンドポーズ推定(3D Hand pose Estimation, HPE)は、任意の視覚入力から手関節を3Dで特定する過程である。 HPEは最近、さまざまな人間とコンピュータのインタラクションアプリケーションにおいて重要な役割を担っているため、注目を集めている。 近年のHPE法はビデオやマルチビュー画像の利点を示しており、より堅牢なHPEシステムを実現している。 そこで本研究では,手ポーズ推定のための変圧器を用いた逐次学習手法を提案する。 sethposeパイプラインは、個々の手画像から視覚的な埋め込みを抽出することから始まります。 次に、トランスフォーマエンコーダを使用して、時間や角度に沿ってシーケンシャルなコンテキストを学習し、正確な2dハンドジョイント位置を生成する。 次に、U-Net構成のグラフ畳み込みニューラルネットワークを用いて、2D手関節位置を3Dポーズに変換する。 実験の結果,SeTHPoseは時間的および角的な手列の変種でも良好に機能することがわかった。 また、SeTHPoseは、STBとMuViHandの2つの公開シーケンシャルデータセットに対して、新しい最先端結果を達成するために、この分野の他の方法よりも優れている。

3D hand pose estimation (HPE) is the process of locating the joints of the hand in 3D from any visual input. HPE has recently received an increased amount of attention due to its key role in a variety of human-computer interaction applications. Recent HPE methods have demonstrated the advantages of employing videos or multi-view images, allowing for more robust HPE systems. Accordingly, in this study, we propose a new method to perform Sequential learning with Transformer for Hand Pose (SeTHPose) estimation. Our SeTHPose pipeline begins by extracting visual embeddings from individual hand images. We then use a transformer encoder to learn the sequential context along time or viewing angles and generate accurate 2D hand joint locations. Then, a graph convolutional neural network with a U-Net configuration is used to convert the 2D hand joint locations to 3D poses. Our experiments show that SeTHPose performs well on both hand sequence varieties, temporal and angular. Also, SeTHPose outperforms other methods in the field to achieve new state-of-the-art results on two public available sequential datasets, STB and MuViHand.
翻訳日:2022-06-03 07:14:12 公開日:2022-06-01
# (参考訳) 混合整数最適化によるスパース非線形ダイナミクスの学習

Learning Sparse Nonlinear Dynamics via Mixed-Integer Optimization ( http://arxiv.org/abs/2206.00176v1 )

ライセンス: CC BY 4.0
Dimitris Bertsimas and Wes Gurnee(参考訳) 複雑な力学系の支配方程式をデータから直接発見することは、科学機械学習における中心的な問題である。 近年、ヒューリスティックなスパース回帰法を利用した非線形力学(SINDy)フレームワークのスパース同定が、パシモニアスモデルを学習するための主要なツールとなっている。 分散整数最適化 (MIO) を用いたSINDy問題の厳密な定式化を提案し, 空間制約付き回帰問題を数秒で証明可能な最適性を求める。 多くの正準常微分方程式と偏微分方程式について、よりサンプル効率が高く、雑音に頑健で、物理的制約を満たしたフレキシブルでありながら、正確なモデル発見におけるアプローチの劇的な改善を示す。

Discovering governing equations of complex dynamical systems directly from data is a central problem in scientific machine learning. In recent years, the sparse identification of nonlinear dynamics (SINDy) framework, powered by heuristic sparse regression methods, has become a dominant tool for learning parsimonious models. We propose an exact formulation of the SINDy problem using mixed-integer optimization (MIO) to solve the sparsity constrained regression problem to provable optimality in seconds. On a large number of canonical ordinary and partial differential equations, we illustrate the dramatic improvement of our approach in accurate model discovery while being more sample efficient, robust to noise, and flexible in accommodating physical constraints.
翻訳日:2022-06-03 07:00:49 公開日:2022-06-01
# (参考訳) 適応が失敗するラベリング:アクティブセレクションによるポイント監督によるクロスドメインセマンティクスセグメンテーション

Labeling Where Adapting Fails: Cross-Domain Semantic Segmentation with Point Supervision via Active Selection ( http://arxiv.org/abs/2206.00181v1 )

ライセンス: CC BY 4.0
Fei Pan, Francois Rameau, In So Kweon(参考訳) セマンティックセグメンテーションに特化したトレーニングモデルは、大量のピクセル単位のアノテートデータを必要とする。 これらのアノテーションはコストがかかるため、手元にあるタスクには使用できない可能性がある。 この問題を解決するために、教師なし領域適応手法はラベル付きソースとラベルなしターゲットデータとの間の特徴分布の整合化を目的としている。 これらの戦略は顕著な改善をもたらすが、その効果は限られている。 ドメイン適応タスクをより効率的に導くために、以前の研究では、対象データにスパースなシングルピクセルアノテーションという形で、このプロセスにヒューマンインタラクションを含めようと試みた。 そこで本研究では,アノテートポイントを用いた意味的セグメンテーションのためのドメイン適応フレームワークを提案する。 まず,モデルの教師なし領域適応を行い,この適応から対象点選択のためのエントロピーに基づく不確実性測定を行う。 最後に,アノテータによって注釈付けされたこれらの目標点を利用するドメイン適応フレームワークを提案する。 ベンチマーク実験の結果,既存の教師なし領域適応手法に対する提案手法の有効性が示された。 提案パイプラインは汎用的であり、既存のドメイン適応戦略の余分なモジュールとして含めることができる。

Training models dedicated to semantic segmentation requires a large amount of pixel-wise annotated data. Due to their costly nature, these annotations might not be available for the task at hand. To alleviate this problem, unsupervised domain adaptation approaches aim at aligning the feature distributions between the labeled source and the unlabeled target data. While these strategies lead to noticeable improvements, their effectiveness remains limited. To guide the domain adaptation task more efficiently, previous works attempted to include human interactions in this process under the form of sparse single-pixel annotations in the target data. In this work, we propose a new domain adaptation framework for semantic segmentation with annotated points via active selection. First, we conduct an unsupervised domain adaptation of the model; from this adaptation, we use an entropy-based uncertainty measurement for target points selection. Finally, to minimize the domain gap, we propose a domain adaptation framework utilizing these target points annotated by human annotators. Experimental results on benchmark datasets show the effectiveness of our methods against existing unsupervised domain adaptation approaches. The propose pipeline is generic and can be included as an extra module to existing domain adaptation strategies.
翻訳日:2022-06-03 06:38:51 公開日:2022-06-01
# (参考訳) DisPFL:分散スパーストレーニングによるコミュニケーション効率の高い個人化フェデレーション学習を目指して

DisPFL: Towards Communication-Efficient Personalized Federated Learning via Decentralized Sparse Training ( http://arxiv.org/abs/2206.00187v1 )

ライセンス: CC BY 4.0
Rong Dai, Li Shen, Fengxiang He, Xinmei Tian, Dacheng Tao(参考訳) 個人化フェデレーション学習は、各ユーザ向けに専用のローカルモデルを学習することで、クライアント間のデータ不均一性問題に対処するために提案される。 しかし、既存の作業は集中的な方法で構築されることが多く、中央サーバへの障害や攻撃が発生すると、高い通信圧力と高い脆弱性が発生する。 本稿では,分散分散(peer-to-peer)通信プロトコルであるdis-pflにおいて,エッジ上のスパースローカルモデルをカスタマイズするためのパーソナライズされたスパースマスクを用いた,新たなパーソナライズされたフェデレーション学習フレームワークを提案する。 通信コストと計算コストをさらに削減するため,Dis-PFLの各ローカルモデルは,ローカルトレーニング全体とピアツーピア通信プロセス全体を通して,一定数のアクティブパラメータしか保持しない分散スパーストレーニング手法を提案する。 包括的実験により、Dis-PFLは全てのクライアントで最も忙しいノードの通信ボトルネックを著しく削減し、同時に計算コストと通信ラウンドを少なくしてより高いモデル精度を実現する。 さらに,計算の複雑度が異なる異種ローカルクライアントへの適応が容易であり,パーソナライズ性能の向上が期待できることを示す。

Personalized federated learning is proposed to handle the data heterogeneity problem amongst clients by learning dedicated tailored local models for each user. However, existing works are often built in a centralized way, leading to high communication pressure and high vulnerability when a failure or an attack on the central server occurs. In this work, we propose a novel personalized federated learning framework in a decentralized (peer-to-peer) communication protocol named Dis-PFL, which employs personalized sparse masks to customize sparse local models on the edge. To further save the communication and computation cost, we propose a decentralized sparse training technique, which means that each local model in Dis-PFL only maintains a fixed number of active parameters throughout the whole local training and peer-to-peer communication process. Comprehensive experiments demonstrate that Dis-PFL significantly saves the communication bottleneck for the busiest node among all clients and, at the same time, achieves higher model accuracy with less computation cost and communication rounds. Furthermore, we demonstrate that our method can easily adapt to heterogeneous local clients with varying computation complexities and achieves better personalized performances.
翻訳日:2022-06-03 06:25:40 公開日:2022-06-01
# (参考訳) NLPモデルの概念音性評価のための順序感性シェープリー値

Order-sensitive Shapley Values for Evaluating Conceptual Soundness of NLP Models ( http://arxiv.org/abs/2206.00192v1 )

ライセンス: CC BY 4.0
Kaiji Lu, Anupam Datta(参考訳) 先行研究によれば、深層nlpモデルは必ずしも概念的に健全なものではなく、必ずしも正しい言語概念を学ぶとは限らない。 特に、単語の順序に敏感である。 単語の順序に関する概念的健全性に関するモデルを体系的に評価するために,シーケンシャルデータに対する新しい説明法であるorder-sensitive shapley values (osv) を提案する。 我々は,様々な深部NLPモデルが単語順序をいかによく学習するかを検証し,その評価を行う。 合成データを用いて,OSVは勾配法よりもモデル行動の説明に忠実であることを示す。 第二に、HANSデータセットの適用により、BERTベースのNLIモデルでは、単語の順序なしに単語の発生のみを使用することがわかった。 単純なデータ拡張はhansの精度を向上させるが、osvはモデルの順序学習を根本的に改善しないことを示した。 第3に、すべての感情分析モデルが否定を正しく学習するわけではないことを発見しました。 最後に,BERT のような事前学習された言語モデルでは,単語の絶対的な位置に依存して長大な主題-動詞契約を学習できることを示す。 各NLPタスクでは、OSVをどのように利用して敵の例を生成するかを示す。

Previous works show that deep NLP models are not always conceptually sound: they do not always learn the correct linguistic concepts. Specifically, they can be insensitive to word order. In order to systematically evaluate models for their conceptual soundness with respect to word order, we introduce a new explanation method for sequential data: Order-sensitive Shapley Values (OSV). We conduct an extensive empirical evaluation to validate the method and surface how well various deep NLP models learn word order. Using synthetic data, we first show that OSV is more faithful in explaining model behavior than gradient-based methods. Second, applying to the HANS dataset, we discover that the BERT-based NLI model uses only the word occurrences without word orders. Although simple data augmentation improves accuracy on HANS, OSV shows that the augmented model does not fundamentally improve the model's learning of order. Third, we discover that not all sentiment analysis models learn negation properly: some fail to capture the correct syntax of the negation construct. Finally, we show that pretrained language models such as BERT may rely on the absolute positions of subject words to learn long-range Subject-Verb Agreement. With each NLP task, we also demonstrate how OSV can be leveraged to generate adversarial examples.
翻訳日:2022-06-03 05:56:21 公開日:2022-06-01
# (参考訳) CAFA:テスト時間適応のためのクラス認識機能アライメント

CAFA: Class-Aware Feature Alignment for Test-Time Adaptation ( http://arxiv.org/abs/2206.00205v1 )

ライセンス: CC BY 4.0
Sanghun Jung, Jungsoo Lee, Nanhee Kim, Jaegul Choo(参考訳) ディープラーニングの最近の進歩にもかかわらず、深層ネットワークは、トレーニングディストリビューションから新しく異なるデータに直面すると、パフォーマンスの低下に苦しむ。 このような問題に対処するため、テスト時間適応(TTA)は、同時に予測を行いながら、未ラベルのテストデータにモデルを適応させることを目的としている。 TTAはトレーニング手順を変更することなく事前訓練されたネットワークに適用できる。 可能なアプローチの1つは、テストサンプルの表現空間をソース分布に合わせることである(\textit{i,e,} 特徴のアライメント)。 しかし、TTAにおける特徴アライメントの実行は、ラベル付きソースデータへのアクセスが適応中に制限されるという点で特に困難である。 すなわち、モデルはクラス識別的な方法でテストデータを学ぶ機会がなく、ソースデータに対する教師付き損失を通じて他の適応タスク(\textit{e.g.} 教師なしドメイン適応)で実現可能であった。 このような観察に基づいて,本論文では,CAFA(Class-Aware Feature Alignment)と呼ばれる機能アライメントの損失について提案する。 1)クラス識別的な方法で対象表現を学習するようモデルに促す。 2) 試験時間における分散シフトを同時に効果的に緩和する。 提案手法では,従来の手法では必要とされていたハイパーパラメータや余分な損失は不要である。 広範な実験を行い,提案手法が既存のベースラインを一貫して上回っていることを示す。

Despite recent advancements in deep learning, deep networks still suffer from performance degradation when they face new and different data from their training distributions. Addressing such a problem, test-time adaptation (TTA) aims to adapt a model to unlabeled test data on test time while making predictions simultaneously. TTA applies to pretrained networks without modifying their training procedures, which enables to utilize the already well-formed source distribution for adaptation. One possible approach is to align the representation space of test samples to the source distribution (\textit{i.e.,} feature alignment). However, performing feature alignments in TTA is especially challenging in that the access to labeled source data is restricted during adaptation. That is, a model does not have a chance to learn test data in a class-discriminative manner, which was feasible in other adaptation tasks (\textit{e.g.,} unsupervised domain adaptation) via supervised loss on the source data. Based on such an observation, this paper proposes \emph{a simple yet effective} feature alignment loss, termed as Class-Aware Feature Alignment (CAFA), which 1) encourages a model to learn target representations in a class-discriminative manner and 2) effectively mitigates the distribution shifts in test time, simultaneously. Our method does not require any hyper-parameters or additional losses, which are required in the previous approaches. We conduct extensive experiments and show our proposed method consistently outperforms existing baselines.
翻訳日:2022-06-03 05:25:39 公開日:2022-06-01
# (参考訳) the-x:準同型暗号を用いたプライバシー保存トランスフォーマー推論

THE-X: Privacy-Preserving Transformer Inference with Homomorphic Encryption ( http://arxiv.org/abs/2206.00216v1 )

ライセンス: CC BY 4.0
Tianyu Chen, Hangbo Bao, Shaohan Huang, Li Dong, Binxing Jiao, Daxin Jiang, Haoyi Zhou, Jianxin Li(参考訳) 事前訓練された言語モデルがクラウド上に展開されるにつれて、プライバシの問題は急速に増加し、主に平文ユーザーデータ(検索履歴、医療記録、銀行口座など)が露出する。 トランスフォーマーモデルのプライバシ保存推論は,クラウドサービスユーザの要求に応えている。 プライバシーを保護するために、暗号文のみを同型暗号(HE)で計算することは魅力的な選択である。 しかし,現在のHEツールではまだサポートされていないトランスフォーマーブロックの複雑な計算のために,暗号データ上で事前学習したモデル推論を有効にすることは困難である。 本稿では,トランスフォーマーの近似手法である$\textit{the-x}$を導入し,一般的なフレームワークで開発された事前学習モデルのプライバシ保存推論を可能にする。 $\textit{THE-X}$は、GELU、Softmax、LayerNormといった非多項式関数を含むトランスフォーマーネットワークの複雑な計算を扱うワークフローを提案する。 提案した$\textit{THE-X}$は、異なるダウンストリームタスクに対して暗号化されたデータのトランスフォーマー推論を可能にする。

As more and more pre-trained language models adopt on-cloud deployment, the privacy issues grow quickly, mainly for the exposure of plain-text user data (e.g., search history, medical record, bank account). Privacy-preserving inference of transformer models is on the demand of cloud service users. To protect privacy, it is an attractive choice to compute only with ciphertext in homomorphic encryption (HE). However, enabling pre-trained models inference on ciphertext data is difficult due to the complex computations in transformer blocks, which are not supported by current HE tools yet. In this work, we introduce $\textit{THE-X}$, an approximation approach for transformers, which enables privacy-preserving inference of pre-trained models developed by popular frameworks. $\textit{THE-X}$ proposes a workflow to deal with complex computation in transformer networks, including all the non-polynomial functions like GELU, softmax, and LayerNorm. Experiments reveal our proposed $\textit{THE-X}$ can enable transformer inference on encrypted data for different downstream tasks, all with negligible performance drop but enjoying the theory-guaranteed privacy-preserving advantage.
翻訳日:2022-06-03 05:06:57 公開日:2022-06-01
# (参考訳) 量子状態の適応的オンライン学習

Adaptive Online Learning of Quantum States ( http://arxiv.org/abs/2206.00220v1 )

ライセンス: CC BY 4.0
Xinyi Chen, Elad Hazan, Tongyang Li, Zhou Lu, Xinzhao Wang, Rui Yang(参考訳) シャドウトモグラフィーの基本的な問題は、射影測定を用いて未知の$d$次元量子状態を効率的に学習することである。 しかし、基礎となる状態が静止している場合はほとんどなく、測定、環境騒音、または基礎となるハミルトン状態の進化によって変化が起こることがある。 本稿では,適応的オンライン学習のツールを用いて変化状態の学習を行い,オンラインシャドウトモグラフィにおいて,キュービット数と測定値のサブリニアの多項式である適応的および動的後悔境界を与える。 本分析は,オンライン学習に独立した関心を持つ複雑な数を扱うために,複素行列解析のツールを利用する。 さらに,理論結果と相関する数値実験を行う。

In the fundamental problem of shadow tomography, the goal is to efficiently learn an unknown $d$-dimensional quantum state using projective measurements. However, it is rarely the case that the underlying state remains stationary: changes may occur due to measurements, environmental noise, or an underlying Hamiltonian state evolution. In this paper we adopt tools from adaptive online learning to learn a changing state, giving adaptive and dynamic regret bounds for online shadow tomography that are polynomial in the number of qubits and sublinear in the number of measurements. Our analysis utilizes tools from complex matrix analysis to cope with complex numbers, which may be of independent interest in online learning. In addition, we provide numerical experiments that corroborate our theoretical results.
翻訳日:2022-06-03 04:50:34 公開日:2022-06-01
# (参考訳) グラフ畳み込みネットワークの線形領域数に対する下限と上限

Lower and Upper Bounds for Numbers of Linear Regions of Graph Convolutional Networks ( http://arxiv.org/abs/2206.00228v1 )

ライセンス: CC BY 4.0
Hao Chen, Yu Guang Wang, Huan Xiong(参考訳) GNN表現性を特徴づける研究は、グラフニューラルネットワークが過去5年間でチャンピオンとなるにつれ、多くの注目を集めている。 線形領域の数は、区分的な線形活性化を伴うニューラルネットワークの表現率のよい尺度とみなされている。 本稿では,従来のグラフ畳み込みネットワーク (GCN) の1層および複数層シナリオによる線形領域の数を推定する。 特に,一層GCNの線形領域の最大値と,多層GCNの上限値と下限値に最適な上限値を求める。 シミュレーションの結果, 線形領域の真の最大値は推定下界に近い可能性が示唆された。 これらの結果から,多層GCNの線形領域数は一般に1層GCNよりも指数関数的に多いことが示唆された。 これは、深いGCNは浅いGCNよりも表現性が高いことを示唆している。

The research for characterizing GNN expressiveness attracts much attention as graph neural networks achieve a champion in the last five years. The number of linear regions has been considered a good measure for the expressivity of neural networks with piecewise linear activation. In this paper, we present some estimates for the number of linear regions of the classic graph convolutional networks (GCNs) with one layer and multiple-layer scenarios. In particular, we obtain an optimal upper bound for the maximum number of linear regions for one-layer GCNs, and the upper and lower bounds for multi-layer GCNs. The simulated estimate shows that the true maximum number of linear regions is possibly closer to our estimated lower bound. These results imply that the number of linear regions of multi-layer GCNs is exponentially greater than one-layer GCNs per parameter in general. This suggests that deeper GCNs have more expressivity than shallow GCNs.
翻訳日:2022-06-03 04:10:02 公開日:2022-06-01
# (参考訳) 平面における多物体把持

Multi-Object Grasping in the Plane ( http://arxiv.org/abs/2206.00229v1 )

ライセンス: CC BY 4.0
Wisdom C. Agboh, Jeffrey Ichnowski, Ken Goldberg, Mehmet R. Dogar(参考訳) 本研究では,複数の剛体凸多角形物体が,頭上カメラから見える平面面上にランダムに配置された位置と向きに静止する問題を考える。 目的は、すべてのオブジェクトを効率的に把握し、ビンに輸送することである。 具体的には、つかむ前に複数のオブジェクトをまとめて押すマルチオブジェクトプッシュグラスプについて検討する。 複数対象のプッシュグラスプに必要な条件を提供し、これらを新規な多対象のグリッププランナにおける不許容グリップのフィルタに適用する。 私たちのプランナーは、mujocoシミュレータのベースラインより19倍速いことが分かりました。 また,単一物体と複数物体の把持を併用して物体を選抜する選抜アルゴリズムを提案する。 身体的把握実験では, 単目的ピッキングベースラインと比較して, 多目的グリップシステムは13.6%, 59.9%の高速化を実現している。 ビデオ、コード、データのhttps://sites.google.com/view/multi-object-graspingを参照。

We consider the problem where multiple rigid convex polygonal objects rest in randomly placed positions and orientations on a planar surface visible from an overhead camera. The objective is to efficiently grasp and transport all objects into a bin. Specifically, we explore multi-object push-grasps where multiple objects are pushed together before the grasp can occur. We provide necessary conditions for multi-object push-grasps and apply these to filter inadmissible grasps in a novel multi-object grasp planner. We find that our planner is 19 times faster than a Mujoco simulator baseline. We also propose a picking algorithm that uses both single- and multi-object grasps to pick objects. In physical grasping experiments, compared to a single-object picking baseline, we find that the multi-object grasping system achieves 13.6% higher grasp success and is 59.9% faster. See https://sites.google.com/view/multi-object-grasping for videos, code, and data.
翻訳日:2022-06-03 03:47:09 公開日:2022-06-01
# (参考訳) 職業評価におけるグループレベルのジェンダーバイアスの評価--医学生のシフトフィードバックを例として

Assessing Group-level Gender Bias in Professional Evaluations: The Case of Medical Student End-of-Shift Feedback ( http://arxiv.org/abs/2206.00234v1 )

ライセンス: CC BY 4.0
Emmy Liu, Michael Henry Tessler, Nicole Dubosh, Katherine Mosher Hiller, Roger Levy(参考訳) 現在、医学部卒業生の約50%は女性であるが、女性医師は上級職に不足しており、男性よりも収入が少なく、昇進も少ない傾向にある。 医学における様々な評価形態のジェンダーバイアスを示す文献が増えているが、本研究は主にliwcのような固定辞書を用いて特定の単語を探し、推薦文字に注目して行った。 複数の機関にまたがって収集された個別の勤務シフトにおける医学生の成績の書面的・定量的な評価データセットを用いて、医学生の日々の状況における男女差の程度を調査する。 本研究では,男子教員と女子教員の物語コメントの相違について,微調整のBERTモデルを用いて検討した。 これにより、手作りのワードリストやトピックモデルに頼ることなく、グループが体系的に異なる方法で書かれているかどうかを検証できます。 これらの結果と従来のLIWC法の結果を比較し、このデータセットではグループレベルの性別バイアスの証拠は見つからないが、家族や子供に関する用語は女性に与えられるフィードバックに利用されている。

Although approximately 50% of medical school graduates today are women, female physicians tend to be underrepresented in senior positions, make less money than their male counterparts and receive fewer promotions. There is a growing body of literature demonstrating gender bias in various forms of evaluation in medicine, but this work was mainly conducted by looking for specific words using fixed dictionaries such as LIWC and focused on recommendation letters. We use a dataset of written and quantitative assessments of medical student performance on individual shifts of work, collected across multiple institutions, to investigate the extent to which gender bias exists in a day-to-day context for medical students. We investigate differences in the narrative comments given to male and female students by both male or female faculty assessors, using a fine-tuned BERT model. This allows us to examine whether groups are written about in systematically different ways, without relying on hand-crafted wordlists or topic models. We compare these results to results from the traditional LIWC method and find that, although we find no evidence of group-level gender bias in this dataset, terms related to family and children are used more in feedback given to women.
翻訳日:2022-06-03 03:33:32 公開日:2022-06-01
# (参考訳) Dynamics-Agnostic Discriminator Ensemble によるトランスファタブル・リワード学習

Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble ( http://arxiv.org/abs/2206.00238v1 )

ライセンス: CC BY 4.0
Fan-Ming Luo, Xingchen Cao, Yang Yu(参考訳) 逆強化学習(IRL)は、専門家によるデモンストレーションから基礎となる報酬関数を回復する。 一般化可能な報酬関数は、専門家の基本的な動機を捉えているため、さらに望ましい。 しかし、古典的IRL法は、トレーニング力学と結合した報酬関数のみを復元できるため、変化した環境に一般化することは困難である。 従来の力学に依存しない報酬学習法は、報酬関数が状態のみであるような厳密な仮定を持つ。 本研究では、伝達可能な報酬関数、DARL(Dynamics-Agnostic Discriminator-Ensemble Reward Learning)の学習方法を提案する。 逆模倣学習(AIL)フレームワークに続いて、DARLは元の状態-作用空間からマッピングされた潜在空間上の動的非依存判別器を学習する。 潜在空間は、ダイナミクスの最小情報を含むように学習される。 さらに、政策に対する差別者の依存を軽減するために、訓練中の差別者のアンサンブルとして報酬関数が表現される。 動的移動を伴う4つの MuJoCo タスクにおける DARL の評価を行った。 AIL法と比較した実験結果から、DARLは真の報酬とより整合した報酬を学習でき、より高い環境リターンを得ることができることが示された。

Inverse reinforcement learning (IRL) recovers the underlying reward function from expert demonstrations. A generalizable reward function is even desired as it captures the fundamental motivation of the expert. However, classical IRL methods can only recover reward functions coupled with the training dynamics, thus are hard to generalize to a changed environment. Previous dynamics-agnostic reward learning methods have strict assumptions, such as that the reward function has to be state-only. This work proposes a general approach to learn transferable reward functions, Dynamics-Agnostic Discriminator-Ensemble Reward Learning (DARL). Following the adversarial imitation learning (AIL) framework, DARL learns a dynamics-agnostic discriminator on a latent space mapped from the original state-action space. The latent space is learned to contain the least information of the dynamics. Moreover, to reduce the reliance of the discriminator on policies, the reward function is represented as an ensemble of the discriminators during training. We assess DARL in four MuJoCo tasks with dynamics transfer. Empirical results compared with the state-of-the-art AIL methods show that DARL can learn a reward that is more consistent with the true reward, thus obtaining higher environment returns.
翻訳日:2022-06-03 03:23:57 公開日:2022-06-01
# (参考訳) NNアンサンブルのためのスターアルゴリズム

Star algorithm for NN ensembling ( http://arxiv.org/abs/2206.00255v1 )

ライセンス: CC BY 4.0
Sergey Zinchenko, Dmitry Lishudi(参考訳) ニューラルネットワークのアンサンブルは、モデル効率を高めるための一般的で堅牢な方法である。 本稿では,audibertの経験的スターアルゴリズムに基づくニューラルネットワークアンサンブルアルゴリズムを提案する。 過大な二乗リスクに縛られる最適理論ミニマックスを提供する。 さらに,このアルゴリズムを回帰と分類のタスクで実験的に研究し,最も一般的なセンシング手法と比較した。

Neural network ensembling is a common and robust way to increase model efficiency. In this paper, we propose a new neural network ensemble algorithm based on Audibert's empirical star algorithm. We provide optimal theoretical minimax bound on the excess squared risk. Additionally, we empirically study this algorithm on regression and classification tasks and compare it to most popular ensembling methods.
翻訳日:2022-06-03 03:02:53 公開日:2022-06-01
# (参考訳) コンソール:convex neural neural learning

CoNSoLe: Convex Neural Symbolic Learning ( http://arxiv.org/abs/2206.00257v1 )

ライセンス: CC BY 4.0
Haoran Li, Yang Weng, Hanghang Tong(参考訳) データから基礎となる方程式を学ぶことは、多くの分野において根本的な問題である。 近年の進歩はニューラルネットワーク(NN)に依存しているが、NNの非凸性に起因する正確な方程式を得るための理論的保証は提供されていない。 本稿では,弱い条件下での凸性を求めるために,Convex Neural Symbolic Learning (CoNSoLe)を提案する。 主なアイデアは、回復プロセスを2つのステップに分解し、各ステップを凸化することだ。 正しい記号を探す最初のステップでは、深層q学習を凸化します。 鍵となるのは、各反復において負のQ-函数と負の報酬関数の両方に対して二重凸性を維持することである。 正確な探索結果に基づいて局所凸方程式学習器(LoCaL)ニューラルネットワークを構築し,シンボル係数の推定を凸化する。 このような設計により、一般的な物理関数に対するLoCaLの損失面に厳密な凸性を持つ大領域を定量化する。 最後に,CoNSoLeフレームワークのさまざまなデータセットに対する最先端技術よりも優れた性能を示す。

Learning the underlying equation from data is a fundamental problem in many disciplines. Recent advances rely on Neural Networks (NNs) but do not provide theoretical guarantees in obtaining the exact equations owing to the non-convexity of NNs. In this paper, we propose Convex Neural Symbolic Learning (CoNSoLe) to seek convexity under mild conditions. The main idea is to decompose the recovering process into two steps and convexify each step. In the first step of searching for right symbols, we convexify the deep Q-learning. The key is to maintain double convexity for both the negative Q-function and the negative reward function in each iteration, leading to provable convexity of the negative optimal Q function to learn the true symbol connections. Conditioned on the exact searching result, we construct a Locally Convex equation Learner (LoCaL) neural network to convexify the estimation of symbol coefficients. With such a design, we quantify a large region with strict convexity in the loss surface of LoCaL for commonly used physical functions. Finally, we demonstrate the superior performance of the CoNSoLe framework over the state-of-the-art on a diverse set of datasets.
翻訳日:2022-06-03 02:41:14 公開日:2022-06-01
# (参考訳) IDANI: ニューロンレベルの介入による推論時ドメイン適応

IDANI: Inference-time Domain Adaptation via Neuron-level Interventions ( http://arxiv.org/abs/2206.00259v1 )

ライセンス: CC BY 4.0
Omer Antverg, Eyal Ben-David, Yonatan Belinkov(参考訳) 大規模な事前訓練されたモデルは、通常下流のタスクデータで微調整され、見えないデータでテストされる。 トレーニングデータとテストデータは異なるドメインから来る場合、テストドメインに適合しないため、モデルが苦労する可能性が高い。 我々は、ニューロンレベルの介入を用いて、ドメイン適応(DA)のための新しいアプローチを提案する: 特定のニューロンにおける各テスト例の表現を変更し、その結果、モデルがより親しみやすいソースドメインからの反実例をもたらす。 修正された例はモデルに返される。 他のほとんどのdaメソッドはトレーニング時間に適用されるが、推論時にのみ適用され、より効率的で適用可能である。 実験の結果,本手法は未確認領域の性能向上を図っている。

Large pre-trained models are usually fine-tuned on downstream task data, and tested on unseen data. When the train and test data come from different domains, the model is likely to struggle, as it is not adapted to the test domain. We propose a new approach for domain adaptation (DA), using neuron-level interventions: We modify the representation of each test example in specific neurons, resulting in a counterfactual example from the source domain, which the model is more familiar with. The modified example is then fed back into the model. While most other DA methods are applied during training time, ours is applied during inference only, making it more efficient and applicable. Our experiments show that our method improves performance on unseen domains.
翻訳日:2022-06-03 02:15:13 公開日:2022-06-01
# (参考訳) マルチタスクディープAUC最適化におけるマルチブロックMin-maxバイレベル最適化と応用

Multi-block Min-max Bilevel Optimization with Applications in Multi-task Deep AUC Maximization ( http://arxiv.org/abs/2206.00260v1 )

ライセンス: CC BY 4.0
Quanqi Hu, Yongjian Zhong, Tianbao Yang(参考訳) 本稿では,上層レベルが非凸強凸ミニマックス目的であり,下層レベルが強凸目的であり,二重変数のブロックと下層レベル問題が存在するマルチブロックミニレベル最適化問題について検討する。 絡み合ったマルチブロックミニマックスの2レベル構造のため、各イテレーションでの計算コストは、特に多数のブロックにおいて、非常に高いものとなる。 この課題に対処するために,反復毎に一定数のブロックだけを更新する単一ループランダム化確率アルゴリズムを提案する。 この問題に関するいくつかの軽微な仮定の下で、$\epsilon$-定常点を見つけるために、そのサンプル複雑性を$\mathcal{O}(1/\epsilon^4)$とする。 これは一般の確率的オラクルモデルの下で確率的非凸最適化を解くのに最適な複雑さと一致する。 さらに,提案手法の2つの応用として,マルチタスク深部AUC(ROC曲線の下での領域)の最大化とマルチタスク深部AUCの最大化を提案する。 実験結果から,本手法の有効性を検証し,数百タスクの課題に対して検証した。

In this paper, we study multi-block min-max bilevel optimization problems, where the upper level is non-convex strongly-concave minimax objective and the lower level is a strongly convex objective, and there are multiple blocks of dual variables and lower level problems. Due to the intertwined multi-block min-max bilevel structure, the computational cost at each iteration could be prohibitively high, especially with a large number of blocks. To tackle this challenge, we present a single-loop randomized stochastic algorithm, which requires updates for only a constant number of blocks at each iteration. Under some mild assumptions on the problem, we establish its sample complexity of $\mathcal{O}(1/\epsilon^4)$ for finding an $\epsilon$-stationary point. This matches the optimal complexity for solving stochastic nonconvex optimization under a general unbiased stochastic oracle model. Moreover, we provide two applications of the proposed method in multi-task deep AUC (area under ROC curve) maximization and multi-task deep partial AUC maximization. Experimental results validate our theory and demonstrate the effectiveness of our method on problems with hundreds of tasks.
翻訳日:2022-06-03 02:02:38 公開日:2022-06-01
# (参考訳) InducT-GCN:テキスト分類のためのインダクティブグラフ畳み込みネットワーク

InducT-GCN: Inductive Graph Convolutional Networks for Text Classification ( http://arxiv.org/abs/2206.00265v1 )

ライセンス: CC BY 4.0
Kunze Wang, Soyeon Caren Han, Josiah Poon(参考訳) テキスト分類は、グローバル情報を利用してラベルをテキスト単位に割り当てることを目的としている。 近年、グラフニューラルネットワーク(GNN)を用いて、コーパス内のグローバルな単語の共起を捉えている。 既存のアプローチでは、トレーニング中にグラフ内のすべてのノード(トレーニングとテスト)が存在し、これはトランスダクティブであり、自然に見えないノードに一般化されない。 これらのモデルを誘導するために、事前訓練された単語埋め込みのような余分なリソースを使用する。 しかしながら、高品質なリソースが常に利用可能で、トレーニングが難しいとは限らない。 余分なリソースや限られたトレーニングセットのない極端な設定の下では、インダクティブグラフベースのテキスト分類モデルを学ぶことはできますか? 本稿では,新しいインダクティブグラフベースのテキスト分類フレームワークであるInducT-GCN(InducTive Graph Convolutional Networks for Text Classification)を紹介する。 学習中のテスト文書を必要とするトランスダクティブモデルと比較して、トレーニング文書の統計値に基づいてグラフを構築し、単語ベクトルの重み付き和で文書ベクトルを表現する。 次に、テスト中に一方向GCN伝搬を行う。 5つのテキスト分類ベンチマークで、私たちのinduct-gcnは、自然にトランスダクティブであるか、あるいは事前トレーニングされた追加リソースである最先端のメソッドよりも優れています。 また,データサイズを徐々に増加させ,拡張性テストを実施し,InducT-GCNが時間と空間の複雑さを低減できることを明らかにした。 コードはhttps://github.com/usydnlp/inducttgcn。

Text classification aims to assign labels to textual units by making use of global information. Recent studies have applied graph neural network (GNN) to capture the global word co-occurrence in a corpus. Existing approaches require that all the nodes (training and test) in a graph are present during training, which are transductive and do not naturally generalise to unseen nodes. To make those models inductive, they use extra resources, like pretrained word embedding. However, high-quality resource is not always available and hard to train. Under the extreme settings with no extra resource and limited amount of training set, can we still learn an inductive graph-based text classification model? In this paper, we introduce a novel inductive graph-based text classification framework, InducT-GCN (InducTive Graph Convolutional Networks for Text classification). Compared to transductive models that require test documents in training, we construct a graph based on the statistics of training documents only and represent document vectors with a weighted sum of word vectors. We then conduct one-directional GCN propagation during testing. Across five text classification benchmarks, our InducT-GCN outperformed state-of-the-art methods that are either transductive in nature or pre-trained additional resources. We also conducted scalability testing by gradually increasing the data size and revealed that our InducT-GCN can reduce the time and space complexity. The code is available on: https://github.com/usydnlp/InductTGCN.
翻訳日:2022-06-03 01:31:44 公開日:2022-06-01
# (参考訳) sparse mixed-of-expertsのタスク特化エキスパートpruning

Task-Specific Expert Pruning for Sparse Mixture-of-Experts ( http://arxiv.org/abs/2206.00277v1 )

ライセンス: CC BY 4.0
Tianyu Chen, Shaohan Huang, Yuan Xie, Binxing Jiao, Daxin Jiang, Haoyi Zhou, Jianxin Li, Furu Wei(参考訳) sparse Mixture-of-Experts (MoE) モデルは大規模事前トレーニングには強力であり,そのモデル能力により有望な結果を得た。 しかし、何兆というパラメータを持つMoEは、クラウドやモバイル環境にデプロイするのは難しい。 MoEの推論には、ハードウェアフレンドリで通信コストのかかる専門家の並列性が必要だ。 特にリソース制限のあるダウンストリームタスクの場合、そのようなスパース構造は性能向上のために多くの計算効率を犠牲にしなければならない。 この研究では、ほとんどの専門家がMoEの微調整と推論にほとんど貢献していないのを観察します。 さらに,目標下流タスクの非専門的専門家を段階的に降ろし,MoEモデルの利点を保ちながら,MoEモデルを1つの専門的高密度モデルに還元する手法を提案する。 実験の結果,6種類のタスクにまたがるmoeの99.3%の利点を保ちつつ,自由通信コストで2倍の推論速度を享受できることがわかった。

The sparse Mixture-of-Experts (MoE) model is powerful for large-scale pre-training and has achieved promising results due to its model capacity. However, with trillions of parameters, MoE is hard to be deployed on cloud or mobile environment. The inference of MoE requires expert parallelism, which is not hardware-friendly and communication expensive. Especially for resource-limited downstream tasks, such sparse structure has to sacrifice a lot of computing efficiency for limited performance gains. In this work, we observe most experts contribute scarcely little to the MoE fine-tuning and inference. We further propose a general method to progressively drop the non-professional experts for the target downstream task, which preserves the benefits of MoE while reducing the MoE model into one single-expert dense model. Our experiments reveal that the fine-tuned single-expert model could preserve 99.3% benefits from MoE across six different types of tasks while enjoying 2x inference speed with free communication cost.
翻訳日:2022-06-03 01:15:30 公開日:2022-06-01
# (参考訳) 工業生産のための小規模訓練データセットを用いた自動境界ボックスアノテーション

Automatic Bounding Box Annotation with Small Training Data Sets for Industrial Manufacturing ( http://arxiv.org/abs/2206.00280v1 )

ライセンス: CC BY 4.0
Manuela Gei{\ss}, Raphael Wagner, Martin Baresch, Josef Steiner, Michael Zwick(参考訳) 近年,ディープラーニング技術の大幅な品質向上により,人間とロボットのコラボレーションや産業5.0の文脈でオブジェクト検出が注目されている。 多くのアプリケーションにおいて、オブジェクト検出モデルは変化する環境、すなわち新しいオブジェクトの学習に迅速に適応できなければならない。 決定的かつ困難な前提条件は、新しいトレーニングデータの自動生成であり、現在なお、工業生産におけるオブジェクト検出手法の幅広い適用を制限している。 本稿では、背景が均質でオブジェクトのラベルが人間によって提供されるユースケースに対して、自動バウンディングボックスアノテーションのタスクに最先端のオブジェクト検出手法を適用する方法について論じる。 我々は、Faster R-CNNの適応バージョンとScaled Yolov4-p5アーキテクチャを比較し、少量のトレーニングデータだけで、未知のオブジェクトと複雑だが均質な背景を区別する訓練を行えることを示す。

In the past few years, object detection has attracted a lot of attention in the context of human-robot collaboration and Industry 5.0 due to enormous quality improvements in deep learning technologies. In many applications, object detection models have to be able to quickly adapt to a changing environment, i.e., to learn new objects. A crucial but challenging prerequisite for this is the automatic generation of new training data which currently still limits the broad application of object detection methods in industrial manufacturing. In this work, we discuss how to adapt state-of-the-art object detection methods for the task of automatic bounding box annotation for the use case where the background is homogeneous and the object's label is provided by a human. We compare an adapted version of Faster R-CNN and the Scaled Yolov4-p5 architecture and show that both can be trained to distinguish unknown objects from a complex but homogeneous background using only a small amount of training data.
翻訳日:2022-06-03 01:01:28 公開日:2022-06-01
# (参考訳) MORE:オープンドメイン関係抽出のためのメトリクス学習ベースのフレームワーク

MORE: A Metric Learning Based Framework for Open-domain Relation Extraction ( http://arxiv.org/abs/2206.00289v1 )

ライセンス: CC BY 4.0
Yutong Wang, Renze Lou, Kai Zhang, MaoYan Chen, Yujiu Yang(参考訳) open relation extraction (openre) はオープンドメインコーパスから関係スキームを抽出するタスクである。 既存のOpenREメソッドの多くは、高品質なラベル付きコーパスの恩恵を受けていないか、直接意味表現を学習できないか、下流のクラスタリング効率に影響を与える。 そこで本研究では,MORE (Metric Learning-based Open Relation extract) という新しい学習フレームワークを提案する。 このフレームワークはディープメトリック学習を利用してラベル付きデータから豊富な監視信号を取得し、ニューラルネットワークを駆動して意味的関係表現を直接学習する。 実験の結果、2つの実世界のデータセットが得られた結果、この手法は他の最先端のベースラインよりも優れています。 ソースコードはgithubから入手できます。

Open relation extraction (OpenRE) is the task of extracting relation schemes from open-domain corpora. Most existing OpenRE methods either do not fully benefit from high-quality labeled corpora or can not learn semantic representation directly, affecting downstream clustering efficiency. To address these problems, in this work, we propose a novel learning framework named MORE (Metric learning-based Open Relation Extraction). The framework utilizes deep metric learning to obtain rich supervision signals from labeled data and drive the neural model to learn semantic relational representation directly. Experiments result in two real-world datasets show that our method outperforms other state-of-the-art baselines. Our source code is available on Github.
翻訳日:2022-06-03 00:46:05 公開日:2022-06-01
# (参考訳) エッジデバイスのための多目的クロスアテンションに基づく画像アライメントブロック

Efficient Multi-Purpose Cross-Attention Based Image Alignment Block for Edge Devices ( http://arxiv.org/abs/2206.00291v1 )

ライセンス: CC BY 4.0
Bahri Batuhan Bilecen, Alparslan Fisne, Mustafa Ayazoglu(参考訳) 画像アライメントは、画像登録としても知られ、多くのコンピュータビジョン問題で用いられる重要なブロックである。 非効率な調整器は全体の問題に大きなオーバーヘッドを引き起こす可能性があるため、アライメントの重要な要因の1つは効率である。 文献では、アライメント操作を行うように見えるブロックがいくつか存在するが、そのほとんどは効率を重視していない。 したがって、時間と空間の両方で動作し、エッジデバイスで動作可能な画像アライメントブロックは、複数の画像を扱うほぼすべてのネットワークにとって有益である。 広汎な使用感と重要性から,エッジデバイス内で動作するのに適した,効率的な多目的画像アライメントブロック(XABA)を提案する。 クロスアテンションを用いて,画像から抽出した特徴間の関係を利用する。 リアルタイム画像アライメント問題に対してクロスアテンションを実現するために,ピラミッドブロックを用いたクロスアテンション方式を提案する。 また、メモリ要件と操作回数の削減に加えて、ローカルな関係もキャプチャする。 効率的なXABAモデルは、他の強力なコンピュータと比較して30Wの消費電力を持つNVIDIA Jetson Xavier上で20FPS以上のパフォーマンスを実行するためのリアルタイム要求を実現する。 大規模ネットワークのサブブロックとして使用されるXABAは、他のアライメント手法と比較してマルチイメージの超解像ネットワーク性能も向上する。

Image alignment, also known as image registration, is a critical block used in many computer vision problems. One of the key factors in alignment is efficiency, as inefficient aligners can cause significant overhead to the overall problem. In the literature, there are some blocks that appear to do the alignment operation, although most do not focus on efficiency. Therefore, an image alignment block which can both work in time and/or space and can work on edge devices would be beneficial for almost all networks dealing with multiple images. Given its wide usage and importance, we propose an efficient, cross-attention-based, multi-purpose image alignment block (XABA) suitable to work within edge devices. Using cross-attention, we exploit the relationships between features extracted from images. To make cross-attention feasible for real-time image alignment problems and handle large motions, we provide a pyramidal block based cross-attention scheme. This also captures local relationships besides reducing memory requirements and number of operations. Efficient XABA models achieve real-time requirements of running above 20 FPS performance on NVIDIA Jetson Xavier with 30W power consumption compared to other powerful computers. Used as a sub-block in a larger network, XABA also improves multi-image super-resolution network performance in comparison to other alignment methods.
翻訳日:2022-06-03 00:35:19 公開日:2022-06-01
# (参考訳) エネルギー効率・メモリ制約型ディープニューラルネットワークのためのマルチ複雑ロスDNA

Multi-Complexity-Loss DNAS for Energy-Efficient and Memory-Constrained Deep Neural Networks ( http://arxiv.org/abs/2206.00302v1 )

ライセンス: CC BY 4.0
Matteo Risso, Alessio Burrello, Luca Benini, Enrico Macii, Massimo Poncino, Daniele Jahier Pagliari(参考訳) neural architecture search(nas)は、ディープラーニング(dl)アーキテクチャの精度と計算複雑性のトレードオフを自動的に探求するために、ますます人気を集めている。 小さなエッジデバイスをターゲットとする場合、DLデプロイメントの最大の課題は、厳密なメモリ制約にマッチするため、ほとんどのNASアルゴリズムは、モデルサイズを複雑さの指標とみなす。 その他の方法は、精度と推論操作数をトレードオフすることで、DLモデルのエネルギーまたは遅延を低減する。 エネルギーとメモリは、特に低コストで微分可能なNAS(DNAS)ソリューションによって同時に考慮されることは滅多にない。 我々は、設計者の視点から最も現実的なシナリオに直接対処する最初のDNAS、すなわち、ターゲットHWによって決定されるメモリ制約の下での精度とエネルギー(または遅延)の共最適化を提案するこの制限を克服する。 私たちは、トレーニング中に2つの複雑性依存損失関数と独立強度を組み合わせることでそれを実現します。 MLPerf Tinyベンチマークスイートから3つのエッジ関連タスクをテストし、ベースラインネットワークの75%から6.25%のメモリフットプリント制約で、エネルギー対精度空間における豊富なParetoアーキテクチャセットを得る。 商用エッジデバイスであるSTM NUCLEO-H743ZI2にデプロイすると、我々のネットワークは、同じメモリ制約に対して2.18倍のエネルギー消費と4.04%の精度を有し、ベースラインに対して無視できる精度で2.2倍までエネルギーを削減できる。

Neural Architecture Search (NAS) is increasingly popular to automatically explore the accuracy versus computational complexity trade-off of Deep Learning (DL) architectures. When targeting tiny edge devices, the main challenge for DL deployment is matching the tight memory constraints, hence most NAS algorithms consider model size as the complexity metric. Other methods reduce the energy or latency of DL models by trading off accuracy and number of inference operations. Energy and memory are rarely considered simultaneously, in particular by low-search-cost Differentiable NAS (DNAS) solutions. We overcome this limitation proposing the first DNAS that directly addresses the most realistic scenario from a designer's perspective: the co-optimization of accuracy and energy (or latency) under a memory constraint, determined by the target HW. We do so by combining two complexity-dependent loss functions during training, with independent strength. Testing on three edge-relevant tasks from the MLPerf Tiny benchmark suite, we obtain rich Pareto sets of architectures in the energy vs. accuracy space, with memory footprints constraints spanning from 75% to 6.25% of the baseline networks. When deployed on a commercial edge device, the STM NUCLEO-H743ZI2, our networks span a range of 2.18x in energy consumption and 4.04% in accuracy for the same memory constraint, and reduce energy by up to 2.2x with negligible accuracy drop with respect to the baseline.
翻訳日:2022-06-03 00:20:40 公開日:2022-06-01
# (参考訳) 先行する特徴

Predecessor Features ( http://arxiv.org/abs/2206.00303v1 )

ライセンス: CC BY-SA 4.0
Duncan Bailey and Marcelo Mattar(参考訳) いかなる強化学習システムでも、過去の出来事が観察結果に寄与したかを特定できなければならない。 この問題に対する一般的な解決策は、経験豊富なイベントの定期的な重み付けセットにクレジットを割り当てるために適格性トレースを使用することである。 しかし、多くの現実的なタスクにおいて、最近経験したイベントの集合は、現在の結果に先立って起こりうる多くのアクションイベントの1つである。 このことは、最近経験した者だけに限らず、より有効な先行状態にクレジットを割り当てることにより、強化学習をより効率的にすることができることを示唆している。 そこで我々は,このリッチな信用代入を実現するアルゴリズムである"Predecessor Features"を提案する。 過去の占有率の期待値に近い表現を維持することで、従来の方法よりも多くの前者に対して時間差(td)誤差を正確に伝播させ、学習速度を大幅に向上させる。 また,本アルゴリズムは,表的な状態表現から特徴表現へと自然に拡張でき,幅広い環境における性能の向上が期待できる。 我々は、Predecessor Featuresのいくつかのユースケースを示し、そのパフォーマンスを他の類似したアプローチと対比する。

Any reinforcement learning system must be able to identify which past events contributed to observed outcomes, a problem known as credit assignment. A common solution to this problem is to use an eligibility trace to assign credit to recency-weighted set of experienced events. However, in many realistic tasks, the set of recently experienced events are only one of the many possible action events that could have preceded the current outcome. This suggests that reinforcement learning can be made more efficient by allowing credit assignment to any viable preceding state, rather than only those most recently experienced. Accordingly, we propose "Predecessor Features", an algorithm that achieves this richer form of credit assignment. By maintaining a representation that approximates the expected sum of past occupancies, our algorithm allows temporal difference (TD) errors to be propagated accurately to a larger number of predecessor states than conventional methods, greatly improving learning speed. Our algorithm can also be naturally extended from tabular state representation to feature representations allowing for increased performance on a wide range of environments. We demonstrate several use cases for Predecessor Features and contrast its performance with other similar approaches.
翻訳日:2022-06-03 00:06:26 公開日:2022-06-01
# (参考訳) AI倫理を実践する - 組織AIガバナンスの時間ガラスモデル

Putting AI Ethics into Practice: The Hourglass Model of Organizational AI Governance ( http://arxiv.org/abs/2206.00335v1 )

ライセンス: CC BY 4.0
Matti M\"antym\"aki, Matti Minkkinen, Teemu Birkstedt, Mika Viljanen(参考訳) 人工知能(AI)の組織的利用は、様々な分野に急速に広まっている。 AIがもたらすメリットの認識に加えて、先進的なAI技術によってもたらされる偏見や差別といったリスクや潜在的な害に取り組む必要性に関するコンセンサスも増えている。 これらのリスクに取り組むために、AI倫理の原則が多数提案されているが、社会的に責任のあるAI開発を保証するための組織プロセスとプラクティスの概要は、初期段階にある。 包括的ガバナンスモデルの不透明さに対処するため、私たちは、AIシステムの開発と利用を目標とする組織AIガバナンスの時間ガラスモデルである、AIガバナンスフレームワークを紹介します。 このフレームワークは、AIシステムをデプロイする組織が倫理的AI原則を実践に翻訳し、今後の欧州AI法とAIシステムとプロセスの整合化を支援するように設計されている。 hourglassフレームワークには、環境、組織、AIシステムのレベルでのガバナンス要件が含まれている。 AIシステムレベルでは、ガバナンス要件とAIシステムのライフサイクルを結びつけて、システムのライフサイクル全体にわたってガバナンスを保証する。 ガバナンスモデルは、AIガバナンスの体系的な性質を強調し、新しい研究成果を実践的な実装、異なるAIガバナンスレイヤを接続するメカニズム、AIガバナンスアクター間のダイナミクスに開放する。 このモデルは、社会的受容性を確保し、リスクを軽減し、AIの可能性を実現するために必要なガバナンスコンポーネントを検討するための、組織的な意思決定者にとっての出発点でもある。

The organizational use of artificial intelligence (AI) has rapidly spread across various sectors. Alongside the awareness of the benefits brought by AI, there is a growing consensus on the necessity of tackling the risks and potential harms, such as bias and discrimination, brought about by advanced AI technologies. A multitude of AI ethics principles have been proposed to tackle these risks, but the outlines of organizational processes and practices for ensuring socially responsible AI development are in a nascent state. To address the paucity of comprehensive governance models, we present an AI governance framework, the hourglass model of organizational AI governance, which targets organizations that develop and use AI systems. The framework is designed to help organizations deploying AI systems translate ethical AI principles into practice and align their AI systems and processes with the forthcoming European AI Act. The hourglass framework includes governance requirements at the environmental, organizational, and AI system levels. At the AI system level, we connect governance requirements to AI system life cycles to ensure governance throughout the system's life span. The governance model highlights the systemic nature of AI governance and opens new research avenues into its practical implementation, the mechanisms that connect different AI governance layers, and the dynamics between the AI governance actors. The model also offers a starting point for organizational decision-makers to consider the governance components needed to ensure social acceptability, mitigate risks, and realize the potential of AI.
翻訳日:2022-06-02 23:57:34 公開日:2022-06-01
# (参考訳) CellCentroidFormer: 自己注意と畳み込みを組み合わせた細胞検出

CellCentroidFormer: Combining Self-attention and Convolution for Cell Detection ( http://arxiv.org/abs/2206.00338v1 )

ライセンス: CC BY 4.0
Royden Wagner and Karl Rohr(参考訳) 顕微鏡画像における細胞検出は、細胞の動きや環境との相互作用を研究する上で重要である。 近年の深層学習に基づく細胞検出手法は畳み込みニューラルネットワーク(CNN)を用いる。 しかし、他のコンピュータビジョンアプリケーションの成功に触発されて、視覚変換器(ViT)もこの目的に使われている。 本研究では,両タイプの深層学習モデルの利点を活かし,顕微鏡画像における細胞検出のための新しいハイブリッドcnn-vitモデルを提案する。 imagenetデータセット上で事前トレーニングされた効率的なcnnを用いて,画像特徴抽出と転送学習を用いて必要なトレーニングデータの量を削減する。 抽出された画像の特徴はさらに畳み込み層とトランス層の組み合わせによって処理され、畳み込み層は局所情報とトランスフォーマー層を大域情報に集中させることができる。 セントロイドベースの細胞検出法は、細胞を楕円体として表現し、エンドツーエンドで訓練可能である。 さらに,提案モデルが4つの異なる2次元顕微鏡データセット上で完全に畳み込みベースラインモデルより優れていることを示す。 コードは、https://github.com/roydenwa/cell-centroid-formerで入手できる。

Cell detection in microscopy images is important to study how cells move and interact with their environment. Most recent deep learning-based methods for cell detection use convolutional neural networks (CNNs). However, inspired by the success in other computer vision applications, vision transformers (ViTs) are also used for this purpose. We propose a novel hybrid CNN-ViT model for cell detection in microscopy images to exploit the advantages of both types of deep learning models. We employ an efficient CNN, that was pre-trained on the ImageNet dataset, to extract image features and utilize transfer learning to reduce the amount of required training data. Extracted image features are further processed by a combination of convolutional and transformer layers, so that the convolutional layers can focus on local information and the transformer layers on global information. Our centroid-based cell detection method represents cells as ellipses and is end-to-end trainable. Furthermore, we show that our proposed model can outperform a fully convolutional baseline model on four different 2D microscopy datasets. Code is available at: https://github.com/roydenwa/cell-centroid-former
翻訳日:2022-06-02 23:39:28 公開日:2022-06-01
# (参考訳) 微分型解法を有する双方向連成流体系の制御

Control of Two-way Coupled Fluid Systems with Differentiable Solvers ( http://arxiv.org/abs/2206.00342v1 )

ライセンス: CC BY 4.0
Brener Ramos, Felix Trost, Nils Thuerey(参考訳) 本研究では,複雑な非線形力学系,特に流体に浸漬した剛体の動きを制御するためのディープニューラルネットワークの利用について検討する。 ナビエ・ストークス方程式を2方向のカップリングで解き、非線形摂動を引き起こして制御タスクを非常に困難にする。 ニューラルネットワークは、異なるシミュレータから学習するプロセスを通じて、望ましい特性を持つコントローラとして振る舞う教師なしの方法で訓練される。 本稿では,ネットワークがロバストで安定した相互作用を学習できるように,物理的に解釈可能な損失項を導入する。 本研究では, 初期条件が一定条件の正準条件で訓練されたコントローラが, 入力として流体情報を持たないにも関わらず, 従来は見つからなかった流入条件や強制など, 多様な困難環境に確実に一般化できることを実証する。 さらに,我々のアプローチで訓練されたコントローラは,評価指標や一般化能力の観点から,様々な古典的・学習的な代替手段を上回っていることを示す。

We investigate the use of deep neural networks to control complex nonlinear dynamical systems, specifically the movement of a rigid body immersed in a fluid. We solve the Navier Stokes equations with two way coupling, which gives rise to nonlinear perturbations that make the control task very challenging. Neural networks are trained in an unsupervised way to act as controllers with desired characteristics through a process of learning from a differentiable simulator. Here we introduce a set of physically interpretable loss terms to let the networks learn robust and stable interactions. We demonstrate that controllers trained in a canonical setting with quiescent initial conditions reliably generalize to varied and challenging environments such as previously unseen inflow conditions and forcing, although they do not have any fluid information as input. Further, we show that controllers trained with our approach outperform a variety of classical and learned alternatives in terms of evaluation metrics and generalization capabilities.
翻訳日:2022-06-02 23:30:57 公開日:2022-06-01
# (参考訳) 医用画像解析におけるラベル付きデータの必要性軽減を目的とした自己指導型学習

Self-Supervised Learning as a Means To Reduce the Need for Labeled Data in Medical Image Analysis ( http://arxiv.org/abs/2206.00344v1 )

ライセンス: CC BY 4.0
Marin Ben\v{c}evi\'c, Marija Habijan, Irena Gali\'c, Aleksandra Pizurica(参考訳) 医用画像処理における最大の問題は、注釈付きデータの欠如である。 医療画像のラベル付けには、しばしば高度に訓練された専門家が必要となる。 本稿では,自己教師型ニューラルネットワークプリトレーニングを用いて,医用画像オブジェクト検出におけるラベル付きデータの必要性を低減する方法を評価する。 胸部X線画像のデータセットとバウンディングボックスラベルを用いて,13種類の異常の分類を行った。 ネットワークはラベルのないデータセットのパーセンテージで事前トレーニングされ、残りのデータセットで微調整される。 ラベル付きデータの平均精度と精度を60%に抑えることで,完全教師付きモデルと同等の性能が得られることを示す。 また, 自己教師付き事前学習ステップを付加することにより, 教師付きモデルの最大性能を向上させることが可能であり, 事前学習のためのラベルなしデータの少量でもこの効果を観測できることを示した。

One of the largest problems in medical image processing is the lack of annotated data. Labeling medical images often requires highly trained experts and can be a time-consuming process. In this paper, we evaluate a method of reducing the need for labeled data in medical image object detection by using self-supervised neural network pretraining. We use a dataset of chest X-ray images with bounding box labels for 13 different classes of anomalies. The networks are pretrained on a percentage of the dataset without labels and then fine-tuned on the rest of the dataset. We show that it is possible to achieve similar performance to a fully supervised model in terms of mean average precision and accuracy with only 60\% of the labeled data. We also show that it is possible to increase the maximum performance of a fully-supervised model by adding a self-supervised pretraining step, and this effect can be observed with even a small amount of unlabeled data for pretraining.
翻訳日:2022-06-02 23:13:40 公開日:2022-06-01
# (参考訳) DeepCluE: ディープニューラルネットワークにおける多層アンサンブルによる画像クラスタリング

DeepCluE: Enhanced Image Clustering via Multi-layer Ensembles in Deep Neural Networks ( http://arxiv.org/abs/2206.00359v1 )

ライセンス: CC BY 4.0
Dong Huang, Ding-Hua Chen, Xiangji Chen, Chang-Dong Wang, Jian-Huang Lai(参考訳) 深層クラスタリングは最近、複雑な画像クラスタリングの有望なテクニックとして登場している。 大幅な進歩にもかかわらず、以前のディープクラスタリングの作業は、例えば最後の完全接続層で$K$-meansを実行したり、クラスタリング損失を特定の層に関連付けることで、最終的なクラスタリングを構築する傾向にある。 しかし、深層クラスタリング性能を向上させるために多層表現を共同で活用する可能性や潜在的な利点を考慮しているものはほとんどない。 そこで本研究では,ニューラルネットワークにおける複数のレイヤのパワーを活用することで,ディープクラスタリングとアンサンブルクラスタリングのギャップを橋渡しする,アンサンブル(deepclue)アプローチによるディープクラスタリングを提案する。 特に,重み共有畳み込みニューラルネットワークをバックボーンとして使用し,インスタンスレベルのコントラスト学習(インスタンスプロジェクタによる)とクラスタレベルのコントラスト学習(クラスタプロジェクタによる)の両方を教師なしの方法でトレーニングする。 その後、トレーニングネットワークから複数の特徴表現層を抽出し、高度に効率的なクラスタリングにより、多様化したベースクラスタリングを生成できる。 そして、複数のベースクラスタリングをさらに重み付けクラスタ二部グラフに定式化することにより、エントロピーに基づく基準を利用して、複数のベースクラスタリングにおけるクラスタの信頼性を自動的に推定する。 この2部グラフを転送カットで分割することで、最終的な画像クラスタリング結果が得られる。 6つの画像データセットの実験結果は、最先端のディープクラスタリングアプローチに対するDeepCluEアプローチの利点を確認します。

Deep clustering has recently emerged as a promising technique for complex image clustering. Despite the significant progress, previous deep clustering works mostly tend to construct the final clustering by utilizing a single layer of representation, e.g., by performing $K$-means on the last fully-connected layer or by associating some clustering loss to a specific layer. However, few of them have considered the possibilities and potential benefits of jointly leveraging multi-layer representations for enhancing the deep clustering performance. In light of this, this paper presents a Deep Clustering via Ensembles (DeepCluE) approach, which bridges the gap between deep clustering and ensemble clustering by harnessing the power of multiple layers in deep neural networks. Particularly, we utilize a weight-sharing convolutional neural network as the backbone, which is trained with both the instance-level contrastive learning (via an instance projector) and the cluster-level contrastive learning (via a cluster projector) in an unsupervised manner. Thereafter, multiple layers of feature representations are extracted from the trained network, upon which a set of diversified base clusterings can be generated via a highly efficient clusterer. Then, the reliability of the clusters in multiple base clusterings is automatically estimated by exploiting an entropy-based criterion, based on which the multiple base clusterings are further formulated into a weighted-cluster bipartite graph. By partitioning this bipartite graph via transfer cut, the final image clustering result can therefore be obtained. Experimental results on six image datasets confirm the advantages of our DeepCluE approach over the state-of-the-art deep clustering approaches.
翻訳日:2022-06-02 22:26:55 公開日:2022-06-01
# (参考訳) 類似グラフ検索によるメッセージパッシングの強化

Augmenting Message Passing by Retrieving Similar Graphs ( http://arxiv.org/abs/2206.00362v1 )

ライセンス: CC BY 4.0
Dingmin Wang, Shengchao Liu, Hanchen Wang, Linfeng Song, Jian Tang, Song Le, Bernardo Cuenca Grau, Qi Liu(参考訳) グラフニューラルネットワーク(GNN)は、グラフ表現学習に有効なツールである。 ほとんどのGNNは、メッセージパッシングと呼ばれる再帰的な近隣アグリゲーションスキームに依存している。 本稿では,検索ベースモデルの成功に動機づけられた非パラメトリックスキームであるgraphretrievalを提案する。 特に、パラメータを固定したよく訓練されたモデルを用いて、タスク毎にいくつかのトレーニング可能なパラメータを持つ自己注意に基づくアダプタを追加し、入力グラフとその取得した類似グラフ間の相互作用を明示的に学習する。 異なるタスク(分類と回帰)を含む12の異なるデータセットに関する実験により、GraphRetrievalは、3つの強力なGNNベースラインモデルと比較して、12のデータセットすべてで大幅に改善できることが示された。 我々の研究は、GraphRetrievalがメッセージパッシングの有望な拡張であることを示している。

Graph Neural Networks (GNNs) are effective tools for graph representation learning. Most GNNs rely on a recursive neighborhood aggregation scheme, named message passing. In this paper, motivated by the success of retrieval-based models, we propose a non-parametric scheme called GraphRetrieval, in which similar training graphs associated with their ground-truth labels are retrieved to be jointly utilized with the input graph representation to complete various graph-based predictive tasks. In particular, we take a well-trained model with its parameters fixed and then we add an adapter based on self-attention with only a few trainable parameters per task to explicitly learn the interaction between an input graph and its retrieved similar graphs. Our experiments on 12 different datasets involving different tasks (classification and regression) show that GraphRetrieval is able to achieve substantial improvements on all twelve datasets compared to three strong GNN baseline models. Our work demonstrates that GraphRetrieval is a promising augmentation for message passing.
翻訳日:2022-06-02 22:00:22 公開日:2022-06-01
# (参考訳) 光学式文字認識が新聞クリップの知覚的有用性に及ぼす影響

Optical character recognition quality affects perceived usefulness of historical newspaper clippings ( http://arxiv.org/abs/2206.00369v1 )

ライセンス: CC BY 4.0
Kimmo Kettunen, Heikki Keskustalo, Sanna Kumpulainen, Tuula P\"a\"akk\"onen and Juha Rautiainen(参考訳) はじめに。 フィンランドの新聞のデジタル化にともなう対話型情報検索における品質の異なる光学文字認識の効果について検討した。 方法。 本研究は,対話型情報検索作業タスクモデルに基づく。 フィンランドの新聞Uusi Suometar 1869-1918の記事を検索したユーザーは32人。 1億4500万件の オートセグメンテーション記事 本論文の検索データベースは, 品質の異なる2種類の文字認識機能を備えていた。 各ユーザは6つの自己形成型および6つの自己形成型短い質問を行い、同一の論文の光学的文字認識品質の違いを知らずに、0〜3の格付け関連尺度を用いて主観的にトップ10の評価を行った。 分析。 ユーザセッションにおける評価スコアの平均値を比較し,ユーザ評価の分析を行った。 質問結果の相違は、前処理および自己形式クエリにおける返却記事の長さと、これらの2つのセッション全体で検索された文書の数を分析して検出した。 結果だ 本研究の主な成果は,光学的文字認識精度の向上が新聞記事の認識有用性に正の影響を与えることにある。 結論だ 文献の光学的文字認識精度の向上が,過去の新聞コレクションにおける照会結果の平均値評価スコアの向上につながることを示すことができた。 我々の知る限り、このシミュレーションされた対話型ユーザタスクは、ユーザの主観的関連性評価が光学的読み上げテキストの品質の変化によって影響を受けることを実証的に示す最初のものである。

Introduction. We study effect of different quality optical character recognition in interactive information retrieval with a collection of one digitized historical Finnish newspaper. Method. This study is based on the simulated interactive information retrieval work task model. Thirty-two users made searches to an article collection of Finnish newspaper Uusi Suometar 1869-1918 with ca. 1.45 million auto segmented articles. Our article search database had two versions of each article with different quality optical character recognition. Each user performed six pre-formulated and six self-formulated short queries and evaluated subjectively the top-10 results using graded relevance scale of 0-3 without knowing about the optical character recognition quality differences of the otherwise identical articles. Analysis. Analysis of the user evaluations was performed by comparing mean averages of evaluations scores in user sessions. Differences of query results were detected by analysing lengths of returned articles in pre-formulated and self-formulated queries and number of different documents retrieved overall in these two sessions. Results. The main result of the study is that improved optical character recognition quality affects perceived usefulness of historical newspaper articles positively. Conclusions. We were able to show that improvement in optical character recognition quality of documents leads to higher mean relevance evaluation scores of query results in our historical newspaper collection. To the best of our knowledge this simulated interactive user-task is the first one showing empirically that users' subjective relevance assessments are affected by a change in the quality of optically read text.
翻訳日:2022-06-02 21:42:31 公開日:2022-06-01
# (参考訳) bd-shs: オンラインバングラヘイトスピーチをさまざまな社会的文脈で検出するためのベンチマークデータセット

BD-SHS: A Benchmark Dataset for Learning to Detect Online Bangla Hate Speech in Different Social Contexts ( http://arxiv.org/abs/2206.00372v1 )

ライセンス: CC BY 4.0
Nauros Romim, Mosahed Ahmed, Md. Saiful Islam, Arnab Sen Sharma, Hriteshwar Talukder, Mohammad Ruhul Amin(参考訳) ソーシャルメディアプラットフォームとオンラインストリーミングサービスは、新しいタイプのHate Speech(HS)を生み出した。 これらのサイトの大量のユーザー生成コンテンツにより、現代の機械学習技術はこの問題に対処するために実現可能で費用対効果が高いことが判明した。 しかし、攻撃的言語が一般的に使用される異なる社会的文脈をカバーする言語学的に多様なデータセットは、一般化可能なモデルを訓練するために必要である。 本稿では、既存のBangla HSデータセットの欠点を特定し、異なる社会的文脈におけるHSを含む大規模なラベル付きデータセットBD-SHSを導入する。 ラベリング基準は階層的アノテーションプロセスに従って作成され、バングラhsにおいて我々の知識の最良のものに対する最初の種類のアノテーションである。 データセットには、オンラインソーシャルネットワークサイトからクロールされた50,200以上の攻撃的なコメントが含まれており、既存のBangla HSデータセットよりも60%以上大きい。 我々は,異なるNLPモデルをトレーニングし,F1スコアの91.0%を達成したデータセットのベンチマーク結果を示す。 実験の結果,ソーシャルメディアやストリーミングサイトからのコメント144万件のみを用いてトレーニングした単語の埋め込みが,トレーニング済みの他の埋め込みと比較して常にHS検出のモデリングを改善することがわかった。 私たちのデータセットと付随するすべてのコードはgithub.com/naurosromim/hate-speech-dataset-for-bengali-social-mediaで公開されている。

Social media platforms and online streaming services have spawned a new breed of Hate Speech (HS). Due to the massive amount of user-generated content on these sites, modern machine learning techniques are found to be feasible and cost-effective to tackle this problem. However, linguistically diverse datasets covering different social contexts in which offensive language is typically used are required to train generalizable models. In this paper, we identify the shortcomings of existing Bangla HS datasets and introduce a large manually labeled dataset BD-SHS that includes HS in different social contexts. The labeling criteria were prepared following a hierarchical annotation process, which is the first of its kind in Bangla HS to the best of our knowledge. The dataset includes more than 50,200 offensive comments crawled from online social networking sites and is at least 60% larger than any existing Bangla HS datasets. We present the benchmark result of our dataset by training different NLP models resulting in the best one achieving an F1-score of 91.0%. In our experiments, we found that a word embedding trained exclusively using 1.47 million comments from social media and streaming sites consistently resulted in better modeling of HS detection in comparison to other pre-trained embeddings. Our dataset and all accompanying codes is publicly available at github.com/naurosromim/hate-speech-dataset-for-Bengali-social-media
翻訳日:2022-06-02 21:23:28 公開日:2022-06-01
# (参考訳) コントラストクラスタリングの強化

Strongly Augmented Contrastive Clustering ( http://arxiv.org/abs/2206.00380v1 )

ライセンス: CC BY 4.0
Xiaozhi Deng, Dong Huang, Ding-Hua Chen, Chang-Dong Wang, Jian-Huang Lai(参考訳) ディープクラスタリングは、ディープニューラルネットワークによる共同表現学習とクラスタリングの能力により、近年注目を集めている。 最新の開発において、対照的な学習は、深層クラスタリングのパフォーマンスを著しく向上させる効果的な技術として出現した。 しかし、既存のコントラスト学習に基づくディープクラスタリングアルゴリズムは、主に、弱い拡張と呼ばれる、慎重に設計された拡張(しばしば構造を保存するための限定的な変換)に焦点を当てるが、弱い拡張を超えて、より強力な拡張(より積極的な変換やより厳しい歪み)の機会を探ることはできない。 本稿では,従来の2-augmentation-viewパラダイムを複数視点に拡張し,強みと弱みを併用し,強みと弱みを併用した,強み付きコントラストクラスタリング (strong augmented contrastive clustering, sacc) と呼ばれるエンド・ツー・エンドのディープクラスタリング手法を提案する。 特に,3重みを重み付けしたバックボーンネットワークを用いて,強い拡張ビューと弱い2つの拡張ビューが組み込まれている。 バックボーンによって生成された表現に基づいて、弱弱視対と強弱視対を(インスタンスプロジェクタを介して)インスタンスレベルのコントラスト学習と(クラスタプロジェクタを介して)クラスタレベルのコントラスト学習に同時に利用し、バックボーンとともに、純粋に教師なしの方法で共同最適化することができる。 5つの挑戦的な画像データセットの実験結果は、最先端のsacアプローチよりも優れた性能を示している。

Deep clustering has attracted increasing attention in recent years due to its capability of joint representation learning and clustering via deep neural networks. In its latest developments, the contrastive learning has emerged as an effective technique to substantially enhance the deep clustering performance. However, the existing contrastive learning based deep clustering algorithms mostly focus on some carefully-designed augmentations (often with limited transformations to preserve the structure), referred to as weak augmentations, but cannot go beyond the weak augmentations to explore the more opportunities in stronger augmentations (with more aggressive transformations or even severe distortions). In this paper, we present an end-to-end deep clustering approach termed strongly augmented contrastive clustering (SACC), which extends the conventional two-augmentation-view paradigm to multiple views and jointly leverages strong and weak augmentations for strengthened deep clustering. Particularly, we utilize a backbone network with triply-shared weights, where a strongly augmented view and two weakly augmented views are incorporated. Based on the representations produced by the backbone, the weak-weak view pair and the strong-weak view pairs are simultaneously exploited for the instance-level contrastive learning (via an instance projector) and the cluster-level contrastive learning (via a cluster projector), which, together with the backbone, can be jointly optimized in a purely unsupervised manner. Experimental results on five challenging image datasets have shown the superior performance of the proposed SACC approach over the state-of-the-art.
翻訳日:2022-06-02 21:11:41 公開日:2022-06-01
# (参考訳) デジタル病理学における視覚トランスフォーマーとcnnの比較研究

A comparative study between vision transformers and CNNs in digital pathology ( http://arxiv.org/abs/2206.00389v1 )

ライセンス: CC BY 4.0
Luca Deininger, Bernhard Stimpel, Anil Yuce, Samaneh Abbasi-Sureshjani, Simon Sch\"onenberger, Paolo Ocampo, Konstanty Korski, Fabien Gaire(参考訳) 近年、視覚トランスフォーマーは、十分な量のデータで事前学習した場合、畳み込みニューラルネットワークを上回ることができることが示されている。 畳み込みニューラルネットワークと比較して、視覚トランスフォーマーは誘導バイアスが弱いため、より柔軟な特徴検出を可能にする。 本研究は, 将来性のある特徴検出のため, スライド画像の4種類の組織像と組織型同定のための視覚トランスフォーマーについて検討する。 視覚変換器DeiT-Tinyのパッチワイド分類性能を最先端の畳み込みニューラルネットワークResNet18と比較した。 注釈付き全スライダー画像の可利用性が低かったため,最先端の自己教師付きアプローチを用いて,ラベルなしの全スライダー画像に事前学習した2つのモデルを比較した。 その結果, resnet18は腫瘍検出のための4つの組織タイプのうち3つにおいて, resnet18よりもわずかに優れており, resnet18は残りの作業に対してわずかに優れた性能を示した。 その結果,両モデルともスライドレベルでの予測値が相関し,類似した撮像特性が得られた。 総じてビジョントランスフォーマーはresnet18と同等の性能を発揮し、訓練により多くの労力を要した。 畳み込みニューラルネットワークの性能を上回るために、視覚変換器は弱い帰納バイアスの恩恵を受けるために、より困難なタスクを必要とするかもしれない。

Recently, vision transformers were shown to be capable of outperforming convolutional neural networks when pretrained on sufficient amounts of data. In comparison to convolutional neural networks, vision transformers have a weaker inductive bias and therefore allow a more flexible feature detection. Due to their promising feature detection, this work explores vision transformers for tumor detection in digital pathology whole slide images in four tissue types, and for tissue type identification. We compared the patch-wise classification performance of the vision transformer DeiT-Tiny to the state-of-the-art convolutional neural network ResNet18. Due to the sparse availability of annotated whole slide images, we further compared both models pretrained on large amounts of unlabeled whole-slide images using state-of-the-art self-supervised approaches. The results show that the vision transformer performed slightly better than the ResNet18 for three of four tissue types for tumor detection while the ResNet18 performed slightly better for the remaining tasks. The aggregated predictions of both models on slide level were correlated, indicating that the models captured similar imaging features. All together, the vision transformer models performed on par with the ResNet18 while requiring more effort to train. In order to surpass the performance of convolutional neural networks, vision transformers might require more challenging tasks to benefit from their weak inductive bias.
翻訳日:2022-06-02 20:34:55 公開日:2022-06-01
# (参考訳) 有効・解釈可能な軸受障害診断のための注意埋め込み二次ネットワーク(qttention)

Attention-embedded Quadratic Network (Qttention) for Effective and Interpretable Bearing Fault Diagnosis ( http://arxiv.org/abs/2206.00390v1 )

ライセンス: CC BY 4.0
Jing-Xiao Liao, Hang-Cheng Dong, Zhi-Qi Sun, Jinwei Sun, Shiping Zhang, Feng-Lei Fan(参考訳) 軸受故障診断は、回転機械の損傷リスクを低減し、さらに経済利益を向上させるために非常に重要である。 近年,深層学習に代表される機械学習は,障害診断において大きな進歩を遂げている。 しかし、このようなタスクにディープラーニングを適用すると、2つの大きな問題が発生します。 一方、ディープラーニングは、データがノイズやビッグデータが利用できない場合に有効性が失われ、産業分野でのディープラーニングの実装が困難になる。 一方、ディープネットワークはブラックボックスとして知られている。 モデルが正常信号と物理原理から欠陥信号をどのように分類するかを知るのは難しい。 有効性と解釈可能性の問題を解決するために,最近考案した二次ニューロンを用いた畳み込みネットワークを試作する。 この二次ニューロンエンパワードネットワークは、二次ニューロンの強い特徴表現能力のために、ノイズや小さな軸受データを評価することができる。 さらに,注意に類似した学習された二次関数を分解することにより,qttentionと呼ばれる二次ニューロンからの注意機構を独立に導出し,二次ニューロンを本質的に解釈可能にした。 提案したネットワークは, 異常診断を効果的かつ解釈可能なものにすることができることを示す。

Bearing fault diagnosis is of great importance to decrease the damage risk of rotating machines and further improve economic profits. Recently, machine learning, represented by deep learning, has made great progress in bearing fault diagnosis. However, applying deep learning to such a task still faces two major problems. On the one hand, deep learning loses its effectiveness when bearing data are noisy or big data are unavailable, making deep learning hard to implement in industrial fields. On the other hand, a deep network is notoriously a black box. It is difficult to know how a model classifies faulty signals from the normal and the physics principle behind the classification. To solve the effectiveness and interpretability issues, we prototype a convolutional network with recently-invented quadratic neurons. This quadratic neuron empowered network can qualify the noisy and small bearing data due to the strong feature representation ability of quadratic neurons. Moreover, we independently derive the attention mechanism from a quadratic neuron, referred to as qttention, by factorizing the learned quadratic function in analogue to the attention, making the model with quadratic neurons inherently interpretable. Experiments on the public and our datasets demonstrate that the proposed network can facilitate effective and interpretable bearing fault diagnosis.
翻訳日:2022-06-02 20:26:14 公開日:2022-06-01
# (参考訳) 補助情報へのアクセスによる最適化

Optimization with access to auxiliary information ( http://arxiv.org/abs/2206.00395v1 )

ライセンス: CC BY 4.0
El Mahdi Chayti and Sai Praneeth Karimireddy(参考訳) 勾配が安価かそれ以上の補助側関数 $h(x)$ へのアクセスを考慮し、勾配計算に費用がかかる目標関数 $f(x)$ を最小化する基本的な最適化問題を検討する。 この定式化は、実用的関連性の多くの設定をキャプチャする。 i)SGDにおけるバッチの再利用 ii) 転帰学習 三 連合学習 四 圧縮モデル/ドロップアウト等による訓練 これらすべての設定に適用可能な2つの汎用的な新しいアルゴリズムを提案し、このフレームワークの恩恵を受けることのできる、ターゲットとサイド情報のヘッシアン類似性に関する仮定のみを用いて証明する。

We investigate the fundamental optimization question of minimizing a target function $f(x)$ whose gradients are expensive to compute or have limited availability, given access to some auxiliary side function $h(x)$ whose gradients are cheap or more available. This formulation captures many settings of practical relevance such as i) re-using batches in SGD, ii) transfer learning, iii) federated learning, iv) training with compressed models/dropout, etc. We propose two generic new algorithms which are applicable in all these settings and prove using only an assumption on the Hessian similarity between the target and side information that we can benefit from this framework.
翻訳日:2022-06-02 20:05:02 公開日:2022-06-01
# (参考訳) GAモデルのためのガウスグラフマップの評価

Evaluating Gaussian Grasp Maps for Generative Grasping Models ( http://arxiv.org/abs/2206.00432v1 )

ライセンス: CC BY 4.0
William Prew, Toby P. Breckon, Magnus Bordewich, and Ulrik Beierholm(参考訳) ロボットによる把持の一般化は、ロボット操作において重要な課題である。 多くの対脚生成的把持モデルの訓練方法は、正しいラベル付き把持矩形の中心3分の1から生成される二元基底真理把持写像に依存する。 しかし、これらのバイナリマップは、ロボットアームが与えられた物体を正確に把握できる位置を正確に反映していない。 本研究では,ロボット把持ベンチマークを用いて,より高い成功率を達成するための基礎真理学習データを生成するために,注釈付き把持の連続ガウス表現を提案する。 現代の3つの生成的把持ネットワークは、二元あるいはガウス的把持マップで訓練され、また、ロボット把持文献からの最近の進歩、例えばビンへの把持角度の離散化や注意損失関数によって訓練されている。 標準矩形距離による不可解な違いにもかかわらず、ガウス地図はトレーニングデータを再現し、物体との衝突を避けて同じシミュレーションロボットアームでテストした場合の成功率を向上させる:87.94\%の精度を達成する。 さらに,移動学習を必要とせず,実際のロボットアームに高速で移動した場合に,最高の動作モデルが高い成功率で動作することが示されている。 システムは、対角的な物理オブジェクトデータセットのベンチマークで把握を行うことができる。

Generalising robotic grasping to previously unseen objects is a key task in general robotic manipulation. The current method for training many antipodal generative grasping models rely on a binary ground truth grasp map generated from the centre thirds of correctly labelled grasp rectangles. However, these binary maps do not accurately reflect the positions in which a robotic arm can correctly grasp a given object. We propose a continuous Gaussian representation of annotated grasps to generate ground truth training data which achieves a higher success rate on a simulated robotic grasping benchmark. Three modern generative grasping networks are trained with either binary or Gaussian grasp maps, along with recent advancements from the robotic grasping literature, such as discretisation of grasp angles into bins and an attentional loss function. Despite negligible difference according to the standard rectangle metric, Gaussian maps better reproduce the training data and therefore improve success rates when tested on the same simulated robot arm by avoiding collisions with the object: achieving 87.94\% accuracy. Furthermore, the best performing model is shown to operate with a high success rate when transferred to a real robotic arm, at high inference speeds, without the need for transfer learning. The system is then shown to be capable of performing grasps on an antagonistic physical object dataset benchmark.
翻訳日:2022-06-02 19:35:16 公開日:2022-06-01
# (参考訳) 超高次知識グラフ埋め込み

Ultrahyperbolic Knowledge Graph Embeddings ( http://arxiv.org/abs/2206.00449v1 )

ライセンス: CC BY 4.0
Bo Xiong, Shichao Zhu, Mojtaba Nayyeri, Chengjin Xu, Shirui Pan, Chuan Zhou, and Steffen Staab(参考訳) 近年の知識グラフ (kg) 埋め込みは階層を表現する能力が優れているため双曲幾何学によって進歩している。 しかし、実世界のkgの位相構造はかなり異質であり、例えば、kgは複数の異なる階層構造と非階層グラフ構造からなる。 したがって、均質な(ユークリッド的あるいは双曲的)幾何学はそのような異質な構造を公平に表現するには不十分である。 KGs の位相的不均一性を捉えるために、双曲多様体と球面多様体をシームレスにインターリーブする超双曲多様体(または擬リーマン多様体)に超双曲的 KG 埋め込み (UltraE) を示す。 特に、各関係を擬リーマン双線型形式を保存する擬直交変換としてモデル化する。 擬直交変換は様々な作用素(例えば円回転、反射、双曲回転)に分解され、複素関係パターンと同様に異質構造を同時にモデル化することができる。 3つの標準KGの実験結果は、UltraEが以前のユークリッドおよび双曲型アプローチより優れていることを示している。

Recent knowledge graph (KG) embeddings have been advanced by hyperbolic geometry due to its superior capability for representing hierarchies. The topological structures of real-world KGs, however, are rather heterogeneous, i.e., a KG is composed of multiple distinct hierarchies and non-hierarchical graph structures. Therefore, a homogeneous (either Euclidean or hyperbolic) geometry is not sufficient for fairly representing such heterogeneous structures. To capture the topological heterogeneity of KGs, we present an ultrahyperbolic KG embedding (UltraE) in an ultrahyperbolic (or pseudo-Riemannian) manifold that seamlessly interleaves hyperbolic and spherical manifolds. In particular, we model each relation as a pseudo-orthogonal transformation that preserves the pseudo-Riemannian bilinear form. The pseudo-orthogonal transformation is decomposed into various operators (i.e., circular rotations, reflections and hyperbolic rotations), allowing for simultaneously modeling heterogeneous structures as well as complex relational patterns. Experimental results on three standard KGs show that UltraE outperforms previous Euclidean- and hyperbolic-based approaches.
翻訳日:2022-06-02 19:16:22 公開日:2022-06-01
# (参考訳) グラフィカル双線形帯域に対する$\alpha$-No-Regretアルゴリズム

An $\alpha$-No-Regret Algorithm For Graphical Bilinear Bandits ( http://arxiv.org/abs/2206.00466v1 )

ライセンス: CC BY 4.0
Geovani Rizk, Igor Colin, Albert Thomas, Rida Laraki, Yann Chevaleyre(参考訳) グラフ上のエージェントがそれぞれの隣人と確率的バイリニアバンディットゲームをプレイするグラフ的ビリニアバンディット問題に対して,最初の後悔に基づくアプローチを提案する。 この設定は、(双)線形バンディット文学における既存の後悔に基づくアルゴリズムの使用を阻止する組み合わせNPハード問題を明らかにする。 本稿では,このギャップを埋め,不確実性に直面した楽観主義の原理を用いて,グラフィカル双線形帯域に対する最初の後悔に基づくアルゴリズムを提案する。 この新手法の理論的解析により、$\alpha$-regret に対する$\tilde{o}(\sqrt{t})$の上限が得られ、グラフ構造が収束率に与える影響が証明される。 最後に,様々な実験を通して,提案手法の有効性を示す。

We propose the first regret-based approach to the Graphical Bilinear Bandits problem, where $n$ agents in a graph play a stochastic bilinear bandit game with each of their neighbors. This setting reveals a combinatorial NP-hard problem that prevents the use of any existing regret-based algorithm in the (bi-)linear bandit literature. In this paper, we fill this gap and present the first regret-based algorithm for graphical bilinear bandits using the principle of optimism in the face of uncertainty. Theoretical analysis of this new method yields an upper bound of $\tilde{O}(\sqrt{T})$ on the $\alpha$-regret and evidences the impact of the graph structure on the rate of convergence. Finally, we show through various experiments the validity of our approach.
翻訳日:2022-06-02 18:55:26 公開日:2022-06-01
# (参考訳) 異常検出と特徴学習のための近位感度誤差

Proximally Sensitive Error for Anomaly Detection and Feature Learning ( http://arxiv.org/abs/2206.00506v1 )

ライセンス: CC BY 4.0
Amogh Gudi, Fritjof B\"uttner, Jan van Gemert(参考訳) 平均二乗誤差(mse)は、画像を含む多次元実体間の差異を表現するために最も広く使われている指標の1つである。 しかし、mseは画像のような構造化データ型において重要な(ピクセル)差分の空間配置を考慮していないため、局所的な感度はない。 このような空間配置は相違点の情報を運ぶため、誤差の位置を組み込んだ誤り関数はより意味のある距離測定に繋がる可能性がある。 本稿では, PSE(Proximally Sensitive Error)を導入し, 誤差尺度の局所的な強調は, 構文的・ランダムな偏差よりも画像間の意味的差異を「強調」できることを示した。 この強調を異常/閉塞検出の課題に活用できることを実証する。 さらに,構文再構成ノイズを最小限に抑える代わりに,モデルが意味オブジェクトの表現を学習するのを支援するための損失関数としての有用性についても検討する。

Mean squared error (MSE) is one of the most widely used metrics to expression differences between multi-dimensional entities, including images. However, MSE is not locally sensitive as it does not take into account the spatial arrangement of the (pixel) differences, which matters for structured data types like images. Such spatial arrangements carry information about the source of the differences; therefore, an error function that also incorporates the location of errors can lead to a more meaningful distance measure. We introduce Proximally Sensitive Error (PSE), through which we suggest that a regional emphasis in the error measure can 'highlight' semantic differences between images over syntactic/random deviations. We demonstrate that this emphasis can be leveraged upon for the task of anomaly/occlusion detection. We further explore its utility as a loss function to help a model focus on learning representations of semantic objects instead of minimizing syntactic reconstruction noise.
翻訳日:2022-06-02 17:41:09 公開日:2022-06-01
# (参考訳) 深層強化学習のためのデータ拡張の効率的なスケジューリング

Efficient Scheduling of Data Augmentation for Deep Reinforcement Learning ( http://arxiv.org/abs/2206.00518v1 )

ライセンス: CC BY 4.0
Byungchan Ko, Jungseul Ok(参考訳) 深層強化学習(RL)では、データ拡張は意味的一貫性に関する一連の有用な先行を誘導し、サンプル効率と一般化性能を改善するツールとして広く考えられている。 しかし、前者が一般化に有用であったとしても、RL剤に蒸留すると、しばしばRLの訓練に干渉し、試料効率を低下させる。 一方、エージェントはrlの非定常性のために前もって忘れられている。 これらの観察は蒸留の2つの極端なスケジュールを示している。 (i)訓練全体、又は (ii)最後にのみ。 そこで我々は,(rl以降であっても)いつでも一貫性を注入する単独のネットワーク蒸留法と,自動的に蒸留をスケジュールする簡易かつ効率的なフレームワークを考案する。 具体的には、まず、一般化にかかわらず、トレーニングに使用する拡張を適応的に決定することで、列車環境をマスターすることに焦点を当てる。 その後, 蒸留液を添加して, 新たな試料を必要としない全増量から, 一般化のための残りの利点を抽出する。 実験では、特にRLトレーニングの終了を延期することを考慮し、提案フレームワークの有用性を実証した。

In deep reinforcement learning (RL), data augmentation is widely considered as a tool to induce a set of useful priors about semantic consistency and improve sample efficiency and generalization performance. However, even when the prior is useful for generalization, distilling it to RL agent often interferes with RL training and degenerates sample efficiency. Meanwhile, the agent is forgetful of the prior due to the non-stationary nature of RL. These observations suggest two extreme schedules of distillation: (i) over the entire training; or (ii) only at the end. Hence, we devise a stand-alone network distillation method to inject the consistency prior at any time (even after RL), and a simple yet efficient framework to automatically schedule the distillation. Specifically, the proposed framework first focuses on mastering train environments regardless of generalization by adaptively deciding which {\it or no} augmentation to be used for the training. After this, we add the distillation to extract the remaining benefits for generalization from all the augmentations, which requires no additional new samples. In our experiments, we demonstrate the utility of the proposed framework, in particular, that considers postponing the augmentation to the end of RL training.
翻訳日:2022-06-02 17:32:34 公開日:2022-06-01
# (参考訳) 科学的発見と深層学習

Deep Learning Opacity in Scientific Discovery ( http://arxiv.org/abs/2206.00520v1 )

ライセンス: CC BY-SA 4.0
Eamon Duede(参考訳) 哲学者は最近、ディープニューラルネットワークの不透明さから生じる批判的、認識論的課題に焦点を当てている。 この文献から、不透明なモデルで良い科学を行うのは、不可能ではないにせよ、非常に難しい、と結論付けることができる。 しかし、これは、AIメソッドによって駆動される最近の科学的ブレークスルーの洪水と共に、科学におけるAIの楽観主義の最近のブームに匹敵するのは難しい。 本稿では、哲学的悲観主義と科学的楽観主義の切り離しは、AIが科学で実際にどのように使われているかを調べるのに失敗していると論じる。 AIを利用したブレークスルーの認識的正当化を理解するために、哲学者はより広範な発見プロセスの一環として、ディープラーニングが果たす役割を検証しなければならない。 この点では「発見の言葉」と「正当化の言葉」の哲学的区別が有用である。 私は、科学文献から引用された2つの事例でこの区別に従うことの重要性を実証し、認識論的不透明性が科学者を重要かつ正当なブレークスルーへと導くためにaiの能力を減らす必要はないことを示した。

Philosophers have recently focused on critical, epistemological challenges that arise from the opacity of deep neural networks. One might conclude from this literature that doing good science with opaque models is exceptionally challenging, if not impossible. Yet, this is hard to square with the recent boom in optimism for AI in science alongside a flood of recent scientific breakthroughs driven by AI methods. In this paper, I argue that the disconnect between philosophical pessimism and scientific optimism is driven by a failure to examine how AI is actually used in science. I show that, in order to understand the epistemic justification for AI-powered breakthroughs, philosophers must examine the role played by deep learning as part of a wider process of discovery. The philosophical distinction between the 'context of discovery' and the 'context of justification' is helpful in this regard. I demonstrate the importance of attending to this distinction with two cases drawn from the scientific literature, and show that epistemic opacity need not diminish AI's capacity to lead scientists to significant and justifiable breakthroughs.
翻訳日:2022-06-02 17:31:27 公開日:2022-06-01
# (参考訳) 低リソース機械翻訳におけるバック翻訳の多様性の検討

Exploring Diversity in Back Translation for Low-Resource Machine Translation ( http://arxiv.org/abs/2206.00564v1 )

ライセンス: CC BY 4.0
Laurie Burchell, Alexandra Birch, Kenneth Heafield(参考訳) バックトランスレーションは、ニューラルマシン翻訳システムの性能を向上させる最も広く使われている方法の1つである。 近年の研究では、生成された翻訳の「多様性」を高めることで、この手法の有効性を高めようとしている。 従来の作業における'多様性'の定量化に使われる定義とメトリクスは不十分である、と我々は主張する。 この研究は、トレーニングデータの多様性を理解し、それを語彙的多様性と構文的多様性に分割する、より微妙なフレームワークを推し進めている。 本稿では、これらの多様性の異なる側面を測定するための新しい指標を示し、これらの多様性が低リソース英語$\leftrightarrow$turkishおよび中リソース英語$\leftrightarrow$icelandicの最終的なニューラルマシン翻訳モデル性能に与える影響について実証分析を行う。 以上の結果から,核サンプリングを用いた逆翻訳は最終モデルの性能が向上し,この生成法は語彙的および構文的多様性が高まることが示された。 また,語彙の多様性は,逆翻訳性能の構文よりも重要であることを示す。

Back translation is one of the most widely used methods for improving the performance of neural machine translation systems. Recent research has sought to enhance the effectiveness of this method by increasing the 'diversity' of the generated translations. We argue that the definitions and metrics used to quantify 'diversity' in previous work have been insufficient. This work puts forward a more nuanced framework for understanding diversity in training data, splitting it into lexical diversity and syntactic diversity. We present novel metrics for measuring these different aspects of diversity and carry out empirical analysis into the effect of these types of diversity on final neural machine translation model performance for low-resource English$\leftrightarrow$Turkish and mid-resource English$\leftrightarrow$Icelandic. Our findings show that generating back translation using nucleus sampling results in higher final model performance, and that this method of generation has high levels of both lexical and syntactic diversity. We also find evidence that lexical diversity is more important than syntactic for back translation performance.
翻訳日:2022-06-02 17:20:08 公開日:2022-06-01
# (参考訳) 論理に基づく倫理計画

Logic-Based Ethical Planning ( http://arxiv.org/abs/2206.00595v1 )

ライセンス: CC BY 4.0
Umberto Grandi, Emiliano Lorini, Timothy Parker, Rachid Alami(参考訳) 本稿では,ロボット工学への応用を意図した,計画の文脈における倫理的意思決定の枠組みを提案する。 線形時間論理と語彙的嗜好モデリングを組み合わせた倫理計画のためのコンパクトだが表現性の高い言語を提案する。 この組み合わせにより、エージェントの価値と欲求の両方に関して計画を評価することができ、エージェントのモラルレベルという新しい概念を導入し、マルチゴールでマルチバリューな計画へと進むことができる。 我々は,計画タスクの計算複雑性の研究を開始し,ロボット工学への応用の可能性について論じる。

In this paper we propose a framework for ethical decision making in the context of planning, with intended application to robotics. We put forward a compact but highly expressive language for ethical planning that combines linear temporal logic with lexicographic preference modelling. This original combination allows us to assess plans both with respect to an agent's values and their desires, introducing the novel concept of the morality level of an agent and moving towards multigoal, multivalue planning. We initiate the study of computational complexity of planning tasks in our setting, and we discuss potential applications to robotics.
翻訳日:2022-06-02 17:02:10 公開日:2022-06-01
# Byzantine-Robust Onlineとオフライン分散強化学習

Byzantine-Robust Online and Offline Distributed Reinforcement Learning ( http://arxiv.org/abs/2206.00165v1 )

ライセンス: Link先を確認
Yiding Chen, Xuezhou Zhang, Kaiqing Zhang, Mengdi Wang, Xiaojin Zhu(参考訳) 我々は,複数のエージェントが個別に環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境を考える。 しかし、エージェントの$\alpha$-fractionは敵対的であり、任意の偽情報を報告できる。 批判的に言えば、これらの敵対的エージェントは衝突しうるし、偽データはどんな大きさでもできる。 我々は,これらの敵エージェントの存在下でのマルコフ決定過程の最適に近い方針を強固に特定したい。 我々の主な技術的貢献はWeighted-Cliqueであり、これは任意のバッチサイズを扱うことができるバッチ問題から堅牢な平均推定のための新しいアルゴリズムである。 この新たな推定器をオフライン環境で構築し、Byzantine-robust分散悲観的値反復アルゴリズムを設計し、オンライン環境ではByzantine-robust分散楽観的値反復アルゴリズムを設計する。 どちらのアルゴリズムも、ほぼ最適サンプルの複雑さを求め、以前の手法よりも優れた堅牢性を保証する。

We consider a distributed reinforcement learning setting where multiple agents separately explore the environment and communicate their experiences through a central server. However, $\alpha$-fraction of agents are adversarial and can report arbitrary fake information. Critically, these adversarial agents can collude and their fake data can be of any sizes. We desire to robustly identify a near-optimal policy for the underlying Markov decision process in the presence of these adversarial agents. Our main technical contribution is Weighted-Clique, a novel algorithm for the robust mean estimation from batches problem, that can handle arbitrary batch sizes. Building upon this new estimator, in the offline setting, we design a Byzantine-robust distributed pessimistic value iteration algorithm; in the online setting, we design a Byzantine-robust distributed optimistic value iteration algorithm. Both algorithms obtain near-optimal sample complexities and achieve superior robustness guarantee than prior works.
翻訳日:2022-06-02 16:43:30 公開日:2022-06-01
# 専門家のアドバイスによる連続予測

Continuous Prediction with Experts' Advice ( http://arxiv.org/abs/2206.00236v1 )

ライセンス: Link先を確認
Victor Sanches Portella, Christopher Liaw, Nicholas J. A. Harvey(参考訳) 専門家のアドバイスによる予測は、オンライン学習における最も根本的な問題の1つであり、その技術的な課題の多くを捉えている。 最近の研究は、微分方程式のレンズと連続時間解析によるオンライン学習に注目している。 この視点は、オンライン学習におけるいくつかの問題に対して最適な結果をもたらす。 本稿では,離散時間専門家の問題を研究するために,連続時間確率計算を用いる。 これらのツールを使用して、量子的後悔の保証を改善した、連続時間でパラメータフリーなアルゴリズムを設計する。 次に、非常に類似した解析と同一の量的後悔境界を持つ類似の離散時間アルゴリズムを開発する。 最後に,ゲインが独立なブラウン運動である場合の最適固定時間率に一致することを後悔して,任意の時間連続時間アルゴリズムを設計する。 これは、敵対的な利益であっても、最適な時限と固定時間後悔が一致する可能性があるといういくつかの証拠を与える。

Prediction with experts' advice is one of the most fundamental problems in online learning and captures many of its technical challenges. A recent line of work has looked at online learning through the lens of differential equations and continuous-time analysis. This viewpoint has yielded optimal results for several problems in online learning. In this paper, we employ continuous-time stochastic calculus in order to study the discrete-time experts' problem. We use these tools to design a continuous-time, parameter-free algorithm with improved guarantees for the quantile regret. We then develop an analogous discrete-time algorithm with a very similar analysis and identical quantile regret bounds. Finally, we design an anytime continuous-time algorithm with regret matching the optimal fixed-time rate when the gains are independent Brownian Motions; in many settings, this is the most difficult case. This gives some evidence that, even with adversarial gains, the optimal anytime and fixed-time regrets may coincide.
翻訳日:2022-06-02 16:43:14 公開日:2022-06-01
# ベゾフ空間におけるベイズニューラルネットワークの漸近的性質

Asymptotic Properties for Bayesian Neural Network in Besov Space ( http://arxiv.org/abs/2206.00241v1 )

ライセンス: Link先を確認
Kyeongwon Lee and Jaeyong Lee(参考訳) ニューラルネットワークは、画像や自然言語のような様々な非構造化データを扱う際に、大きな予測能力を示している。 ベイズニューラルネットワークは、モデルのパラメータに事前分布を配置し、後続分布を計算することにより、予測の不確かさをキャプチャする。 本稿では, スパイク・アンド・スラブを用いたベイズニューラルネットワークが, 真の回帰関数がベソフ空間にある場合, ほぼ最小収束率と整合性を持つことを示す。 回帰関数の滑らかさが未知であっても、同じ後方収束速度が保たれ、従ってスパイクとスラブ先行は回帰関数の滑らかさに適応する。 また、この縮小を事前に考慮し、同じ収束率であることを示す。 言い換えれば、漸近性が保証された実用的なベイズニューラルネットワークを提案する。

Neural networks have shown great predictive power when dealing with various unstructured data such as images and natural languages. The Bayesian neural network captures the uncertainty of prediction by putting a prior distribution for the parameter of the model and computing the posterior distribution. In this paper, we show that the Bayesian neural network using spike-and-slab prior has consistency with nearly minimax convergence rate when the true regression function is in the Besov space. Even when the smoothness of the regression function is unknown the same posterior convergence rate holds and thus the spike and slab prior is adaptive to the smoothness of the regression function. We also consider the shrinkage prior and show that it has the same convergence rate. In other words, we propose a practical Bayesian neural network with guaranteed asymptotic properties.
翻訳日:2022-06-02 16:43:00 公開日:2022-06-01
# 微分プライベートな最小値最適化のための独自のアルゴリズム

Bring Your Own Algorithm for Optimal Differentially Private Stochastic Minimax Optimization ( http://arxiv.org/abs/2206.00363v1 )

ライセンス: Link先を確認
Liang Zhang, Kiran Koshy Thekumparampil, Sewoong Oh, Niao He(参考訳) 確率最小化を副生成物とするスムーズな確率最小最適化のための微分プライベート(DP)アルゴリズムについて検討した。 これらの設定の聖杯は、トレーニングサンプル数の線形時間複雑度を持つアルゴリズムを用いて、プライバシーと過剰な人口損失の間の最適なトレードオフを保証することである。 そこで本研究では,自己のベース最適化アルゴリズムをブラックボックスとして使用することで,プライバシ損失に近いトレードオフを得ることが可能な,差分プライベートな確率的ミニマックス最適化(dp-smo)問題を解決するための汎用フレームワークを提案する。 提案手法は,プライバシ保証のための経験的リスク最小化 (erm) の安定性を生かした非スムース微分的確率凸最適化 (dp-sco) のための最近提案されたphased-erm法 [20] に着想を得たものである。 提案手法の柔軟性により,ベースアルゴリズムが境界感度を持つ必要のある要件を回避し,線形近傍の時間複雑度を達成するために,高度な分散低減高速化手法を利用可能とした。 我々の知る限りでは、これらのアルゴリズムは(強い)凸-(強い)凹凸のときの滑らかなDP-SMOのための対数係数までの最初の線形時間最適アルゴリズムである。 さらに、我々のフレキシブルなフレームワークに基づいて、従来のアルゴリズムと比較して幅広いスムーズなパラメータに対して最適なプライバシー損失トレードオフを持つ、スムーズなDP-SCOのためのニア線形時間アルゴリズムの新たなファミリーを導出する。

We study differentially private (DP) algorithms for smooth stochastic minimax optimization, with stochastic minimization as a byproduct. The holy grail of these settings is to guarantee the optimal trade-off between the privacy and the excess population loss, using an algorithm with a linear time-complexity in the number of training samples. We provide a general framework for solving differentially private stochastic minimax optimization (DP-SMO) problems, which enables the practitioners to bring their own base optimization algorithm and use it as a black-box to obtain the near-optimal privacy-loss trade-off. Our framework is inspired from the recently proposed Phased-ERM method [20] for nonsmooth differentially private stochastic convex optimization (DP-SCO), which exploits the stability of the empirical risk minimization (ERM) for the privacy guarantee. The flexibility of our approach enables us to sidestep the requirement that the base algorithm needs to have bounded sensitivity, and allows the use of sophisticated variance-reduced accelerated methods to achieve near-linear time-complexity. To the best of our knowledge, these are the first linear-time optimal algorithms, up to logarithmic factors, for smooth DP-SMO when the objective is (strongly-)convex-(strongly-)concave. Additionally, based on our flexible framework, we derive a new family of near-linear time algorithms for smooth DP-SCO with optimal privacy-loss trade-offs for a wider range of smoothness parameters compared to previous algorithms.
翻訳日:2022-06-02 16:42:46 公開日:2022-06-01
# デジタル足跡から政治イデオロギーを予測する

Predicting Political Ideology from Digital Footprints ( http://arxiv.org/abs/2206.00397v1 )

ライセンス: Link先を確認
Michael Kitchener, Nandini Anantharama, Simon D. Angus, Paul A. Raschky(参考訳) 本稿では,世界最大規模のオンライン討論フォーラムにおいて,デジタル足跡から個々の政治イデオロギーを予測する新しい手法を提案する。 我々は、約91,000人のユーザの政治的イデオロギー、コメント頻度の記録、コメントのテキストコーパスを190,000以上の異なるサブフォーラムで収集した。 統計学習の手法を駆使して,非政治討論フォーラムにおける活動に関する情報が,ユーザの政治イデオロギーを極めて正確に予測できることを示す。 モデルによっては、イデオロギーの経済的次元を最大90.63%、社会的次元を最大82.02%の精度で予測することができる。 比較として、実際のコメントからのテキスト機能を使用することは、予測精度を向上しない。 本稿では,オンラインデータを用いた人間の嗜好や行動の分析において,デジタルコミュニケーションから提示された嗜好を補完するデジタル行動の重要性を強調する。

This paper proposes a new method to predict individual political ideology from digital footprints on one of the world's largest online discussion forum. We compiled a unique data set from the online discussion forum reddit that contains information on the political ideology of around 91,000 users as well as records of their comment frequency and the comments' text corpus in over 190,000 different subforums of interest. Applying a set of statistical learning approaches, we show that information about activity in non-political discussion forums alone, can very accurately predict a user's political ideology. Depending on the model, we are able to predict the economic dimension of ideology with an accuracy of up to 90.63% and the social dimension with and accuracy of up to 82.02%. In comparison, using the textual features from actual comments does not improve predictive accuracy. Our paper highlights the importance of revealed digital behaviour to complement stated preferences from digital communication when analysing human preferences and behaviour using online data.
翻訳日:2022-06-02 16:41:07 公開日:2022-06-01
# 初期視覚野における階層的変分オートエンコーダによるトップダウン推論

Top-down inference in an early visual cortex inspired hierarchical Variational Autoencoder ( http://arxiv.org/abs/2206.00436v1 )

ライセンス: Link先を確認
Ferenc Csikor (1), Bal\'azs Mesz\'ena (1), Bence Szab\'o (1), Gerg\H{o} Orb\'an (1) ((1) Department of Computational Sciences, Wigner Research Centre for Physics, Budapest, Hungary)(参考訳) 環境生成モデルにおける学習と推論としての視覚野の計算を解釈することは、神経科学と認知科学の両方において広く支持されている。 しかし、視覚皮質処理の目印である階層計算は、それに対応する十分なツールが不足しているため、生成モデルには不必要である。 ここでは,変分オートエンコーダ(vaes)の進歩に乗じて,自然画像で訓練されたスパース符号化階層vaesを用いた初期視覚野の研究を行う。 我々は2つの潜在層VAEの生成成分と認識成分の両面で異なる代替アーキテクチャを設計する。 一次および二次視覚皮質に見られるものと類似した表現は、軽度の誘導バイアスの下で自然に現れる。 重要なことに、テクスチャ様パターンの非線形表現は、二次視覚野を連想させる、VOEの特定の構造に耐性のある高レベルの潜在空間の安定な性質である。 本稿では,トップダウン処理成分を特徴とする認識モデルの神経科学的な選択が,生成モデルを用いた計算の2つのシグネチャに対して重要であることを示す。 高次応答統計のパターンは、神経科学が反応相関を解釈し、機械学習がより詳細な後部の特徴付けを通じて学習された表現を評価するためにインスピレーションを与える。

Interpreting computations in the visual cortex as learning and inference in a generative model of the environment has received wide support both in neuroscience and cognitive science. However, hierarchical computations, a hallmark of visual cortical processing, has remained impervious for generative models because of a lack of adequate tools to address it. Here we capitalize on advances in Variational Autoencoders (VAEs) to investigate the early visual cortex with sparse coding hierarchical VAEs trained on natural images. We design alternative architectures that vary both in terms of the generative and the recognition components of the two latent-layer VAE. We show that representations similar to the one found in the primary and secondary visual cortices naturally emerge under mild inductive biases. Importantly, a nonlinear representation for texture-like patterns is a stable property of the high-level latent space resistant to the specific architecture of the VAE, reminiscent of the secondary visual cortex. We show that a neuroscience-inspired choice of the recognition model, which features a top-down processing component is critical for two signatures of computations with generative models: learning higher order moments of the posterior beyond the mean and image inpainting. Patterns in higher order response statistics provide inspirations for neuroscience to interpret response correlations and for machine learning to evaluate the learned representations through more detailed characterization of the posterior.
翻訳日:2022-06-02 16:40:52 公開日:2022-06-01
# パワースペクトル密度解析によるシャッフル確率勾配アルゴリズムのばらつきの計算

Computing the Variance of Shuffling Stochastic Gradient Algorithms via Power Spectral Density Analysis ( http://arxiv.org/abs/2206.00632v1 )

ライセンス: Link先を確認
Carles Domingo-Enrich(参考訳) 有限サム最小化問題を解くとき、理論的利点を持つ確率勾配降下(SGD)の2つの一般的な選択肢はランダムリシャッフル(SGD-RR)とシャッフルオンス(SGD-SO)である。 本研究では,SGD,SGD-RR,SGD-SOの繰り返しの定常変動について検討した。 この結果を得るために,確率勾配雑音列のパワースペクトル密度について検討した。 解析はsgdから運動量でsgd, 確率的ネステロフの加速度勾配法にまで及んでいる。 我々は2次目的関数の実験を行い、近似の妥当性と結果の正しさを検証した。

When solving finite-sum minimization problems, two common alternatives to stochastic gradient descent (SGD) with theoretical benefits are random reshuffling (SGD-RR) and shuffle-once (SGD-SO), in which functions are sampled in cycles without replacement. Under a convenient stochastic noise approximation which holds experimentally, we study the stationary variances of the iterates of SGD, SGD-RR and SGD-SO, whose leading terms decrease in this order, and obtain simple approximations. To obtain our results, we study the power spectral density of the stochastic gradient noise sequences. Our analysis extends beyond SGD to SGD with momentum and to the stochastic Nesterov's accelerated gradient method. We perform experiments on quadratic objective functions to test the validity of our approximation and the correctness of our findings.
翻訳日:2022-06-02 16:40:28 公開日:2022-06-01
# 皮膚病変分節の深層学習に関する調査研究

A Survey on Deep Learning for Skin Lesion Segmentation ( http://arxiv.org/abs/2206.00356v1 )

ライセンス: Link先を確認
Zahra Mirikharaji, Catarina Barata, Kumar Abhishek, Alceu Bissoto, Sandra Avila, Eduardo Valle, M. Emre Celebi, Ghassan Hamarneh(参考訳) 皮膚がんは、この一般的な疾患の負担を軽減するためにコンピュータ支援診断の恩恵を受ける主要な公衆衛生上の問題である。 画像からの皮膚病変のセグメンテーションはこの目標を達成するための重要なステップである。 しかし、天然や人工のアーティファクト(例えば、毛髪や気泡)、本質的要因(例えば、病変の形やコントラスト)、画像取得条件の変化により、皮膚病変のセグメンテーションは困難な課題となっている。 近年,深層学習モデルの皮膚病変分類への適用性について検討している。 本調査では,深層学習に基づく皮膚病変のセグメンテーションを扱う134の研究論文を交互に検討した。 入力データ(データセット、前処理、合成データ生成)、モデル設計(アーキテクチャ、モジュール、損失)、評価側面(データアノテーション要件、セグメンテーション性能)など、いくつかの次元でこれらの動作を分析した。 本論では,選択した選択が現在の傾向にどのように影響したのか,その限界にどう対処すべきかを,体系的な観点から考察する。 比較を容易にするため,全研究成果を総合的な表にまとめる。

Skin cancer is a major public health problem that could benefit from computer-aided diagnosis to reduce the burden of this common disease. Skin lesion segmentation from images is an important step toward achieving this goal. However, the presence of natural and artificial artifacts (e.g., hair and air bubbles), intrinsic factors (e.g., lesion shape and contrast), and variations in image acquisition conditions make skin lesion segmentation a challenging task. Recently, various researchers have explored the applicability of deep learning models to skin lesion segmentation. In this survey, we cross-examine 134 research papers that deal with deep learning based segmentation of skin lesions. We analyze these works along several dimensions, including input data (datasets, preprocessing, and synthetic data generation), model design (architecture, modules, and losses), and evaluation aspects (data annotation requirements and segmentation performance). We discuss these dimensions both from the viewpoint of select seminal works, and from a systematic viewpoint, examining how those choices have influenced current trends, and how their limitations should be addressed. We summarize all examined works in a comprehensive table to facilitate comparisons.
翻訳日:2022-06-02 16:40:10 公開日:2022-06-01
# エンドツーエンド運転モデルの効率的な訓練と検証のためのデータ選択について

On the Choice of Data for Efficient Training and Validation of End-to-End Driving Models ( http://arxiv.org/abs/2206.00608v1 )

ライセンス: Link先を確認
Marvin Klingner, Konstantin M\"uller, Mona Mirzaie, Jasmin Breitenstein, Jan-Aike Term\"ohlen, Tim Fingscheidt(参考訳) データ駆動機械学習(ML)の出現は、高度に自動化された運転など、多くの複雑なタスクにおいて大きな進歩をもたらした。 このようなアプリケーションにおけるMLモデルと学習アルゴリズムの改善に多くの努力を払っているが、トレーニングデータや/またはバリデーション設定の設計方法にはほとんど注力していない。 本稿では,エンド・ツー・エンドでトレーニング可能な深部駆動モデルのトレーニングと検証に関するデータ設計選択の影響について検討する。 具体的には (i) 訓練データ量が最終運転性能に与える影響、および現在使用されている訓練データ生成メカニズムにより、どのような性能制約が引き起こされるかを検討する。 (ii)さらに相関分析により,検証中に測定した運転性能を未知のテスト環境に一般化する検証設計が可能となることを示す。 3) 最後に, ランダムシードと非決定性の影響について検討し, 改善を報告した知見を重要視する。 筆者らは,carlaシミュレータを用いた評価により,エンドツーエンド運転モデルの効率的な開発に向けたデータ生成と運転経路選択に関するレコメンデーションを提供する。

The emergence of data-driven machine learning (ML) has facilitated significant progress in many complicated tasks such as highly-automated driving. While much effort is put into improving the ML models and learning algorithms in such applications, little focus is put into how the training data and/or validation setting should be designed. In this paper we investigate the influence of several data design choices regarding training and validation of deep driving models trainable in an end-to-end fashion. Specifically, (i) we investigate how the amount of training data influences the final driving performance, and which performance limitations are induced through currently used mechanisms to generate training data. (ii) Further, we show by correlation analysis, which validation design enables the driving performance measured during validation to generalize well to unknown test environments. (iii) Finally, we investigate the effect of random seeding and non-determinism, giving insights which reported improvements can be deemed significant. Our evaluations using the popular CARLA simulator provide recommendations regarding data generation and driving route selection for an efficient future development of end-to-end driving models.
翻訳日:2022-06-02 16:39:48 公開日:2022-06-01
# 視聴覚ナビゲーションのための汎用音声表現に向けて

Towards Generalisable Audio Representations for Audio-Visual Navigation ( http://arxiv.org/abs/2206.00393v1 )

ライセンス: Link先を確認
Shunqi Mao, Chaoyi Zhang, Heng Wang, Weidong Cai(参考訳) 音声視覚ナビゲーション(avn)では、インテリジェントエージェントは、オーディオと視覚の知覚に基づいて、複雑な3d環境で常に音を作るオブジェクトにナビゲートする必要がある。 既存の手法では、貴重な設計パス計画や複雑なタスク設定でナビゲーション性能の向上を試みているが、タスク設定を変更せずに未聴音のモデル一般化を改善した方法はない。 そこで本研究では,音声エンコーダの正規化により,異なるクラスの様々な音声信号から,音声に依存しない目標駆動の潜時表現を学習する,対照的な学習手法を提案する。 さらに,学習音を豊かにするために,データ拡張戦略を2つ検討する。 我々の設計は既存のAVNフレームワークに簡単に適用でき、即時のパフォーマンス向上を得ることができる(ReplicaのSPLでは13.4%$\uparrow$、MP3DのSPLでは12.2%$\uparrow$)。 私たちのプロジェクトはhttps://AV-GeN.github.io/で公開されています。

In audio-visual navigation (AVN), an intelligent agent needs to navigate to a constantly sound-making object in complex 3D environments based on its audio and visual perceptions. While existing methods attempt to improve the navigation performance with preciously designed path planning or intricate task settings, none has improved the model generalisation on unheard sounds with task settings unchanged. We thus propose a contrastive learning-based method to tackle this challenge by regularising the audio encoder, where the sound-agnostic goal-driven latent representations can be learnt from various audio signals of different classes. In addition, we consider two data augmentation strategies to enrich the training sounds. We demonstrate that our designs can be easily equipped to existing AVN frameworks to obtain an immediate performance gain (13.4%$\uparrow$ in SPL on Replica and 12.2%$\uparrow$ in SPL on MP3D). Our project is available at https://AV-GeN.github.io/.
翻訳日:2022-06-02 16:39:15 公開日:2022-06-01
# 人々が会話を評価する方法を理解する

Understanding How People Rate Their Conversations ( http://arxiv.org/abs/2206.00167v1 )

ライセンス: Link先を確認
Alexandros Papangelis, Nicole Chartier, Pankaj Rajan, Julia Hirschberg, Dilek Hakkani-Tur(参考訳) ユーザ評価は音声対話システムにおいて重要な役割を果たす。 通常、このような評価は全ユーザー平均化され、フィードバックとしてシステムの改善や行動のパーソナライズに利用される。 この手法は,システムとその動作に関する幅広い一般的な問題を理解するのに有用であるが,評価に影響を与えるユーザ間の差異を考慮に入れない。 本研究は,会話エージェントとのインタラクションを評価する方法の理解を深める研究である。 マクロレベルの特徴は、人々が対人コミュニケーションをどのように感じているかと相関している。 特に,評価の変動を説明する変数としての適合性と外向性に注目し,トレーニングやパーソナライズにおいてより有意義なシグナルを提供する。 対話エージェントと対話する際,これらの性格特性を引き出すために,心理学の先行研究に基礎を置いた架空の物語を設計・検証した。 そして、そのストーリーを実験的な会話エージェントに実装し、ユーザーがそのストーリーを聴けるようにしました。 以上の結果から,人間-会話エージェントの相互作用においては,外向性がユーザ評価に果たす役割を担っているが,その関係が重要であるかどうかを判断するには,より多くのデータが必要であることが示唆された。 一方、同意度は、会話のレーティングにおいて統計的に重要な役割を果たす。 さらに、この話を聞くことを選択したユーザーは、概して会話体験を、そうでないユーザーよりも高く評価する可能性が高いこともわかりました。

User ratings play a significant role in spoken dialogue systems. Typically, such ratings tend to be averaged across all users and then utilized as feedback to improve the system or personalize its behavior. While this method can be useful to understand broad, general issues with the system and its behavior, it does not take into account differences between users that affect their ratings. In this work, we conduct a study to better understand how people rate their interactions with conversational agents. One macro-level characteristic that has been shown to correlate with how people perceive their inter-personal communication is personality. We specifically focus on agreeableness and extraversion as variables that may explain variation in ratings and therefore provide a more meaningful signal for training or personalization. In order to elicit those personality traits during an interaction with a conversational agent, we designed and validated a fictional story, grounded in prior work in psychology. We then implemented the story into an experimental conversational agent that allowed users to opt-in to hearing the story. Our results suggest that for human-conversational agent interactions, extraversion may play a role in user ratings, but more data is needed to determine if the relationship is significant. Agreeableness, on the other hand, plays a statistically significant role in conversation ratings: users who are more agreeable are more likely to provide a higher rating for their interaction. In addition, we found that users who opted to hear the story were, in general, more likely to rate their conversational experience higher than those who did not.
翻訳日:2022-06-02 16:37:46 公開日:2022-06-01
# (参考訳) 一時分割リワードを伴うマルチアーマッドバンド問題:部分フィードバック数について

Multi-Armed Bandit Problem with Temporally-Partitioned Rewards: When Partial Feedback Counts ( http://arxiv.org/abs/2206.00586v1 )

ライセンス: CC BY 4.0
Giulia Romano, Andrea Agostini, Francesco Trov\`o, Nicola Gatti, Marcello Restelli(参考訳) データが順次利用できる産業用オンラインアプリケーションへの関心が高まっている。 プレイリスト全体の聴取中に好みを収集できるユーザへのプレイリストの推薦にインスパイアされ、プル後に腕の引き抜きに伴う確率的報酬が有限回連続するラウンドで分割されるような、時間的に分割されたリワード付きマルチアーメッドバンド(TP-MAB)という、新しいバンドイット設定について研究する。 この設定は、われわれの知る限りでは未検証だが、遅延フィードバックバンディットの自然な拡張であり、単一の遅延ラウンドで完全に開示されるのではなく、プル後に有限時間スパンで報酬を延ばすことができる。 本稿では,TP-MAB問題,すなわちTP-UCB-FRとTP-UCB-EWの2つのアルゴリズムを提案する。 提案手法は,α-smoothness (α-smoothness) と呼ばれる幅広い報酬構造を特徴付ける特性が持つ場合,遅延フィードバックバンディットアルゴリズムよりも漸近的後悔の上限を提供する。 また,合成生成と実世界のメディアレコメンデーション問題の両方から,幅広い設定でパフォーマンスを実証的に評価した。

There is a rising interest in industrial online applications where data becomes available sequentially. Inspired by the recommendation of playlists to users where their preferences can be collected during the listening of the entire playlist, we study a novel bandit setting, namely Multi-Armed Bandit with Temporally-Partitioned Rewards (TP-MAB), in which the stochastic reward associated with the pull of an arm is partitioned over a finite number of consecutive rounds following the pull. This setting, unexplored so far to the best of our knowledge, is a natural extension of delayed-feedback bandits to the case in which rewards may be dilated over a finite-time span after the pull instead of being fully disclosed in a single, potentially delayed round. We provide two algorithms to address TP-MAB problems, namely, TP-UCB-FR and TP-UCB-EW, which exploit the partial information disclosed by the reward collected over time. We show that our algorithms provide better asymptotical regret upper bounds than delayed-feedback bandit algorithms when a property characterizing a broad set of reward structures of practical interest, namely alpha-smoothness, holds. We also empirically evaluate their performance across a wide range of settings, both synthetically generated and from a real-world media recommendation problem.
翻訳日:2022-06-02 16:34:46 公開日:2022-06-01
# フーリエ積分注意を有する変圧器

Transformer with Fourier Integral Attentions ( http://arxiv.org/abs/2206.00206v1 )

ライセンス: Link先を確認
Tan Nguyen and Minh Pham and Tam Nguyen and Khai Nguyen and Stanley J. Osher and Nhat Ho(参考訳) マルチヘッドアテンションは、シークエンスモデリングなどにおいて顕著な成功を収めた最先端のモデルであるトランスフォーマーの最近の成功を促進する。 これらの注意機構は、クエリとキー間のペアのドット積を計算し、クエリがガウス分布の混合に従うと仮定して、正規化されていないガウスカーネルを使用することから生じる。 この仮定が実際に有効であるという保証はない。 これに対し、まずトランスの注意を非パラメトリックカーネル回帰として解釈する。 次に、点積核を新しい一般化フーリエ積分核に置き換える新しい変圧器のクラスであるフーリエフォーマーを提案する。 データの特徴の依存性をキャプチャするよい共分散行列を選択する必要があるドット製品カーネルとは異なり、一般化されたフーリエ積分カーネルは、そのような依存性を自動的にキャプチャし、共分散行列をチューニングする必要をなくすことができる。 理論上,提案するフーリエ積分核は,任意のキー分布とクエリ分布を効率的に近似できることを実証する。 FourierFormersは従来のドット生成型変換器と比較して精度が向上し、注目ヘッド間の冗長性が低減された。 本稿では,FourierFormersのベースライントランスフォーマーに対する利点を,言語モデリングや画像分類など,様々な応用で実証的に相関付けする。

Multi-head attention empowers the recent success of transformers, the state-of-the-art models that have achieved remarkable success in sequence modeling and beyond. These attention mechanisms compute the pairwise dot products between the queries and keys, which results from the use of unnormalized Gaussian kernels with the assumption that the queries follow a mixture of Gaussian distribution. There is no guarantee that this assumption is valid in practice. In response, we first interpret attention in transformers as a nonparametric kernel regression. We then propose the FourierFormer, a new class of transformers in which the dot-product kernels are replaced by the novel generalized Fourier integral kernels. Different from the dot-product kernels, where we need to choose a good covariance matrix to capture the dependency of the features of data, the generalized Fourier integral kernels can automatically capture such dependency and remove the need to tune the covariance matrix. We theoretically prove that our proposed Fourier integral kernels can efficiently approximate any key and query distributions. Compared to the conventional transformers with dot-product attention, FourierFormers attain better accuracy and reduce the redundancy between attention heads. We empirically corroborate the advantages of FourierFormers over the baseline transformers in a variety of practical applications including language modeling and image classification.
翻訳日:2022-06-02 16:02:36 公開日:2022-06-01
# リニア関数近似を用いた高効率生涯強化学習

Provably Efficient Lifelong Reinforcement Learning with Linear Function Approximation ( http://arxiv.org/abs/2206.00270v1 )

ライセンス: Link先を確認
Sanae Amani, Lin F. Yang, Ching-An Cheng(参考訳) 本稿では,リニアコンテキストマルコフ決定過程 (MDP) の最小化過程において, エージェントがタスクのストリーミングシーケンスを解きながらマルチタスクポリシーを学習する必要がある場合において, 生涯強化学習(RL)について検討する。 本稿では,UCB Lifelong Value Distillation (UCBlvd) と呼ばれるアルゴリズムを提案する。 注目すべきは、我々のアルゴリズムは計画呼び出しのサブリニア数のみを使用するため、エージェントは計画を立てる必要なしに複数のタスク(見えるか見えないか)に対してほぼ最適なポリシーを学ぶことになる。 この性質の鍵は、探索中にタスク間の計算共有を可能にする新しい構造的仮定である。 具体的には、水平線$H$のタスクエピソード$K$に対して、我々のアルゴリズムは、$\tilde{\mathcal{O}}(\sqrt{(d^3+d^\prime d)H^4K})$に対して、$\mathcal{O}(dH\log(K))$のプランニングコール数に基づいて、それぞれ$d$と$d^\prime$が動的および報酬の特徴次元である。 この理論的な保証は、アルゴリズムが生涯学習エージェントが経験を蓄積し、新しいタスクを迅速に解くことを可能にすることを意味する。

We study lifelong reinforcement learning (RL) in a regret minimization setting of linear contextual Markov decision process (MDP), where the agent needs to learn a multi-task policy while solving a streaming sequence of tasks. We propose an algorithm, called UCB Lifelong Value Distillation (UCBlvd), that provably achieves sublinear regret for any sequence of tasks, which may be adaptively chosen based on the agent's past behaviors. Remarkably, our algorithm uses only sublinear number of planning calls, which means that the agent eventually learns a policy that is near optimal for multiple tasks (seen or unseen) without the need of deliberate planning. A key to this property is a new structural assumption that enables computation sharing across tasks during exploration. Specifically, for $K$ task episodes of horizon $H$, our algorithm has a regret bound $\tilde{\mathcal{O}}(\sqrt{(d^3+d^\prime d)H^4K})$ based on $\mathcal{O}(dH\log(K))$ number of planning calls, where $d$ and $d^\prime$ are the feature dimensions of the dynamics and rewards, respectively. This theoretical guarantee implies that our algorithm can enable a lifelong learning agent to accumulate experiences and learn to rapidly solve new tasks.
翻訳日:2022-06-02 16:02:13 公開日:2022-06-01
# コンバージョンモデルのためのナップサック付きコンテキストバンディット

Contextual Bandits with Knapsacks for a Conversion Model ( http://arxiv.org/abs/2206.00314v1 )

ライセンス: Link先を確認
Zhen Li, Gilles Stoltz (LMO, CELESTE)(参考訳) 我々は、報酬とコストベクターの間の基盤構造を持つ、knapsackによる文脈的包帯を考える。 私たちは商業割引で販売を動機付けている。 各ラウンドにおいて、確率的 i.i.d.\コンテキスト$\mathbf{x}_t$ と、arm が $a_t$ を選択(例えば、ディスカウントレベル)すると、顧客変換が得られ、r(a,\mathbf{x}_t)$ が得られ、ベクターコスト $c(a_t,\mathbf{x}_t)$ が負担される(例えば、利益の損失)。 そうでなければ、変換がない場合、報酬とコストはヌルである。 これにより得られる報酬とコストは、バイナリ変数計測変換またはその欠如によって結合される。 この報酬とコストの基本的な構造は、agrawal と devanur [2016] が考える線形構造とは異なるが、本項で紹介する手法が後者の場合にも適用可能であることを示す。 すなわち、a$ と $\mathbf{x}$ が与えられる変換の確率の高信頼推定に基づく線形プログラムの各ラウンドにおいて、提示された適応ポリシーが解決される。 この種のポリシーは、最も自然なものであり、典型的な順序 (OPT/$B$) $\sqrt{T}$ の後悔の限界を達成する。

We consider contextual bandits with knapsacks, with an underlying structure between rewards generated and cost vectors suffered. We do so motivated by sales with commercial discounts. At each round, given the stochastic i.i.d.\ context $\mathbf{x}_t$ and the arm picked $a_t$ (corresponding, e.g., to a discount level), a customer conversion may be obtained, in which case a reward $r(a,\mathbf{x}_t)$ is gained and vector costs $c(a_t,\mathbf{x}_t)$ are suffered (corresponding, e.g., to losses of earnings). Otherwise, in the absence of a conversion, the reward and costs are null. The reward and costs achieved are thus coupled through the binary variable measuring conversion or the absence thereof. This underlying structure between rewards and costs is different from the linear structures considered by Agrawal and Devanur [2016] but we show that the techniques introduced in this article may also be applied to the latter case. Namely, the adaptive policies exhibited solve at each round a linear program based on upper-confidence estimates of the probabilities of conversion given $a$ and $\mathbf{x}$. This kind of policy is most natural and achieves a regret bound of the typical order (OPT/$B$) $\sqrt{T}$, where $B$ is the total budget allowed, OPT is the optimal expected reward achievable by a static policy, and $T$ is the number of rounds.
翻訳日:2022-06-02 16:01:39 公開日:2022-06-01
# 忘れずに転送する

Transfer without Forgetting ( http://arxiv.org/abs/2206.00388v1 )

ライセンス: Link先を確認
Matteo Boschini, Lorenzo Bonicelli, Angelo Porrello, Giovanni Bellitto, Matteo Pennisi, Simone Palazzo, Concetto Spampinato, Simone Calderara(参考訳) 本研究では,連続学習(CL)と移動学習(TL)の絡み合いについて検討する。 特に,ネットワーク事前学習の広範な適用に光を当てて,それが大惨事的忘れ込みの対象となることを強調した。 残念ながら、この問題は後続のタスクにおける知識伝達の過小評価につながる。 そこで本研究では,固定事前学習された兄弟ネットワーク上に構築したハイブリッド連続転送学習手法であるtwf(transfer without forgetting)を提案する。 実験の結果、TwFはさまざまな設定で他のCLメソッドよりも着実に優れており、さまざまなデータセットと異なるバッファサイズでクラスインクリメンタルな精度が平均4.81%向上していることがわかった。

This work investigates the entanglement between Continual Learning (CL) and Transfer Learning (TL). In particular, we shed light on the widespread application of network pretraining, highlighting that it is itself subject to catastrophic forgetting. Unfortunately, this issue leads to the under-exploitation of knowledge transfer during later tasks. On this ground, we propose Transfer without Forgetting (TwF), a hybrid Continual Transfer Learning approach building upon a fixed pretrained sibling network, which continuously propagates the knowledge inherent in the source domain through a layer-wise loss term. Our experiments indicate that TwF steadily outperforms other CL methods across a variety of settings, averaging a 4.81% gain in Class-Incremental accuracy over a variety of datasets and different buffer sizes.
翻訳日:2022-06-02 16:01:06 公開日:2022-06-01
# 分散処理効果修飾器の特徴選択

Feature Selection for Discovering Distributional Treatment Effect Modifiers ( http://arxiv.org/abs/2206.00516v1 )

ライセンス: Link先を確認
Yoichi Chikahara, Makoto Yamada, Hisashi Kashima(参考訳) 治療効果の違いに関連する特徴を見つけることは、根底にある因果メカニズムを明らかにするために不可欠である。 既存の手法では,特徴属性がCATE(Cit conditional average treatment effect)の程度にどの程度大きく影響するかを測定することで,そのような特徴を求める。 しかし、これらの手法は平均処理効果の測定値であるCATEが平均以外の分布パラメータの違い(例えば分散)を検出できないため、重要な特徴を見落としてしまう可能性がある。 既存手法の弱さを解消するために, 分布的処理効果修飾子の発見のための特徴選択フレームワークを提案する。 まず,特徴属性が潜在的結果分布の差にどの程度強く影響するかを定量化する特徴重要度尺度を定式化する。 次に,計算効率のよい推定器を導出し,I型エラー率を所望のレベルまで制御できる特徴選択アルゴリズムを開発した。 実験の結果,本フレームワークは重要な特徴を発見し,既存の平均法よりも優れていた。

Finding the features relevant to the difference in treatment effects is essential to unveil the underlying causal mechanisms. Existing methods seek such features by measuring how greatly the feature attributes affect the degree of the {\it conditional average treatment effect} (CATE). However, these methods may overlook important features because CATE, a measure of the average treatment effect, cannot detect differences in distribution parameters other than the mean (e.g., variance). To resolve this weakness of existing methods, we propose a feature selection framework for discovering {\it distributional treatment effect modifiers}. We first formulate a feature importance measure that quantifies how strongly the feature attributes influence the discrepancy between potential outcome distributions. Then we derive its computationally efficient estimator and develop a feature selection algorithm that can control the type I error rate to the desired level. Experimental results show that our framework successfully discovers important features and outperforms the existing mean-based method.
翻訳日:2022-06-02 16:00:54 公開日:2022-06-01
# 効率的な注意力の比較

Fair Comparison between Efficient Attentions ( http://arxiv.org/abs/2206.00244v1 )

ライセンス: Link先を確認
Jiuk Hong, Chaehyeon Lee, Soyoun Bang and Heechul Jung(参考訳) トランスフォーマーは様々な分野で成功し、コンピュータビジョンの標準的なツールになりつつある。 しかし、変圧器のコアコンポーネントである自己注意は2次複雑性問題を持ち、密接な予測を必要とする様々な視覚タスクにおける変圧器の使用を制限する。 この問題を解決するための多くの研究が提案されている。 しかし、異なるモデル構成、トレーニングスキーム、新しい手法により、同様の尺度を用いたこれらの手法の比較研究は報告されていない。 本稿では,imagenet1k分類タスクにおいて,注意操作のみを変更し,どの注意がよいかを調べることにより,これらの効率的な注意モデルを検証する。

Transformers have been successfully used in various fields and are becoming the standard tools in computer vision. However, self-attention, a core component of transformers, has a quadratic complexity problem, which limits the use of transformers in various vision tasks that require dense prediction. Many studies aiming at solving this problem have been reported proposed. However, no comparative study of these methods using the same scale has been reported due to different model configurations, training schemes, and new methods. In our paper, we validate these efficient attention models on the ImageNet1K classification task by changing only the attention operation and examining which efficient attention is better.
翻訳日:2022-06-02 15:59:54 公開日:2022-06-01
# 一般化教師付きコントラスト学習フレームワーク

A Generalized Supervised Contrastive Learning Framework ( http://arxiv.org/abs/2206.00384v1 )

ライセンス: Link先を確認
Jaewon Kim, Jooyoung Chang, Sang Min Park(参考訳) 自己指導型表現学習におけるコントラスト学習の最近の顕著な成果に基づき、教師付きコントラスト学習(SupCon)は、バッチコントラスト学習を教師付きコンテキストに拡張し、ResNet上の様々なデータセット上で優れたクロスエントロピーを実現した。 本稿では,現代画像ベース正規化(Mixup-Cutmixなど)と知識蒸留(KD)をシームレスに適応する汎用教師付きコントラスト学習フレームワークGenSCLを,一般化教師付きコントラスト学習によりSupConに提示する。 一般化された教師付きコントラスト損失は、ラベルの類似性と潜在特徴の相互エントロピーを測定する教師付きコントラスト損失のさらなる拡張である。 そして、モデルがどれだけのコントラストを潜在空間のアンカーに近づけるべきかを学ぶことができる。 ラベル情報を明示的に完全に活用することにより、GenSCLは従来の正と負の境界を破り、事前学習された教師分類器を利用できる。 GenSCLでMixup-CutmixとKDでトレーニングされたResNet-50は、外部データなしでCIFAR10とCIFAR100で97.6%と84.7%の最先端の精度を実現し、オリジナルのSupCon(それぞれ1.6%と8.2%)で報告された結果を大幅に改善した。 pytorchの実装はhttps://t.ly/yuuoで利用可能である。

Based on recent remarkable achievements of contrastive learning in self-supervised representation learning, supervised contrastive learning (SupCon) has successfully extended the batch contrastive approaches to the supervised context and outperformed cross-entropy on various datasets on ResNet. In this work, we present GenSCL: a generalized supervised contrastive learning framework that seamlessly adapts modern image-based regularizations (such as Mixup-Cutmix) and knowledge distillation (KD) to SupCon by our generalized supervised contrastive loss. Generalized supervised contrastive loss is a further extension of supervised contrastive loss measuring cross-entropy between the similarity of labels and that of latent features. Then a model can learn to what extent contrastives should be pulled closer to an anchor in the latent space. By explicitly and fully leveraging label information, GenSCL breaks the boundary between conventional positives and negatives, and any kind of pre-trained teacher classifier can be utilized. ResNet-50 trained in GenSCL with Mixup-Cutmix and KD achieves state-of-the-art accuracies of 97.6% and 84.7% on CIFAR10 and CIFAR100 without external data, which significantly improves the results reported in the original SupCon (1.6% and 8.2%, respectively). Pytorch implementation is available at https://t.ly/yuUO.
翻訳日:2022-06-02 15:59:01 公開日:2022-06-01
# 対比主成分学習:拡張重なりによる類似性のモデル化

Contrastive Principal Component Learning: Modeling Similarity by Augmentation Overlap ( http://arxiv.org/abs/2206.00471v1 )

ライセンス: Link先を確認
Lu Han, Han-Jia Ye, De-Chuan Zhan(参考訳) 従来の自己教師付きコントラスト学習手法は、同じサンプルのビューをまとめ、異なるサンプルのビューをプッシュすることで埋め込みを学習する。 サンプルのビューは通常、データ拡張によって生成されるため、サンプル間のセマンティックな関係は無視される。 意味的に類似したサンプルが類似した増量を持つ可能性が高いという観測に基づいて、増量分布、すなわち2つのサンプルの増分がどれだけ重なり合うかを通して類似度を測定することを提案する。 次元的および計算的複雑性に対処するために,コントラスト的損失とオンザフライ射影損失からなる新しいコントラスト主成分学習(cpcl)法を提案する。 cpclにより、学習された低次元埋め込みは理論的にサンプル間の拡張分布の類似性を保存する。 実験の結果,様々なベンチマークにおいて,従来のコントラスト学習法と競合する結果が得られることがわかった。

Traditional self-supervised contrastive learning methods learn embeddings by pulling views of the same sample together and pushing views of different samples away. Since views of a sample are usually generated via data augmentations, the semantic relationship between samples is ignored. Based on the observation that semantically similar samples are more likely to have similar augmentations, we propose to measure similarity via the distribution of augmentations, i.e., how much the augmentations of two samples overlap. To handle the dimensional and computational complexity, we propose a novel Contrastive Principal Component Learning (CPCL) method composed of a contrastive-like loss and an on-the-fly projection loss to efficiently perform PCA on the augmentation feature, which encodes the augmentation distribution. By CPCL, the learned low-dimensional embeddings theoretically preserve the similarity of augmentation distribution between samples. Empirical results show our method can achieve competitive results against various traditional contrastive learning methods on different benchmarks.
翻訳日:2022-06-02 15:58:32 公開日:2022-06-01
# 私の隣人はどこですか。 自己監督型視覚変換器の爆発的パッチ関係

Where are my Neighbors? Exploiting Patches Relations in Self-Supervised Vision Transformer ( http://arxiv.org/abs/2206.00481v1 )

ライセンス: Link先を確認
Guglielmo Camporese, Elena Izzo, Lamberto Ballan(参考訳) ビジョントランスフォーマー(ViT)は、大きなデータセットでトレーニングされた時に印象的なパフォーマンスを示す視覚タスクにトランスフォーマーアーキテクチャを使用可能にする。 しかし、比較的小さなデータセットでは、誘導バイアスがないため、ViTは精度が低い。 そこで本研究では,外部アノテーションを使わずに結果を著しく改善できる,シンプルな自己教師付き学習(SSL)戦略を提案する。 具体的には、ダウンストリームトレーニングの前後で、モデルが解決しなければならないイメージパッチの関係に基づいてSSLタスクのセットを定義する。 ViTと異なり、我々のRelViTモデルは画像パッチに関連するトランスフォーマーエンコーダの出力トークンをすべて最適化し、トレーニングステップ毎により多くのトレーニング信号を利用する。 提案手法を複数の画像ベンチマークで検討したところ、RelViTはSSLの状態を、特に小さなデータセットにおいて大きなマージンで改善することがわかった。

Vision Transformers (ViTs) enabled the use of transformer architecture on vision tasks showing impressive performances when trained on big datasets. However, on relatively small datasets, ViTs are less accurate given their lack of inductive bias. To this end, we propose a simple but still effective self-supervised learning (SSL) strategy to train ViTs, that without any external annotation, can significantly improve the results. Specifically, we define a set of SSL tasks based on relations of image patches that the model has to solve before or jointly during the downstream training. Differently from ViT, our RelViT model optimizes all the output tokens of the transformer encoder that are related to the image patches, thus exploiting more training signal at each training step. We investigated our proposed methods on several image benchmarks finding that RelViT improves the SSL state-of-the-art methods by a large margin, especially on small datasets.
翻訳日:2022-06-02 15:58:13 公開日:2022-06-01
# 戦略的ボーナスによるオフラインマルチエージェント強化学習の可能性

Provably Efficient Offline Multi-agent Reinforcement Learning via Strategy-wise Bonus ( http://arxiv.org/abs/2206.00159v1 )

ライセンス: Link先を確認
Qiwen Cui and Simon S. Du(参考訳) 本稿ではオフラインマルチエージェント強化学習について考察する。 本研究では, 協調行動空間における各点の信頼区間を構成する点集中原則とは対照的に, 統合戦略の信頼区間を直接構築する戦略的集中原理を提案する。 2人のプレイヤーのゼロサムマルコフゲームに対して、戦略的なボーナスの凸性を利用して、サンプルの複雑さが従来のポイントワイドボーナスに基づく手法よりもアクションの数により良い依存を享受する計算効率の良いアルゴリズムを提案する。 さらに、オフラインマルチエージェント汎用サムマルコフゲームでは、戦略的なボーナスと新しいサロゲート関数に基づいて、サンプル複雑性が$\sum_{i=1}^ma_i$ しかスケールしない最初のアルゴリズムを与え、ここで$a_i$は$i$-thプレーヤーのアクションサイズ、$m$はプレイヤー数とする。 対照的に、ポイントワイドボーナスに基づくメソッドのサンプル複雑性は、マルチエージェントの呪いのため、ジョイントアクション空間 $\Pi_{i=1}^m A_i$ のサイズにスケールする。 最後に、我々のアルゴリズムは、自然に指定された戦略クラスである$\Pi$を入力として取り、$\Pi$の最良の戦略に近い戦略を出力することができる。 この設定では、サンプル複雑性は$\sum_{i=1}^mA_i$の代わりに$\log |\Pi|$でしかスケールしない。

This paper considers offline multi-agent reinforcement learning. We propose the strategy-wise concentration principle which directly builds a confidence interval for the joint strategy, in contrast to the point-wise concentration principle that builds a confidence interval for each point in the joint action space. For two-player zero-sum Markov games, by exploiting the convexity of the strategy-wise bonus, we propose a computationally efficient algorithm whose sample complexity enjoys a better dependency on the number of actions than the prior methods based on the point-wise bonus. Furthermore, for offline multi-agent general-sum Markov games, based on the strategy-wise bonus and a novel surrogate function, we give the first algorithm whose sample complexity only scales $\sum_{i=1}^mA_i$ where $A_i$ is the action size of the $i$-th player and $m$ is the number of players. In sharp contrast, the sample complexity of methods based on the point-wise bonus would scale with the size of the joint action space $\Pi_{i=1}^m A_i$ due to the curse of multiagents. Lastly, all of our algorithms can naturally take a pre-specified strategy class $\Pi$ as input and output a strategy that is close to the best strategy in $\Pi$. In this setting, the sample complexity only scales with $\log |\Pi|$ instead of $\sum_{i=1}^mA_i$.
翻訳日:2022-06-02 15:57:14 公開日:2022-06-01
# DM$^2$:分散マルチエージェント強化学習による分散マッチング

DM$^2$: Distributed Multi-Agent Reinforcement Learning for Distribution Matching ( http://arxiv.org/abs/2206.00233v1 )

ライセンス: Link先を確認
Caroline Wang, Ishan Durugkar, Elad Liebman, Peter Stone(参考訳) マルチエージェント協調に対する現在のアプローチは、収束を確保するために集中型メカニズムや明示的な通信プロトコルに大きく依存している。 本稿では,明示的なコーディネーション方式を使わずに分散マルチエージェント学習の課題を考察する。 提案されたアルゴリズム (dm$^2$) は分散マッチングを利用して独立エージェントの協調を促進する。 各エージェントは、共同専門家ポリシーから同時にサンプリングされた軌道のターゲット分布と一致する。 理論的分析により,各エージェントがそれぞれの分布マッチング目標を最適化した場合,各エージェントは共同専門家ポリシーに適合する目的の下位境界を増大させ,共同専門家ポリシーへの収束を可能にすることが示された。 さらに、分布整合目標が共同作業と一致している場合、環境報酬と分布整合報酬の組み合わせは同じ平衡となる。 starcraftドメインの実験的な検証は、分散マッチングに対する報酬と環境報酬の組み合わせによって、エージェントが完全に分散されたベースラインを上回ることができることを示している。 さらなる実験は、完全に分散されたベースラインを上回るために、専門家のデモンストレーションをサンプリングする必要がある条件を調査する。

Current approaches to multi-agent cooperation rely heavily on centralized mechanisms or explicit communication protocols to ensure convergence. This paper studies the problem of distributed multi-agent learning without resorting to explicit coordination schemes. The proposed algorithm (DM$^2$) leverages distribution matching to facilitate independent agents' coordination. Each individual agent matches a target distribution of concurrently sampled trajectories from a joint expert policy. The theoretical analysis shows that under some conditions, if each agent optimizes their individual distribution matching objective, the agents increase a lower bound on the objective of matching the joint expert policy, allowing convergence to the joint expert policy. Further, if the distribution matching objective is aligned with a joint task, a combination of environment reward and distribution matching reward leads to the same equilibrium. Experimental validation on the StarCraft domain shows that combining the reward for distribution matching with the environment reward allows agents to outperform a fully distributed baseline. Additional experiments probe the conditions under which expert demonstrations need to be sampled in order to outperform the fully distributed baseline.
翻訳日:2022-06-02 15:56:51 公開日:2022-06-01
# 選好ランキングのためのニューラル改善ヒューリスティックス

Neural Improvement Heuristics for Preference Ranking ( http://arxiv.org/abs/2206.00383v1 )

ライセンス: Link先を確認
Andoni I. Garmendia, Josu Ceberio, Alexander Mendiburu(参考訳) 近年、深層学習に基づく手法は組合せ最適化の分野では革命的手法となっている。 彼らは近似解を学び、同様の分布から引き起こされる反復的な問題を扱うときに興味深い選択となる。 ほとんどの努力は神経構築的手法の研究に費やされているが、候補解を反復的に改善するニューラルモデルを提案する研究は少ない頻度で行われている。 本稿では,グラフに基づく組合せ問題に対するニューラル改善(ni)モデルを提案する。 本モデルでは, ソリューションの品質向上のために, 項目の相互優先の修正を提案する。 ニューラルヒルクライマーやその他の軌道に基づく手法のビルディングブロックとして適用することで,モデルの実用性を実証する。 これらのアルゴリズムは、優先度ランキング問題の解法として用いられ、シミュレーションや実世界のデータにおいて従来の方法よりも優れていることを示す。 実験の結果,提案モデルが軌道最適化アルゴリズム開発におけるマイルストーンとなりうることが明らかとなった。

In recent years, Deep Learning based methods have been a revolution in the field of combinatorial optimization. They learn to approximate solutions and constitute an interesting choice when dealing with repetitive problems drawn from similar distributions. Most effort has been devoted to investigating neural constructive methods, while the works that propose neural models to iteratively improve a candidate solution are less frequent. In this paper, we present a Neural Improvement (NI) model for graph-based combinatorial problems that, given an instance and a candidate solution, encodes the problem information by means of edge features. Our model proposes a modification on the pairwise precedence of items to increase the quality of the solution. We demonstrate the practicality of the model by applying it as the building block of a Neural Hill Climber and other trajectory-based methods. The algorithms are used to solve the Preference Ranking Problem and results show that they outperform conventional alternatives in simulated and real-world data. Conducted experiments also reveal that the proposed model can be a milestone in the development of efficiently guided trajectory-based optimization algorithms.
翻訳日:2022-06-02 15:56:33 公開日:2022-06-01
# (参考訳) 構造幻覚変圧器カスケードによる極床計画再構成

Extreme Floorplan Reconstruction by Structure-Hallucinating Transformer Cascades ( http://arxiv.org/abs/2206.00645v1 )

ライセンス: CC BY 4.0
Sepidehsadat Hosseini, Yasutaka Furukawa(参考訳) 本稿では,エクストリームフロアプラン再構築タスク,新しいタスクベンチマーク,ニューラルネットワークアーキテクチャを解として提示する。 パノラマ画像から推定またはキュレートされた部分的なフロアプランの再構築を前提として、見えない建築構造を含む完全なフロアプランの再構築を行う。 ニューラルネットワークの提案 1)畳み込みニューラルネットワークとトランスフォーマによって入力された部分床版を一連の潜在ベクトルに符号化する。 2) トランスフォーマーデコーダをカスケードすることにより, 見えない部屋や扉を幻覚しながら, フロアプラン全体を再構築する。 定性的,定量的評価により,701戸の住宅に対するアプローチの有効性が示された。 コード、モデル、データを共有します。

This paper presents an extreme floorplan reconstruction task, a new benchmark for the task, and a neural architecture as a solution. Given a partial floorplan reconstruction inferred or curated from panorama images, the task is to reconstruct a complete floorplan including invisible architectural structures. The proposed neural network 1) encodes an input partial floorplan into a set of latent vectors by convolutional neural networks and a Transformer; and 2) reconstructs an entire floorplan while hallucinating invisible rooms and doors by cascading Transformer decoders. Qualitative and quantitative evaluations demonstrate effectiveness of our approach over the benchmark of 701 houses, outperforming the state-of-the-art reconstruction techniques. We will share our code, models, and data.
翻訳日:2022-06-02 15:56:18 公開日:2022-06-01
# クロスビュー言語モデリング : 統合クロスリンガル・クロスモーダル事前学習に向けて

Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal Pre-training ( http://arxiv.org/abs/2206.00621v1 )

ライセンス: Link先を確認
Yan Zeng, Wangchunshu Zhou, Ao Luo, Xinsong Zhang(参考訳) 本稿では,言語間相互モーダル事前学習と共有アーキテクチャと目的を統合した,シンプルで効果的な言語モデル事前学習フレームワークであるcross-view language modelingを提案する。 クロスリンガルとクロスモーダルプレトレーニングは、同じオブジェクトの2つの異なるビューを共通の意味空間に合わせるという、同じ目標を共有しています。 この目的のために、クロスビュー言語モデリングフレームワークは、マルチモーダルデータ(イメージキャプチャペア)とマルチリンガルデータ(並列文ペア)の両方を、同じオブジェクトの2つの異なるビューとして考慮し、それらの間の相互情報を条件付きマスク言語モデリングとコントラスト学習で最大化することにより、モデルを訓練する。 我々は、クロスプラットフォーム言語モデルであるCCLMを、クロスビュー言語モデリングフレームワークで事前訓練する。 マルチリンガルマルチモーダルベンチマークであるiglueと2つのマルチリンガル画像テキスト検索データセットの実験結果によると、cclmは概念的には単純であるが、以前の最先端技術よりも10%以上大きく改善されている。 特に、CCLMは、ゼロショットのクロスランガル転送により代表的英語視覚言語モデルの翻訳性能を上回る最初の多言語マルチモーダルモデルである。

In this paper, we introduce Cross-View Language Modeling, a simple and effective language model pre-training framework that unifies cross-lingual cross-modal pre-training with shared architectures and objectives. Our approach is motivated by a key observation that cross-lingual and cross-modal pre-training share the same goal of aligning two different views of the same object into a common semantic space. To this end, the cross-view language modeling framework considers both multi-modal data (i.e., image-caption pairs) and multi-lingual data (i.e., parallel sentence pairs) as two different views of the same object, and trains the model to align the two views by maximizing the mutual information between them with conditional masked language modeling and contrastive learning. We pre-train CCLM, a Cross-lingual Cross-modal Language Model, with the cross-view language modeling framework. Empirical results on IGLUE, a multi-lingual multi-modal benchmark, and two multi-lingual image-text retrieval datasets show that while conceptually simpler, CCLM significantly outperforms the prior state-of-the-art with an average absolute improvement of over 10%. Notably, CCLM is the first multi-lingual multi-modal model that surpasses the translate-test performance of representative English vision-language models by zero-shot cross-lingual transfer.
翻訳日:2022-06-02 15:54:23 公開日:2022-06-01
# 拡散に基づく生成モデルの設計空間の解明

Elucidating the Design Space of Diffusion-Based Generative Models ( http://arxiv.org/abs/2206.00364v1 )

ライセンス: Link先を確認
Tero Karras, Miika Aittala, Timo Aila, Samuli Laine(参考訳) 拡散に基づく生成モデルの理論と実践は、現在不要に畳み込まれており、具体的な設計の選択を明確に分離した設計空間を提示して状況を改善することを目指している。 これにより、サンプリングおよびトレーニングプロセスとスコアネットワークのプレコンディショニングの両方にいくつかの変更が特定できます。 その結果,CIFAR-10では1.79FID,非条件設定では1.97FID,以前の設計よりはるかに高速なサンプリング(画像毎の35ネットワーク評価)が可能となった。 さらにモジュール性を示すために,既存のimagenet-64モデルのfidを2.07から約1.55まで改善することを含め,事前学習したスコアネットワークで得られる効率と品質を劇的に改善した。

We argue that the theory and practice of diffusion-based generative models are currently unnecessarily convoluted and seek to remedy the situation by presenting a design space that clearly separates the concrete design choices. This lets us identify several changes to both the sampling and training processes, as well as preconditioning of the score networks. Together, our improvements yield new state-of-the-art FID of 1.79 for CIFAR-10 in a class-conditional setting and 1.97 in an unconditional setting, with much faster sampling (35 network evaluations per image) than prior designs. To further demonstrate their modular nature, we show that our design changes dramatically improve both the efficiency and quality obtainable with pre-trained score networks from previous work, including improving the FID of an existing ImageNet-64 model from 2.07 to near-SOTA 1.55.
翻訳日:2022-06-02 15:53:57 公開日:2022-06-01
# PhoBERT-CNNとソーシャルメディアストリーミングデータを用いたベトナムのヘイトと攻撃検出

Vietnamese Hate and Offensive Detection using PhoBERT-CNN and Social Media Streaming Data ( http://arxiv.org/abs/2206.00524v1 )

ライセンス: Link先を確認
Khanh Q. Tran and An T. Nguyen and Phu Gia Hoang and Canh Duc Luu and Trong-Hop Do and Kiet Van Nguyen(参考訳) 社会は、健康で安全な環境を構築するために、憎悪と悪を検知するシステムを開発する必要がある。 しかし、この分野の現在の研究は、未処理の事前処理技術、データ不均衡の問題への無関心、控えめなパフォーマンスモデル、実用的な応用の欠如を含む4つの大きな欠点に直面している。 本稿では,これらの問題点に対処可能なインテリジェントシステムの開発に焦点をあてる。 まず,ベトナムのソーシャルメディアから収集したコメントをきれいにするための効率的な前処理手法を提案する。 次に,ベトナムにおける課題解決のために,事前学習されたPhoBERTモデルとText-CNNモデルを組み合わせた新しいヘイトスピーチ検出(HSD)モデルを提案した。 第3に,不均衡なデータを扱うためにEDA手法を適用し,分類モデルの性能を向上させる。 さらに,提案モデルの性能を最先端手法と比較し,検討するためのベースラインとして様々な実験を行った。 実験の結果,提案したPhoBERT-CNNモデルはSOTA法より優れており,2つのベンチマークデータセット(ViHSDとHSD-VLSP)でそれぞれ67,46%,98,45%のF1スコアを達成した。 最後に,提案システムの実用性を示すために,ストリーミングhsdアプリケーションを構築した。

Society needs to develop a system to detect hate and offense to build a healthy and safe environment. However, current research in this field still faces four major shortcomings, including deficient pre-processing techniques, indifference to data imbalance issues, modest performance models, and lacking practical applications. This paper focused on developing an intelligent system capable of addressing these shortcomings. Firstly, we proposed an efficient pre-processing technique to clean comments collected from Vietnamese social media. Secondly, a novel hate speech detection (HSD) model, which is the combination of a pre-trained PhoBERT model and a Text-CNN model, was proposed for solving tasks in Vietnamese. Thirdly, EDA techniques are applied to deal with imbalanced data to improve the performance of classification models. Besides, various experiments were conducted as baselines to compare and investigate the proposed model's performance against state-of-the-art methods. The experiment results show that the proposed PhoBERT-CNN model outperforms SOTA methods and achieves an F1-score of 67,46% and 98,45% on two benchmark datasets, ViHSD and HSD-VLSP, respectively. Finally, we also built a streaming HSD application to demonstrate the practicality of our proposed system.
翻訳日:2022-06-02 15:53:31 公開日:2022-06-01
# 深部X-Risk最適化のアルゴリズム基礎

Algorithmic Foundation of Deep X-Risk Optimization ( http://arxiv.org/abs/2206.00439v1 )

ライセンス: Link先を確認
Tianbao Yang(参考訳) X-riskは、構成測度や目的の族を表現するために導入された用語で、各データポイントを、リスク関数を定義するために明示的にまたは暗黙的にデータポイントの集合と比較する。 例えば、AUROC, AUPRC, partial AUROC, NDCG, MAP, top-$K$ NDCG, top-$K$ MAP, listwise loss, p-norm push, top push, precision/recall at top $K$ position, precision at a certain recall level, contrastive objectivesなどである。 これらの尺度/目的とその最適化アルゴリズムは、機械学習、コンピュータビジョン、情報検索などの文献で研究されているが、これらの尺度/目的の最適化は、ディープラーニングに特有の課題に遭遇している。 本稿では,そのアルゴリズム基盤に焦点をあてて,最近のDXO(Deep X-risk Optimization)の厳密な取り組みについて調査する。 深層学習のためのXリスク最適化手法のクラスを導入する。 dxoを,非凸ミニマックス最適化,非凸合成最適化,非凸二レベル最適化に属する3種類の非凸最適化問題に定式化する。 それぞれの問題に対して,既存の結果を改善するためのさらなる研究の動機となる強固なベースラインアルゴリズムとその複雑さを示す。 最後に、提示された結果と今後の研究について論じる。

X-risk is a term introduced to represent a family of compositional measures or objectives, in which each data point is compared with a set of data points explicitly or implicitly for defining a risk function. It includes many widely used measures or objectives, e.g., AUROC, AUPRC, partial AUROC, NDCG, MAP, top-$K$ NDCG, top-$K$ MAP, listwise losses, p-norm push, top push, precision/recall at top $K$ positions, precision at a certain recall level, contrastive objectives, etc. While these measures/objectives and their optimization algorithms have been studied in the literature of machine learning, computer vision, information retrieval, and etc, optimizing these measures/objectives has encountered some unique challenges for deep learning. In this technical report, we survey our recent rigorous efforts for deep X-risk optimization (DXO) by focusing on its algorithmic foundation. We introduce a class of techniques for optimizing X-risk for deep learning. We formulate DXO into three special families of non-convex optimization problems belonging to non-convex min-max optimization, non-convex compositional optimization, and non-convex bilevel optimization, respectively. For each family of problems, we present some strong baseline algorithms and their complexities, which will motivate further research for improving the existing results. Discussions about the presented results and future studies are given at the end.
翻訳日:2022-06-02 15:53:09 公開日:2022-06-01
# リアルなディープラーニングは、善意に当てはまらないかもしれない

Realistic Deep Learning May Not Fit Benignly ( http://arxiv.org/abs/2206.00501v1 )

ライセンス: Link先を確認
Kaiyue Wen, Jiaye Teng, Jingzhao Zhang(参考訳) 良性過剰フィッティングの研究は、過剰パラメータのディープラーニングモデルの成功のための洞察を提供する。 本研究では,実環境における良質な過剰フィット現象について検討する。 ImageNetデータセット上でResNetモデルをトレーニングするなどのタスクでは、モデルは適当に適合しないことがわかった。 imagenet実験で良性過剰フィッティングが失敗した理由を理解するため、従来の良性過剰フィッティングモデルを、パラメータ数がデータポイント数よりも大きくない、より制限的な設定で分析する。 この軽度の過度パラメータ設定では,重度の過度パラメータ設定とは異なり,ラベルノイズの存在下では良性オーバーフィッティングが失敗する可能性がある。 本研究は経験的観察を説明し,モデルの一般化性能を高める自己学習と呼ばれる単純な手法を自然に導く。 さらに、我々の研究は、不適合な体制を将来の方向性として理解することの重要性を強調している。

Studies on benign overfitting provide insights for the success of overparameterized deep learning models. In this work, we examine the benign overfitting phenomena in real-world settings. We found that for tasks such as training a ResNet model on ImageNet dataset, the model does not fit benignly. To understand why benign overfitting fails in the ImageNet experiment, we analyze previous benign overfitting models under a more restrictive setup where the number of parameters is not significantly larger than the number of data points. Under this mild overparameterization setup, our analysis identifies a phase change: unlike in the heavy overparameterization setting, benign overfitting can now fail in the presence of label noise. Our study explains our empirical observations, and naturally leads to a simple technique known as self-training that can boost the model's generalization performances. Furthermore, our work highlights the importance of understanding implicit bias in underfitting regimes as a future direction.
翻訳日:2022-06-02 15:52:42 公開日:2022-06-01
# PAGER:プログレッシブな属性ガイド付き拡張可能なロバスト画像生成

PAGER: Progressive Attribute-Guided Extendable Robust Image Generation ( http://arxiv.org/abs/2206.00162v1 )

ライセンス: Link先を確認
Zohreh Azizi and C.-C. Jay Kuo(参考訳) 本研究では,連続的部分空間学習(SSL)に基づく生成モデリング手法を提案する。 文献のほとんどの生成モデルとは異なり,本手法では,基盤となるソース分布の解析や画像の合成にはニューラルネットワークを使用しない。 得られた手法はプログレッシブ属性誘導拡張性画像生成(PAGER)モデルと呼ばれ、数学的透明性、プログレッシブコンテンツ生成、トレーニング時間の短縮、トレーニングサンプルの少ないロバストパフォーマンス、条件付き画像生成への拡張性に利点がある。 PAGERはコアジェネレータ、解像度向上器、品質向上器の3つのモジュールで構成されている。 コアジェネレータは、低解像度画像の分布を学習し、無条件画像生成を行う。 解像度エンハンサーは条件付き生成により画像解像度を増加させる。 最後に、クオリティブースターは生成された画像に細部を付加する。 PAGERの生成性能を示すために,MNIST,Fashion-MNIST,CelebAデータセットの大規模な実験を行った。

This work presents a generative modeling approach based on successive subspace learning (SSL). Unlike most generative models in the literature, our method does not utilize neural networks to analyze the underlying source distribution and synthesize images. The resulting method, called the progressive attribute-guided extendable robust image generative (PAGER) model, has advantages in mathematical transparency, progressive content generation, lower training time, robust performance with fewer training samples, and extendibility to conditional image generation. PAGER consists of three modules: core generator, resolution enhancer, and quality booster. The core generator learns the distribution of low-resolution images and performs unconditional image generation. The resolution enhancer increases image resolution via conditional generation. Finally, the quality booster adds finer details to generated images. Extensive experiments on MNIST, Fashion-MNIST, and CelebA datasets are conducted to demonstrate generative performance of PAGER.
翻訳日:2022-06-02 15:51:29 公開日:2022-06-01
# 腎臓結石画像の原型部分検出による解釈可能な深層学習分類

Interpretable Deep Learning Classifier by Detection of Prototypical Parts on Kidney Stones Images ( http://arxiv.org/abs/2206.00252v1 )

ライセンス: Link先を確認
Daniel Flores-Araiza, Francisco Lopez-Tiro, Elias Villalvazo-Avila, Jonathan El-Beze, Jacques Hubert, Gilberto Ochoa-Ruiz, Cristian Daul(参考訳) 腎臓結石の種類を特定することで、尿器科医はその形成原因を判断し、将来の再発を減らすために適切な治療の早期処方を改善することができる。 しかし、現在、関連する元vivo診断(morpho-constitutional analysis、mca)は、非常に操作性が高いビジュアル分析コンポーネントを必要とするため、時間がかかり、費用がかかり、非常に多くの経験を必要とする。 近年,生体内結石認識のための機械学習法が開発されている。 浅い手法は信頼性が高く解釈可能であるが精度が低いことが証明されているが、深層学習に基づく手法は精度が高いが説明できない。 しかし、高い利害判断は、単にそれを処方するのではなく、合理的な証拠に基づく行動の道筋を提案するために、コンピュータ支援診断(CAD)を必要とする。 本稿では,解釈可能なモデルを実現する部分プロトタイプ(PP)の学習方法を検討する。 本提案では, 腎臓結石像の分類法を提案し, mca法と類似した説明を提供する。

Identifying the type of kidney stones can allow urologists to determine their formation cause, improving the early prescription of appropriate treatments to diminish future relapses. However, currently, the associated ex-vivo diagnosis (known as morpho-constitutional analysis, MCA) is time-consuming, expensive, and requires a great deal of experience, as it requires a visual analysis component that is highly operator dependant. Recently, machine learning methods have been developed for in-vivo endoscopic stone recognition. Shallow methods have been demonstrated to be reliable and interpretable but exhibit low accuracy, while deep learning-based methods yield high accuracy but are not explainable. However, high stake decisions require understandable computer-aided diagnosis (CAD) to suggest a course of action based on reasonable evidence, rather than merely prescribe one. Herein, we investigate means for learning part-prototypes (PPs) that enable interpretable models. Our proposal suggests a classification for a kidney stone patch image and provides explanations in a similar way as those used on the MCA method.
翻訳日:2022-06-02 15:51:13 公開日:2022-06-01
# 高次注意ネットワーク

Higher-Order Attention Networks ( http://arxiv.org/abs/2206.00606v1 )

ライセンス: Link先を確認
Mustafa Hajij, Ghada Zamzmi, Theodore Papamarkou, Nina Miolane, Aldo Guzm\'an-S\'aenz, Karthikeyan Natesan Ramamurthy(参考訳) 本稿では,高次アテンションネットワーク(HOAN)について紹介する。これは,コンビナトリコンプレックス(CC)と呼ばれる一般化高次ドメイン上で定義された,注目に基づくニューラルネットワークの新たなクラスである。 ハイパーグラフと同様に、CCは抽象エンティティの集合の間の任意の集合のような関係を認める。 同時に、CCは細胞複合体に類似した階層的な高次関係の構築を許可する。 したがって、CCはハイパーグラフと細胞複合体の両方を効果的に一般化し、それらの望ましい特性を組み合わせる。 CCの豊富な組み合わせの性質を活用することで、HOANは高次ニューラルネットワークを統一するメッセージパッシングアテンションベースのネットワークの新たなクラスを定義する。 メッシュ形状解析とグラフ学習に関するタスクについての評価を行った結果,hoanは,最先端のニューラルネットワークと比較して,予測性能が優れていることが示された。

This paper introduces higher-order attention networks (HOANs), a novel class of attention-based neural networks defined on a generalized higher-order domain called a combinatorial complex (CC). Similar to hypergraphs, CCs admit arbitrary set-like relations between a collection of abstract entities. Simultaneously, CCs permit the construction of hierarchical higher-order relations analogous to those supported by cell complexes. Thus, CCs effectively generalize both hypergraphs and cell complexes and combine their desirable characteristics. By exploiting the rich combinatorial nature of CCs, HOANs define a new class of message-passing attention-based networks that unifies higher-order neural networks. Our evaluation on tasks related to mesh shape analysis and graph learning demonstrates that HOANs attain competitive, and in some examples superior, predictive performance in comparison to state-of-the-art neural networks.
翻訳日:2022-06-02 15:50:19 公開日:2022-06-01
# 運転シミュレータ画像からの車内速度変化検出に向けて

Towards view-invariant vehicle speed detection from driving simulator images ( http://arxiv.org/abs/2206.00343v1 )

ライセンス: Link先を確認
Antonio Hern\'andez Mart\'inez, David Fernandez Llorca, Iv\'an Garc\'ia Daza(参考訳) 車両の速度測定のためのカメラの使用は、誘導ループ、レーダー、レーザーといった他の技術よりもはるかにコスト効率が良い。 しかし、正確な距離推定を提供するカメラの固有の制限のため、正確な速度測定は依然として課題である。 さらに、古典的な視覚に基づく手法は、カメラと道路の間の外的キャリブレーションに非常に敏感である。 この文脈では、データ駆動アプローチの使用は興味深い選択肢として見えます。 しかし、データ収集には、高精度の速度センサと同期したカメラから実際の交通条件下でビデオを記録するための複雑でコストのかかるセットアップが必要となる。 近年、運転シミュレータ(例えば、CARLA)の使用は、単一のカメラの車両速度推定にディープラーニング技術の適用を可能にするために、大規模な合成データセットを生成するための堅牢な代替手段となることが示されている。 本稿では,異なる仮想位置における複数のカメラと,異なる外部パラメータを用いた同じ問題を考察する。 複雑な3D-CNNアーキテクチャが単一のモデルを用いて暗黙的にビュー不変速度を学習できるのか、それともビュー固有モデルの方が適切かという問題に対処する。 結果は、複数のビューのデータを持つ単一のモデルでは、カメラ固有のモデルよりも精度が向上し、ビュー不変の車両速度測定システムへの道が開けていることを示しており、非常に有望である。

The use of cameras for vehicle speed measurement is much more cost effective compared to other technologies such as inductive loops, radar or laser. However, accurate speed measurement remains a challenge due to the inherent limitations of cameras to provide accurate range estimates. In addition, classical vision-based methods are very sensitive to extrinsic calibration between the camera and the road. In this context, the use of data-driven approaches appears as an interesting alternative. However, data collection requires a complex and costly setup to record videos under real traffic conditions from the camera synchronized with a high-precision speed sensor to generate the ground truth speed values. It has recently been demonstrated that the use of driving simulators (e.g., CARLA) can serve as a robust alternative for generating large synthetic datasets to enable the application of deep learning techniques for vehicle speed estimation for a single camera. In this paper, we study the same problem using multiple cameras in different virtual locations and with different extrinsic parameters. We address the question of whether complex 3D-CNN architectures are capable of implicitly learning view-invariant speeds using a single model, or whether view-specific models are more appropriate. The results are very promising as they show that a single model with data from multiple views reports even better accuracy than camera-specific models, paving the way towards a view-invariant vehicle speed measurement system.
翻訳日:2022-06-02 15:48:24 公開日:2022-06-01
# DiVAE: Denoising Diffusion Decoderを用いたフォトリアリスティック画像合成

DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder ( http://arxiv.org/abs/2206.00386v1 )

ライセンス: Link先を確認
Jie Shi, Chenfei Wu, Jian Liang, Xiang Liu, Nan Duan(参考訳) 近年、最も成功した画像合成モデルは、画像への埋め込みを忠実に再構築するvaeライクなモデルと、画像埋め込みを生成する前のモデルを含む、異なる方法の利点を組み合わせるための多段階プロセスである。 同時に、拡散モデルは高品質な合成画像を生成する能力を示している。 本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。 我々は,拡散モデルに画像埋め込みを入力して優れた性能を得る方法について検討し,拡散のunetに対する簡単な修正が実現できることを見いだす。 ImageNetをトレーニングし、現状の成果を達成し、さらに多くのフォトリアリスティック画像を生成する。 さらに,条件合成タスクに対して自己回帰生成器をdivaeに適用し,より人力で詳細なサンプル処理を行う。

Recently most successful image synthesis models are multi stage process to combine the advantages of different methods, which always includes a VAE-like model for faithfully reconstructing embedding to image and a prior model to generate image embedding. At the same time, diffusion models have shown be capacity to generate high-quality synthetic images. Our work proposes a VQ-VAE architecture model with a diffusion decoder (DiVAE) to work as the reconstructing component in image synthesis. We explore how to input image embedding into diffusion model for excellent performance and find that simple modification on diffusion's UNet can achieve it. Training on ImageNet, Our model achieves state-of-the-art results and generates more photorealistic images specifically. In addition, we apply the DiVAE with an Auto-regressive generator on conditional synthesis tasks to perform more human-feeling and detailed samples.
翻訳日:2022-06-02 15:47:53 公開日:2022-06-01
# 変圧器の層正規化と残留接続について

On Layer Normalizations and Residual Connections in Transformers ( http://arxiv.org/abs/2206.00330v1 )

ライセンス: Link先を確認
Sho Takase, Shun Kiyono, Sosuke Kobayashi, Jun Suzuki(参考訳) 層正規化(LN)位置の観点からは、トランスフォーマーのアーキテクチャはPost-LNとPre-LNの2つのタイプに分類される。 最近のトランスフォーマーは、Post-LNの深層トランスフォーマー(例えば10層以上の層)でのトレーニングが不安定になるため、Pre-LNを選択することを好む。 しかし、対照的にPost-LNは比較的浅いトランスフォーマーではPre-LNよりも優れたパフォーマンスを実現している。 本研究はまず,これらの不規則な観測の理由を実証的および理論的に検討し,その原因として,Post-LNのLNが不安定なトレーニングを主に導く一方で,Pre-LNがそれを防ぐ一方で,Post-LNのLNが消失する勾配問題の原因となっていること,そして2。 そこで本研究では,Post-LNの簡易な修正により,高い安定性と効果的なトレーニングを両立できる手法を提案する。 テキスト生成タスクの多種多様な実験を行い,提案手法がPre-LNより優れ,浅層・深層設定にかかわらず安定したトレーニングが可能であることを示す。

In the perspective of a layer normalization (LN) position, the architecture of Transformers can be categorized into two types: Post-LN and Pre-LN. Recent Transformers prefer to select Pre-LN because the training in Post-LN with deep Transformers, e.g., ten or more layers, often becomes unstable, resulting in useless models. However, in contrast, Post-LN has also consistently achieved better performance than Pre-LN in relatively shallow Transformers, e.g., six or fewer layers. This study first investigates the reason for these discrepant observations empirically and theoretically and discovers 1, the LN in Post-LN is the source of the vanishing gradient problem that mainly leads the unstable training whereas Pre-LN prevents it, and 2, Post-LN tends to preserve larger gradient norms in higher layers during the back-propagation that may lead an effective training. Exploiting the new findings, we propose a method that can equip both higher stability and effective training by a simple modification from Post-LN. We conduct experiments on a wide range of text generation tasks and demonstrate that our method outperforms Pre-LN, and stable training regardless of the shallow or deep layer settings.
翻訳日:2022-06-02 15:47:39 公開日:2022-06-01
# オフライン強化学習におけるギャップ依存境界について

On Gap-dependent Bounds for Offline Reinforcement Learning ( http://arxiv.org/abs/2206.00177v1 )

ライセンス: Link先を確認
Xinqi Wang, Qiwen Cui and Simon S. Du(参考訳) 本稿では,オフライン強化学習におけるギャップ依存型サンプル複雑性の系統的研究を行う。 事前の作業では、最適なポリシーと行動ポリシーの間の密度比が(最適なポリシーカバレッジの仮定で)上限である場合、エージェントは$o\left(\frac{1}{\epsilon^2}\right)$レートを達成でき、これもminimax optimalである。 最適なポリシーカバレッジの仮定の下では、最適な$q$-関数に正のサブ最適ギャップがある場合、レートを$o\left(\frac{1}{\epsilon}\right)$に改善できる。 さらに, 最適政策の訪問確率が正である状態(一様最適政策カバレッジ仮定)に対して, 行動政策の訪問確率が一様低い場合, 最適な政策を特定するためのサンプル複雑性は$\frac{1}{\epsilon}$ に依存しないことを示した。 最後に、ギャップ依存上界を補うために、ほぼ一致する下界を示す。

This paper presents a systematic study on gap-dependent sample complexity in offline reinforcement learning. Prior work showed when the density ratio between an optimal policy and the behavior policy is upper bounded (the optimal policy coverage assumption), then the agent can achieve an $O\left(\frac{1}{\epsilon^2}\right)$ rate, which is also minimax optimal. We show under the optimal policy coverage assumption, the rate can be improved to $O\left(\frac{1}{\epsilon}\right)$ when there is a positive sub-optimality gap in the optimal $Q$-function. Furthermore, we show when the visitation probabilities of the behavior policy are uniformly lower bounded for states where an optimal policy's visitation probabilities are positive (the uniform optimal policy coverage assumption), the sample complexity of identifying an optimal policy is independent of $\frac{1}{\epsilon}$. Lastly, we present nearly-matching lower bounds to complement our gap-dependent upper bounds.
翻訳日:2022-06-02 15:46:47 公開日:2022-06-01
# セマンティック確率層によるニューロ・シンボリック学習

Semantic Probabilistic Layers for Neuro-Symbolic Learning ( http://arxiv.org/abs/2206.00426v1 )

ライセンス: Link先を確認
Kareem Ahmed, Stefano Teso, Kai-Wei Chang, Guy Van den Broeck, Antonio Vergari(参考訳) 我々は、ニューラルネットワークに差し込むことができる構造化出力予測(SOP)の予測層を設計し、予測が予め定義されたシンボリック制約のセットと一致していることを保証する。 セマンティクス確率層(spl)は、構造的なアウトプット空間上で複雑な相関やハード制約をモデル化できると同時に、最大確率でエンドツーエンドの学習に適しています。 SPLは正確な確率的推論と論理的推論をクリーンでモジュラーな方法で組み合わせ、複雑な分布を学習し、制約の解へのサポートを制限する。 そのため、彼らは、他のニューロシンボリックアプローチの範囲を超えた複雑なSOPタスクを忠実かつ効率的にモデル化することができる。 我々は,SPL が,階層的マルチラベル分類,パスフィンディング,選好学習など,SOP の課題において,完全な制約満足度を維持しながら,これらの課題の精度において,競争相手よりも優れていることを実証的に実証した。

We design a predictive layer for structured-output prediction (SOP) that can be plugged into any neural network guaranteeing its predictions are consistent with a set of predefined symbolic constraints. Our Semantic Probabilistic Layer (SPL) can model intricate correlations, and hard constraints, over a structured output space all while being amenable to end-to-end learning via maximum likelihood. SPLs combine exact probabilistic inference with logical reasoning in a clean and modular way, learning complex distributions and restricting their support to solutions of the constraint. As such, they can faithfully, and efficiently, model complex SOP tasks beyond the reach of alternative neuro-symbolic approaches. We empirically demonstrate that SPLs outperform these competitors in terms of accuracy on challenging SOP tasks including hierarchical multi-label classification, pathfinding and preference learning, while retaining perfect constraint satisfaction.
翻訳日:2022-06-02 15:45:05 公開日:2022-06-01
# (参考訳) 利害関係者の視点で:因果的ユーザモデリングによるロバスト予測

In the Eye of the Beholder: Robust Prediction with Causal User Modeling ( http://arxiv.org/abs/2206.00416v1 )

ライセンス: CC BY 4.0
Amir Feder, Guy Horowitz, Yoav Wald, Roi Reichart, Nir Rosenfeld(参考訳) 多くのソーシャルプラットフォームの成功には,ユーザへのアイテム関連性の正確な予測が不可欠である。 しかし、レコメンデーションシステム、メディアサービス、オンラインマーケットプレースはすべて、新しいコンテンツが常に流入していることを示している。 本稿では,データ分布の変化に頑健な関係予測のための学習フレームワークを提案する。 私たちの重要な観察は、ユーザが環境をどのように認識するかを考慮すれば、堅牢性が得られることです。 我々は,因果的信念を因果グラフで符号化した有理的意思決定者としてユーザをモデル化し,そのグラフに関する情報が分布変化とどのように競合するかを示す。 複数の環境での実験は、我々のアプローチの有効性を示しています。

Accurately predicting the relevance of items to users is crucial to the success of many social platforms. Conventional approaches train models on logged historical data; but recommendation systems, media services, and online marketplaces all exhibit a constant influx of new content -- making relevancy a moving target, to which standard predictive models are not robust. In this paper, we propose a learning framework for relevance prediction that is robust to changes in the data distribution. Our key observation is that robustness can be obtained by accounting for how users causally perceive the environment. We model users as boundedly-rational decision makers whose causal beliefs are encoded by a causal graph, and show how minimal information regarding the graph can be used to contend with distributional changes. Experiments in multiple settings demonstrate the effectiveness of our approach.
翻訳日:2022-06-02 15:41:33 公開日:2022-06-01
# (参考訳) 1つの正のラベルは十分である:ラベル強化を伴う単正のマルチラベル学習

One Positive Label is Sufficient: Single-Positive Multi-Label Learning with Label Enhancement ( http://arxiv.org/abs/2206.00517v1 )

ライセンス: CC BY 4.0
Ning Xu, Congyu Qiao, Jiaqi Lv, Xin Geng, Min-Ling Zhang(参考訳) マルチラベル学習(MLL)は、複数のラベルに関連付けられたサンプルから学習し、トレーニング例ごとに関連するラベルをアノテートするコストが高いため、現実のアプリケーションでは困難である。 この課題に対処するために,各事例に1つのラベルのみを付記した単陽性マルチラベル学習(spmll)について検討し,その問題に対する理論的根拠付きマルチラベル分類器の学習を成功させることを示す。 本稿では,ラベルエンハンスメントを用いた単一正のマルチラベル学習法である {\proposed} という新しいspmll法を提案する。 具体的には、unbiased risk estimatorが導出され、完全教師付き学習の最適リスク最小化器にほぼ収束することが保証され、各インスタンスの1つのポジティブラベルが予測モデルを訓練するのに十分であることを示す。 そして、潜在ソフトラベルの後方密度が推論モデルによりパラメータ化された変動ベータ密度に近似するラベル強化工程として潜在ソフトラベルを回収することにより、対応する経験的リスク推定装置を確立する。 ベンチマークデータセットの実験により,提案手法の有効性が検証された。

Multi-label learning (MLL) learns from the examples each associated with multiple labels simultaneously, where the high cost of annotating all relevant labels for each training example is challenging for real-world applications. To cope with the challenge, we investigate single-positive multi-label learning (SPMLL) where each example is annotated with only one relevant label and show that one can successfully learn a theoretically grounded multi-label classifier for the problem. In this paper, a novel SPMLL method named {\proposed}, i.e., Single-positive MultI-label learning with Label Enhancement, is proposed. Specifically, an unbiased risk estimator is derived, which could be guaranteed to approximately converge to the optimal risk minimizer of fully supervised learning and shows that one positive label of each instance is sufficient to train the predictive model. Then, the corresponding empirical risk estimator is established via recovering the latent soft label as a label enhancement process, where the posterior density of the latent soft labels is approximate to the variational Beta density parameterized by an inference model. Experiments on benchmark datasets validate the effectiveness of the proposed method.
翻訳日:2022-06-02 15:00:12 公開日:2022-06-01
# (参考訳) 正確な網膜血管分割のためのDeep Learning法における損失関数の影響

Impact of loss function in Deep Learning methods for accurate retinal vessel segmentation ( http://arxiv.org/abs/2206.00536v1 )

ライセンス: CC BY 4.0
Daniela Herrera and Gilberto Ochoa-Ruiz and Miguel Gonzalez-Mendoza and Christian Mata(参考訳) 眼底画像による網膜血管ネットワークの研究は、眼内だけでなく複数の疾患の診断に寄与している。 このシステムのセグメンテーションは、形態特性の定量化を支援することによって、これらの画像を分析する専門的なタスクに役立つかもしれない。 その関連性から、この問題に自動的に対処するために、Deep Learningベースのアーキテクチャがいくつかテストされている。 しかし, 複雑な網膜血管系のセグメンテーションに対する損失機能選択の影響は, 体系的に評価されていない。 本研究では, ディープラーニングアーキテクチャ(U-Net, Attention U-Net, Nested U-Net)とDRIVEデータセットを用いて, 損失関数の2次クロスエントロピー, Dice, Tversky, Combo損失の比較を行った。 AUC、平均二乗誤差、ダイススコア、ハウスドルフ距離の4つの指標を用いて、それらの性能を評価する。 モデルは、同じ数のパラメータとエポックで訓練された。 ダイススコアとAUCで最高の組み合わせはSA-UNetとComboの損失で、それぞれ0.9442と0.809であった。 6.32 と 0.0241 のダイス損失関数を持つネスト型 u-net を用いて, ハウスドルフ距離と平均二乗誤差の最良の平均値を得た。 その結果,損失関数の選択には有意な差が認められた。

The retinal vessel network studied through fundus images contributes to the diagnosis of multiple diseases not only found in the eye. The segmentation of this system may help the specialized task of analyzing these images by assisting in the quantification of morphological characteristics. Due to its relevance, several Deep Learning-based architectures have been tested for tackling this problem automatically. However, the impact of loss function selection on the segmentation of the intricate retinal blood vessel system hasn't been systematically evaluated. In this work, we present the comparison of the loss functions Binary Cross Entropy, Dice, Tversky, and Combo loss using the deep learning architectures (i.e. U-Net, Attention U-Net, and Nested UNet) with the DRIVE dataset. Their performance is assessed using four metrics: the AUC, the mean squared error, the dice score, and the Hausdorff distance. The models were trained with the same number of parameters and epochs. Using dice score and AUC, the best combination was SA-UNet with Combo loss, which had an average of 0.9442 and 0.809 respectively. The best average of Hausdorff distance and mean square error were obtained using the Nested U-Net with the Dice loss function, which had an average of 6.32 and 0.0241 respectively. The results showed that there is a significant difference in the selection of loss function
翻訳日:2022-06-02 14:45:11 公開日:2022-06-01
# (参考訳) RMT-Net:金融クレジットスコーリングにおけるミス・アット・ランダムデータのモデリングのためのリジェクト対応マルチタスクネットワーク

RMT-Net: Reject-aware Multi-Task Network for Modeling Missing-not-at-random Data in Financial Credit Scoring ( http://arxiv.org/abs/2206.00568v1 )

ライセンス: CC BY 4.0
Qiang Liu, Yingtao Luo, Shu Wu, Zhen Zhang, Xiangnan Yue, Hong Jin, Liang Wang(参考訳) 金融信用スコアでは、ローン申請を承認または拒絶することができる。 承認されたサンプルのデフォルト/非デフォルトラベルのみを観察できるが、拒否されたサンプルの観察はできない。 このようなバイアスデータに基づいてトレーニングされた機械学習モデルは、必然的に信頼できない。 本研究では,既定/非定分類タスクと拒絶/承認分類タスクが,実世界データ研究と理論的分析の両方により高い相関関係にあることを見出した。 その結果、デフォルト/非デフォルトの学習は拒絶/承認の恩恵を受けることができる。 そこで我々は,マルチタスク学習 (mtl) を用いたバイアス付きクレジットスコアデータのモデル化を初めて提案する。 具体的には,拒絶/承認タスクから既定/非デフォルトタスクへの情報共有を制御するタスク重みを,拒絶確率に基づいてゲーティングネットワークによって学習する,新たな拒絶対応マルチタスクネットワーク(rmt-net)を提案する。 RMT-Netは、拒絶確率が大きいほど、デフォルト/非デフォルトタスクが拒絶/承認タスクから学ぶ必要がある2つのタスクの関係を利用する。 さらに、複数の拒絶/承認戦略を持つシナリオをモデル化するためにRTT-NetをRTT-Net++に拡張する。 いくつかのデータセットで広範な実験が行われ、承認されたサンプルと拒否されたサンプルの両方でrmt-netの有効性を強く検証している。 さらにRTT-Net++はRTT-Netのパフォーマンスをさらに改善した。

In financial credit scoring, loan applications may be approved or rejected. We can only observe default/non-default labels for approved samples but have no observations for rejected samples, which leads to missing-not-at-random selection bias. Machine learning models trained on such biased data are inevitably unreliable. In this work, we find that the default/non-default classification task and the rejection/approval classification task are highly correlated, according to both real-world data study and theoretical analysis. Consequently, the learning of default/non-default can benefit from rejection/approval. Accordingly, we for the first time propose to model the biased credit scoring data with Multi-Task Learning (MTL). Specifically, we propose a novel Reject-aware Multi-Task Network (RMT-Net), which learns the task weights that control the information sharing from the rejection/approval task to the default/non-default task by a gating network based on rejection probabilities. RMT-Net leverages the relation between the two tasks that the larger the rejection probability, the more the default/non-default task needs to learn from the rejection/approval task. Furthermore, we extend RMT-Net to RMT-Net++ for modeling scenarios with multiple rejection/approval strategies. Extensive experiments are conducted on several datasets, and strongly verifies the effectiveness of RMT-Net on both approved and rejected samples. In addition, RMT-Net++ further improves RMT-Net's performances.
翻訳日:2022-06-02 14:35:39 公開日:2022-06-01
# (参考訳) コントラスト学習に基づくデュアルグローバルディスクリプタを用いた犬の鼻の印刷マッチング

Dog nose print matching with dual global descriptor based on Contrastive Learning ( http://arxiv.org/abs/2206.00580v1 )

ライセンス: CC BY 4.0
Bin Li, Zhongan Wang, Nan Wu, Shuai Shi, Qijun Ma(参考訳) 近年,生体計測に基づく識別タスクの研究により,深層学習がより優れた性能を達成できることが示されている。 これらの手法は一般に、原画像を表すディスクリプタとしてグローバル特徴を抽出する。 しかし,細粒度タスクでは生体認証ではうまく機能しない。 主な理由は、単一の画像ディスクリプタが画像を表すのに不十分な情報を含んでいるからである。 本稿では,マルチレベル画像機能を利用するために,複数のグローバルディスクリプタを組み合わせたデュアルグローバルディスクリプタモデルを提案する。 さらに,混乱クラスの画像表現間の距離を拡大するために,コントラスト損失を利用する。 提案されたフレームワークはCVPR2022 Biometrics Workshop Pet Biometric Challengeのトップ2を達成している。 ソースコードとトレーニングされたモデルは、https://github.com/flyingsheepbin/pet-biometricsで公開されている。

Recent studies in biometric-based identification tasks have shown that deep learning methods can achieve better performance. These methods generally extract the global features as descriptor to represent the original image. Nonetheless, it does not perform well for biometric identification under fine-grained tasks. The main reason is that the single image descriptor contains insufficient information to represent image. In this paper, we present a dual global descriptor model, which combines multiple global descriptors to exploit multi level image features. Moreover, we utilize a contrastive loss to enlarge the distance between image representations of confusing classes. The proposed framework achieves the top2 on the CVPR2022 Biometrics Workshop Pet Biometric Challenge. The source code and trained models are publicly available at: https://github.com/flyingsheepbin/pet-biometrics
翻訳日:2022-06-02 14:11:02 公開日:2022-06-01
# (参考訳) ホームケージ内の動物モニタリングのための特徴共有型デュアルストリーム時空間ネットワーク

Dual-stream spatiotemporal networks with feature sharing for monitoring animals in the home cage ( http://arxiv.org/abs/2206.00614v1 )

ライセンス: CC BY 4.0
Ezechukwu I. Nwokedi, Rasneer S. Bains, Luc Bidaut, Xujiong Ye, Sara Wells, James M. Brown(参考訳) 本稿では,マウスの行動分類のための時空間深層学習手法を提案する。 性能向上のために、一連の2重ストリームアーキテクチャを用いて、ネットワーク全体を通して定期的にストリームを共同処理する新しい特徴共有アプローチを導入する。 シングルハウスマウスの公開ラベル付きデータセットを用いて,機能共有を利用したインセプションベースのネットワークのアンサンブルを用いて,86.47%の予測精度を実現する。 また、すべてのモデルにおいて、機能共有アーキテクチャは、従来のストリームを分離したアーキテクチャよりも一貫してパフォーマンスが向上することを示す。 最高のパフォーマンスモデルは、マウスとヒトの両方のアクティビティデータセットでさらに評価され、最先端の結果を得た。 今後,非教師付き異常検出領域における行動分類における特徴共有の有効性について検討する。

This paper presents a spatiotemporal deep learning approach for mouse behavioural classification in the home cage. Using a series of dual-stream architectures with assorted modifications to increase performance, we introduce a novel feature-sharing approach that jointly processes the streams at regular intervals throughout the network. Using a publicly available labelled dataset of singly-housed mice, we achieve a prediction accuracy of 86.47% using an ensemble of Inception-based networks that utilize feature sharing. We also demonstrate through ablation studies that for all models, the feature-sharing architectures consistently perform better than conventional ones having separate streams. The best performing models were further evaluated on other activity datasets, both mouse and human, and achieved state-of-the-art results. Future work will investigate the effectiveness of feature sharing in behavioural classification in the unsupervised anomaly detection domain.
翻訳日:2022-06-02 14:04:59 公開日:2022-06-01
# (参考訳) 高オクタン燃料設計のためのグラフ機械学習

Graph Machine Learning for Design of High-Octane Fuels ( http://arxiv.org/abs/2206.00619v1 )

ライセンス: CC BY 4.0
Jan G. Rittig, Martin Ritzert, Artur M. Schweidtmann, Stefanie Winkler, Jana M. Weber, Philipp Morsch, K. Alexander Heufer, Martin Grohe, Alexander Mitsos, Manuel Dahmen(参考訳) 高い耐ノック性を持つ燃料により、現代の火花点火エンジンは高効率でCO2排出量を低減できる。 高い研究オクタン数と高いオクタン感度で示される所望の自己着火特性を持つ分子の同定は、非常に実用的であり、コンピュータ支援分子設計(CAMD)によって支持される。 グラフ機械学習(graph-ML)の分野における最近の進歩は、CAMDに新しい、有望なツールを提供する。 本稿では,グラフニューラルネットワークと最適化により生成グラフMLモデルを統合し,連続的な分子空間において所望の着火特性を持つ分子の設計を可能にするモジュール型グラフMLCAMDフレームワークを提案する。 特に、生成グラフ-MLモデルと組み合わせてベイズ最適化と遺伝的アルゴリズムの可能性を検討する。 Graph-ML CAMDフレームワークは、確立されたハイオクタンコンポーネントをうまく識別する。 また,新たな候補の提案を行い,その1つを実験的に検討し,さらなる自動点火訓練データの必要性を明らかにした。

Fuels with high-knock resistance enable modern spark-ignition engines to achieve high efficiency and thus low CO2 emissions. Identification of molecules with desired autoignition properties indicated by a high research octane number and a high octane sensitivity is therefore of great practical relevance and can be supported by computer-aided molecular design (CAMD). Recent developments in the field of graph machine learning (graph-ML) provide novel, promising tools for CAMD. We propose a modular graph-ML CAMD framework that integrates generative graph-ML models with graph neural networks and optimization, enabling the design of molecules with desired ignition properties in a continuous molecular space. In particular, we explore the potential of Bayesian optimization and genetic algorithms in combination with generative graph-ML models. The graph-ML CAMD framework successfully identifies well-established high-octane components. It also suggests new candidates, one of which we experimentally investigate and use to illustrate the need for further auto-ignition training data.
翻訳日:2022-06-02 13:53:27 公開日:2022-06-01
# (参考訳) テンソル分解による音声生成の脳波記録からの音声アーチファクト除去

Speech Artifact Removal from EEG Recordings of Spoken Word Production with Tensor Decomposition ( http://arxiv.org/abs/2206.00635v1 )

ライセンス: CC BY 4.0
Holy Lovenia, Hiroki Tanaka, Sakriani Sakti, Ayu Purwarianti, and Satoshi Nakamura(参考訳) 脳波(EEG)シグナルを汚染し、基礎となる認知過程の検査を阻害する、音声アーチファクトの未発見特性のため、発声語生成に関わる脳活動の研究は、かなり未発達である。 音声生成による脳波研究を促進させるために, 3モードテンソル分解(時間x空間x周波数)を用いた音声アーティファクト除去法を提案する。 テンソル分解は脳波データのマルチウェイ特性に適合する複数のモードの同時検査を可能にする。 画像解析タスクでは,唇筋電図を記録するために2つの電極を口の近くに置き,音声アーチファクトを用いた生データを収集した。 評価の結果,大平均音声アーティファクトと唇筋電図の相関値を算出し,独立成分分析(ICA)とブラインドソース分離(BSS)に基づく従来手法よりも高い性能を示し,音声アーティファクトの検出(0.985)とクリーンデータの生成(0.101)が得られた。 提案手法は,EOGのない大容量生データと音声開始前のクリーン化データとの相関値を計算し,音声と無関係な成分を正しく保存する(0.92-0.94)。

Research about brain activities involving spoken word production is considerably underdeveloped because of the undiscovered characteristics of speech artifacts, which contaminate electroencephalogram (EEG) signals and prevent the inspection of the underlying cognitive processes. To fuel further EEG research with speech production, a method using three-mode tensor decomposition (time x space x frequency) is proposed to perform speech artifact removal. Tensor decomposition enables simultaneous inspection of multiple modes, which suits the multi-way nature of EEG data. In a picture-naming task, we collected raw data with speech artifacts by placing two electrodes near the mouth to record lip EMG. Based on our evaluation, which calculated the correlation values between grand-averaged speech artifacts and the lip EMG, tensor decomposition outperformed the former methods that were based on independent component analysis (ICA) and blind source separation (BSS), both in detecting speech artifact (0.985) and producing clean data (0.101). Our proposed method correctly preserved the components unrelated to speech, which was validated by computing the correlation value between the grand-averaged raw data without EOG and cleaned data before the speech onset (0.92-0.94).
翻訳日:2022-06-02 13:52:20 公開日:2022-06-01
# (参考訳) オンラインTSPにおけるライン上の学習強化アルゴリズム

Learning-Augmented Algorithms for Online TSP on the Line ( http://arxiv.org/abs/2206.00655v1 )

ライセンス: CC BY 4.0
Themis Gouleakis, Konstantinos Lakis and Golnoosh Shahkarami(参考訳) 本研究では,オンライントラベリングセールスマン問題 (TSP) を,機械学習による予測を付加した線上で研究する。 古典的な問題では、実際の行に沿って時間をかけてリリースされるリクエストのストリームがあります。 目標はアルゴリズムのメイズパンを最小化することである。 オープンな変種とクローズドな変種を区別し、全ての要求を処理した後、アルゴリズムに元の値を返すように要求する。 美術品の状態は、1.64$-competitiveアルゴリズムと2.04$-competitiveアルゴリズムであり、それぞれ閉変量と開変量に対してそれぞれ \cite{Bjelde:1.64} である。 どちらの場合も、厳密な下界は \cite{Ausiello:1.75, Bjelde:1.64} として知られている。 どちらの変種でも、我々の主予測モデルは要求の予測位置を含む。 アルゴリズムを導入する i) 閉変量に対する厳密な1.5の競争比と完全予測の場合の開変量に対する1.66の競争比を得る。 (ii)非有界予測誤差に対して頑健であり、 (iii) 予測誤差が増加するにつれて、その性能は優雅に低下する。 さらに, 最適オフラインアルゴリズムによる最終要求の予測を考慮し, オープン変種における学習提示設定をさらに検討した。 この拡張された設定に対するアルゴリズムは、完全な予測を伴う 1.33 の競合比を得ると同時に、滑らかで頑健であり、開変量に対する元の予測設定に対して示される 1.44 の低い境界を破る。 また、この強化された設定に対して、下限の 1.25 も提供します。

We study the online Traveling Salesman Problem (TSP) on the line augmented with machine-learned predictions. In the classical problem, there is a stream of requests released over time along the real line. The goal is to minimize the makespan of the algorithm. We distinguish between the open variant and the closed one, in which we additionally require the algorithm to return to the origin after serving all requests. The state of the art is a $1.64$-competitive algorithm and a $2.04$-competitive algorithm for the closed and open variants, respectively \cite{Bjelde:1.64}. In both cases, a tight lower bound is known \cite{Ausiello:1.75, Bjelde:1.64}. In both variants, our primary prediction model involves predicted positions of the requests. We introduce algorithms that (i) obtain a tight 1.5 competitive ratio for the closed variant and a 1.66 competitive ratio for the open variant in the case of perfect predictions, (ii) are robust against unbounded prediction error, and (iii) are smooth, i.e., their performance degrades gracefully as the prediction error increases. Moreover, we further investigate the learning-augmented setting in the open variant by additionally considering a prediction for the last request served by the optimal offline algorithm. Our algorithm for this enhanced setting obtains a 1.33 competitive ratio with perfect predictions while also being smooth and robust, beating the lower bound of 1.44 we show for our original prediction setting for the open variant. Also, we provide a lower bound of 1.25 for this enhanced setting.
翻訳日:2022-06-02 13:43:29 公開日:2022-06-01
# 事前条件付き更新による確率勾配法

Stochastic Gradient Methods with Preconditioned Updates ( http://arxiv.org/abs/2206.00285v1 )

ライセンス: Link先を確認
Abdurakhmon Sadiev, Aleksandr Beznosikov, Abdulla Jasem Almansoori, Dmitry Kamzolov, Rachael Tappenden, Martin Tak\'a\v{c}(参考訳) この仕事は非凸有限和最小化を考える。 このような問題に対するアルゴリズムは数多く存在するが、既存の手法は、問題がひどくスケールしたり、不調になったりした場合にうまく動作せず、この問題を緩和する手法を導入することが本研究の主な目的である。 ここでは、ハッチンソンのヘッセン対角法を近似するアプローチに基づくプレコンディショナーを包含し、新しい「スケールされた」アルゴリズムを与えるための勾配に基づくいくつかの方法: {\tt Scaled SARAH} と {\tt Scaled L-SVRG} を結合する。 滑らかさ仮定の下での理論的複雑性保証が提示され、滑らかさとPL条件の両方を仮定した場合に線形収束が証明される。 適応的にスケールした手法は近似的な部分的な2次曲率情報を利用するため, スケールの悪い問題の影響を軽減することができ, また, この改良された実用性は, 本研究で示された数値実験で実証される。

This work considers non-convex finite sum minimization. There are a number of algorithms for such problems, but existing methods often work poorly when the problem is badly scaled and/or ill-conditioned, and a primary goal of this work is to introduce methods that alleviate this issue. Thus, here we include a preconditioner that is based upon Hutchinson's approach to approximating the diagonal of the Hessian, and couple it with several gradient based methods to give new `scaled' algorithms: {\tt Scaled SARAH} and {\tt Scaled L-SVRG}. Theoretical complexity guarantees under smoothness assumptions are presented, and we prove linear convergence when both smoothness and the PL-condition is assumed. Because our adaptively scaled methods use approximate partial second order curvature information, they are better able to mitigate the impact of badly scaled problems, and this improved practical performance is demonstrated in the numerical experiments that are also presented in this work.
翻訳日:2022-06-02 13:41:22 公開日:2022-06-01
# NeuroUnlock:難解なディープニューラルネットワークのアーキテクチャをアンロック

NeuroUnlock: Unlocking the Architecture of Obfuscated Deep Neural Networks ( http://arxiv.org/abs/2206.00402v1 )

ライセンス: Link先を確認
Mahya Morid Ahmadi, Lilas Alrahis, Alessio Colucci, Ozgur Sinanoglu, Muhammad Shafique(参考訳) ディープニューラルネットワーク(DNN)の進歩は、安全性やセキュリティクリティカルなアプリケーションを含むさまざまな設定への展開につながった。 その結果,これらのモデルの特徴は,悪意のあるユーザからの保護を必要とするセンシティブな知的特性となっている。 リークしたサイドチャネル(例えばメモリアクセス)を通してDNNのアーキテクチャを抽出することで、敵が攻撃できる。 (i)モデルをクローンし、 (ii)クラフト・アタック(craft adversarial attack)。 DNNの難読化は、その機能を保ちながら、特定のDNNのランタイムトレースを変更することで、サイドチャネルベースのアーキテクチャ盗難(SCAS)攻撃を阻止する。 本研究では,これらの攻撃に対して最先端のDNN難読化手法の脆弱性を明らかにする。 本稿では,難読化DNNに対する新しいSCAS攻撃であるNeuroUnlockを紹介する。 我々のNeuroUnlockでは,難読化手順を学習し,自動的に再帰するシーケンス・ツー・シーケンスモデルを用いて,元のDNNアーキテクチャを復元する。 Nvidia RTX 2080 TIグラフィックス処理ユニット(GPU)上で動作する200個のランダムに生成された難読化DNNのアーキテクチャを復元し,NeuroUnlockの有効性を示す。 さらにNeuroUnlockは、VGG-11、VGG-13、ResNet-20、ResNet-32ネットワークなどの難読化DNNのアーキテクチャを復元する。 アーキテクチャを回復した後、NeuroUnlockはテスト精度が1.4%のほぼ等価なDNNを自動的に構築する。 さらに、回収されたDNNに対するその後の敵攻撃は、難読化されたバージョンの攻撃と比較して、敵攻撃の成功率を平均51.7%向上させることを示した。 さらに,DNN難読化のための新しい手法であるReDLockを提案する。これは,難読化の決定論的性質を根絶し,NeuroUnlock攻撃に対する2.16倍のレジリエンスを実現する。 neurounlockとredlockをオープンソースフレームワークとしてリリースします。

The advancements of deep neural networks (DNNs) have led to their deployment in diverse settings, including safety and security-critical applications. As a result, the characteristics of these models have become sensitive intellectual properties that require protection from malicious users. Extracting the architecture of a DNN through leaky side-channels (e.g., memory access) allows adversaries to (i) clone the model, and (ii) craft adversarial attacks. DNN obfuscation thwarts side-channel-based architecture stealing (SCAS) attacks by altering the run-time traces of a given DNN while preserving its functionality. In this work, we expose the vulnerability of state-of-the-art DNN obfuscation methods to these attacks. We present NeuroUnlock, a novel SCAS attack against obfuscated DNNs. Our NeuroUnlock employs a sequence-to-sequence model that learns the obfuscation procedure and automatically reverts it, thereby recovering the original DNN architecture. We demonstrate the effectiveness of NeuroUnlock by recovering the architecture of 200 randomly generated and obfuscated DNNs running on the Nvidia RTX 2080 TI graphics processing unit (GPU). Moreover, NeuroUnlock recovers the architecture of various other obfuscated DNNs, such as the VGG-11, VGG-13, ResNet-20, and ResNet-32 networks. After recovering the architecture, NeuroUnlock automatically builds a near-equivalent DNN with only a 1.4% drop in the testing accuracy. We further show that launching a subsequent adversarial attack on the recovered DNNs boosts the success rate of the adversarial attack by 51.7% in average compared to launching it on the obfuscated versions. Additionally, we propose a novel methodology for DNN obfuscation, ReDLock, which eradicates the deterministic nature of the obfuscation and achieves 2.16X more resilience to the NeuroUnlock attack. We release the NeuroUnlock and the ReDLock as open-source frameworks.
翻訳日:2022-06-02 13:41:04 公開日:2022-06-01
# データ評価のための微分プライベートシャプリー値

Differentially Private Shapley Values for Data Evaluation ( http://arxiv.org/abs/2206.00511v1 )

ライセンス: Link先を確認
Lauren Watson, Rayna Andreeva, Hao-Tsung Yang, Rik Sarkar(参考訳) shapley値は、データの等価な評価を含む、機械学習の多くのアプリケーションに対するソリューションとして提案されている。 shapleyの値は計算コストが高く、データセット全体に関わる。 ポイントのShapley値に対するクエリは、他のデータポイントの統計的プライバシーを損なう可能性がある。 経験的リスク最小化などの機械学習問題や、多くの学習アルゴリズム(安定性の低いものなど)では、データ点当たりの限界利益がデータサンプルサイズとともに急速に減少するリターン特性が保持される。 この性質に基づき,階層化近似法として階層化shapleyアルゴリズムを提案する。 この手法は,データの小さな (o(\polylog(n))) ランダムなサンプルと小サイズの (o(\log n)$) 連立で動作し, 確率的精度が保証された結果が得られることを証明し, 微分プライバシーを組み込むように修正することができる。 実験結果から,検証精度を向上する高値データポイントを精度良く同定し,偏微分プライベート評価がデータの近似ランキングを保っていることがわかった。

The Shapley value has been proposed as a solution to many applications in machine learning, including for equitable valuation of data. Shapley values are computationally expensive and involve the entire dataset. The query for a point's Shapley value can also compromise the statistical privacy of other data points. We observe that in machine learning problems such as empirical risk minimization, and in many learning algorithms (such as those with uniform stability), a diminishing returns property holds, where marginal benefit per data point decreases rapidly with data sample size. Based on this property, we propose a new stratified approximation method called the Layered Shapley Algorithm. We prove that this method operates on small (O(\polylog(n))) random samples of data and small sized ($O(\log n)$) coalitions to achieve the results with guaranteed probabilistic accuracy, and can be modified to incorporate differential privacy. Experimental results show that the algorithm correctly identifies high-value data points that improve validation accuracy, and that the differentially private evaluations preserve approximate ranking of data.
翻訳日:2022-06-02 13:40:03 公開日:2022-06-01
# 証明生産によるニューラルネットワークの検証

Neural Network Verification with Proof Production ( http://arxiv.org/abs/2206.00512v1 )

ライセンス: Link先を確認
Omri Isac and Clark Barrett and Min Zhang and Guy Katz(参考訳) ディープニューラルネットワーク(DNN)は、安全クリティカルなシステムにますます採用されており、それらの正確性を保証する必要がある。 その結果、検証コミュニティはDNNを検証するための複数の技術とツールを考案した。 DNN検証者がエラーを発生させるインプットを発見すると、それは容易に確認できますが、エラーが存在しないと報告した場合、検証ツール自体に欠陥がないことを保証する方法はありません。 DNN検証ツールですでに複数のエラーが観測されているため、この問題に対するDNN検証の適用性は疑問視されている。 本稿では,誤りの欠如を裏付ける,不満足さのチェックが容易な証人の生成という,simplexベースのdnn検証能力向上のための新しいメカニズムを提案する。 我々の証明生産は、よく知られたFarkasの補題の効率的な適応と、片方向線形関数と数値的精度誤差を扱う機構の組み合わせに基づいている。 概念実証として,マラブーDNN検証器上に本手法を実装した。 航空機衝突回避のための安全クリティカルシステムの評価は, ほぼすべてのケースで生産が成功し, 最小限のオーバーヘッドしか必要としないことを示す。

Deep neural networks (DNNs) are increasingly being employed in safety-critical systems, and there is an urgent need to guarantee their correctness. Consequently, the verification community has devised multiple techniques and tools for verifying DNNs. When DNN verifiers discover an input that triggers an error, that is easy to confirm; but when they report that no error exists, there is no way to ensure that the verification tool itself is not flawed. As multiple errors have already been observed in DNN verification tools, this calls the applicability of DNN verification into question. In this work, we present a novel mechanism for enhancing Simplex-based DNN verifiers with proof production capabilities: the generation of an easy-to-check witness of unsatisfiability, which attests to the absence of errors. Our proof production is based on an efficient adaptation of the well-known Farkas' lemma, combined with mechanisms for handling piecewise-linear functions and numerical precision errors. As a proof of concept, we implemented our technique on top of the Marabou DNN verifier. Our evaluation on a safety-critical system for airborne collision avoidance shows that proof production succeeds in almost all cases and requires only minimal overhead.
翻訳日:2022-06-02 13:39:43 公開日:2022-06-01
# スタックとバッグの堅牢な方法:ローカルリプシッツの方法

The robust way to stack and bag: the local Lipschitz way ( http://arxiv.org/abs/2206.00513v1 )

ライセンス: Link先を確認
Thulasi Tholeti, Sheetal Kalyani(参考訳) 近年の研究では、ニューラルネットワークの局所的なリプシッツ定数がその対向的堅牢性に直接影響を与えることが確認されている。 この関係を利用してニューラルネットワークのアンサンブルを構築し、精度を向上するだけでなく、対向的ロバスト性も向上する。 2つの異なるアンサンブル法のための局所リプシッツ定数が導出され、逆ロバスト性を確保するのに最適なアーキテクチャが導出される。 提案したアンサンブルアーキテクチャは、ホワイトボックス攻撃、FGSM、PGDの存在下で、MNISTおよびCIFAR-10データセット上でテストされる。 提案されたアーキテクチャは、より堅牢であることがわかった a) 一つのネットワークと b) 伝統的なアンサンブル方法

Recent research has established that the local Lipschitz constant of a neural network directly influences its adversarial robustness. We exploit this relationship to construct an ensemble of neural networks which not only improves the accuracy, but also provides increased adversarial robustness. The local Lipschitz constants for two different ensemble methods - bagging and stacking - are derived and the architectures best suited for ensuring adversarial robustness are deduced. The proposed ensemble architectures are tested on MNIST and CIFAR-10 datasets in the presence of white-box attacks, FGSM and PGD. The proposed architecture is found to be more robust than a) a single network and b) traditional ensemble methods.
翻訳日:2022-06-02 13:39:26 公開日:2022-06-01
# FETA: ニューラルネットワークの検証、トレーニング、予測アルゴリズムを施行した公正性

FETA: Fairness Enforced Verifying, Training, and Predicting Algorithms for Neural Networks ( http://arxiv.org/abs/2206.00553v1 )

ライセンス: Link先を確認
Kiarash Mohammadi, Aishwarya Sivaraman, Golnoosh Farnadi(参考訳) ニューラルネットワークによって駆動されるアルゴリズムによる決定は、人々の生活の質に直接影響を与えるアプリケーションにおいて非常に顕著になっている。 本稿では,ニューラルネットワークモデルの個別公平性を検証する,訓練し,保証する問題について検討する。 公正性を強制する一般的なアプローチは、公正の概念をモデルのパラメータに関する制約に変換することである。 しかし、そのような翻訳はトレーニングされたニューラルネットワークモデルの公正な予測を必ずしも保証しない。 この課題に対処するために,予測時に公平な制約を強制する反例付きポストプロセッシング手法を開発した。 テストやトレインデータに関するポイントのみに公正を強制する以前の作業とは対照的に、入力ドメイン内のすべてのポイントに対して公正を強制および保証することが可能です。 さらに,学習過程にフェアネスの反例を反復的に組み込んで,フェアネスを帰納バイアスとして用いるインプロセッシング手法を提案する。 我々はこれらの手法をFETAと呼ばれるツールで実装した。 実世界のデータセットに対する実証的な評価は、FETAが予測時に公正性を保証できるだけでなく、より高度な個別の公正性を示す正確なモデルを訓練できることを示している。

Algorithmic decision making driven by neural networks has become very prominent in applications that directly affect people's quality of life. In this paper, we study the problem of verifying, training, and guaranteeing individual fairness of neural network models. A popular approach for enforcing fairness is to translate a fairness notion into constraints over the parameters of the model. However, such a translation does not always guarantee fair predictions of the trained neural network model. To address this challenge, we develop a counterexample-guided post-processing technique to provably enforce fairness constraints at prediction time. Contrary to prior work that enforces fairness only on points around test or train data, we are able to enforce and guarantee fairness on all points in the input domain. Additionally, we propose an in-processing technique to use fairness as an inductive bias by iteratively incorporating fairness counterexamples in the learning process. We have implemented these techniques in a tool called FETA. Empirical evaluation on real-world datasets indicates that FETA is not only able to guarantee fairness on-the-fly at prediction time but also is able to train accurate models exhibiting a much higher degree of individual fairness.
翻訳日:2022-06-02 13:39:12 公開日:2022-06-01
# Deepfake Caricatures: 人工物への注意の増幅は人や機械によるディープフェイクの検出を増加させる

Deepfake Caricatures: Amplifying attention to artifacts increases deepfake detection by humans and machines ( http://arxiv.org/abs/2206.00535v1 )

ライセンス: Link先を確認
Camilo Fosco, Emilie Josephs, Alex Andonian, Allen Lee, Xi Wang and Aude Oliva(参考訳) ディープフェイクは、誤報の拡散を促進することによって、私たちのデジタル社会に深刻な脅威をもたらす。 検出すると同時に,ユーザの存在を効果的に警告する技術を開発することが不可欠である。 本稿では,これらのニーズを満たす新しいディープフェイク検出フレームワークを提案する。 提案手法では,人間のアノテーションを半教師するビデオアーティファクトのアテンションマップを生成する。 これらの地図には2つの貢献がある。 まず、複数のディープフェイク検出データセットで実証されたディープフェイク分類器の精度と一般化性を改善する。 第2に,人間ユーザのための直感的な信号を,“ディープフェイクの似顔絵(deepfake caricatures)”という形で生成することが可能だ。 提案手法は,人間と人工的な監督の混合に基づき,偽の視覚コンテンツに対する対策のさらなる発展を目標とし,疑わしい視覚メディアを提示することで,人間に自己判断能力を与える。

Deepfakes pose a serious threat to our digital society by fueling the spread of misinformation. It is essential to develop techniques that both detect them, and effectively alert the human user to their presence. Here, we introduce a novel deepfake detection framework that meets both of these needs. Our approach learns to generate attention maps of video artifacts, semi-supervised on human annotations. These maps make two contributions. First, they improve the accuracy and generalizability of a deepfake classifier, demonstrated across several deepfake detection datasets. Second, they allow us to generate an intuitive signal for the human user, in the form of "Deepfake Caricatures": transformations of the original deepfake video where attended artifacts are exacerbated to improve human recognition. Our approach, based on a mixture of human and artificial supervision, aims to further the development of countermeasures against fake visual content, and grants humans the ability to make their own judgment when presented with dubious visual media.
翻訳日:2022-06-02 13:38:23 公開日:2022-06-01
# 薬物再配置におけるラベルスパーシティの自己教師あり学習

Self-supervised Learning for Label Sparsity in Computational Drug Repositioning ( http://arxiv.org/abs/2206.00262v1 )

ライセンス: Link先を確認
Xinxing Yang, Genke Yang, Jian Chu(参考訳) 計算的な薬物再配置は、薬の開発プロセスを加速し、既存の薬物発見システムにおいて重要な役割を果たす、市場薬の新しい用途の発見を目的としている。 しかし、現実の世界における薬剤や疾患の数に比べ、有効な薬剤・病原体協会の数は少ない。 ラベル付きサンプルが少なすぎるため、分類モデルは薬物の有効な潜伏因子を学習できないため、一般化性能が低下する。 本研究では,薬物再配置のためのマルチタスク型自己教師型学習フレームワークを提案する。 このフレームワークは、より良い薬物表現を学習することでラベルの空間性に取り組む。 具体的には、薬物動態予測問題を主な課題とし、補助的タスクは、データ強化戦略とコントラスト学習を用いて、元の薬物特徴の内部関係を抽出し、監督されたラベルを使わずに、より良い薬物表現を自動学習することである。 そして、共同訓練により、補助タスクが主タスクの予測精度を向上させることが保証される。 より正確には、補助タスクは薬物表現を改善し、一般化を改善するために追加の正規化として機能する。 さらに,マルチ入力デコードネットワークの設計を行い,オートエンコーダモデルの再構成能力を向上させる。 3つの実世界のデータセットを用いてモデルを評価する。 実験結果は,マルチタスク自己教師付き学習フレームワークの有効性を示し,その予測能力は最先端モデルよりも優れていることを示した。

The computational drug repositioning aims to discover new uses for marketed drugs, which can accelerate the drug development process and play an important role in the existing drug discovery system. However, the number of validated drug-disease associations is scarce compared to the number of drugs and diseases in the real world. Too few labeled samples will make the classification model unable to learn effective latent factors of drugs, resulting in poor generalization performance. In this work, we propose a multi-task self-supervised learning framework for computational drug repositioning. The framework tackles label sparsity by learning a better drug representation. Specifically, we take the drug-disease association prediction problem as the main task, and the auxiliary task is to use data augmentation strategies and contrast learning to mine the internal relationships of the original drug features, so as to automatically learn a better drug representation without supervised labels. And through joint training, it is ensured that the auxiliary task can improve the prediction accuracy of the main task. More precisely, the auxiliary task improves drug representation and serving as additional regularization to improve generalization. Furthermore, we design a multi-input decoding network to improve the reconstruction ability of the autoencoder model. We evaluate our model using three real-world datasets. The experimental results demonstrate the effectiveness of the multi-task self-supervised learning framework, and its predictive ability is superior to the state-of-the-art model.
翻訳日:2022-06-02 13:34:39 公開日:2022-06-01
# 衛星コンステレーションにおけるフェデレーション学習

Federated Learning in Satellite Constellations ( http://arxiv.org/abs/2206.00307v1 )

ライセンス: Link先を確認
Bho Matthiesen, Nasrin Razmi, Israel Leyva-Mayorga, Armin Dekorsy, Petar Popovski(参考訳) 分散機械学習(DML)は、機械学習と接続性の間のシナジーから生まれる。 フェデレートラーニング(FL)は、断続的に接続されたモバイルクライアントが共通の学習モデルのトレーニングに寄与するDMLの顕著な例である。 本稿では,衛星コンステレーションがFLにもたらす新たなコンテキストについて述べる。 本研究では、FLに関連する様々な種類の衛星接続の分類法を提案し、衛星通信リンクの予測的断続性を利用して、クライアントの長時間のオフライン時間による遅延収束を分散トレーニングプロセスが克服できることを示す。

Distributed machine learning (DML) results from the synergy between machine learning and connectivity. Federated learning (FL) is a prominent instance of DML in which intermittently connected mobile clients contribute to the training of a common learning model. This paper presents the new context brought to FL by satellite constellations where the connectivity patterns are significantly different from the ones assumed in terrestrial FL. We provide a taxonomy of different types of satellite connectivity relevant for FL and show how the distributed training process can overcome the slow convergence due to long offline times of clients by taking advantage of the predictable intermittency of the satellite communication links.
翻訳日:2022-06-02 13:34:18 公開日:2022-06-01
# Good Intentions: Intent Signalingによる適応パラメータサーバ

Good Intentions: Adaptive Parameter Servers via Intent Signaling ( http://arxiv.org/abs/2206.00470v1 )

ライセンス: Link先を確認
Alexander Renz-Wieland, Andreas Kieslinger, Robert Gericke, Rainer Gemulla, Zoi Kaoudi, Volker Markl(参考訳) パラメータサーバ(PS)は、共有パラメータアクセスのためのプリミティブを提供することで、大規模な機械学習(ML)タスクのための分散トレーニングの実装を容易にする。 特にパラメータの少ないMLタスクでは、PSは高い効率とスケーラビリティを実現することができる。 そのため、レプリケーションやリロケーションなど、さまざまなテクニックを使用して、パラメータアクセスの通信コストやレイテンシを削減している。 しかし、これらの手法の適切な選択とパラメータ化は、これらの利益を実現するために重要である。 残念なことに、そのような選択はタスクやワークロード、さらには個々のパラメータにも依存します。 本稿では,PSが事前調整なしに作業負荷に適応できるかどうかを考察する。 私たちの目標は、ユーザビリティの向上と効率の維持(あるいは改善)です。 提案します 一 適応性のイネーブルとして機能し、MLタスクに自然に統合する新規な意図シグナリング機構 (ii)この機構に基づく完全適応型ゼロチューニングps adaps。 実験結果から,ワークロードへの自動適応が実現可能であることが示唆された。

Parameter servers (PSs) ease the implementation of distributed training for large machine learning (ML) tasks by providing primitives for shared parameter access. Especially for ML tasks that access parameters sparsely, PSs can achieve high efficiency and scalability. To do so, they employ a number of techniques -- such as replication or relocation -- to reduce communication cost and/or latency of parameter accesses. A suitable choice and parameterization of these techniques is crucial to realize these gains, however. Unfortunately, such choices depend on the task, the workload, and even individual parameters, they often require expensive upfront experimentation, and they are susceptible to workload changes. In this paper, we explore whether PSs can automatically adapt to the workload without any prior tuning. Our goals are to improve usability and to maintain (or even improve) efficiency. We propose (i) a novel intent signaling mechanism that acts as an enabler for adaptivity and naturally integrates into ML tasks, and (ii) a fully adaptive, zero-tuning PS called AdaPS based on this mechanism. Our experimental evaluation suggests that automatic adaptation to the workload is indeed possible: AdaPS matched or outperformed state-of-the-art PSs out of the box.
翻訳日:2022-06-02 13:34:05 公開日:2022-06-01
# 湿潤平滑化条件下での定常変分勾配の収束性

Convergence of Stein Variational Gradient Descent under a Weaker Smoothness Condition ( http://arxiv.org/abs/2206.00508v1 )

ライセンス: Link先を確認
Lukang Sun, Avetik Karagulyan and Peter Richtarik(参考訳) Stein Variational Gradient Descent (SVGD) は、$\pi(x) \propto \exp(-V(x))$の形の確率分布からサンプリングするランゲヴィン型アルゴリズムの重要な代替品である。 既存のランゲヴィン型アルゴリズムとSVGDの理論では、ポテンシャル関数 $V$ はしばしば $L$-smooth と仮定される。 しかし、この制限条件は、次数 2$ 以上の多項式のようなポテンシャル関数の大きなクラスを除外する。 本稿では,$(L_0,L_1)$-smooth電位の分布に対するSVGDアルゴリズムの収束性について検討する。 この緩和された滑らかさの仮定は Zhang らによって導入された。 勾配クリッピングアルゴリズムの解析のための[2019a]。 トラジェクトリ非依存的な補助条件の助けを借りて、アルゴリズムが各反復における$\mathrm{KL}$分散を減らし、スタインフィッシャー情報の観点からSVGDに束縛された複雑性を証明した下降補題を提供する。

Stein Variational Gradient Descent (SVGD) is an important alternative to the Langevin-type algorithms for sampling from probability distributions of the form $\pi(x) \propto \exp(-V(x))$. In the existing theory of Langevin-type algorithms and SVGD, the potential function $V$ is often assumed to be $L$-smooth. However, this restrictive condition excludes a large class of potential functions such as polynomials of degree greater than $2$. Our paper studies the convergence of the SVGD algorithm for distributions with $(L_0,L_1)$-smooth potentials. This relaxed smoothness assumption was introduced by Zhang et al. [2019a] for the analysis of gradient clipping algorithms. With the help of trajectory-independent auxiliary conditions, we provide a descent lemma establishing that the algorithm decreases the $\mathrm{KL}$ divergence at each iteration and prove a complexity bound for SVGD in the population limit in terms of the Stein Fisher information.
翻訳日:2022-06-02 13:33:46 公開日:2022-06-01
# 多様性の低減はビザンチン人に対する解毒剤:最上位のチェリーとしてのより良いレート、弱み、コミュニケーション圧縮

Variance Reduction is an Antidote to Byzantines: Better Rates, Weaker Assumptions and Communication Compression as a Cherry on the Top ( http://arxiv.org/abs/2206.00529v1 )

ライセンス: Link先を確認
Eduard Gorbunov, Samuel Horv\'ath, Peter Richt\'arik, Gauthier Gidel(参考訳) byzantine-robustnessは、協調学習と連合学習への関心が高まり、多くの注目を集めている。 しかし、ロバスト性を達成するための分散削減や通信コストを低減するための通信圧縮など、多くの実りある方向は、この分野では弱いままである。 本稿では,このギャップに対処し,分散低減と圧縮を伴う新しいビザンチン耐性手法であるbyz-vr-marinaを提案する。 我々の論文の重要なメッセージは、分散削減はビザンチン労働者とより効果的に戦うための鍵であるということです。 同時に、コミュニケーション圧縮はプロセスをより効率的にするためのボーナスである。 我々は、Byz-VR-MARINAの理論的収束保証を一般の非凸関数やポリアック・ロジャシエヴィチ損失関数の先行状態よりも優れる。 分散還元および/または圧縮を伴う同時ビザンチン・ロバスト法とは異なり、我々の複雑性結果はタイトであり、勾配の有界性や限定圧縮のような制限的な仮定に依存しない。 さらに,確率勾配の非一様サンプリングをサポートするビザンチン耐性法の最初の解析を行った。 数値実験は理論的な結果を裏付けるものだ。

Byzantine-robustness has been gaining a lot of attention due to the growth of the interest in collaborative and federated learning. However, many fruitful directions, such as the usage of variance reduction for achieving robustness and communication compression for reducing communication costs, remain weakly explored in the field. This work addresses this gap and proposes Byz-VR-MARINA - a new Byzantine-tolerant method with variance reduction and compression. A key message of our paper is that variance reduction is key to fighting Byzantine workers more effectively. At the same time, communication compression is a bonus that makes the process more communication efficient. We derive theoretical convergence guarantees for Byz-VR-MARINA outperforming previous state-of-the-art for general non-convex and Polyak-Lojasiewicz loss functions. Unlike the concurrent Byzantine-robust methods with variance reduction and/or compression, our complexity results are tight and do not rely on restrictive assumptions such as boundedness of the gradients or limited compression. Moreover, we provide the first analysis of a Byzantine-tolerant method supporting non-uniform sampling of stochastic gradients. Numerical experiments corroborate our theoretical findings.
翻訳日:2022-06-02 13:33:28 公開日:2022-06-01
# (参考訳) マルチモーダルエージェント作成のためのモジュラーアーキテクチャ

A modular architecture for creating multimodal agents ( http://arxiv.org/abs/2206.00636v1 )

ライセンス: CC BY 4.0
Thomas Baier and Selene Baez Santamaria and Piek Vossen(参考訳) マルチモーダル・インタラクティブ・エージェントを作成するための柔軟でモジュール化されたプラットフォームについて説明する。 プラットフォームはイベントバスを通じて動作し、信号と解釈が時系列に表示される。 さまざまなセンサと解釈コンポーネントは、入力と出力をトピックとして定義することで統合することができる。 これまで開発されてきたさまざまなコンポーネントを,さまざまな対話型エージェントに統合して説明します。 また、実際のインタラクションがマルチモーダルデータとして記録されるか、あるいはいわゆるエピソード知識グラフで説明する。 記録された相互作用を分析することで、異なるエージェントとエージェントコンポーネントを分析し比較することができる。

The paper describes a flexible and modular platform to create multimodal interactive agents. The platform operates through an event-bus on which signals and interpretations are posted in a sequence in time. Different sensors and interpretation components can be integrated by defining their input and output as topics, which results in a logical workflow for further interpretations. We explain a broad range of components that have been developed so far and integrated into a range of interactive agents. We also explain how the actual interaction is recorded as multimodal data as well as in a so-called episodic Knowledge Graph. By analysing the recorded interaction, we can analyse and compare different agents and agent components.
翻訳日:2022-06-02 13:32:03 公開日:2022-06-01
# Recommender システムにおけるポストクリック情報を用いた一般化遅延フィードバックモデル

Generalized Delayed Feedback Model with Post-Click Information in Recommender Systems ( http://arxiv.org/abs/2206.00407v1 )

ライセンス: Link先を確認
Jia-Qi Yang, De-Chuan Zhan(参考訳) コンバージョン率の予測(例えば、ユーザーがアイテムを購入する確率)は、機械学習ベースのレコメンダシステムにおいて根本的な問題である。 しかし、長い遅延の後、正確な変換ラベルが明らかにされ、リコメンデータシステムのタイムラインに悪影響を及ぼす。 以前の文献では、このような遅延フィードバック問題を緩和するために、早期変換を利用することに集中している。 本稿では,クリック後のユーザの行動がコンバージョン率の予測にも役立ち,タイムラインの改善に利用できることを示す。 本稿では,gdfmをストリーミング方式で効率的に訓練できる確率的後クリック情報として,後クリック行動と初期変換の両方を統合する一般化遅延フィードバックモデル(gdfm)を提案する。 GDFMに基づいて、遅延フィードバックによって生じる性能ギャップは、時間的ギャップとサンプリングギャップに起因するという新たな視点を確立する。 本稿では,時間的距離とサンプルの複雑さを組み合わせて,クリック後の情報の品質を測定することを提案する。 トレーニング目標は、情報とタイムリーな信号を強調するように再強調される。 公開データセットの分析を検証し,提案手法の有効性を実験的に検証した。

Predicting conversion rate (e.g., the probability that a user will purchase an item) is a fundamental problem in machine learning based recommender systems. However, accurate conversion labels are revealed after a long delay, which harms the timeliness of recommender systems. Previous literature concentrates on utilizing early conversions to mitigate such a delayed feedback problem. In this paper, we show that post-click user behaviors are also informative to conversion rate prediction and can be used to improve timeliness. We propose a generalized delayed feedback model (GDFM) that unifies both post-click behaviors and early conversions as stochastic post-click information, which could be utilized to train GDFM in a streaming manner efficiently. Based on GDFM, we further establish a novel perspective that the performance gap introduced by delayed feedback can be attributed to a temporal gap and a sampling gap. Inspired by our analysis, we propose to measure the quality of post-click information with a combination of temporal distance and sample complexity. The training objective is re-weighted accordingly to highlight informative and timely signals. We validate our analysis on public datasets, and experimental performance confirms the effectiveness of our method.
翻訳日:2022-06-02 13:18:29 公開日:2022-06-01
# 責任あるAIに向けて: フェアネスを探求する人間中心の人工知能ユーザインタフェースの設計空間探索

Towards Responsible AI: A Design Space Exploration of Human-Centered Artificial Intelligence User Interfaces to Investigate Fairness ( http://arxiv.org/abs/2206.00474v1 )

ライセンス: Link先を確認
Yuri Nakao and Lorenzo Strappelli and Simone Stumpf and Aisha Naseer and Daniele Regoli and Giulia Del Gamba(参考訳) 人工知能(AI)による意思決定の迅速化や自動化は、その公正さを特に懸念している。 人間中心の人工知能(HCAI)設計を通じて信頼性が高く安全で信頼性の高いシステムを構築するために、AI専門家がAIモデルの公正性を調べるためのユーザインターフェース(UI)を開発した。 本研究では、データ科学者だけでなく、ドメインの専門家も支援し、AIの公正性を調査するデザインスペース探索を行う。 ローンのアプリケーションを例として、私たちは、ローンの担当者やデータサイエンティストと一連のワークショップを開催しました。 これらの要件をFairHILにインスタンス化し、このUIを他のユースケースに一般化する方法を説明した。 fairhil を思考的ユーザ調査で評価した。 私たちの研究は、AIモデルの公平性を調査し、責任あるAIに近づくためのより良い設計に貢献します。

With Artificial intelligence (AI) to aid or automate decision-making advancing rapidly, a particular concern is its fairness. In order to create reliable, safe and trustworthy systems through human-centred artificial intelligence (HCAI) design, recent efforts have produced user interfaces (UIs) for AI experts to investigate the fairness of AI models. In this work, we provide a design space exploration that supports not only data scientists but also domain experts to investigate AI fairness. Using loan applications as an example, we held a series of workshops with loan officers and data scientists to elicit their requirements. We instantiated these requirements into FairHIL, a UI to support human-in-the-loop fairness investigations, and describe how this UI could be generalized to other use cases. We evaluated FairHIL through a think-aloud user study. Our work contributes better designs to investigate an AI model's fairness-and move closer towards responsible AI.
翻訳日:2022-06-02 13:18:11 公開日:2022-06-01
# 非線形状態空間モデルにおけるamortized backward variational inference

Amortized backward variational inference in nonlinear state-space models ( http://arxiv.org/abs/2206.00319v1 )

ライセンス: Link先を確認
Mathis Chagneux, \'Elisabeth Gassiat (LMO), Pierre Gloaguen (MIA Paris-Saclay), Sylvain Le Corff (IP Paris, TSP, SAMOVAR)(参考訳) 変分推論を用いた一般状態空間モデルにおける状態推定の問題を考える。 実関節平滑化分布と同じ後方分解を用いて定義される一般的な変分族に対して、仮定を混合することにより、加法的状態汎関数の期待の変動近似が、観測数において最も直線的に増大する誤差を誘導することを初めて確立する。 この保証は、標準モンテカルロ法を用いた平滑化分布の近似の既知の上界と一致する。 さらに,すべてのステップで共有されるニューラルネットワークが変動型カーネルのパラメータを出力する,償却推論フレームワークを提案する。 また,変分分布の解析的辺縁化が可能な経験的パラメトリゼーションも検討し,効率的な平滑化アルゴリズムを導出する。 特に生成モデルが強非線形および非インジェクティブ混合関数に依存する場合、最先端の変分解よりも大きな改善がなされる。

We consider the problem of state estimation in general state-space models using variational inference. For a generic variational family defined using the same backward decomposition as the actual joint smoothing distribution, we establish for the first time that, under mixing assumptions, the variational approximation of expectations of additive state functionals induces an error which grows at most linearly in the number of observations. This guarantee is consistent with the known upper bounds for the approximation of smoothing distributions using standard Monte Carlo methods. Moreover, we propose an amortized inference framework where a neural network shared over all times steps outputs the parameters of the variational kernels. We also study empirically parametrizations which allow analytical marginalization of the variational distributions, and therefore lead to efficient smoothing algorithms. Significant improvements are made over state-of-the art variational solutions, especially when the generative model depends on a strongly nonlinear and noninjective mixing function.
翻訳日:2022-06-02 13:17:31 公開日:2022-06-01
# 離散グラフィカルモデルのための量子回路について

On Quantum Circuits for Discrete Graphical Models ( http://arxiv.org/abs/2206.00398v1 )

ライセンス: Link先を確認
Nico Piatkowski, Christa Zoufal(参考訳) グラフィカルモデルは構造化された高次元確率分布を記述するのに有用なツールである。 グラフィカルモデルから非バイアスで独立したサンプルを生成する効率的なアルゴリズムの開発は、現在も活発な研究トピックである。 離散変数の統計を記述するグラフィカルモデルからのサンプリングは特に難しい問題であり、高次元の存在下では難解である。 本研究では,量子回路を用いた一般離散因子モデルから偏りのない独立なサンプルを生成するための最初の方法を提案する。 本手法は多体相互作用に対応しており,その成功確率は変数数に依存しない。 この目的のために、我々はグラフィカルモデルのユニタリ作用素への新しい埋め込みを特定し、結果の量子状態に対する厳密な保証を提供する。 さらに、一意的なハマーズリー・クリフォードの定理を証明し、量子埋め込みが基礎となる条件独立構造の傾きを分解することを示す。 重要なことに、量子埋め込みは最大極大学習と最先端のハイブリッド量子古典的手法による最大後続状態近似を可能にする。 最後に,提案手法を現在の量子プロセッサに実装することができる。 量子シミュレーションおよび実際の量子ハードウェアを用いた実験は,本手法が量子コンピュータ上でサンプリングおよびパラメータ学習を行うことを示す。

Graphical models are useful tools for describing structured high-dimensional probability distributions. Development of efficient algorithms for generating unbiased and independent samples from graphical models remains an active research topic. Sampling from graphical models that describe the statistics of discrete variables is a particularly challenging problem, which is intractable in the presence of high dimensions. In this work, we provide the first method that allows one to provably generate unbiased and independent samples from general discrete factor models with a quantum circuit. Our method is compatible with multi-body interactions and its success probability does not depend on the number of variables. To this end, we identify a novel embedding of the graphical model into unitary operators and provide rigorous guarantees on the resulting quantum state. Moreover, we prove a unitary Hammersley-Clifford theorem -- showing that our quantum embedding factorizes over the cliques of the underlying conditional independence structure. Importantly, the quantum embedding allows for maximum likelihood learning as well as maximum a posteriori state approximation via state-of-the-art hybrid quantum-classical methods. Finally, the proposed quantum method can be implemented on current quantum processors. Experiments with quantum simulation as well as actual quantum hardware show that our method can carry out sampling and parameter learning on quantum computers.
翻訳日:2022-06-02 13:17:16 公開日:2022-06-01
# PaGO-LOAM:ロバストグラウンド最適化LiDARオドメトリー

PaGO-LOAM: Robust Ground-Optimized LiDAR Odometry ( http://arxiv.org/abs/2206.00266v1 )

ライセンス: Link先を確認
Dong-Uk Seo, Hyungtae Lim, Seungjae Lee, Hyun Myung(参考訳) 地上移動プラットフォームのための高速で堅牢なLiDARオドメトリー法を実現するために,多くの研究者が研究を行っている。 特に、地上最適化LiDARオドメトリーは、通常、前処理法としてグラウンドセグメンテーションを用いる。 これは、地上のプラットホーム上の3D LiDARセンサーが捉えた3Dの点のほとんどが地上から来ているためである。 しかし, 地盤のセグメンテーション性能がLiDAR計測に及ぼす影響については, 未だ詳しく調べられていない。 本稿では, 地盤のセグメンテーションがLiDAR SLAMに与える影響を, 最新技術 (SOTA) 法に基づいて検証するために, 頑健な地盤最適化LiDAR odometryフレームワークを提案する。 提案するオドメトリフレームワークを用いることで,地上セグメンテーションアルゴリズムがよく記述された特徴を抽出し,SLAM性能を向上させることができるかどうかを容易に検証できる。 また, 複雑で不均一な都市環境においても, 強靭な地盤セグメンテーションを示すPatchworkと呼ばれるSOTAの地盤セグメンテーション手法を活用することにより, PaGO-LOAMと呼ばれる新しい地盤最適化LiDARオードメトリーを提案する。 KITTI odometry データセットを用いて実験を行った。 \textit{PaGO-LOAM} はベースライン法と比較して堅牢で正確な性能を示す。 私たちのコードはhttps://github.com/url-kaist/AlterGround-LeGO-LOAMで公開されています。

Numerous researchers have conducted studies to achieve fast and robust ground-optimized LiDAR odometry methods for terrestrial mobile platforms. In particular, ground-optimized LiDAR odometry usually employs ground segmentation as a preprocessing method. This is because most of the points in a 3D point cloud captured by a 3D LiDAR sensor on a terrestrial platform are from the ground. However, the effect of the performance of ground segmentation on LiDAR odometry is still not closely examined. In this paper, a robust ground-optimized LiDAR odometry framework is proposed to facilitate the study to check the effect of ground segmentation on LiDAR SLAM based on the state-of-the-art (SOTA) method. By using our proposed odometry framework, it is easy and straightforward to test whether ground segmentation algorithms help extract well-described features and thus improve SLAM performance. In addition, by leveraging the SOTA ground segmentation method called Patchwork, which shows robust ground segmentation even in complex and uneven urban environments with little performance perturbation, a novel ground-optimized LiDAR odometry is proposed, called PaGO-LOAM. The methods were tested using the KITTI odometry dataset. \textit{PaGO-LOAM} shows robust and accurate performance compared with the baseline method. Our code is available at https://github.com/url-kaist/AlterGround-LeGO-LOAM.
翻訳日:2022-06-02 13:16:58 公開日:2022-06-01
# Needle in a Haystack, Fast: 画像認識の類似度を大規模にベンチマークする

Needle In A Haystack, Fast: Benchmarking Image Perceptual Similarity Metrics At Scale ( http://arxiv.org/abs/2206.00282v1 )

ライセンス: Link先を確認
Cyril Vallez, Andrei Kucharavy, Ljiljana Dolamic(参考訳) インターネットが出現し、間もなくソーシャルメディアが登場し、インターネットにアクセスする人の間で情報の消費と共有がユビキタスになった。 この変化によってメディア消費が進化し、自分自身を表現し、情報を伝達し、他者を効率的に説得する手段としてイメージが出現した。 過去10年間でコンピュータビジョンアルゴリズムが飛躍的に進歩し、オンライン情報の流れにおける画像の役割を大規模に研究するのが容易になりつつある。 研究の質問と全体パイプラインは根本的に異なるが、ほとんどすべてが重要な第一歩から始まり、異なる画像間のグローバルな知覚的類似性を評価する。 最初のステップは、パイプラインのパフォーマンスとほとんどのイメージの処理に不可欠です。 多くのアルゴリズムが利用可能であり、現在それを実行するのに使われているが、これまでのところ、質問や仮定、計算資源に最も適したアルゴリズムの選択について、研究者の選択を導く包括的なレビューは行われていない。 本稿では,従来のコンピュータビジョン手法が必ずしも最善のアプローチではないことを示すとともに,dhash perceptual hash と simclr v2 resnet の2つの手法が優れた性能,スケール性,計算効率を実現していることを示す。

The advent of the internet, followed shortly by the social media made it ubiquitous in consuming and sharing information between anyone with access to it. The evolution in the consumption of media driven by this change, led to the emergence of images as means to express oneself, convey information and convince others efficiently. With computer vision algorithms progressing radically over the last decade, it is become easier and easier to study at scale the role of images in the flow of information online. While the research questions and overall pipelines differ radically, almost all start with a crucial first step - evaluation of global perceptual similarity between different images. That initial step is crucial for overall pipeline performance and processes most images. A number of algorithms are available and currently used to perform it, but so far no comprehensive review was available to guide the choice of researchers as to the choice of an algorithm best suited to their question, assumptions and computational resources. With this paper we aim to fill this gap, showing that classical computer vision methods are not necessarily the best approach, whereas a pair of relatively little used methods - Dhash perceptual hash and SimCLR v2 ResNets achieve excellent performance, scale well and are computationally efficient.
翻訳日:2022-06-02 13:15:17 公開日:2022-06-01
# 畳み込みニューラルネットワークを用いた拡散重み付き磁気共鳴画像の修正と伝達学習

Supervised Denoising of Diffusion-Weighted Magnetic Resonance Images Using a Convolutional Neural Network and Transfer Learning ( http://arxiv.org/abs/2206.00305v1 )

ライセンス: Link先を確認
Jakub Jurek, Andrzej Materka, Kamil Ludwisiak, Agata Majos, Kamil Gorczewski, Kamil Cepuch, Agata Zawadzka(参考訳) 本稿では,現実的な合成MRデータに基づいて訓練された畳み込みニューラルネットワークを用いて,脳の拡散強調画像(DWI)を分解する手法を提案する。 MR画像の信号-雑音比を改善するために, 臨床で広く用いられている検査結果と比較した。 移動学習のためのトレーニングデータを得るために,我々は,エコープラナー画像(EPI:Nyquist ghosting and ramp sample)の効果をデータ駆動方式でモデル化した。 これらの効果を脳解剖学(brainweb)のデジタルファントムに紹介する。 疑似ランダムノイズを確率分布でシミュレートする代わりに、脳-DWI設計プロトコルを用いてノイズスキャンを行い、現実的なノイズマップを得る。 それらを、シミュレートされたノイズフリーEPI画像と組み合わせる。 また,健常者の脳スキャンにおいて,AJRが承認した幾何学ファントムのDW画像におけるポイントスプレッド関数を測定した。 異なる信号対雑音比で繰り返し画像のデノージングと平均化に与える影響について検討した。 模擬EPI画像を用いて定量的に評価し,脳の実際のEPI DWIにおいて定性的に評価する。 提案手法の適用により,繰り返しスキャンする回数を減らすことにより,スキャン時間の大幅な削減が可能となった。 取得した脳画像の視覚的比較は、復号化単一繰り返し画像が多重反復平均画像よりもノイズが少ないことを示している。 また,畳み込みニューラルネットワークのデノイザーを分析し,このデノイジング手法に伴う課題を指摘する。

In this paper, we propose a method for denoising diffusion-weighted images (DWI) of the brain using a convolutional neural network trained on realistic, synthetic MR data. We compare our results to averaging of repeated scans, a widespread method used in clinics to improve signal-to-noise ratio of MR images. To obtain training data for transfer learning, we model, in a data-driven fashion, the effects of echo-planar imaging (EPI): Nyquist ghosting and ramp sampling. We introduce these effects to the digital phantom of brain anatomy (BrainWeb). Instead of simulating pseudo-random noise with a defined probability distribution, we perform noise scans with a brain-DWI-designed protocol to obtain realistic noise maps. We combine them with the simulated, noise-free EPI images. We also measure the Point Spread Function in a DW image of an AJR-approved geometrical phantom and inter-scan movement in a brain scan of a healthy volunteer. Their influence on image denoising and averaging of repeated images is investigated at different signal-to-noise ratio levels. Denoising performance is evaluated quantitatively using the simulated EPI images and qualitatively in real EPI DWI of the brain. We show that the application of our method allows for a significant reduction in scan time by lowering the number of repeated scans. Visual comparisons made in the acquired brain images indicate that the denoised single-repetition images are less noisy than multi-repetition averaged images. We also analyse the convolutional neural network denoiser and point out the challenges accompanying this denoising method.
翻訳日:2022-06-02 13:14:55 公開日:2022-06-01
# Landslide4Sense:地すべり検出のための基準ベンチマークデータとディープラーニングモデル

Landslide4Sense: Reference Benchmark Data and Deep Learning Models for Landslide Detection ( http://arxiv.org/abs/2206.00515v1 )

ライセンス: Link先を確認
Omid Ghorbanzadeh, Yonghao Xu, Pedram Ghamis, Michael Kopp, David Kreil(参考訳) 本研究では,リモートセンシングによる地すべり検出のための基準ベンチマークであるtextit{Landslide4Sense}を紹介する。 このレポジトリは、Sentinel-2センサーからの光学層と、ALOS PALSARから派生した傾斜層とを融合した3,799枚の画像パッチを備える。 地形情報の追加により地すべり境界の正確な検出が容易となり、近年の研究では光学データだけでは困難であることが示されている。 広範なデータセットは、地すべり検出における深層学習(DL)研究を支援し、地すべり在庫の体系的更新のための方法の開発と検証を行う。 ベンチマークデータセットは、Iburi (2018年9月)、Kodagu (2018年8月)、Gorkha (2015年4月)、および Taiwan (2009年8月)の4つの異なる時間と地理的位置で収集された。 各画像画素は地すべりに属するか否かに分類され、様々なソースと詳細な手動アノテーションが組み込まれている。 次に,最先端dlセグメンテーションモデル (u-net, resu-net, pspnet, contextnet, deeplab-v2, deeplab-v3+, fcn-8s, linknet, frrn-a, frrn-b, sqnet) の地すべり検出性能を評価する。 全てのモデルは、各研究領域の4分の1のパッチをスクラッチからトレーニングし、残りの3分の1の独立したパッチをテストした。 実験の結果,resu-netは地すべり検出タスクにおいて他のモデルよりも優れていた。 我々は,マルチソース地すべりベンチマークデータ (landslide4sense) とテストされたdlモデルを \url{www.landslide4sense.org} で公開し,リモートセンシング,コンピュータビジョン,機械学習コミュニティのための重要なリソースを確立し,画像分類一般と地すべり検出への応用を行った。

This study introduces \textit{Landslide4Sense}, a reference benchmark for landslide detection from remote sensing. The repository features 3,799 image patches fusing optical layers from Sentinel-2 sensors with the digital elevation model and slope layer derived from ALOS PALSAR. The added topographical information facilitates an accurate detection of landslide borders, which recent researches have shown to be challenging using optical data alone. The extensive data set supports deep learning (DL) studies in landslide detection and the development and validation of methods for the systematic update of landslide inventories. The benchmark data set has been collected at four different times and geographical locations: Iburi (September 2018), Kodagu (August 2018), Gorkha (April 2015), and Taiwan (August 2009). Each image pixel is labelled as belonging to a landslide or not, incorporating various sources and thorough manual annotation. We then evaluate the landslide detection performance of 11 state-of-the-art DL segmentation models: U-Net, ResU-Net, PSPNet, ContextNet, DeepLab-v2, DeepLab-v3+, FCN-8s, LinkNet, FRRN-A, FRRN-B, and SQNet. All models were trained from scratch on patches from one quarter of each study area and tested on independent patches from the other three quarters. Our experiments demonstrate that ResU-Net outperformed the other models for the landslide detection task. We make the multi-source landslide benchmark data (Landslide4Sense) and the tested DL models publicly available at \url{www.landslide4sense.org}, establishing an important resource for remote sensing, computer vision, and machine learning communities in studies of image classification in general and applications to landslide detection in particular.
翻訳日:2022-06-02 13:14:29 公開日:2022-06-01
# 医用画像分割のための完全畳み込み変換器

The Fully Convolutional Transformer for Medical Image Segmentation ( http://arxiv.org/abs/2206.00566v1 )

ライセンス: Link先を確認
Athanasios Tragakis, Chaitanya Kaul, Roderick Murray-Smith, Dirk Husmeier(参考訳) 本稿では,様々な形態の医用画像のセグメンテーションが可能なトランスフォーマモデルを提案する。 医用画像解析の細かな性質によって生じる課題は、トランスフォーマーを分析に適応させることが、まだ初期段階にあることを意味する。 unetの圧倒的な成功は、セグメンテーションタスクのきめ細かな性質と、既存のトランスフォーマーベースのモデルが現在採用していない能力を評価する能力であった。 この欠点に対処するために、我々は、畳み込みニューラルネットワークが効果的な画像表現を学習できることを実証した能力の上に構築した、完全畳み込み変換器(FCT)を提案し、それらを変換器が入力の長期的な依存関係を効果的にキャプチャする能力と組み合わせる。 FCTは医学画像学における最初の完全畳み込みトランスフォーマーモデルである。 入力を2つの段階で処理し、まず、入力画像から長い意味的依存関係を抽出することを学び、その後、機能から階層的なグローバル属性をキャプチャする。 FCTはコンパクトで正確で堅牢である。 以上の結果から,既存のトランスフォーマーアーキテクチャは,事前トレーニングを必要とせず,さまざまなデータモダリティを持つ複数の医用画像セグメンテーションデータセットよりも優れていることがわかった。 FCTは、ACDCデータセットでは1.3%、Synapseデータセットでは4.4%、Spleenデータセットでは1.2%、ISIC 2017データセットでは1.1%、ダイスメトリックでは最大5倍のパラメータで直接競合する。 私たちのコード、環境、モデルはgithubから入手できます。

We propose a novel transformer model, capable of segmenting medical images of varying modalities. Challenges posed by the fine grained nature of medical image analysis mean that the adaptation of the transformer for their analysis is still at nascent stages. The overwhelming success of the UNet lay in its ability to appreciate the fine-grained nature of the segmentation task, an ability which existing transformer based models do not currently posses. To address this shortcoming, we propose The Fully Convolutional Transformer (FCT), which builds on the proven ability of Convolutional Neural Networks to learn effective image representations, and combines them with the ability of Transformers to effectively capture long-term dependencies in its inputs. The FCT is the first fully convolutional Transformer model in medical imaging literature. It processes its input in two stages, where first, it learns to extract long range semantic dependencies from the input image, and then learns to capture hierarchical global attributes from the features. FCT is compact, accurate and robust. Our results show that it outperforms all existing transformer architectures by large margins across multiple medical image segmentation datasets of varying data modalities without the need for any pre-training. FCT outperforms its immediate competitor on the ACDC dataset by 1.3%, on the Synapse dataset by 4.4%, on the Spleen dataset by 1.2% and on ISIC 2017 dataset by 1.1% on the dice metric, with up to five times fewer parameters. Our code, environments and models will be available via GitHub.
翻訳日:2022-06-02 13:13:50 公開日:2022-06-01
# ロボット協調作業における知覚・意図・行動サイクル

Perception-Intention-Action Cycle in Human-Robot Collaborative Tasks ( http://arxiv.org/abs/2206.00304v1 )

ライセンス: Link先を確認
J. E. Dominguez-Vidal, Nicolas Rodriguez, Rene Alquezar and Alberto Sanfeliu(参考訳) 本研究では,ヒューマン・ロボット・コラボレーション(HRC)タスクにおいて,HRCタスクの知覚・行動サイクルが人間とロボットの協調行動を完全に説明できないこと,意図が重要なトピックである知覚・意図・行動サイクルにまで拡張する必要があることを論じる。 エージェント意図は、他のエージェントによって認識または推測される場合もあるが、他のエージェントに対して、HRCタスクの目的を成功させるためには、明示的に通知する必要がある。 知覚・意図・行動サイクルは、知覚・意図・状況認識・行動の3つの基本的な機能的手順を含む。 知覚と意図は、現在の状況を評価し、将来の状況に投影する状況認識の入力である。 エージェントはこの情報を受け取り、計画し、実行すべきアクションに同意し、HRCタスクを実行しながらアクションロールを変更します。 本研究では,実生活と社会的力を用いた力モデルを用いて,物体移動作業における知覚・意図・行動サイクルを検証し,知覚・意図・行動サイクルをモデル化する。 知覚された世界は力の世界に投影され、人間の意図(知覚または情報)もまた、HRCタスクに作用する力としてモデル化される。 最後に, アクションロール(マスター・スレーブ, 協力的, 中立的, 敵的)は, 任意のHRCタスクに固有のものであり, 作業中の協調行動の異なるステップに現れることを示す。

In this work we argue that in Human-Robot Collaboration (HRC) tasks, the Perception-Action cycle in HRC tasks can not fully explain the collaborative behaviour of the human and robot and it has to be extended to Perception-Intention-Action cycle, where Intention is a key topic. In some cases, agent Intention can be perceived or inferred by the other agent, but in others, it has to be explicitly informed to the other agent to succeed the goal of the HRC task. The Perception-Intention-Action cycle includes three basic functional procedures: Perception-Intention, Situation Awareness and Action. The Perception and the Intention are the input of the Situation Awareness, which evaluates the current situation and projects it, into the future situation. The agents receive this information, plans and agree with the actions to be executed and modify their action roles while perform the HRC task. In this work, we validate the Perception-Intention-Action cycle in a joint object transportation task, modeling the Perception-Intention-Action cycle through a force model which uses real life and social forces. The perceived world is projected into a force world and the human intention (perceived or informed) is also modelled as a force that acts in the HRC task. Finally, we show that the action roles (master-slave, collaborative, neutral or adversary) are intrinsic to any HRC task and they appear in the different steps of a collaborative sequence of actions performed during the task.
翻訳日:2022-06-02 13:13:23 公開日:2022-06-01
# privacy for free: データセットの凝縮はプライバシにどのように役立つのか?

Privacy for Free: How does Dataset Condensation Help Privacy? ( http://arxiv.org/abs/2206.00240v1 )

ライセンス: Link先を確認
Tian Dong, Bo Zhao and Lingjuan Lyu(参考訳) 意図しないデータ漏洩を防止するため、研究コミュニティはモデルトレーニングのための差分プライベートデータを生成するデータジェネレータを活用している。 しかし、データプライバシのために、既存のソリューションは高価なトレーニングコストか、一般化性能の低下に苦しめられている。 したがって、トレーニング効率とプライバシを同時に達成できるかどうかという問題を提起する。 本研究では,トレーニング効率を向上させるために当初設計されていたデータセット凝縮(dc)が,従来のデータジェネレータをプライベートデータ生成に置き換え,プライバシを無償で提供するための優れたソリューションであることを示す。 DCのプライバシーの利点を実証するために、DCと差分プライバシーの接続を構築し、線形特徴抽出器(それから非線形特徴抽出器に拡張)で理論的に証明し、DCによって合成された$n (n \gg m)$のサンプルから合成された$m$でトレーニングされたネットワークのパラメータ分布に1つのサンプルが存在することを証明した(O(m/n)$)。 また,dc合成データの視覚的プライバシとメンバシッププライバシを,損失ベースと最先端の可能性に基づくメンバシップ推論攻撃の両方を起動することによって実証的に検証した。 データ効率とプライバシ保護機械学習のマイルストーンとして、この作業が期待されています。

To prevent unintentional data leakage, research community has resorted to data generators that can produce differentially private data for model training. However, for the sake of the data privacy, existing solutions suffer from either expensive training cost or poor generalization performance. Therefore, we raise the question whether training efficiency and privacy can be achieved simultaneously. In this work, we for the first time identify that dataset condensation (DC) which is originally designed for improving training efficiency is also a better solution to replace the traditional data generators for private data generation, thus providing privacy for free. To demonstrate the privacy benefit of DC, we build a connection between DC and differential privacy, and theoretically prove on linear feature extractors (and then extended to non-linear feature extractors) that the existence of one sample has limited impact ($O(m/n)$) on the parameter distribution of networks trained on $m$ samples synthesized from $n (n \gg m)$ raw samples by DC. We also empirically validate the visual privacy and membership privacy of DC-synthesized data by launching both the loss-based and the state-of-the-art likelihood-based membership inference attacks. We envision this work as a milestone for data-efficient and privacy-preserving machine learning.
翻訳日:2022-06-02 13:08:30 公開日:2022-06-01
# (参考訳) 事前計算ノード機能付きグラフニューラルネットワーク

Graph Neural Networks with Precomputed Node Features ( http://arxiv.org/abs/2206.00637v1 )

ライセンス: CC BY 4.0
Beni Egressy, Roger Wattenhofer(参考訳) ほとんどのグラフニューラルネットワーク(GNN)は、グラフ内のいくつかのグラフや、実際にはいくつかのノードを区別できない。 これにより、特定の分類タスクを解決できない。 しかし、これらのモデルにノード機能を追加すれば、この問題は解決できる。 このような拡張をいくつか紹介する。 (i)位置ノードの埋め込み (ii)正準ノードid、及び (iii)ランダムな特徴。 これらの拡張は理論的な結果によって動機付けられ、合成サブグラフ検出タスクの広範なテストによって裏付けられる。 位置埋め込みは、これらのタスクにおける他の拡張よりも大幅に優れている。 さらに、位置埋め込みはサンプリング効率が良く、異なるグラフ分布でうまく機能し、地上の真理ノード位置での学習よりも優れています。 最後に、既存のGNNベンチマークで異なる拡張が競争力を発揮することを示し、いつ使うべきかをアドバイスする。

Most Graph Neural Networks (GNNs) cannot distinguish some graphs or indeed some pairs of nodes within a graph. This makes it impossible to solve certain classification tasks. However, adding additional node features to these models can resolve this problem. We introduce several such augmentations, including (i) positional node embeddings, (ii) canonical node IDs, and (iii) random features. These extensions are motivated by theoretical results and corroborated by extensive testing on synthetic subgraph detection tasks. We find that positional embeddings significantly outperform other extensions in these tasks. Moreover, positional embeddings have better sample efficiency, perform well on different graph distributions and even outperform learning with ground truth node positions. Finally, we show that the different augmentations perform competitively on established GNN benchmarks, and advise on when to use them.
翻訳日:2022-06-02 13:07:04 公開日:2022-06-01
# CLIP4IDC:画像差分キャプションのためのCLIP

CLIP4IDC: CLIP for Image Difference Captioning ( http://arxiv.org/abs/2206.00629v1 )

ライセンス: Link先を確認
Zixin Guo, Tzu-Jui Julius Wang, Jorma Laaksonen(参考訳) 画像差分キャプション(IDC)は、類似した2つの画像の違いを記述する文を生成することを目的としている。 従来の手法では、オフライン抽出された視覚特徴のキャプションモデルを学び、画像分類データセットで事前学習した固定特徴抽出器に学習を伝達することはできない。 したがって、以下のビジュアル機能を微調整することで、潜在的な改善が可能になる。 1)画像分類で訓練した視覚抽出器をIDCに一般化する際のギャップを狭め、 2) 抽出された視覚的特徴と対応する変更の記述との関係。 そこで本研究では,CLIP4IDCを用いてIDCタスクのCLIPモデルを転送し,これらの改善を実現する。 文を生成するために直接調整するCLIPとは異なり、抽出された特徴を改善するためにタスク固有のドメイン適応が使用される。 具体的には、画像ペアと記述された変更を関連付けるために、生のピクセルでCLIPをトレーニングする。 その後、CLIPのビジョンエンコーダによって抽出された特徴に基づいて、IDCのためにバニラトランスフォーマーを訓練する。 CLEVR-Change、Spot-the-Diff、Image-Editing-Requestの3つのIDCベンチマークデータセットの実験では、CLIP4IDCの有効性が示されている。 私たちのコードとモデルはhttps://github.com/sushizixin/clip4idcでリリースされる予定です。

Image Difference Captioning (IDC) aims at generating sentences to describe the differences between two similar-looking images. The conventional approaches learn captioning models on the offline-extracted visual features and the learning can not be propagated back to the fixed feature extractors pre-trained on image classification datasets. Accordingly, potential improvements can be made by fine-tuning the visual features for: 1) narrowing the gap when generalizing the visual extractor trained on image classification to IDC, and 2) relating the extracted visual features to the descriptions of the corresponding changes. We thus propose CLIP4IDC to transfer a CLIP model for the IDC task to attain these improvements. Different from directly fine-tuning CLIP to generate sentences, a task-specific domain adaptation is used to improve the extracted features. Specifically, the target is to train CLIP on raw pixels to relate the image pairs to the described changes. Afterwards, a vanilla Transformer is trained for IDC on the features extracted by the vision encoder of CLIP. Experiments on three IDC benchmark datasets, CLEVR-Change, Spot-the-Diff and Image-Editing-Request, demonstrate the effectiveness of CLIP4IDC. Our code and models will be released at https://github.com/sushizixin/CLIP4IDC.
翻訳日:2022-06-02 12:51:30 公開日:2022-06-01
# 3次元物体検出のためのトランスを用いたVoxel-based Representation

Unifying Voxel-based Representation with Transformer for 3D Object Detection ( http://arxiv.org/abs/2206.00630v1 )

ライセンス: Link先を確認
Yanwei Li, Yilun Chen, Xiaojuan Qi, Zeming Li, Jian Sun, Jiaya Jia(参考訳) 本研究では,UVTRと呼ばれる多次元オブジェクト検出のための統一フレームワークを提案する。 提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。 この目的のために、モダリティ特化空間は、最初にボクセル特徴空間における異なる入力を表現するように設計されている。 従来の研究と異なり,我々のアプローチはボクセル空間を高さ圧縮することなく保存し,意味的曖昧さを緩和し,空間的相互作用を可能にする。 統一された方法では、知識伝達やモダリティ融合を含む様々なセンサーから固有の特性を完全に活用するために、相互モダリティ相互作用が提案される。 このようにして、ポイントクラウドの幾何認識表現や画像のコンテキスト豊富な特徴は、パフォーマンスとロバスト性を改善するためによく利用される。 変換器デコーダは、学習可能な位置を持つ統一空間から特徴を効率的にサンプリングし、オブジェクトレベルの相互作用を容易にする。 一般に、UVTRは統一されたフレームワークで異なるモダリティを表現しようとする初期の試みを示す。 シングルモダリティとマルチモダリティのエントリで以前の作業を超え、lidar、カメラ、マルチモダリティ入力で69.7%、55.1%、71.1%のndsテストセットで主要な性能を達成している。 コードはhttps://github.com/dvlab-research/uvtrで入手できる。

In this work, we present a unified framework for multi-modality 3D object detection, named UVTR. The proposed method aims to unify multi-modality representations in the voxel space for accurate and robust single- or cross-modality 3D detection. To this end, the modality-specific space is first designed to represent different inputs in the voxel feature space. Different from previous work, our approach preserves the voxel space without height compression to alleviate semantic ambiguity and enable spatial interactions. Benefit from the unified manner, cross-modality interaction is then proposed to make full use of inherent properties from different sensors, including knowledge transfer and modality fusion. In this way, geometry-aware expressions in point clouds and context-rich features in images are well utilized for better performance and robustness. The transformer decoder is applied to efficiently sample features from the unified space with learnable positions, which facilitates object-level interactions. In general, UVTR presents an early attempt to represent different modalities in a unified framework. It surpasses previous work in single- and multi-modality entries and achieves leading performance in the nuScenes test set with 69.7%, 55.1%, and 71.1% NDS for LiDAR, camera, and multi-modality inputs, respectively. Code is made available at https://github.com/dvlab-research/UVTR.
翻訳日:2022-06-02 12:51:09 公開日:2022-06-01
# monosdf:神経暗黙的表面再構成のための単眼幾何学的手がかりを探索する

MonoSDF: Exploring Monocular Geometric Cues for Neural Implicit Surface Reconstruction ( http://arxiv.org/abs/2206.00665v1 )

ライセンス: Link先を確認
Zehao Yu, Songyou Peng, Michael Niemeyer, Torsten Sattler, Andreas Geiger(参考訳) 近年,多視点3次元再構成において暗黙的表面再構成法が普及している。 従来のマルチビューステレオ法とは対照的に、これらのアプローチはニューラルネットワークの帰納的滑らかさバイアスにより、より滑らかで完全な再構成をもたらす傾向がある。 state-of-the-art neural implicit methodは、多くの入力ビューから単純なシーンの高品質な再構成を可能にする。 しかし、そのパフォーマンスは、疎遠な視点から捉えた、大きくて複雑なシーンやシーンに対して大幅に低下する。 これは主に、rgbの再構成損失に固有の曖昧さが原因で、十分な制約が与えられず、特に、観測量が少なく、テクスチャレスな領域では顕著である。 近年の単分子形状予測の分野での進歩に触発されて、我々はこれらの手がかりが神経の暗黙の表面再構成を改善するための有用性を体系的に探求した。 汎用単眼推定器によって予測される奥行きと正常な手がかりは,復元品質と最適化時間を大幅に向上させる。 さらに,単一グリッド上のモノリシックmlpモデルからマルチレゾリューショングリッド表現まで,ニューラルネットワークの暗黙的表面を表現するための複数の設計選択を分析し,検討する。 幾何学的単眼の先行は、表現の選択とは無関係に、小型の単対象と大規模の多対象の両方のパフォーマンスを向上させる。

In recent years, neural implicit surface reconstruction methods have become popular for multi-view 3D reconstruction. In contrast to traditional multi-view stereo methods, these approaches tend to produce smoother and more complete reconstructions due to the inductive smoothness bias of neural networks. State-of-the-art neural implicit methods allow for high-quality reconstructions of simple scenes from many input views. Yet, their performance drops significantly for larger and more complex scenes and scenes captured from sparse viewpoints. This is caused primarily by the inherent ambiguity in the RGB reconstruction loss that does not provide enough constraints, in particular in less-observed and textureless areas. Motivated by recent advances in the area of monocular geometry prediction, we systematically explore the utility these cues provide for improving neural implicit surface reconstruction. We demonstrate that depth and normal cues, predicted by general-purpose monocular estimators, significantly improve reconstruction quality and optimization time. Further, we analyse and investigate multiple design choices for representing neural implicit surfaces, ranging from monolithic MLP models over single-grid to multi-resolution grid representations. We observe that geometric monocular priors improve performance both for small-scale single-object as well as large-scale multi-object scenes, independent of the choice of representation.
翻訳日:2022-06-02 12:50:44 公開日:2022-06-01
# クレオールが望むもの クレオールが必要とするもの

What a Creole Wants, What a Creole Needs ( http://arxiv.org/abs/2206.00437v1 )

ライセンス: Link先を確認
Heather Lent, Kelechi Ogueji, Miryam de Lhoneux, Orevaoghene Ahia, Anders S{\o}gaard(参考訳) 近年、自然言語処理(NLP)コミュニティは、低リソース言語に対する高リソース言語への取り組みの相違に注意を向けている。 このデルタを修復する努力は、しばしば既存の英語データセットを他の言語に翻訳することから始まる。 しかし、このアプローチは異なる言語コミュニティが異なるニーズを持っていることを無視する。 我々は、低リソース言語、クレオール言語の一群を考える。 クレオール語はどちらもnlpの文献にほとんど欠落しており、スティグマ(stigma)によって社会によって無視されることが多い。 我々は,クレオール語話者コミュニティにおけるクレオール語の専門家との会話や調査を通じて,クレオール語と同様に言語が互いに非常に類似していると考えられる場合でも,言語技術から必要なものが,言語によって劇的に変化することを実証する。 これらの会話から生じる顕著なテーマについて論じ、最終的に、有用な言語技術は、関連するコミュニティを巻き込まずに構築できないことを示す。

In recent years, the natural language processing (NLP) community has given increased attention to the disparity of efforts directed towards high-resource languages over low-resource ones. Efforts to remedy this delta often begin with translations of existing English datasets into other languages. However, this approach ignores that different language communities have different needs. We consider a group of low-resource languages, Creole languages. Creoles are both largely absent from the NLP literature, and also often ignored by society at large due to stigma, despite these languages having sizable and vibrant communities. We demonstrate, through conversations with Creole experts and surveys of Creole-speaking communities, how the things needed from language technology can change dramatically from one language to another, even when the languages are considered to be very similar to each other, as with Creoles. We discuss the prominent themes arising from these conversations, and ultimately demonstrate that useful language technology cannot be built without involving the relevant community.
翻訳日:2022-06-02 12:50:21 公開日:2022-06-01
# カスケードロバスト分類器のペリルについて

On the Perils of Cascading Robust Classifiers ( http://arxiv.org/abs/2206.00278v1 )

ライセンス: Link先を確認
Ravi Mangal, Zifan Wang, Chi Zhang, Klas Leino, Corina Pasareanu and Matt Fredrikson(参考訳) 証明可能なロバストなニューラルネットワークは、ニューラルネットワークモデルの\emph{certified robust accuracy}を改善するための有望なアプローチであることが示されている。 予測中の構成モデル(とその堅牢性証明器)へのクエリアクセスのみを前提としたブラックボックスアンサンブルは、モジュール構造のために特に魅力的である。 カスケードアンサンブルはブラックボックスアンサンブルの一般的な例であり、実際に認定された堅牢なアキュラシーを改善しているように見える。 しかし,カスケードアンサンブルが使用するロバスト性証明器は不正確であることがわかった。 つまり、cascadingアンサンブルが入力$x$で局所ロバストであると認定された場合、実際には$x$を中心とする$\epsilon$-ballに$x'$を入力できるので、$x'$でのカスケードの予測は$x$とは異なる。 重み付け投票に基づく代替的なブラックボックスのアンサンブル機構を提案し、ロバストネス認証の健全さを証明した。 思考実験により,構成分類器が適度に多様であれば,投票アンサンブルによって認証性能が向上することを示す。 私たちのコードは \url{https://github.com/TristaChi/ensembleKW} で利用可能です。

Ensembling certifiably robust neural networks has been shown to be a promising approach for improving the \emph{certified robust accuracy} of neural models. Black-box ensembles that assume only query-access to the constituent models (and their robustness certifiers) during prediction are particularly attractive due to their modular structure. Cascading ensembles are a popular instance of black-box ensembles that appear to improve certified robust accuracies in practice. However, we find that the robustness certifier used by a cascading ensemble is unsound. That is, when a cascading ensemble is certified as locally robust at an input $x$, there can, in fact, be inputs $x'$ in the $\epsilon$-ball centered at $x$, such that the cascade's prediction at $x'$ is different from $x$. We present an alternate black-box ensembling mechanism based on weighted voting which we prove to be sound for robustness certification. Via a thought experiment, we demonstrate that if the constituent classifiers are suitably diverse, voting ensembles can improve certified performance. Our code is available at \url{https://github.com/TristaChi/ensembleKW}.
翻訳日:2022-06-02 12:47:45 公開日:2022-06-01
# オフライン強化学習のための可読性を有するモデル生成

Model Generation with Provable Coverability for Offline Reinforcement Learning ( http://arxiv.org/abs/2206.00316v1 )

ライセンス: Link先を確認
Chengxing Jia and Hao Yin and Chenxiao Gao and Tian Xu and Lei Yuan and Zongzhang Zhang and Yang Yu(参考訳) ダイナミックス対応ポリシーを用いたモデルベースのオフライン最適化は、学習されたポリシーがトレーニング段階で列挙された異なるダイナミクスに適応できるような、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。 しかし、オフライン設定の制約のため、学習されたモデルは、信頼できる分散探索をサポートするのに十分な実際のダイナミクスを模倣できなかった。 ギャップを狭めるため、以前の作品はランダム初期化モデルを概ねアンサンブルし、実際のダイナミクスをよりよく近似した。 しかし、そのような実践は費用がかかり、非効率であり、本論文でカバー可能性と呼ぶ学習モデルによって実際のダイナミクスがいかによく近似できるかは保証されていない。 我々は、実力学を効率的かつ制御可能な方法でカバーできる証明可能なモデルを生成することで、この問題に積極的に対処する。 そこで本研究では,ダイナミックスの下でのポリシーの占有度に基づいて,動的モデルの距離メトリックを設計し,実際のダイナミックスのカバレッジを最適化するモデルを生成するアルゴリズムを提案する。 モデル生成過程に関する理論的解析を行い,提案アルゴリズムが適用可能性の向上を証明した。 ダウンストリームタスクとして,従来のオフラインRLベンチマークにおいて,我々のアルゴリズムが従来のオフライン手法よりも優れていることを示す実験を行った。 また,本手法で学習したポリシーはゼロショット転送性能が向上し,その一般化が示唆されることがわかった。

Model-based offline optimization with dynamics-aware policy provides a new perspective for policy learning and out-of-distribution generalization, where the learned policy could adapt to different dynamics enumerated at the training stage. But due to the limitation under the offline setting, the learned model could not mimic real dynamics well enough to support reliable out-of-distribution exploration, which still hinders policy to generalize well. To narrow the gap, previous works roughly ensemble randomly initialized models to better approximate the real dynamics. However, such practice is costly and inefficient, and provides no guarantee on how well the real dynamics could be approximated by the learned models, which we name coverability in this paper. We actively address this issue by generating models with provable ability to cover real dynamics in an efficient and controllable way. To that end, we design a distance metric for dynamic models based on the occupancy of policies under the dynamics, and propose an algorithm to generate models optimizing their coverage for the real dynamics. We give a theoretical analysis on the model generation process and proves that our algorithm could provide enhanced coverability. As a downstream task, we train a dynamics-aware policy with minor or no conservative penalty, and experiments demonstrate that our algorithm outperforms prior offline methods on existing offline RL benchmarks. We also discover that policies learned by our method have better zero-shot transfer performance, implying their better generalization.
翻訳日:2022-06-02 12:47:23 公開日:2022-06-01
# 逆ラベル汚染下の支持ベクターマシン

Support Vector Machines under Adversarial Label Contamination ( http://arxiv.org/abs/2206.00352v1 )

ライセンス: Link先を確認
Huang Xiao, Battista Biggio, Blaine Nelson, Han Xiao, Claudia Eckert, Fabio Roli(参考訳) 機械学習アルゴリズムはスパムやマルウェア検出などのセキュリティ関連のタスクにますます適用されているが、意図的な攻撃に対するセキュリティ特性はまだ広く理解されていない。 インテリジェントで適応的な攻撃者は、システムセキュリティに違反する機械学習技術によって暴露される特定の脆弱性を実際に悪用する可能性がある。 したがって、悪意のあるデータ操作に堅牢であることは、悪意のある設定で機械学習アルゴリズムをうまく動作させるための重要な追加要件である。 本研究では,svm(サポートベクターマシン)のセキュリティを,巧妙なラベルノイズアタックに対して評価する。 特に,SVMの分類誤差を最大化するために,トレーニングデータに多数のラベルを反転させることにより攻撃者を考える。 我々は,対応する最適攻撃戦略を定式化し,ヒューリスティックな手法で解き,計算複雑性を扱いやすくする。 本稿では, 線形および非線形のSVMに対する攻撃が, 合成および実世界のデータセットにおいて有効であることを示す。 最終的に我々は,よりセキュアなSVM学習アルゴリズムの開発に有用な知見を提供するとともに,半教師付き学習やアクティブラーニングなど,関連分野の新たな技術も提供できると主張している。

Machine learning algorithms are increasingly being applied in security-related tasks such as spam and malware detection, although their security properties against deliberate attacks have not yet been widely understood. Intelligent and adaptive attackers may indeed exploit specific vulnerabilities exposed by machine learning techniques to violate system security. Being robust to adversarial data manipulation is thus an important, additional requirement for machine learning algorithms to successfully operate in adversarial settings. In this work, we evaluate the security of Support Vector Machines (SVMs) to well-crafted, adversarial label noise attacks. In particular, we consider an attacker that aims to maximize the SVM's classification error by flipping a number of labels in the training data. We formalize a corresponding optimal attack strategy, and solve it by means of heuristic approaches to keep the computational complexity tractable. We report an extensive experimental analysis on the effectiveness of the considered attacks against linear and non-linear SVMs, both on synthetic and real-world datasets. We finally argue that our approach can also provide useful insights for developing more secure SVM learning algorithms, and also novel techniques in a number of related research areas, such as semi-supervised and active learning.
翻訳日:2022-06-02 12:45:02 公開日:2022-06-01
# オープン環境機械学習

Open Environment Machine Learning ( http://arxiv.org/abs/2206.00423v1 )

ライセンス: Link先を確認
Zhi-Hua Zhou(参考訳) 従来の機械学習研究は一般に、学習プロセスの重要な要素が不変である近世界シナリオを想定している。 機械学習の大きな成功により、今日では、より実用的なタスク、特に、重要な要因が変化の対象となるオープンワールドのシナリオを含む、オープン環境機械学習(open ml)がコミュニティに登場しています。 明らかにこれは、近世界からオープン世界へ転向する機械学習にとって大きな課題である。 さまざまなビッグデータタスクにおいて、データは通常ストリームのように時間とともに蓄積されるため、従来の研究のようにすべてのデータを収集した後、機械学習モデルをトレーニングすることは困難である。 本稿では,新しいクラスを創出する技術,デクリメンタル/インクリメンタルな特徴,データ分散の変化,学習目標の変化,理論的諸問題について概説する。

Conventional machine learning studies generally assume close world scenarios where important factors of the learning process hold invariant. With the great success of machine learning, nowadays, more and more practical tasks, particularly those involving open world scenarios where important factors are subject to change, called open environment machine learning (Open ML) in this article, are present to the community. Evidently it is a grand challenge for machine learning turning from close world to open world. It becomes even more challenging since, in various big data tasks, data are usually accumulated with time, like streams, while it is hard to train the machine learning model after collecting all data as in conventional studies. This article briefly introduces some advances in this line of research, focusing on techniques concerning emerging new classes, decremental/incremental features, changing data distributions, varied learning objectives, and discusses some theoretical issues.
翻訳日:2022-06-02 12:44:42 公開日:2022-06-01
# 深層ネットワークを暗黙的に分散させるReLUを回転させる

Rotate the ReLU to implicitly sparsify deep networks ( http://arxiv.org/abs/2206.00488v1 )

ライセンス: Link先を確認
Nancy Nayak, Sheetal Kalyani(参考訳) 様々な実生活タスクに対するディープニューラルネットワークベースのソリューションの時代において、コンパクトでエネルギー効率の良いデプロイ可能なモデルがかなり重要になっている。 既存のディープアーキテクチャのほとんどはRectifier Linear Unit(ReLU)アクティベーションを使用している。 本稿では,ReLUアクティベーションを回転させてアーキテクチャにさらなる自由度を与える,という新しいアイデアを提案する。 トレーニングによって回転が学習されるこのアクティベーションは、タスクに重要でないネットワーク内のこれらのパラメータ/フィルタの除去をもたらすことを示す。 言い換えれば、回転したReLUは暗黙のスパーシフィケーションを行っているようだ。 回転するreluアクティベーションの傾斜は粗い特徴抽出器として作用し、再訓練前に不要な特徴を除去することができる。 我々の研究は、常にResNetやその変種のようなアーキテクチャにおいて、より少ない数のフィルタを通過させることを選択していることを示している。 したがって、ReLUを回転させることで、不要な重みやフィルタを自動的に識別し、ドロップすることが可能となり、メモリと計算の大幅な節約につながる。 さらに、メモリと計算の節約とともに、MNIST、CIFAR-10、CIFAR-100、SVHNなどの一般的なデータセットにおいて、対応するベースライン処理の報告された性能よりも改善されていることも認識している。

In the era of Deep Neural Network based solutions for a variety of real-life tasks, having a compact and energy-efficient deployable model has become fairly important. Most of the existing deep architectures use Rectifier Linear Unit (ReLU) activation. In this paper, we propose a novel idea of rotating the ReLU activation to give one more degree of freedom to the architecture. We show that this activation wherein the rotation is learned via training results in the elimination of those parameters/filters in the network which are not important for the task. In other words, rotated ReLU seems to be doing implicit sparsification. The slopes of the rotated ReLU activations act as coarse feature extractors and unnecessary features can be eliminated before retraining. Our studies indicate that features always choose to pass through a lesser number of filters in architectures such as ResNet and its variants. Hence, by rotating the ReLU, the weights or the filters that are not necessary are automatically identified and can be dropped thus giving rise to significant savings in memory and computation. Furthermore, in some cases, we also notice that along with saving in memory and computation we also obtain improvement over the reported performance of the corresponding baseline work in the popular datasets such as MNIST, CIFAR-10, CIFAR-100, and SVHN.
翻訳日:2022-06-02 12:44:28 公開日:2022-06-01
# Combinatorial Bandit Explorationのインセンティブ

Incentivizing Combinatorial Bandit Exploration ( http://arxiv.org/abs/2206.00494v1 )

ライセンス: Link先を確認
Xinyan Hu, Dung Daniel Ngo, Aleksandrs Slivkins, Zhiwei Steven Wu(参考訳) 自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。 ユーザは他のアクションを自由に選択でき、アルゴリズムの推奨に従うインセンティブを与えられる必要がある。 ユーザは悪用を好むが、アルゴリズムは以前のユーザから収集した情報を活用することで探索にインセンティブを与えることができる。 インセンティブド・エクスプロレーション(incentivized exploration)として知られるこの問題に関する公開作業はすべて、小さな非構造化アクションセットに焦点を当てており、主に、ユーザの信念がアクション間で独立している場合を対象としている。 しかし、現実的な探索問題は、しばしば大きく構造化された行動セットと高度に相関した信念を特徴付ける。 構造をもつパラダイム探索問題である組合せ半帯域に焦点をあてる。 組み合わせ半帯域に適用した場合、トンプソンサンプリングは各アームの十分な数のサンプルを初期化する際にインセンティブ互換であることが証明される(ベイジアン事前によりこの数が決定される)。 さらに,初期サンプル収集のためのインセンティブ互換アルゴリズムも設計する。

Consider a bandit algorithm that recommends actions to self-interested users in a recommendation system. The users are free to choose other actions and need to be incentivized to follow the algorithm's recommendations. While the users prefer to exploit, the algorithm can incentivize them to explore by leveraging the information collected from the previous users. All published work on this problem, known as incentivized exploration, focuses on small, unstructured action sets and mainly targets the case when the users' beliefs are independent across actions. However, realistic exploration problems often feature large, structured action sets and highly correlated beliefs. We focus on a paradigmatic exploration problem with structure: combinatorial semi-bandits. We prove that Thompson Sampling, when applied to combinatorial semi-bandits, is incentive-compatible when initialized with a sufficient number of samples of each arm (where this number is determined in advance by the Bayesian prior). Moreover, we design incentive-compatible algorithms for collecting the initial samples.
翻訳日:2022-06-02 12:44:10 公開日:2022-06-01
# フィードバックグラフを用いたオンライン学習のための最適最良両世界のアルゴリズム

A Near-Optimal Best-of-Both-Worlds Algorithm for Online Learning with Feedback Graphs ( http://arxiv.org/abs/2206.00557v1 )

ライセンス: Link先を確認
Chlo\'e Rouyer, Dirk van der Hoeven, Nicol\`o Cesa-Bianchi and Yevgeny Seldin(参考訳) 学習者のフィードバックを行動セット上の有向グラフによって決定するシーケンシャルな意思決定フレームワークであるフィードバックグラフを用いたオンライン学習を考える。 本稿では,確率環境と逆環境の両方において,最適に近い後悔領域を同時に達成する,計算効率の高い学習アルゴリズムを提案する。 悪意のある敵に対する境界は$\tilde{o} (\sqrt{\alpha t})$であり、ここで$t$は時間軸、$\alpha$はフィードバックグラフの独立数である。 確率環境に対するバウンドは$O\big( (\ln T)^2 \max_{S\in \mathcal I(G)} \sum_{i \in S} \Delta_i^{-1}\big)$である。 このアルゴリズムは、確率的および逆の帯域幅に対するEXP3++アルゴリズムと、フィードバックグラフのためのEXP3.Gアルゴリズムと、新しい探索スキームを組み合わせたものである。 探索を減らすためにグラフの構造を利用するこのスキームは、フィードバックグラフで最高の世界を保証するための鍵となる。 また、アルゴリズムと結果を、フィードバックグラフが時間とともに変更できるような設定に拡張します。

We consider online learning with feedback graphs, a sequential decision-making framework where the learner's feedback is determined by a directed graph over the action set. We present a computationally efficient algorithm for learning in this framework that simultaneously achieves near-optimal regret bounds in both stochastic and adversarial environments. The bound against oblivious adversaries is $\tilde{O} (\sqrt{\alpha T})$, where $T$ is the time horizon and $\alpha$ is the independence number of the feedback graph. The bound against stochastic environments is $O\big( (\ln T)^2 \max_{S\in \mathcal I(G)} \sum_{i \in S} \Delta_i^{-1}\big)$ where $\mathcal I(G)$ is the family of all independent sets in a suitably defined undirected version of the graph and $\Delta_i$ are the suboptimality gaps. The algorithm combines ideas from the EXP3++ algorithm for stochastic and adversarial bandits and the EXP3.G algorithm for feedback graphs with a novel exploration scheme. The scheme, which exploits the structure of the graph to reduce exploration, is key to obtain best-of-both-worlds guarantees with feedback graphs. We also extend our algorithm and results to a setting where the feedback graphs are allowed to change over time.
翻訳日:2022-06-02 12:43:52 公開日:2022-06-01
# グラフ畳み込みネットワークのためのキャリブレートおよびデビアス層分割サンプリング

Calibrate and Debias Layer-wise Sampling for Graph Convolutional Networks ( http://arxiv.org/abs/2206.00583v1 )

ライセンス: Link先を確認
Yifan Chen, Tianning Xu, Dilek Hakkani-Tur, Di Jin, Yun Yang, Ruoqing Zhu(参考訳) グラフ畳み込みネットワーク(gcns)の学習を高速化するために,埋め込み集約を近似する多くのサンプリングベース手法が開発されている。 それらのうち、レイヤワイズアプローチは、各レイヤ内の既存のノードに対して共同で隣人を選択するために、重要サンプリングを実行する。 本稿では,行列近似の観点からアプローチを再考する。 提案手法は, サブ最適サンプリング確率と, 置換せずにサンプリングによって誘導される近似バイアスの2つの問題である。 本稿では,これらの問題に対処するため,新しいサンプリング確率とデバイアスアルゴリズムを提案し,推定分散の統計的解析を行う。 改善は、一般的なベンチマークに関する広範囲な分析と実験によって実証される。

To accelerate the training of graph convolutional networks (GCNs), many sampling-based methods have been developed for approximating the embedding aggregation. Among them, a layer-wise approach recursively performs importance sampling to select neighbors jointly for existing nodes in each layer. This paper revisits the approach from a matrix approximation perspective. We identify two issues in the existing layer-wise sampling methods: sub-optimal sampling probabilities and the approximation bias induced by sampling without replacement. We propose two remedies: new sampling probabilities and a debiasing algorithm, to address these issues, and provide the statistical analysis of the estimation variance. The improvements are demonstrated by extensive analyses and experiments on common benchmarks.
翻訳日:2022-06-02 12:43:20 公開日:2022-06-01
# Hopular: タブラルデータのためのモダンホップフィールドネットワーク

Hopular: Modern Hopfield Networks for Tabular Data ( http://arxiv.org/abs/2206.00664v1 )

ライセンス: Link先を確認
Bernhard Sch\"afl, Lukas Gruber, Angela Bitto-Nemling, Sepp Hochreiter(参考訳) Deep Learningは視覚や自然言語処理で遭遇する構造化データに優れていますが、表形式のデータに対する期待を満たせませんでした。 表データでは、Support Vector Machines (SVM)、Random Forests、Gradient Boostingが、Gradient Boostingをリードする最高のパフォーマンス技術である。 近年,小規模データセットの勾配増加と比較して,表データに合わせた深層学習手法の急増がみられた。 中小規模のデータセットのための新しいディープラーニングアーキテクチャであるhopularを提案する。 現代のホップフィールドネットワークは、特徴量、特徴量、サンプルサンプルの依存関係を識別するためにストアドデータを使用する。 hopularの目新しさは、すべてのレイヤがhopfieldネットワークに格納されたデータを通じて、元の入力やトレーニングセットに直接アクセスできることである。 したがって、Hopularは現在のモデルを段階的に更新し、標準反復学習アルゴリズムのようなすべての層で結果を予測することができる。 1,000サンプル未満の小さな表型データセットの実験では、HopularはGradient Boosting、Random Forests、SVM、特にいくつかのDeep Learningメソッドを上回っている。 約10,000のサンプルを持つ中規模の表型データの実験では、HopularはXGBoost、CatBoost、LightGBM、そして表型データ用に設計された最先端のDeep Learningメソッドより優れている。 したがって、hopularは表データ上のこれらの方法の強力な代替である。

While Deep Learning excels in structured data as encountered in vision and natural language processing, it failed to meet its expectations on tabular data. For tabular data, Support Vector Machines (SVMs), Random Forests, and Gradient Boosting are the best performing techniques with Gradient Boosting in the lead. Recently, we saw a surge of Deep Learning methods that were tailored to tabular data but still underperform compared to Gradient Boosting on small-sized datasets. We suggest "Hopular", a novel Deep Learning architecture for medium- and small-sized datasets, where each layer is equipped with continuous modern Hopfield networks. The modern Hopfield networks use stored data to identify feature-feature, feature-target, and sample-sample dependencies. Hopular's novelty is that every layer can directly access the original input as well as the whole training set via stored data in the Hopfield networks. Therefore, Hopular can step-wise update its current model and the resulting prediction at every layer like standard iterative learning algorithms. In experiments on small-sized tabular datasets with less than 1,000 samples, Hopular surpasses Gradient Boosting, Random Forests, SVMs, and in particular several Deep Learning methods. In experiments on medium-sized tabular data with about 10,000 samples, Hopular outperforms XGBoost, CatBoost, LightGBM and a state-of-the art Deep Learning method designed for tabular data. Thus, Hopular is a strong alternative to these methods on tabular data.
翻訳日:2022-06-02 12:43:07 公開日:2022-06-01
# (参考訳) 攻撃非依存な敵検出

Attack-Agnostic Adversarial Detection ( http://arxiv.org/abs/2206.00489v1 )

ライセンス: CC BY 4.0
Jiaxin Cheng, Mohamed Hussein, Jay Billa and Wael AbdAlmageed(参考訳) 近年の敵攻撃の増加により、攻撃者は攻撃の種類を知った後、検知器を訓練しなければならないため、攻撃者は防御者に対して有利になる。 本稿では,敵攻撃検出を異常検出問題として扱うことにより,攻撃者と守備者間の綱引きを解消し,攻撃に非依存にする方法を提案する。 対向摂動による統計的偏差を2つの側面で定量化する。 The Least Significant Component Feature (LSCF)は、良性サンプルの統計から敵の例の偏差を定量化し、Hessian Feature (HF)は、逆の例が局所的な損失曲率を測定してモデルの最適景観を歪ませる様子を反映している。 実験の結果,CIFAR10, CIFAR100, SVHNでそれぞれ94.9%, 89.7%, 94.6%のROC AUCを達成でき, 敵の攻撃例で訓練した対向検出器と同等の性能を示した。

The growing number of adversarial attacks in recent years gives attackers an advantage over defenders, as defenders must train detectors after knowing the types of attacks, and many models need to be maintained to ensure good performance in detecting any upcoming attacks. We propose a way to end the tug-of-war between attackers and defenders by treating adversarial attack detection as an anomaly detection problem so that the detector is agnostic to the attack. We quantify the statistical deviation caused by adversarial perturbations in two aspects. The Least Significant Component Feature (LSCF) quantifies the deviation of adversarial examples from the statistics of benign samples and Hessian Feature (HF) reflects how adversarial examples distort the landscape of the model's optima by measuring the local loss curvature. Empirical results show that our method can achieve an overall ROC AUC of 94.9%, 89.7%, and 94.6% on CIFAR10, CIFAR100, and SVHN, respectively, and has comparable performance to adversarial detectors trained with adversarial examples on most of the attacks.
翻訳日:2022-06-02 12:41:21 公開日:2022-06-01
# 異なるソフトマスクの注意

Differentiable Soft-Masked Attention ( http://arxiv.org/abs/2206.00182v1 )

ライセンス: Link先を確認
Ali Athar, Jonathon Luiten, Alexander Hermans, Deva Ramanan, Bastian Leibe(参考訳) トランスフォーマーは、複雑な操作をモデル化する際の性能と柔軟性のため、コンピュータビジョンで普及している。 特に重要なのは、「クロスアテンション」操作であり、これはベクトル表現(例えば画像内のオブジェクト)が任意の大きさの入力特徴の集合に参加することによって学習できるようにするものである。 近年,オブジェクトのセグメンテーションマスクがアクティブな画像画素特徴のみに対象表現が関与する「マスキーク・アテンション」が提案されている。 この注意の特殊化は、様々な画像とビデオのセグメンテーションタスクに有益であることがわかった。 本稿では,「ソフトマスク」(二値ではなく連続的なマスク確率を持つ)を克服し,これらのマスク確率を通じて区別可能な注意の特殊化を提案し,直接の損失監督を必要とせずにネットワーク内で注意を引くことができるようにした。 これはいくつかのアプリケーションに有用である。 具体的には、Weakly-Supervised Video Object Segmentation (VOS) のタスクに "Differentiable Soft-Masked Attention" を使用し、トレーニングには1つの注釈付き画像フレームのみを必要とするが、1つの注釈付きフレームでビデオ上でのサイクル一貫性トレーニングの恩恵を受けることができるVOS用のトランスフォーマーベースのネットワークを開発する。 ラベルのないフレームではマスクが失われることはないが、新しい注意の定式化により、ネットワークはこれらのフレーム内のオブジェクトをセグメンテーションすることができる。

Transformers have become prevalent in computer vision due to their performance and flexibility in modelling complex operations. Of particular significance is the 'cross-attention' operation, which allows a vector representation (e.g. of an object in an image) to be learned by attending to an arbitrarily sized set of input features. Recently, "Masked Attention" was proposed in which a given object representation only attends to those image pixel features for which the segmentation mask of that object is active. This specialization of attention proved beneficial for various image and video segmentation tasks. In this paper, we propose another specialization of attention which enables attending over `soft-masks' (those with continuous mask probabilities instead of binary values), and is also differentiable through these mask probabilities, thus allowing the mask used for attention to be learned within the network without requiring direct loss supervision. This can be useful for several applications. Specifically, we employ our "Differentiable Soft-Masked Attention" for the task of Weakly-Supervised Video Object Segmentation (VOS), where we develop a transformer-based network for VOS which only requires a single annotated image frame for training, but can also benefit from cycle consistency training on a video with just one annotated frame. Although there is no loss for masks in unlabeled frames, the network is still able to segment objects in those frames due to our novel attention formulation.
翻訳日:2022-06-02 12:21:01 公開日:2022-06-01
# LiDAR-MIMO:LiDARに基づく3次元物体検出のための効率的な不確実性推定

LiDAR-MIMO: Efficient Uncertainty Estimation for LiDAR-based 3D Object Detection ( http://arxiv.org/abs/2206.00214v1 )

ライセンス: Link先を確認
Matthew Pitropov, Chengjie Huang, Vahdat Abdelzad, Krzysztof Czarnecki, Steven Waslander(参考訳) 3dオブジェクト検出などのロボットビジョンにおける不確実性の推定は、自身のパフォーマンスを意識した安全な自律システムを開発する上で不可欠な要素である。 しかし,3次元物体検出における現在の不確実性推定手法の展開は,時間的制約や計算的制約により困難である。 この問題に対処するために,マルチインプットマルチアウトプット(MIMO)不確実性推定手法をLiDARベースの3Dオブジェクト検出タスクに適用したLiDAR-MIMOを提案する。 本手法は,検出器の容量制限やポイントクラウド処理の大幅な計算コストにもかかわらず,検出,不確実性推定,ランタイム性能の利点を保ちながら,特徴レベルでマルチインプットを行うことで,元のmimoを修正した。 我々はLiDAR-MIMOをMCドロップアウトとアンサンブルをベースラインとして比較し、少数の出力ヘッドで同等の不確実性推定結果を示す。 さらに、LiDAR-MIMOはMCドロップアウトとアンサンブルの2倍の速さで構成でき、MCドロップアウトよりも高いmAPを実現し、アンサンブルに近づいた。

The estimation of uncertainty in robotic vision, such as 3D object detection, is an essential component in developing safe autonomous systems aware of their own performance. However, the deployment of current uncertainty estimation methods in 3D object detection remains challenging due to timing and computational constraints. To tackle this issue, we propose LiDAR-MIMO, an adaptation of the multi-input multi-output (MIMO) uncertainty estimation method to the LiDAR-based 3D object detection task. Our method modifies the original MIMO by performing multi-input at the feature level to ensure the detection, uncertainty estimation, and runtime performance benefits are retained despite the limited capacity of the underlying detector and the large computational costs of point cloud processing. We compare LiDAR-MIMO with MC dropout and ensembles as baselines and show comparable uncertainty estimation results with only a small number of output heads. Further, LiDAR-MIMO can be configured to be twice as fast as MC dropout and ensembles, while achieving higher mAP than MC dropout and approaching that of ensembles.
翻訳日:2022-06-02 12:20:32 公開日:2022-06-01
# 空間認識および意味認識トークンアライメントに基づくクロスドメイン検出トランス

Cross-domain Detection Transformer based on Spatial-aware and Semantic-aware Token Alignment ( http://arxiv.org/abs/2206.00222v1 )

ライセンス: Link先を確認
Jinhong Deng, Xiaoyue Zhang, Wen Li, Lixin Duan(参考訳) DETRのような検出変換器は、最近多くのオブジェクト検出タスクで有望な性能を示したが、これらのメソッドの一般化能力は、クロスドメイン適応シナリオでは依然としてかなり難しい。 クロスドメイン問題に対処するには、トランスフォーマーで逆行訓練とトークンアライメントを実行するのが簡単な方法である。 しかし、検出変換器のトークンは非常に多様であり、空間情報や意味情報が異なるため、その性能は不満足であることが多い。 本稿では,クロスドメイン検出変換器のための空間認識および意味認識トークンアライメント(SSTA)と呼ばれる新しい手法を提案する。 特に,検出変換器で使用されるクロスアテンションの特性を利用して,空間認識トークンアライメント(SpaTA)と意味認識トークンアライメント(SemTA)戦略を提案し,ドメイン間のトークンアライメントを導く。 空間対応トークンアライメントでは、オブジェクトクエリへの注意に応じてトークンの分布を調整するために、cross-attention map(cam)から情報を抽出することができる。 セマンティクス認識トークンアライメントでは、カテゴリ情報をクロスアテンションマップに注入し、多クラス判別子の学習を導くためにドメイン埋め込みを構築し、カテゴリ関係をモデル化し、適応プロセス全体においてカテゴリレベルのトークンアライメントを達成する。 提案手法が既存のベースラインに対して有効であることを示すとともに,本手法の有効性を明らかにした。

Detection transformers like DETR have recently shown promising performance on many object detection tasks, but the generalization ability of those methods is still quite challenging for cross-domain adaptation scenarios. To address the cross-domain issue, a straightforward way is to perform token alignment with adversarial training in transformers. However, its performance is often unsatisfactory as the tokens in detection transformers are quite diverse and represent different spatial and semantic information. In this paper, we propose a new method called Spatial-aware and Semantic-aware Token Alignment (SSTA) for cross-domain detection transformers. In particular, we take advantage of the characteristics of cross-attention as used in detection transformer and propose the spatial-aware token alignment (SpaTA) and the semantic-aware token alignment (SemTA) strategies to guide the token alignment across domains. For spatial-aware token alignment, we can extract the information from the cross-attention map (CAM) to align the distribution of tokens according to their attention to object queries. For semantic-aware token alignment, we inject the category information into the cross-attention map and construct domain embedding to guide the learning of a multi-class discriminator so as to model the category relationship and achieve category-level token alignment during the entire adaptation process. We conduct extensive experiments on several widely-used benchmarks, and the results clearly show the effectiveness of our proposed method over existing state-of-the-art baselines.
翻訳日:2022-06-02 12:20:11 公開日:2022-06-01
# コントラスト学習における拡張モジュールの再考:拡張ビューによる階層的拡張不変性学習

Rethinking the Augmentation Module in Contrastive Learning: Learning Hierarchical Augmentation Invariance with Expanded Views ( http://arxiv.org/abs/2206.00227v1 )

ライセンス: Link先を確認
Junbo Zhang, Kaisheng Ma(参考訳) データ拡張モジュールは、コントラスト学習において、与えられたデータ例を2つのビューに変換するために使用される。 しかし、複数のデータ拡張の所定の構成は2つの欠点をもたらす。 まず、増強型の人工的な選択は、異なる下流タスクに対して異なる正および負の影響を持つモデルに特定の表現的不変性をもたらす。 トレーニング中に各タイプの強化を等しく処理することで、モデルがさまざまな下流タスクの非最適表現を学習し、前もって拡張型を選択する柔軟性を制限できる。 第二に、古典的コントラスト学習法で使用される強いデータ拡張は、いくつかのケースでは多くのばらつきをもたらし、下流のタスクに不可欠なきめ細かい情報が失われる可能性がある。 本稿では, 一般的なコントラスト学習フレームワークにおいて, コントラストを考慮し, これら2つの問題を緩和する一般的な手法を提案する。 まず,モデルの異なる深さで異なる拡張不変性について,バックボーンで均等に表現不変性を学ぶのではなく,各データ拡張の重要性に応じて学習することを提案する。 次に,強いデータ拡張の効果を誤解させることなくコントラストコンテンツを強調埋め込みで拡張することを提案する。 複数のベースライン法に基づく実験により,下位タスクの分類,検出,分割に関する様々なベンチマークにおいて,より良い表現が得られた。

A data augmentation module is utilized in contrastive learning to transform the given data example into two views, which is considered essential and irreplaceable. However, the predetermined composition of multiple data augmentations brings two drawbacks. First, the artificial choice of augmentation types brings specific representational invariances to the model, which have different degrees of positive and negative effects on different downstream tasks. Treating each type of augmentation equally during training makes the model learn non-optimal representations for various downstream tasks and limits the flexibility to choose augmentation types beforehand. Second, the strong data augmentations used in classic contrastive learning methods may bring too much invariance in some cases, and fine-grained information that is essential to some downstream tasks may be lost. This paper proposes a general method to alleviate these two problems by considering where and what to contrast in a general contrastive learning framework. We first propose to learn different augmentation invariances at different depths of the model according to the importance of each data augmentation instead of learning representational invariances evenly in the backbone. We then propose to expand the contrast content with augmentation embeddings to reduce the misleading effects of strong data augmentations. Experiments based on several baseline methods demonstrate that we learn better representations for various benchmarks on classification, detection, and segmentation downstream tasks.
翻訳日:2022-06-02 12:19:41 公開日:2022-06-01
# Vision GNN:イメージはノードの貴重なグラフ

Vision GNN: An Image is Worth Graph of Nodes ( http://arxiv.org/abs/2206.00272v1 )

ライセンス: Link先を確認
Kai Han, Yunhe Wang, Jianyuan Guo, Yehui Tang, Enhua Wu(参考訳) ネットワークアーキテクチャはディープラーニングベースのコンピュータビジョンシステムにおいて重要な役割を果たす。 広く使われている畳み込みニューラルネットワークとトランスフォーマーは、画像が不規則で複雑なオブジェクトをキャプチャする柔軟性のないグリッドまたはシーケンス構造として扱う。 本稿では,画像をグラフ構造として表現し,視覚タスクのためのグラフレベルの特徴を抽出する新しいVision GNN(ViG)アーキテクチャを提案する。 まず、画像をノードと見なされる多数のパッチに分割し、最寄りの隣接ノードを接続してグラフを構築する。 画像のグラフ表現に基づいて、すべてのノード間で情報を変換、交換するViGモデルを構築します。 ViGはグラフ情報を集約・更新するためのグラフ畳み込み付きグラフモジュールと、ノード特徴変換のための2つの線形層を持つFFNモジュールの2つの基本モジュールで構成されている。 ViGの等方性とピラミッドアーキテクチャはどちらも異なるモデルサイズで構築されている。 画像認識および物体検出タスクに関する大規模な実験は、我々のViGアーキテクチャの優位性を示している。 GNNの一般的な視覚的タスクに関する先駆的な研究が、将来の研究に有用なインスピレーションと経験を提供することを期待している。 PyTrochコードはhttps://github.com/huawei-noah/CV-Backbonesで利用でき、MindSporeコードはhttps://gitee.com/mindspore/modelsで利用できる。

Network architecture plays a key role in the deep learning-based computer vision system. The widely-used convolutional neural network and transformer treat the image as a grid or sequence structure, which is not flexible to capture irregular and complex objects. In this paper, we propose to represent the image as a graph structure and introduce a new Vision GNN (ViG) architecture to extract graph-level feature for visual tasks. We first split the image to a number of patches which are viewed as nodes, and construct a graph by connecting the nearest neighbors. Based on the graph representation of images, we build our ViG model to transform and exchange information among all the nodes. ViG consists of two basic modules: Grapher module with graph convolution for aggregating and updating graph information, and FFN module with two linear layers for node feature transformation. Both isotropic and pyramid architectures of ViG are built with different model sizes. Extensive experiments on image recognition and object detection tasks demonstrate the superiority of our ViG architecture. We hope this pioneering study of GNN on general visual tasks will provide useful inspiration and experience for future research. The PyTroch code will be available at https://github.com/huawei-noah/CV-Backbones and the MindSpore code will be avaiable at https://gitee.com/mindspore/models.
翻訳日:2022-06-02 12:19:19 公開日:2022-06-01
# ポイントティーチング:ポイントアノテーションを用いた弱半教師対象検出

Point-Teaching: Weakly Semi-Supervised Object Detection with Point Annotations ( http://arxiv.org/abs/2206.00274v1 )

ライセンス: Link先を確認
Yongtao Ge, Qiang Zhou, Xinlong Wang, Chunhua Shen, Zhibin Wang, Hao Li(参考訳) ポイントアノテーションはバウンディングボックスアノテーションよりもはるかに時間効率が高い。 しかし、半教師付きオブジェクト検出の性能を高めるために安価なポイントアノテーションを使う方法はほとんど未解決である。 本稿では、ポイントアノテーションを完全に活用する弱い半教師付きオブジェクト検出フレームワークであるPoint-Teachingを紹介する。 具体的には,ポイントアノテート画像の擬似ラベルを生成するためのハンガリーの点マッチング手法を提案する。 さらに,画像のレベルで複数のインスタンス学習(mil)アプローチを提案し,ポイントアノテーションを用いて物体検出器を監督する。 最後に、不整合点の影響を低減するため、単純なyet- effective data augmentation(ポイント誘導コピーペースト)を提案する。 実験は,いくつかのデータセットと様々なデータレジームにおいて,本手法の有効性を示す。

Point annotations are considerably more time-efficient than bounding box annotations. However, how to use cheap point annotations to boost the performance of semi-supervised object detection remains largely unsolved. In this work, we present Point-Teaching, a weakly semi-supervised object detection framework to fully exploit the point annotations. Specifically, we propose a Hungarian-based point matching method to generate pseudo labels for point annotated images. We further propose multiple instance learning (MIL) approaches at the level of images and points to supervise the object detector with point annotations. Finally, we propose a simple-yet-effective data augmentation, termed point-guided copy-paste, to reduce the impact of the unmatched points. Experiments demonstrate the effectiveness of our method on a few datasets and various data regimes.
翻訳日:2022-06-02 12:17:23 公開日:2022-06-01
# ストリーミングビデオにおけるラベル効率の高いオンライン連続物体検出

Label-Efficient Online Continual Object Detection in Streaming Video ( http://arxiv.org/abs/2206.00309v1 )

ライセンス: Link先を確認
Jay Zhangjie Wu, David Junhao Zhang, Wynne Hsu, Mengmi Zhang, Mike Zheng Shou(参考訳) 進化する環境の中で繁栄するために、人間は、これまで学んだ経験を保ちながら、継続的なビデオストリームから新しい知識を継続的に獲得し、伝達することができる。 人間の学習とは対照的に、ほとんどの標準的な連続学習ベンチマークは、完全に教師された設定で静的なid画像から学ぶことに焦点を当てている。 ここでは、ビデオストリームにおけるより現実的で困難な問題$\unicode{x2014}$Label-Efficient Online Continual Object Detection (LEOCOD)について検討する。 この問題に対処することで、アノテーションコストの削減とリトレーニング時間による、多くの実世界のアプリケーションに大きなメリットが得られるでしょう。 そこで我々は,人間の脳における補完学習システム(CLS)からインスピレーションを得て,効率的なCLSと呼ばれる計算モデルを提案する。 CLSの海馬や新皮質と機能的に相関し、Efficient-CLSはシナプスウェイトトランスファーとパターンリプレイを通じて、高速学習者と遅い学習者の双方向相互作用を含むメモリエンコーディング機構を提示する。 2つの挑戦的な実世界のビデオストリームデータセットで効率的なclsと競合ベースラインをテストする。 人間と同じように、Efficient-CLSは、最小限の忘れ物で非繰り返しビデオの連続時間ストリームから、新しいオブジェクトクラスを漸進的に検出することを学ぶ。 注目すべきは、25%の注釈付きビデオフレームだけで、当社のEfficient-CLSは、すべてのビデオフレームに100%アノテーションでトレーニングされたすべての比較モデルの中で、依然としてリードしています。 データとソースコードはhttps://github.com/showlab/Efficient-CLS.comで公開される。

To thrive in evolving environments, humans are capable of continual acquisition and transfer of new knowledge, from a continuous video stream, with minimal supervisions, while retaining previously learnt experiences. In contrast to human learning, most standard continual learning benchmarks focus on learning from static iid images in fully supervised settings. Here, we examine a more realistic and challenging problem$\unicode{x2014}$Label-Efficient Online Continual Object Detection (LEOCOD) in video streams. By addressing this problem, it would greatly benefit many real-world applications with reduced annotation costs and retraining time. To tackle this problem, we seek inspirations from complementary learning systems (CLS) in human brains and propose a computational model, dubbed as Efficient-CLS. Functionally correlated with the hippocampus and the neocortex in CLS, Efficient-CLS posits a memory encoding mechanism involving bidirectional interaction between fast and slow learners via synaptic weight transfers and pattern replays. We test Efficient-CLS and competitive baselines in two challenging real-world video stream datasets. Like humans, Efficient-CLS learns to detect new object classes incrementally from a continuous temporal stream of non-repeating video with minimal forgetting. Remarkably, with only 25% annotated video frames, our Efficient-CLS still leads among all comparative models, which are trained with 100% annotations on all video frames. The data and source code will be publicly available at https://github.com/showlab/Efficient-CLS.
翻訳日:2022-06-02 12:17:12 公開日:2022-06-01
# MaskOCR: Masked Encoder-Decoder Pretraining によるテキスト認識

MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining ( http://arxiv.org/abs/2206.00311v1 )

ライセンス: Link先を確認
Pengyuan Lyu, Chengquan Zhang, Shanshan Liu, Meina Qiao, Yangliu Xu, Liang Wu, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang(参考訳) 本稿では,テキスト認識のためのモデル事前学習手法であるMaskOCRを提案する。 私たちのテキスト認識アーキテクチャはエンコーダ・デコーダトランスフォーマであり、エンコーダはパッチレベルの表現を抽出し、デコーダは表現からテキストを認識する。 我々のアプローチはエンコーダとデコーダの両方を逐次的に事前訓練する。 (i)ラベルなしの実画像の大規模な集合に対して自己教師あり方式でエンコーダをプリトレーニングする。 我々は,一般画像の有効性を示すマスク画像モデリング手法を採用し,その表現が意味論に影響を及ぼすことを期待する。 (2)デコーダに入力された文字が占めるテキストのパッチをランダムにマスキングし,デコーダに入力された表現をランダムにマスキングすることにより,デコーダの言語モデリング能力を向上させる。 提案手法は,中国語と英語のテキスト画像を含むベンチマークデータセットにおいて,優れた結果が得られることを示す。

In this paper, we present a model pretraining technique, named MaskOCR, for text recognition. Our text recognition architecture is an encoder-decoder transformer: the encoder extracts the patch-level representations, and the decoder recognizes the text from the representations. Our approach pretrains both the encoder and the decoder in a sequential manner. (i) We pretrain the encoder in a self-supervised manner over a large set of unlabeled real text images. We adopt the masked image modeling approach, which shows the effectiveness for general images, expecting that the representations take on semantics. (ii) We pretrain the decoder over a large set of synthesized text images in a supervised manner and enhance the language modeling capability of the decoder by randomly masking some text image patches occupied by characters input to the encoder and accordingly the representations input to the decoder. Experiments show that the proposed MaskOCR approach achieves superior results on the benchmark datasets, including Chinese and English text images.
翻訳日:2022-06-02 12:16:47 公開日:2022-06-01
# 合成ゼロショット学習のための不変視覚表現の学習

Learning Invariant Visual Representations for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2206.00415v1 )

ライセンス: Link先を確認
Tian Zhang, Kongming Liang, Ruoyi Du, Xian Sun, Zhanyu Ma, Jun Guo(参考訳) 合成ゼロショット学習(CZSL)は,学習セットにおける属性オブジェクトの合成から学習した知識を用いて,新しい構成を認識することを目的としている。 以前の作業は主に、イメージとコンポジションを共通の埋め込み空間に投影し、互換性のスコアを測定する。 しかし、属性とオブジェクトの両方が上記の視覚的表現を共有しているため、モデルが観察されたペアに対する刺激的な相関と偏見を利用することになる。 代わりに、我々はCZSLを分布外一般化問題として再考する。 オブジェクトがドメインとして扱われる場合、オブジェクト不変の特徴を学習して、任意のオブジェクトに確実にアタッチされた属性を認識することができる。 同様に属性不変機能は、属性をドメインとして持つオブジェクトを認識するときにも学習できる。 具体的には,異なる領域を表象レベルと勾配レベルで整列させ,タスクに付随する固有特性を捉える不変特徴学習フレームワークを提案する。 2つのCZSLベンチマーク実験により,提案手法が従来の最先端技術よりも大幅に優れていることが示された。

Compositional Zero-Shot Learning (CZSL) aims to recognize novel compositions using knowledge learned from seen attribute-object compositions in the training set. Previous works mainly project an image and a composition into a common embedding space to measure their compatibility score. However, both attributes and objects share the visual representations learned above, leading the model to exploit spurious correlations and bias towards seen pairs. Instead, we reconsider CZSL as an out-of-distribution generalization problem. If an object is treated as a domain, we can learn object-invariant features to recognize the attributes attached to any object reliably. Similarly, attribute-invariant features can also be learned when recognizing the objects with attributes as domains. Specifically, we propose an invariant feature learning framework to align different domains at the representation and gradient levels to capture the intrinsic characteristics associated with the tasks. Experiments on two CZSL benchmarks demonstrate that the proposed method significantly outperforms the previous state-of-the-art.
翻訳日:2022-06-02 12:16:30 公開日:2022-06-01
# CD$^2$: ツインス・チャンファー距離を用いた微細3次元メッシュ再構成

CD$^2$: Fine-grained 3D Mesh Reconstruction with Twice Chamfer Distance ( http://arxiv.org/abs/2206.00447v1 )

ライセンス: Link先を確認
Rongfei Zeng, Mai Su, Xingwei Wang(参考訳) モノクロ3D再構成は、オブジェクトの形状や、RGB画像からの詳細情報を再構成することである。 3次元再構成では、ポリゴンメッシュは深層学習モデルから得られる最も一般的な表現形式であり、詳細な表面情報と計算コストが低い。 しかしながら、最先端の作業では十分に構造化されたメッシュを生成することができず、これらのメッシュにはVertices ClusteringとIllegal Twistと呼ばれる2つの深刻な問題があります。 メッシュ変形過程を掘り下げることで、深層学習モデルにおけるChamfer Distance(CD)測定の不十分な利用を指摘できる。 本稿ではまず,CDから生じる問題点を視覚的例と定量的分析を用いて実証する。 そこで本研究では, シャムハ距離を2回適用し, 高精度かつ適応的な変形を行うための細粒度再構成法cd$^2$を提案する。 2つの3dデータセットに関する広範囲な実験と、新たに提案されたメッシュ品質メトリクスの比較により、cd$^2$が、より構造化されたメッシュを生成することで他よりも優れています。

Monocular 3D reconstruction is to reconstruct the shape of object and its other detailed information from a single RGB image. In 3D reconstruction, polygon mesh is the most prevalent expression form obtained from deep learning models, with detailed surface information and low computational cost. However, some state-of-the-art works fail to generate well-structured meshes, these meshes have two severe problems which we call Vertices Clustering and Illegal Twist. By delving into the mesh deformation procedure, we pinpoint the inadequate usage of Chamfer Distance(CD) metric in deep learning model. In this paper, we initially demonstrate the problems resulting from CD with visual examples and quantitative analyses. To solve these problems, we propose a fine-grained reconstruction method CD$^2$ with Chamfer distance adopted twice to perform a plausible and adaptive deformation. Extensive experiments on two 3D datasets and the comparison of our newly proposed mesh quality metrics demonstrate that our CD$^2$ outperforms others by generating better-structured meshes.
翻訳日:2022-06-02 12:16:13 公開日:2022-06-01
# PanopticDepth: 深度対応のPanoptic Segmentationのための統一フレームワーク

PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmentation ( http://arxiv.org/abs/2206.00468v1 )

ライセンス: Link先を確認
Naiyu Gao, Fei He, Jian Jia, Yanhu Shan, Haoyang Zhang, Xin Zhao, Kaiqi Huang(参考訳) 本稿では,1つの画像からインスタンスレベルのセマンティクスを用いて3次元シーンを再構成することを目的とした,深度認識型パノプティックセマンティクス(DPS)の統一フレームワークを提案する。 先行研究では、高密度深度回帰ヘッドを単視セグメンテーション(PS)ネットワークに追加するだけでこの問題に対処し、2つの独立したタスク分岐をもたらす。 これにより、これらの2つのタスク間の相互に便益的な関係は無視されるため、インスタンスレベルのセマンティックキューをうまく利用せず、深さの精度を高めながら、準最適深度マップを生成する。 これらの制約を克服するために,PSタスクと深度予測タスクの両方に動的畳み込み手法を適用し,DPSタスクの統一フレームワークを提案する。 具体的には、一度にすべてのピクセルの深さを予測する代わりに、各インスタンスの深さとセグメンテーションマスクを予測するインスタンス固有のカーネルを生成します。 さらに,インスタンス単位の深度推定手法を利用して,新たな深度損失による深度学習の監視を支援する。 Cityscapes-DPS と SemKITTI-DPS の大規模な実験により,本手法の有効性と将来性を示した。 DPSの統一ソリューションがこの分野で新たなパラダイムを導いてくれることを願っています。 コードはhttps://github.com/NaiyuGao/PanopticDepth.comで入手できる。

This paper presents a unified framework for depth-aware panoptic segmentation (DPS), which aims to reconstruct 3D scene with instance-level semantics from one single image. Prior works address this problem by simply adding a dense depth regression head to panoptic segmentation (PS) networks, resulting in two independent task branches. This neglects the mutually-beneficial relations between these two tasks, thus failing to exploit handy instance-level semantic cues to boost depth accuracy while also producing sub-optimal depth maps. To overcome these limitations, we propose a unified framework for the DPS task by applying a dynamic convolution technique to both the PS and depth prediction tasks. Specifically, instead of predicting depth for all pixels at a time, we generate instance-specific kernels to predict depth and segmentation masks for each instance. Moreover, leveraging the instance-wise depth estimation scheme, we add additional instance-level depth cues to assist with supervising the depth learning via a new depth loss. Extensive experiments on Cityscapes-DPS and SemKITTI-DPS show the effectiveness and promise of our method. We hope our unified solution to DPS can lead a new paradigm in this area. Code is available at https://github.com/NaiyuGao/PanopticDepth.
翻訳日:2022-06-02 12:15:54 公開日:2022-06-01
# 単一視点からのセマンティックルームワイヤフレーム検出

Semantic Room Wireframe Detection from a Single View ( http://arxiv.org/abs/2206.00491v1 )

ライセンス: Link先を確認
David Gillsj\"o, Gabrielle Flood, Kalle {\AA}str\"om(参考訳) テクスチャ情報やテクスチャの繰り返しによる室内表面の復元は, 壁や天井に共通する状況であり, 運動系からの単眼構造では困難である。 一つの視点画像から意味的ワイヤフレームを予測するための意味的ルームワイヤフレーム検出タスクを提案する。 このような予測は、部屋のレイアウトを推定し、復元を助けるために、事前の形状で用いることができる。 提案アルゴリズムをトレーニングし、テストするために、シミュレーションされたstructured3dデータセットから新しいアノテーションセットを作成します。 SRW-Netは、従来のRoom Layout Estimationアルゴリズムよりも複雑な部屋のジオメトリを扱い、非意味的ワイヤフレーム検出においてベースラインを定量的に上回ることを示す。

Reconstruction of indoor surfaces with limited texture information or with repeated textures, a situation common in walls and ceilings, may be difficult with a monocular Structure from Motion system. We propose a Semantic Room Wireframe Detection task to predict a Semantic Wireframe from a single perspective image. Such predictions may be used with shape priors to estimate the Room Layout and aid reconstruction. To train and test the proposed algorithm we create a new set of annotations from the simulated Structured3D dataset. We show qualitatively that the SRW-Net handles complex room geometries better than previous Room Layout Estimation algorithms while quantitatively out-performing the baseline in non-semantic Wireframe Detection.
翻訳日:2022-06-02 12:15:31 公開日:2022-06-01
# amodal cityscapes: 新しいデータセット、その生成、およびamodal semantic segmentation challengeのベースライン

Amodal Cityscapes: A New Dataset, its Generation, and an Amodal Semantic Segmentation Challenge Baseline ( http://arxiv.org/abs/2206.00527v1 )

ライセンス: Link先を確認
Jasmin Breitenstein and Tim Fingscheidt(参考訳) アモーダル知覚は、隠された物体の全体像を想像する人間の能力を意味する。 これによって人間は、特に混み合った状況で起きていることをすべて追跡できるという利点がある。 しかし、典型的な知覚機能は無様知覚能力に欠けており、それゆえ咬合状況では不利である。 複雑な都市交通シナリオは、しばしば様々な種類の閉塞を経験するので、自動運転車に対するアモーダルな認識は調査にとって重要な課題である。 本稿では,amodal semantic segmentation の課題を検討し,amodal semantic segmentation 法を学習するためのデータセットを生成する汎用的な方法を提案する。 このアプローチを使って、amodal Cityscapesデータセットを生成します。 さらに,amodal cityscapesのベースラインとしての提案と評価を行い,自動車環境知覚におけるamodal semantic segmentationの適用性を示した。 このデータセットをgithubで再生成する手段を提供します。

Amodal perception terms the ability of humans to imagine the entire shapes of occluded objects. This gives humans an advantage to keep track of everything that is going on, especially in crowded situations. Typical perception functions, however, lack amodal perception abilities and are therefore at a disadvantage in situations with occlusions. Complex urban driving scenarios often experience many different types of occlusions and, therefore, amodal perception for automated vehicles is an important task to investigate. In this paper, we consider the task of amodal semantic segmentation and propose a generic way to generate datasets to train amodal semantic segmentation methods. We use this approach to generate an amodal Cityscapes dataset. Moreover, we propose and evaluate a method as baseline on Amodal Cityscapes, showing its applicability for amodal semantic segmentation in automotive environment perception. We provide the means to re-generate this dataset on github.
翻訳日:2022-06-02 12:15:18 公開日:2022-06-01
# (参考訳) 自己学習のための自然言語インタラクションの合理化のための事前学習言語モデルの活用

Leveraging Pre-Trained Language Models to Streamline Natural Language Interaction for Self-Tracking ( http://arxiv.org/abs/2205.15503v2 )

ライセンス: CC BY 4.0
Young-Ho Kim, Sungdong Kim, Minsuk Chang, Sang-Woo Lee(参考訳) 現在のセルフトラッキングツールの自然言語インタラクションは、特定のトラッキングテーマとデータフォーマットに最適化された独自実装に大きく依存しています。 しかし、多種多様なトラッキングトピックやデータフォーマットのため、セルフトラッキングの文脈で機械学習モデルをトレーニングすることは困難である。 本稿では,平文として記述された振り返りアクティビティログから近・オープンな情報を抽出する自己追跡のための新しいNLPタスクと,このタスクを実行するドメインに依存しないGPT-3ベースのNLUフレームワークを提案する。 このフレームワークは、合成サンプルを使用してタスクを10ショットの学習に変換するプロンプトを強化し、新しいトラッキングトピックをブートストラップする際のコールドスタート問題に対処する。 予備評価は,本手法がベースラインQAモデルよりも有意に優れていることを示唆している。 さらに、NLPとHCIの研究者が協力できる将来的なアプリケーション領域について論じる。

Current natural language interaction for self-tracking tools largely depends on bespoke implementation optimized for a specific tracking theme and data format, which is neither generalizable nor scalable to a tremendous design space of self-tracking. However, training machine learning models in the context of self-tracking is challenging due to the wide variety of tracking topics and data formats. In this paper, we propose a novel NLP task for self-tracking that extracts close- and open-ended information from a retrospective activity log described as a plain text, and a domain-agnostic, GPT-3-based NLU framework that performs this task. The framework augments the prompt using synthetic samples to transform the task into 10-shot learning, to address a cold-start problem in bootstrapping a new tracking topic. Our preliminary evaluation suggests that our approach significantly outperforms the baseline QA models. Going further, we discuss future application domains toward which the NLP and HCI researchers can collaborate.
翻訳日:2022-06-02 12:13:54 公開日:2022-06-01
# 大規模XBD衛星画像ベンチマークデータセットによる建物被害評価のための自己教師付き学習

Self-Supervised Learning for Building Damage Assessment from Large-scale xBD Satellite Imagery Benchmark Datasets ( http://arxiv.org/abs/2205.15688v2 )

ライセンス: Link先を確認
Zaishuo Xia, Zelin Li, Yanbing Bai, Jinze Yu, Bruno Adriano(参考訳) 災害後評価の分野では、災害後のタイムリーかつ正確な救助・現地化のために、被害を受けた建物の位置を知る必要がある。 ディープラーニングでは、リモートセンシング画像による建物損傷を自動的に高精度に評価する方法を提案する研究者もおり、ドメインの専門家による評価よりも効率的であることが証明されている。 しかし、大量のラベル付きデータがないため、深層学習モデルの効率はラベル付きデータに大きく依存するため、これらのタスクは正確な評価を行うことができない。 既存の半教師と無監督の研究はこの分野でブレークスルーを遂げているが、いずれも完全に解決していない。 そこで本稿では,ラベル付きデータを必要としない自己教師付き比較学習手法を提案する。 我々は、新しい非対称双対ネットワークアーキテクチャを構築し、その性能をxBDデータセット上で検証した。 モデル実験の結果,ベースラインや一般的な手法と比較して改善が見られた。 また,建物損傷認識に対する自己監視手法の可能性を示した。

In the field of post-disaster assessment, for timely and accurate rescue and localization after a disaster, people need to know the location of damaged buildings. In deep learning, some scholars have proposed methods to make automatic and highly accurate building damage assessments by remote sensing images, which are proved to be more efficient than assessment by domain experts. However, due to the lack of a large amount of labeled data, these kinds of tasks can suffer from being able to do an accurate assessment, as the efficiency of deep learning models relies highly on labeled data. Although existing semi-supervised and unsupervised studies have made breakthroughs in this area, none of them has completely solved this problem. Therefore, we propose adopting a self-supervised comparative learning approach to address the task without the requirement of labeled data. We constructed a novel asymmetric twin network architecture and tested its performance on the xBD dataset. Experiment results of our model show the improvement compared to baseline and commonly used methods. We also demonstrated the potential of self-supervised methods for building damage recognition awareness.
翻訳日:2022-06-02 11:59:26 公開日:2022-06-01
# 犬のNose-print再識別のための競合的手法

A Competitive Method for Dog Nose-print Re-identification ( http://arxiv.org/abs/2205.15934v2 )

ライセンス: Link先を確認
Fei Shen, Zhe Wang, Zijun Wang, Xiaode Fu, Jiayi Chen, Xiaoyu Du and Jinhui Tang(参考訳) 視覚に基づくパターン識別(顔、指紋、虹彩など)は、長年にわたって人間の生体認証にうまく適用されてきた。 しかし、大量のラベル付きデータがないため、犬の鼻指紋認証は難しい問題である。 そこで本稿では, cvpr 2022 pet biometric challengeにおいて, 犬鼻認証 (re-id) タスクを提案する。 まず、各クラスがトレーニングセットにサンプルをほとんど持たないという問題を考慮し、自動オフラインデータ拡張戦略を提案する。 そして、トレーニングとテストデータセットのサンプルスタイルの違いに対して、ネットワーク最適化のために、クロスエントロピー、トリプレット、ペアワイド円損失関数を併用する。 最後に,複数のモデルをアンサンブルすることで,テストセット上で86.67\%のAUCを実現する。 コードはhttps://github.com/muzishen/Pet-ReID-IMAGで公開されている。

Vision-based pattern identification (such as face, fingerprint, iris etc.) has been successfully applied in human biometrics for a long history. However, dog nose-print authentication is a challenging problem since the lack of a large amount of labeled data. For that, this paper presents our proposed methods for dog nose-print authentication (Re-ID) task in CVPR 2022 pet biometric challenge. First, considering the problem that each class only with few samples in the training set, we propose an automatic offline data augmentation strategy. Then, for the difference in sample styles between the training and test datasets, we employ joint cross-entropy, triplet and pair-wise circle losses function for network optimization. Finally, with multiple models ensembled adopted, our methods achieve 86.67\% AUC on the test set. Codes are available at https://github.com/muzishen/Pet-ReID-IMAG.
翻訳日:2022-06-02 11:59:09 公開日:2022-06-01
# 製品マッチングのための多言語トランスフォーマー -- ポーランドにおける実験と新しいベンチマーク

Multilingual Transformers for Product Matching -- Experiments and a New Benchmark in Polish ( http://arxiv.org/abs/2205.15712v2 )

ライセンス: Link先を確認
Micha{\l} Mo\.zd\.zonek, Anna Wr\'oblewska, Sergiy Tkachuk, Szymon {\L}ukasik(参考訳) 製品マッチングは、異なるデータソース間で同じ製品をマッチングするタスクに対応します。 一般的には、マルチモーダルである以外、さまざまなデータ型で構成され、非均質で不完全である利用可能な製品機能を採用している。 本論文は,英語とポーランド語の両方でテキスト特徴を用いた製品マッチング問題の解決に適した,事前学習された多言語トランスフォーマーモデルを示す。 Web Data CommonsでマルチリンガルmBERTとXLM-RoBERTaモデル(大規模製品マッチングのためのトレーニングデータセットとゴールド標準)を英語でテストした。 得られた結果から,これらのモデルは,このセットでテストした最新のソリューションと同等に動作し,場合によってはさらに優れた結果が得られた。 さらに,研究目的として,複数のオンラインストアから選択したカテゴリのオファーに基づいて,新たなデータセットをポーランド語で用意した。 これはポーランドで製品マッチングタスクのための最初のオープンデータセットであり、事前訓練されたモデルの有効性を比較することができる。 そこで,ポーランドのデータセット上でmBERTモデルとXLM-RoBERTaモデルにより得られたベースライン結果を示した。

Product matching corresponds to the task of matching identical products across different data sources. It typically employs available product features which, apart from being multimodal, i.e., comprised of various data types, might be non-homogeneous and incomplete. The paper shows that pre-trained, multilingual Transformer models, after fine-tuning, are suitable for solving the product matching problem using textual features both in English and Polish languages. We tested multilingual mBERT and XLM-RoBERTa models in English on Web Data Commons - training dataset and gold standard for large-scale product matching. The obtained results show that these models perform similarly to the latest solutions tested on this set, and in some cases, the results were even better. Additionally, we prepared a new dataset entirely in Polish and based on offers in selected categories obtained from several online stores for the research purpose. It is the first open dataset for product matching tasks in Polish, which allows comparing the effectiveness of the pre-trained models. Thus, we also showed the baseline results obtained by the fine-tuned mBERT and XLM-RoBERTa models on the Polish datasets.
翻訳日:2022-06-02 11:58:57 公開日:2022-06-01
# 生成モデルを用いた非線形観測からの非イテレーティブ回復

Non-Iterative Recovery from Nonlinear Observations using Generative Models ( http://arxiv.org/abs/2205.15749v2 )

ライセンス: Link先を確認
Jiulong Liu, Zhaoqiang Liu(参考訳) 本稿では,半パラメトリック単一指数モデル(sim)に基づく非線形観測から基礎となる信号の方向を推定することを目的とする。 信号がスパースであると仮定される従来の圧縮センシングとは異なり、信号は境界付き$k$-次元入力を持つ$l$-lipschitz連続生成モデルの範囲内にあると仮定する。 これは主に、様々な実アプリケーションにおける深い生成モデルの成功に動機づけられている。 提案手法は非定性的であり(プロジェクションステップの近似は反復的な手順を用いる場合もあるが)、非常に効率的であり、$m$が測定数であるようなオーダー$\sqrt{(k \log L)/m}$のほぼ最適統計率が得られることを示す。 SIMの2つの具体例,すなわち1ドルのノイズと3乗の測定モデルについて検討し,本手法の有効性を示すために画像データセットの実験を行った。 特に、ノイズの多い1ドルの測度モデルでは、非定位法が精度と効率の両面で最先端の反復法よりも優れていることを示す。

In this paper, we aim to estimate the direction of an underlying signal from its nonlinear observations following the semi-parametric single index model (SIM). Unlike conventional compressed sensing where the signal is assumed to be sparse, we assume that the signal lies in the range of an $L$-Lipschitz continuous generative model with bounded $k$-dimensional inputs. This is mainly motivated by the tremendous success of deep generative models in various real applications. Our reconstruction method is non-iterative (though approximating the projection step may use an iterative procedure) and highly efficient, and it is shown to attain the near-optimal statistical rate of order $\sqrt{(k \log L)/m}$, where $m$ is the number of measurements. We consider two specific instances of the SIM, namely noisy $1$-bit and cubic measurement models, and perform experiments on image datasets to demonstrate the efficacy of our method. In particular, for the noisy $1$-bit measurement model, we show that our non-iterative method significantly outperforms a state-of-the-art iterative method in terms of both accuracy and efficiency.
翻訳日:2022-06-02 11:58:41 公開日:2022-06-01
# Hollywood Identity Bias Dataset: 映画対話のコンテキスト指向バイアス分析

Hollywood Identity Bias Dataset: A Context Oriented Bias Analysis of Movie Dialogues ( http://arxiv.org/abs/2205.15951v2 )

ライセンス: Link先を確認
Sandhya Singh, Prapti Roy, Nihar Sahoo, Niteesh Mallela, Himanshu Gupta, Pushpak Bhattacharyya, Milind Savagaonkar, Nidhi, Roshni Ramnani, Anutosh Maitra, Shubhashis Sengupta(参考訳) 映画は社会を反映し、意見を変える力を持っている。 映画に現れる社会的バイアスやステレオタイプは、そのリーチによって広範囲にダメージを与える可能性がある。 これらのバイアスが必ずしもストーリーラインの必要性であるとは限らないが、著者のバイアスとして忍び寄ることがある。 映画のプロダクションハウスは、脚本にある偏見が物語の要求であることを確認することを好んでいる。 今日では、ディープラーニングモデルが複数のタスクにおいて人間レベルの精度を提供できる場合、執筆段階でスクリプトに存在するバイアスを特定するAIソリューションを持つことで、リリースの停滞や訴訟などの不便さを回避することができる。 AIソリューションはデータ集約型であり、スクリプトのバイアス問題に対処するドメイン固有のデータはないため、IDバイアスに注釈を付けた新しい映画のスクリプトデータセットを導入する。 データセットには注釈付きの対話ターンが含まれています i) 性別、人種・民族性、宗教、年齢、職業、LGBTQなどの7つのカテゴリーのバイアスラベル。 (ii)感受性、ステレオタイプ、感情、感情、感情の強さのラベル (三)文脈認識を付したすべてのラベル (iv)バイアスラベルのターゲットグループと理由 (v) 高品質なアノテーションのためのエキスパート主導のグループ検証プロセス。 また、バイアス識別とカテゴリ検出のための様々なベースライン性能をデータセット上で報告する。

Movies reflect society and also hold power to transform opinions. Social biases and stereotypes present in movies can cause extensive damage due to their reach. These biases are not always found to be the need of storyline but can creep in as the author's bias. Movie production houses would prefer to ascertain that the bias present in a script is the story's demand. Today, when deep learning models can give human-level accuracy in multiple tasks, having an AI solution to identify the biases present in the script at the writing stage can help them avoid the inconvenience of stalled release, lawsuits, etc. Since AI solutions are data intensive and there exists no domain specific data to address the problem of biases in scripts, we introduce a new dataset of movie scripts that are annotated for identity bias. The dataset contains dialogue turns annotated for (i) bias labels for seven categories, viz., gender, race/ethnicity, religion, age, occupation, LGBTQ, and other, which contains biases like body shaming, personality bias, etc. (ii) labels for sensitivity, stereotype, sentiment, emotion, emotion intensity, (iii) all labels annotated with context awareness, (iv) target groups and reason for bias labels and (v) expert-driven group-validation process for high quality annotations. We also report various baseline performances for bias identification and category detection on our dataset.
翻訳日:2022-06-02 11:58:22 公開日:2022-06-01
# エピデミック予測のための時間分解能グラフニューラルネットワーク

Temporal Multiresolution Graph Neural Networks For Epidemic Prediction ( http://arxiv.org/abs/2205.14831v2 )

ライセンス: Link先を確認
Truong Son Hy and Viet Bach Nguyen and Long Tran-Thanh and Risi Kondor(参考訳) 本稿では,時間的多解像度グラフニューラルネットワーク(tmgnn)について紹介する。多スケール・多解像度グラフ構造の構築を両立し,時系列信号を組み込んで動的グラフの時間的変化をキャプチャする最初のアーキテクチャである。 本研究は,いくつかのヨーロッパ諸国におけるcovid-19パンデミックとニワトリポックスパンデミックから収集した過去の時系列データをもとに,パンデミックとパンデミックの将来的な流行を予測するための課題に適用し,これまでの最先端の時間的アーキテクチャやグラフ学習アルゴリズムと比較して,競争力のある結果を得た。 グラフのマルチスケールかつマルチレゾリューション構造を捉えることは、地域都市から始まり、世界中に広がる新型コロナウイルスのような世界的なパンデミックのダイナミクスを理解する上で重要な役割を果たすローカル情報またはグローバル情報を抽出する上で重要であることを実証した。 我々の研究は将来の流行とパンデミックの予測と緩和に有望な研究の方向性をもたらす。

In this paper, we introduce Temporal Multiresolution Graph Neural Networks (TMGNN), the first architecture that both learns to construct the multiscale and multiresolution graph structures and incorporates the time-series signals to capture the temporal changes of the dynamic graphs. We have applied our proposed model to the task of predicting future spreading of epidemic and pandemic based on the historical time-series data collected from the actual COVID-19 pandemic and chickenpox epidemic in several European countries, and have obtained competitive results in comparison to other previous state-of-the-art temporal architectures and graph learning algorithms. We have shown that capturing the multiscale and multiresolution structures of graphs is important to extract either local or global information that play a critical role in understanding the dynamic of a global pandemic such as COVID-19 which started from a local city and spread to the whole world. Our work brings a promising research direction in forecasting and mitigating future epidemics and pandemics.
翻訳日:2022-06-02 11:58:03 公開日:2022-06-01
# SymFormer: Transformer-based Architecture を用いたエンドツーエンドのシンボリックレグレッション

SymFormer: End-to-end symbolic regression using transformer-based architecture ( http://arxiv.org/abs/2205.15764v2 )

ライセンス: Link先を確認
Martin Vastl, Jon\'a\v{s} Kulh\'anek, Ji\v{r}\'i Kubal\'ik, Erik Derner, Robert Babu\v{s}ka(参考訳) 多くの実世界の問題は数学的公式によって自然に記述できる。 観測された入力と出力の集合から公式を見つけるタスクは記号回帰と呼ばれる。 近年,シンボリック回帰にニューラルネットワークが適用され,トランスフォーマーベースが最も有望と思われる。 変圧器を多数の式(日の順)で訓練した後、実際の推論、すなわち新しい、目に見えないデータの式を見つけることは、非常に高速(秒順)である。 これは最先端の進化法よりもかなり速い。 変圧器の主な欠点は、数値定数を持たない式を生成することである。 我々はSymFormerと呼ばれる変圧器に基づく手法を提案し、個々のシンボルと対応する定数を同時に出力することで式を予測する。 これにより、利用可能なデータに適合するという点でパフォーマンスが向上する。 さらに、SymFormerが提供する定数は、さらにパフォーマンスを向上させるために勾配降下による後続のチューニングの出発点として機能する。 我々は,SymFormerが2つの最先端メソッドを高速な推論で上回るベンチマークを示す。

Many real-world problems can be naturally described by mathematical formulas. The task of finding formulas from a set of observed inputs and outputs is called symbolic regression. Recently, neural networks have been applied to symbolic regression, among which the transformer-based ones seem to be the most promising. After training the transformer on a large number of formulas (in the order of days), the actual inference, i.e., finding a formula for new, unseen data, is very fast (in the order of seconds). This is considerably faster than state-of-the-art evolutionary methods. The main drawback of transformers is that they generate formulas without numerical constants, which have to be optimized separately, so yielding suboptimal results. We propose a transformer-based approach called SymFormer, which predicts the formula by outputting the individual symbols and the corresponding constants simultaneously. This leads to better performance in terms of fitting the available data. In addition, the constants provided by SymFormer serve as a good starting point for subsequent tuning via gradient descent to further improve the performance. We show on a set of benchmarks that SymFormer outperforms two state-of-the-art methods while having faster inference.
翻訳日:2022-06-02 11:57:43 公開日:2022-06-01
# 自動生成テキストのクラスタベース評価

Cluster-based Evaluation of Automatically Generated Text ( http://arxiv.org/abs/2205.16001v2 )

ライセンス: Link先を確認
Tiago Pimentel, Clara Meister, Ryan Cotterell(参考訳) 確率的言語生成器はここ数年で劇的に改善されているが、それらの評価に用いられる自動評価指標は、この進歩に追随していない。 言語生成の分野では、優れた計量は人間の判断と高く相関しなければならない。 しかし、例外は少ないが、文献にはそのような指標が欠如している。 本研究では,言語生成評価の一般的なパラダイムを分析する。 まず,ほとんどの言語生成器のバックボーンである文字列上の確率分布を操作する自動評価メトリクスを用いて,計算と定性の問題について議論する。 次に、クラスタ上での分散の利用を提案する。そこでは、テキストの埋め込みに基づいて文字列をクラスタ化する(事前訓練された言語モデルから得られる)。 この置換によってもたらされるバイアスは非常に強いが、実証的に、この手法は人間の判断と高い相関を持つ計量推定器につながり、同時に推定器の分散を減少させる。 テキストの構文的およびコヒーレンスレベルの特徴を符号化すると同時に、表面レベルの特徴を無視して、これらのクラスタは単に最先端の言語モデルを評価するためのより優れた装備である、という結論に至る。

While probabilistic language generators have improved dramatically over the last few years, the automatic evaluation metrics used to assess them have not kept pace with this progress. In the domain of language generation, a good metric must correlate highly with human judgements. Yet, with few exceptions, there is a lack of such metrics in the literature. In this work, we analyse the general paradigm of language generator evaluation. We first discuss the computational and qualitative issues with using automatic evaluation metrics that operate on probability distributions over strings, the backbone of most language generators. We then propose the use of distributions over clusters instead, where we cluster strings based on their text embeddings (obtained from a pretrained language model). While we find the biases introduced by this substitution to be quite strong, we observe that, empirically, this methodology leads to metric estimators with higher correlation with human judgements, while simultaneously reducing estimator variance. We finish the paper with a probing analysis, which leads us to conclude that -- by encoding syntactic- and coherence-level features of text, while ignoring surface-level features -- these clusters may simply be better equipped to evaluate state-of-the-art language models.
翻訳日:2022-06-02 11:56:18 公開日:2022-06-01
# 検索エンジンクエリボリュームを用いた日先株価の予測:S&P100への勾配ブースト決定木の適用

Predicting Day-Ahead Stock Returns using Search Engine Query Volumes: An Application of Gradient Boosted Decision Trees to the S&P 100 ( http://arxiv.org/abs/2205.15853v2 )

ライセンス: Link先を確認
Christopher Bockel-Rickermann(参考訳) インターネットは私たちの生活、働き方、意思決定方法を変えました。 研究のための主要な現代資料であるため、インターネット利用に関する詳細なデータは大量の行動情報を示している。 本論文は、金融資本市場における将来の株式リターンを予測するために、この情報が促進されるかどうかを問うものである。 実証分析では、s&p 100指数における株価の異常リターンと、過去の財務データに由来する遅延予測者、およびインターネット検索エンジンgoogleの検索項クエリボリュームの関係を学習するために、勾配強化決定木を実装している。 モデルは、指数中央値を超える日平均株価のリターンを予測します。 2005年から2017年までの期間において、すべての異なるデータセットが貴重な情報を表示する。 評価されたモデルは、受信機の動作特性の54.2%から56.7%の平均領域を持ち、明らかにランダムな推測よりも優れた分類を示している。 単純な統計的仲裁戦略を実装し、モデルは10株の日替わり取引ポートフォリオを作成するために使用され、取引コストよりも57%以上パフォーマンスを達成している。 さまざまなデータセットがパフォーマンスランキングを上回り、その結果は現代の金融資本市場の弱体化と半強体化にさらに疑問を呈する。 トランザクションコストは含まれていないが、このアプローチは既存の文献に追加される。 金融と経済のモデリングと予測のためのインターネット利用行動のデータの使用と変換に関するガイダンスを提供する。

The internet has changed the way we live, work and take decisions. As it is the major modern resource for research, detailed data on internet usage exhibits vast amounts of behavioral information. This paper aims to answer the question whether this information can be facilitated to predict future returns of stocks on financial capital markets. In an empirical analysis it implements gradient boosted decision trees to learn relationships between abnormal returns of stocks within the S&P 100 index and lagged predictors derived from historical financial data, as well as search term query volumes on the internet search engine Google. Models predict the occurrence of day-ahead stock returns in excess of the index median. On a time frame from 2005 to 2017, all disparate datasets exhibit valuable information. Evaluated models have average areas under the receiver operating characteristic between 54.2% and 56.7%, clearly indicating a classification better than random guessing. Implementing a simple statistical arbitrage strategy, models are used to create daily trading portfolios of ten stocks and result in annual performances of more than 57% before transaction costs. With ensembles of different data sets topping up the performance ranking, the results further question the weak form and semi-strong form efficiency of modern financial capital markets. Even though transaction costs are not included, the approach adds to the existing literature. It gives guidance on how to use and transform data on internet usage behavior for financial and economic modeling and forecasting.
翻訳日:2022-06-02 11:55:59 公開日:2022-06-01
# 喘息治療適応のためのオーディオパターン認識の再検討:RDAベンチマークスイートによる評価

Revisiting Audio Pattern Recognition for Asthma Medication Adherence: Evaluation with the RDA Benchmark Suite ( http://arxiv.org/abs/2205.15360v2 )

ライセンス: Link先を確認
Nikos D. Fakotakis, Stavros Nousias, Gerasimos Arvanitis, Evangelia I. Zacharaki, Konstantinos Moustakas(参考訳) 喘息は一般的には長期の呼吸器疾患であり、社会や経済に悪影響を及ぼす。 治療には、気道に薬を分配する医療機器(吸入器)を使用し、その効率は吸入技術の精度に依存する。 センサを備えた健康モニタリングシステムと音声信号検出システムにより、薬物の作動を認識することができ、信頼性の高いオーディオコンテンツ分析のための強力なツールとなる可能性がある。 本稿では,喘息薬の付着度評価のための音声パターン認識と機械学習手法を再検討し,rdaスイート(https://gitlab.com/vvr/monitoring-medication-adherence/rda-benchmark)を提案する。 rdaスイートには、オーディオ処理、特徴抽出、分類のための一連のツールが含まれており、呼吸と薬物の作動音からなるデータセットを提供する。 RDAの分類モデルは、従来の機械学習とディープネットワークアーキテクチャに基づいて実装されている。 本研究は,実装手法の比較評価を行い,潜在的な改善について検討し,課題と今後の傾向について考察する。

Asthma is a common, usually long-term respiratory disease with negative impact on society and the economy worldwide. Treatment involves using medical devices (inhalers) that distribute medication to the airways, and its efficiency depends on the precision of the inhalation technique. Health monitoring systems equipped with sensors and embedded with sound signal detection enable the recognition of drug actuation and could be powerful tools for reliable audio content analysis. This paper revisits audio pattern recognition and machine learning techniques for asthma medication adherence assessment and presents the Respiratory and Drug Actuation (RDA) Suite(https://gitlab.com/vvr/monitoring-medication-adherence/rda-benchmark) for benchmarking and further research. The RDA Suite includes a set of tools for audio processing, feature extraction and classification and is provided along with a dataset consisting of respiratory and drug actuation sounds. The classification models in RDA are implemented based on conventional and advanced machine learning and deep network architectures. This study provides a comparative evaluation of the implemented approaches, examines potential improvements and discusses challenges and future tendencies.
翻訳日:2022-06-02 11:55:35 公開日:2022-06-01
# fedwalk: ディファレンシャルプライバシを備えた通信効率のよいフェデレーションなしノード埋め込み

FedWalk: Communication Efficient Federated Unsupervised Node Embedding with Differential Privacy ( http://arxiv.org/abs/2205.15896v2 )

ライセンス: Link先を確認
Qiying Pan (1) and Yifei Zhu (1) ((1) Shanghai Jiao Tong University)(参考訳) node embeddedは、複雑なグラフのノードを低次元表現にマッピングすることを目的としている。 実世界の大規模グラフとラベル付けの難しさは、教師なしノード埋め込み問題の幅広い研究を動機付ける。 それでも、以前の取り組みは主に、完全なグラフが与えられる集中的な設定で動作します。 データプライバシの認知度が高まる中、頂点を1つだけ認識しているデータ保有者は、より多くのプライバシー保護を要求する。 本稿では,生のグラフ情報をローカルに残したノードレベルの可視グラフで動作する,ランダムウォークに基づく非教師なしノード埋め込みアルゴリズムであるfeedwalkを提案する。 FedWalkは、データプライバシ保護と優れた通信効率を備えた、集中型の競合グラフ表現機能を提供するように設計されている。 FedWalkは一般的なフェデレーションパラダイムをインスタンス化し、3つのモジュールを含んでいる。 まず,各ノードの構造特徴を抽出するために階層型クラスタリングツリー(hct)コンストラクタを設計する。 動的時間ワープアルゴリズムは、異なるノード間の構造的不均一性をシームレスに扱う。 構築したHCTに基づいてランダムウォークジェネレータを設計し,プライバシ保護のためにシーケンスエンコーダを設計し,通信コストを削減するために2ホップ隣の予測器を設計する。 生成されたランダムウォークは、SkipGramモデルに基づいたノード埋め込みの更新に使用される。 2つの大きなグラフに対する広範囲な実験により、集中ノード埋め込みアルゴリズムは1.8%のmicro-f1スコアと4.4%のmarco-f1スコアの損失しか持たず、デバイス間通信の約6.7倍の削減を実現している。

Node embedding aims to map nodes in the complex graph into low-dimensional representations. The real-world large-scale graphs and difficulties of labeling motivate wide studies of unsupervised node embedding problems. Nevertheless, previous effort mostly operates in a centralized setting where a complete graph is given. With the growing awareness of data privacy, data holders who are only aware of one vertex and its neighbours demand greater privacy protection. In this paper, we introduce FedWalk, a random-walk-based unsupervised node embedding algorithm that operates in such a node-level visibility graph with raw graph information remaining locally. FedWalk is designed to offer centralized competitive graph representation capability with data privacy protection and great communication efficiency. FedWalk instantiates the prevalent federated paradigm and contains three modules. We first design a hierarchical clustering tree (HCT) constructor to extract the structural feature of each node. A dynamic time warping algorithm seamlessly handles the structural heterogeneity across different nodes. Based on the constructed HCT, we then design a random walk generator, wherein a sequence encoder is designed to preserve privacy and a two-hop neighbor predictor is designed to save communication cost. The generated random walks are then used to update node embedding based on a SkipGram model. Extensive experiments on two large graphs demonstrate that Fed-Walk achieves competitive representativeness as a centralized node embedding algorithm does with only up to 1.8% Micro-F1 score and 4.4% Marco-F1 score loss while reducing about 6.7 times of inter-device communication per walk.
翻訳日:2022-06-02 11:55:13 公開日:2022-06-01