このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220610となっている論文です。

PDF登録状況(公開日: 20220610)

TitleAuthorsAbstract論文公表日・翻訳日
# 散逸性パーセプトロンに基づく量子ニューラルネットワークのトレーサビリティ

Trainability of Dissipative Perceptron-Based Quantum Neural Networks ( http://arxiv.org/abs/2005.12458v2 )

ライセンス: Link先を確認
Kunal Sharma, M. Cerezo, Lukasz Cincio, Patrick J. Coles(参考訳) 量子ニューラルネットワーク(QNN)には、量子データ上で機械学習タスクを効率的に実行する目的で、いくつかのアーキテクチャが提案されている。 特定のQNN構築において、もしある場合、大規模なトレーニングが可能かを理解するために、厳密なスケーリング結果が緊急に必要となる。 本稿では,最近提案するdissipative qnns(dqnns)アーキテクチャの勾配スケーリング(およびトレーサビリティ)を分析し,各レイヤの入力量子ビットをレイヤの出力に破棄する。 DQNNは不規則な高原、すなわち量子ビット数で指数関数的に消える勾配を示すことができる。 さらに,DQNNの勾配のスケーリングについて,コスト関数や回路深度などの異なる条件下での定量的境界を提供し,トレーニング性が常に保証されているとは限らないことを示す。

Several architectures have been proposed for quantum neural networks (QNNs), with the goal of efficiently performing machine learning tasks on quantum data. Rigorous scaling results are urgently needed for specific QNN constructions to understand which, if any, will be trainable at a large scale. Here, we analyze the gradient scaling (and hence the trainability) for a recently proposed architecture that we called dissipative QNNs (DQNNs), where the input qubits of each layer are discarded at the layer's output. We find that DQNNs can exhibit barren plateaus, i.e., gradients that vanish exponentially in the number of qubits. Moreover, we provide quantitative bounds on the scaling of the gradient for DQNNs under different conditions, such as different cost functions and circuit depths, and show that trainability is not always guaranteed.
翻訳日:2022-11-29 00:51:47 公開日:2022-06-10
# CoCon: 制御されたテキスト生成のための自己監督型アプローチ

CoCon: A Self-Supervised Approach for Controlled Text Generation ( http://arxiv.org/abs/2006.03535v3 )

ライセンス: Link先を確認
Alvin Chan, Yew-Soon Ong, Bill Pung, Aston Zhang, Jie Fu(参考訳) 事前訓練されたトランスフォーマーベース言語モデル(LM)は、素晴らしい自然言語生成能力を示す。 その可能性から、このようなLMのテキスト生成を制御することが注目されている。 生成したテキストの高レベルな属性(感情や話題など)を制御しようとする研究もあるが、単語やフレーズレベルでのコンテンツに対するより正確な制御はいまだに存在しない。 本稿では,コンテンツコンディショナー(cocon)を用いて,コンテンツ入力によるlmの出力テキストを細かなレベルで制御する。 我々の自己監督的アプローチでは、CoConブロックは、LMから保持されていないコンテンツ入力を条件付けすることで、LMが部分的に保存されたテキストシーケンスを完了するのを助けることを学習する。 実験により、CoConはターゲットコンテンツを生成テキストに自然に組み込むことができ、高レベルテキスト属性をゼロショットで制御できることを示す。

Pretrained Transformer-based language models (LMs) display remarkable natural language generation capabilities. With their immense potential, controlling text generation of such LMs is getting attention. While there are studies that seek to control high-level attributes (such as sentiment and topic) of generated text, there is still a lack of more precise control over its content at the word- and phrase-level. Here, we propose Content-Conditioner (CoCon) to control an LM's output text with a content input, at a fine-grained level. In our self-supervised approach, the CoCon block learns to help the LM complete a partially-observed text sequence by conditioning with content inputs that are withheld from the LM. Through experiments, we show that CoCon can naturally incorporate target content into generated texts and control high-level text attributes in a zero-shot manner.
翻訳日:2022-11-25 02:24:49 公開日:2022-06-10
# 分散遅延コネクトームテンソルを用いた超高次元ニューラルマスモデルの高精度かつ効率的なシミュレーション

Accurate and efficient Simulation of very high-dimensional Neural Mass Models with distributed-delay Connectome Tensors ( http://arxiv.org/abs/2009.07479v6 )

ライセンス: Link先を確認
A. Gonz\'alez-Mitjans, D. Paz-Linares, A. Areces-Gonzalez, M. Li, Y. Wang, ML. Bringas-Vega, and P.A Vald\'es-Sosa(参考訳) 本稿では,2つの必須成分によって定義された高次元ニューラルマスモデル(NMM)を効率的に統合する手法と新しいツールボックスを提案する。 第一は、各神経質量の力学の非線形ランダム微分方程式の集合である。 2つ目は、接続の強度と各接続の軸線に沿った情報伝達の遅延を符号化する、高度にスパースな3次元コネクトームテンソル(CT)である。 RDEの半解析的統合は、ニューラルマスモデルごとに局所線形化スキームで行われ、これは元の連続時間非線形力学に対する動的忠実性を保証する唯一のスキームである。 また、アルゴリズムのムーア・ペンローズ図に示すように、任意のレベルの複雑さやリアリズムで分散遅延CTをシームレスにモデル化することができる。 この実装の容易さには、分散遅延CTを持つモデルが含まれる。 NMMの根底にあるランダム微分方程式(RDE)を統合するために半解析式を利用するモデルのテンソル表現を用いて高い計算効率を実現する。 我々は代数的定式化による局所線形化による状態方程式の離散化を行った。 このアプローチは、大規模なnmmシミュレーションの重要な側面である数値積分速度と効率を高める。 ツールボックスの有用性を説明するために,ゼッターベルク=ジャンセン=リット (ZJR) の1つの皮質列と,そのような列の相互接続した集団の両方をシミュレートした。 これらの例は、特に分散遅延を導入することによって、これらのモデルでCTを変更する結果を示す。 ツールボックス用のオープンソースのmatlabライブスクリプトを提供します。

This paper introduces methods and a novel toolbox that efficiently integrates any high-dimensional Neural Mass Models (NMMs) specified by two essential components. The first is the set of nonlinear Random Differential Equations of the dynamics of each neural mass. The second is the highly sparse three-dimensional Connectome Tensor (CT) that encodes the strength of the connections and the delays of information transfer along the axons of each connection. Semi-analytical integration of the RDE is done with the Local Linearization scheme for each neural mass model, which is the only scheme guaranteeing dynamical fidelity to the original continuous-time nonlinear dynamic. It also seamlessly allows modeling distributed delays CT with any level of complexity or realism, as shown by the Moore-Penrose diagram of the algorithm. This ease of implementation includes models with distributed-delay CTs. We achieve high computational efficiency by using a tensor representation of the model that leverages semi-analytic expressions to integrate the Random Differential Equations (RDEs) underlying the NMM. We discretized the state equation with Local Linearization via an algebraic formulation. This approach increases numerical integration speed and efficiency, a crucial aspect of large-scale NMM simulations. To illustrate the usefulness of the toolbox, we simulate both a single Zetterberg-Jansen-Rit (ZJR) cortical column and an interconnected population of such columns. These examples illustrate the consequence of modifying the CT in these models, especially by introducing distributed delays. We provide an open-source Matlab live script for the toolbox.
翻訳日:2022-10-18 00:13:41 公開日:2022-06-10
# 時間窓仮定による遅延フィードバックによる学習分類器

Learning Classifiers under Delayed Feedback with a Time Window Assumption ( http://arxiv.org/abs/2009.13092v2 )

ライセンス: Link先を確認
Masahiro Kato and Shota Yasui(参考訳) 遅延フィードバック下でバイナリ分類子をトレーニングすることを検討する(\emph{df learning})。 例えば、オンライン広告の変換予測では、最初は広告をクリックしてアイテムを購入しなかった負のサンプルを受け取りました。 DF学習の設定では、時間とともにサンプルを観察し、ある時点で分類器を学習する。 最初は負のサンプルを受け取り、その後、いくつかのサンプルは正に変化する。 この問題は、オンライン広告のような、最初のクリックのずっと後にユーザーアクションが実行される様々な現実世界のアプリケーションで考えられる。 遅延フィードバックのため、正と負のサンプルのナイーブな分類はバイアス付き分類器を返す。 一つの解決策は、これらのサンプルが正しくラベル付けされていると仮定して、一定の時間以上観察されたサンプルを使用することである。 しかし、既存の研究では、タイムウィンドウの仮定に基づいてすべてのサンプルのサブセットを使用するだけではうまく動作せず、タイムウィンドウの仮定とともにすべてのサンプルを使用すると経験的パフォーマンスが向上する、と報告されている。 我々は,これらの既存研究を拡張し,タイムウインドウ仮定下で全サンプルから構築した非バイアス・凸経験的リスクを用いた手法を提案する。 提案手法の健全性を示すために,オンライン広告における実際のトラヒックログデータセットである合成およびオープンデータセットについて実験結果を提供する。

We consider training a binary classifier under delayed feedback (\emph{DF learning}). For example, in the conversion prediction in online ads, we initially receive negative samples that clicked the ads but did not buy an item; subsequently, some samples among them buy an item then change to positive. In the setting of DF learning, we observe samples over time, then learn a classifier at some point. We initially receive negative samples; subsequently, some samples among them change to positive. This problem is conceivable in various real-world applications such as online advertisements, where the user action takes place long after the first click. Owing to the delayed feedback, naive classification of the positive and negative samples returns a biased classifier. One solution is to use samples that have been observed for more than a certain time window assuming these samples are correctly labeled. However, existing studies reported that simply using a subset of all samples based on the time window assumption does not perform well, and that using all samples along with the time window assumption improves empirical performance. We extend these existing studies and propose a method with the unbiased and convex empirical risk that is constructed from all samples under the time window assumption. To demonstrate the soundness of the proposed method, we provide experimental results on a synthetic and open dataset that is the real traffic log datasets in online advertising.
翻訳日:2022-10-13 21:33:28 公開日:2022-06-10
# AxFormer:高速・小型・高精度NLPモデルのための変圧器の精度駆動近似

AxFormer: Accuracy-driven Approximation of Transformers for Faster, Smaller and more Accurate NLP Models ( http://arxiv.org/abs/2010.03688v2 )

ライセンス: Link先を確認
Amrit Nagarajan, Sanchari Sen, Jacob R. Stevens, Anand Raghunathan(参考訳) 近年、トランスフォーマーは自然言語処理(NLP)の最先端に大きく進歩してきたが、非常に大きな計算処理とストレージ要件が存在している。 本研究では,トランスフォーマーの設計プロセス(自己教師型の大規模データセット上で基礎モデルを事前訓練し,その後,異なる下流タスクに対して微調整)が,過度にパラメータ化され,精度と推論効率の両方に悪影響を与えることを観察する。 AxFormerは,与えられた下流タスクに対して最適化されたトランスフォーマーモデルを作成するために,精度駆動近似を適用した体系的フレームワークである。 AxFormerは2つの重要な最適化 – 精度駆動型プルーニングと選択的ハードアテンション – を組み合わせる。 精度駆動プルーニングは、与えられた下流タスクのパフォーマンスを妨げる微調整トランスの一部を識別し、除去する。 スパースハードアテンションは、無関係な単語集約を排除し、入力の関連部分のみに焦点を合わせることで、選択したレイヤのアテンションブロックを最適化する。 事実上、axformerはより正確でありながら、より高速で小さくなるモデルにつながります。 GLUEおよびSQUADタスクの実験では、AxFormerモデルの方が最大4.5%精度が高く、2.5倍高速で3.2倍小型であることがわかった。 さらに, axformer と蒸留や量子化などの先行研究を組み合わせることで, さらなる効率向上が達成できることを実証する。

Transformers have greatly advanced the state-of-the-art in Natural Language Processing (NLP) in recent years, but present very large computation and storage requirements. We observe that the design process of Transformers (pre-train a foundation model on a large dataset in a self-supervised manner, and subsequently fine-tune it for different downstream tasks) leads to task-specific models that are highly over-parameterized, adversely impacting both accuracy and inference efficiency. We propose AxFormer, a systematic framework that applies accuracy-driven approximations to create optimized transformer models for a given downstream task. AxFormer combines two key optimizations -- accuracy-driven pruning and selective hard attention. Accuracy-driven pruning identifies and removes parts of the fine-tuned transformer that hinder performance on the given downstream task. Sparse hard-attention optimizes attention blocks in selected layers by eliminating irrelevant word aggregations, thereby helping the model focus only on the relevant parts of the input. In effect, AxFormer leads to models that are more accurate, while also being faster and smaller. Our experiments on GLUE and SQUAD tasks show that AxFormer models are up to 4.5% more accurate, while also being up to 2.5X faster and up to 3.2X smaller than conventional fine-tuned models. In addition, we demonstrate that AxFormer can be combined with previous efforts such as distillation or quantization to achieve further efficiency gains.
翻訳日:2022-10-09 21:42:32 公開日:2022-06-10
# トヨタのスマートホーム「Toyota Smart Home Untrimmed」(動画あり)

Toyota Smarthome Untrimmed: Real-World Untrimmed Videos for Activity Detection ( http://arxiv.org/abs/2010.14982v2 )

ライセンス: Link先を確認
Rui Dai, Srijan Das, Saurav Sharma, Luca Minciullo, Lorenzo Garattoni, Francois Bremond, Gianpiero Francesca(参考訳) 日常の環境でうまくデプロイできるアクティビティ検出システムを設計するには、実際のシナリオで典型的な課題となるデータセットが必要となる。 本稿では,Toyota Smarthome Untrimmed (TSU) という,現実の課題を特徴とする,新たな日食データセットを提案する。 ツは自然に行う様々な活動を含んでいる。 データセットには、基本的な複合アクティビティやオブジェクトとのインタラクションを含むアクティビティを含む、密集したアノテーションが含まれている。 当社のデータセットが抱える現実の課題を分析し,検出アルゴリズムのオープンイシューを強調する。 現状の手法では,tsuデータセットでは十分な性能が得られないことを示す。 そこで本研究では,データセットがもたらす新たな課題に取り組むために,アクティビティ検出のための新しいベースライン手法を提案する。 この方法は1つのモード(すなわち光の流れ)を利用して注意重みを発生させ、別のモード(すなわちRGB)を誘導し、活動境界をよりよく検出する。 これは、高い時間的ばらつきによって特徴づけられる活動を検出するのに特に有用である。 提案手法は, TS と他の挑戦的データセットである Charades において, 最先端の手法よりも優れていることを示す。

Designing activity detection systems that can be successfully deployed in daily-living environments requires datasets that pose the challenges typical of real-world scenarios. In this paper, we introduce a new untrimmed daily-living dataset that features several real-world challenges: Toyota Smarthome Untrimmed (TSU). TSU contains a wide variety of activities performed in a spontaneous manner. The dataset contains dense annotations including elementary, composite activities and activities involving interactions with objects. We provide an analysis of the real-world challenges featured by our dataset, highlighting the open issues for detection algorithms. We show that current state-of-the-art methods fail to achieve satisfactory performance on the TSU dataset. Therefore, we propose a new baseline method for activity detection to tackle the novel challenges provided by our dataset. This method leverages one modality (i.e. optic flow) to generate the attention weights to guide another modality (i.e RGB) to better detect the activity boundaries. This is particularly beneficial to detect activities characterized by high temporal variance. We show that the method we propose outperforms state-of-the-art methods on TSU and on another popular challenging dataset, Charades.
翻訳日:2022-10-02 05:39:31 公開日:2022-06-10
# (参考訳) ステークホルダーをまず考えてください! 規制遵守のためのアルゴリズム的透明性プレイブックに向けて

Think About the Stakeholders First! Towards an Algorithmic Transparency Playbook for Regulatory Compliance ( http://arxiv.org/abs/2207.01482v1 )

ライセンス: CC BY 4.0
Andrew Bell, Oded Nov, Julia Stoyanovich(参考訳) 人工知能(ai)システムを公共や民間に導入するための法律が、世界中の政府によって提案され、可決されている。 これらの規則の多くは、aiシステムの透明性と、個人がaiシステムがそれらに影響を与える決定を下す方法を説明する権利を付与するといった、関連する市民意識の問題に対処している。 しかし、これまでのほとんどのAIガバナンス文書には、重大な欠点がある。彼らは、AIシステムを透過的にすることに関して何をすべきか(あるいは何をしないか)に焦点を合わせてきたが、その作業を技術者に委ねて、透明なシステムを構築する方法を探った。 このギャップを埋めるために、技術者が透明で規制に準拠したシステムを設計するのを支援する、新たな利害関係者優先のアプローチを提案します。 実世界のケーススタディについても説明し、このアプローチが実際にどのように使われるかを説明します。

Increasingly, laws are being proposed and passed by governments around the world to regulate Artificial Intelligence (AI) systems implemented into the public and private sectors. Many of these regulations address the transparency of AI systems, and related citizen-aware issues like allowing individuals to have the right to an explanation about how an AI system makes a decision that impacts them. Yet, almost all AI governance documents to date have a significant drawback: they have focused on what to do (or what not to do) with respect to making AI systems transparent, but have left the brunt of the work to technologists to figure out how to build transparent systems. We fill this gap by proposing a novel stakeholder-first approach that assists technologists in designing transparent, regulatory compliant systems. We also describe a real-world case-study that illustrates how this approach can be used in practice.
翻訳日:2022-07-10 17:23:40 公開日:2022-06-10
# (参考訳) マイクロブログコメントにおける感情分析のための絵文字に基づく微細注意ネットワーク

Emoji-based Fine-grained Attention Network for Sentiment Analysis in the Microblog Comments ( http://arxiv.org/abs/2206.12262v1 )

ライセンス: CC BY 4.0
Deng Yang, Liu Kejian, Yang Cheng, Feng Yuanyuan, Li Weihao(参考訳) マイクロブログは、人々が感情をリアルタイムに表現するためのソーシャルプラットフォームとなり、マイクロブログの情報からユーザの感情傾向を分析する傾向にあります。 絵文字の動的な特徴は、マイクロブログテキストの感情極性に影響を与える可能性がある。 既存のモデルは絵文字感情極性の多様性をほとんど考慮しないため,ALBERT-FAETに基づくマイクロブログ感情分類モデルを提案する。 ALBERT事前学習モデルを用いてテキスト埋め込みを取得し,注意に基づくLSTMネットワークを用いた絵文字間埋め込みを学習する。 さらに、平文と絵文字間の単語レベルの相互作用を捉えるために、きめ細かい注意機構を提案する。 最後に,これらの特徴を結合してCNN分類器に入力し,マイクロブロッグの感情ラベルを予測する。 モデルと細粒度注意ネットワークの有効性を検証するため,比較実験とアブレーション実験を行った。 比較実験により,3つの評価指標(正確性,正確性,リコール)において,モデルが従来の手法を上回っており,モデルが感情分類を著しく改善できることが示された。 アブレーション実験では,ALBERT-AETと比較して,提案モデルALBERT-FAETの方が指標として優れており,細粒度アテンションネットワークはエモティコンの多様な情報を理解することができることを示した。

Microblogs have become a social platform for people to express their emotions in real-time, and it is a trend to analyze user emotional tendencies from the information on Microblogs. The dynamic features of emojis can affect the sentiment polarity of microblog texts. Since existing models seldom consider the diversity of emoji sentiment polarity,the paper propose a microblog sentiment classification model based on ALBERT-FAET. We obtain text embedding via ALBERT pretraining model and learn the inter-emoji embedding with an attention-based LSTM network. In addition, a fine-grained attention mechanism is proposed to capture the word-level interactions between plain text and emoji. Finally, we concatenate these features and feed them into a CNN classifier to predict the sentiment labels of the microblogs. To verify the effectiveness of the model and the fine-grained attention network, we conduct comparison experiments and ablation experiments. The comparison experiments show that the model outperforms previous methods in three evaluation indicators (accuracy, precision, and recall) and the model can significantly improve sentiment classification. The ablation experiments show that compared with ALBERT-AET, the proposed model ALBERT-FAET is better in the metrics, indicating that the fine-grained attention network can understand the diversified information of emoticons.
翻訳日:2022-07-04 04:22:33 公開日:2022-06-10
# (参考訳) 依存構文解析による教師なし文の単純化

Unsupervised Sentence Simplification via Dependency Parsing ( http://arxiv.org/abs/2206.12261v1 )

ライセンス: CC BY 4.0
Vy Vo, Weiqing Wang and Wray Buntine(参考訳) テキストの簡易化は、読みやすく理解しやすいようにテキストを書き換える作業である。 本稿では,構文解析構造と文埋め込みを併用し,言語的に効果的な単純化を実現する,単純かつ教師なし文簡易化システムを提案する。 つまり,本モデルでは,文の意味性を維持しつつ,文章を単純化するための大幅な修正が可能となる。 我々はテュルクコープスの39.13サリーに教師なしの最先端技術を確立し,様々な品質指標の教師なしベースラインと競合して実行する。 さらに,ベトナム語データに対する概念実証を通じて,他言語への拡張性を示す。 再生コードは \url{https://github.com/isVy08/USDP} で公開されている。

Text simplification is the task of rewriting a text so that it is readable and easily understood. In this paper, we propose a simple yet novel unsupervised sentence simplification system that harnesses parsing structures together with sentence embeddings to produce linguistically effective simplifications. This means our model is capable of introducing substantial modifications to simplify a sentence while maintaining its original semantics and adequate fluency. We establish the unsupervised state-of-the-art at 39.13 SARI on TurkCorpus set and perform competitively against supervised baselines on various quality metrics. Furthermore, we demonstrate our framework's extensibility to other languages via a proof-of-concept on Vietnamese data. Code for reproduction is published at \url{https://github.com/isVy08/USDP}.
翻訳日:2022-07-04 04:11:58 公開日:2022-06-10
# (参考訳) 弱教師付き偽ニュース検出のためのラベルノイズ耐性平均学習

Label Noise-Resistant Mean Teaching for Weakly Supervised Fake News Detection ( http://arxiv.org/abs/2206.12260v1 )

ライセンス: CC BY 4.0
Jingyi Xie, Jiawei Liu, Zheng-Jun Zha(参考訳) フェイクニュースは前例のない速さで広がり、全世界のオーディエンスにリーチし、ユーザーやコミュニティに大きなリスクをもたらす。 既存の偽ニュース検出アルゴリズムのほとんどは、大量の手動ラベル付きデータに基づいて教師付きトレーニングモデルを構築することに焦点を当てている。 そこで本研究では,弱い教師付き偽ニュース検出のためのラベル雑音耐性平均教育手法(LNMT)を提案する。 lnmtは、ユーザのラベルのないニュースやフィードバックコメントを活用して、トレーニングデータの量を拡大し、洗練されたラベルを弱い監督として生成することで、モデルのトレーニングを促進する。 具体的には、LNMTは、ニュースコンテンツとコメント間の意味的相関と感情的関連に基づいて、ラベルのないサンプルに、初期弱いラベルを自動的に割り当てる。 また, 弱ラベルの雑音を抑制するため, lnmtはラベル伝搬とラベル信頼度推定を備えた平均教師フレームワークを構築した。 この枠組みは教師と学生ネットワークの間の弱いラベル類似度行列を測定し、異なる価値のある弱いラベル情報を伝播して弱いラベルを洗練させる。 また, 弱ラベルの信頼性を評価するために, 2つのネットワークの出力クラス推定ベクトル間の一貫性を活用し, モデル最適化に信頼性を取り入れ, 雑音弱ラベルの負の効果を緩和する。 広汎な実験はLNMTの優れた性能を示す。

Fake news spreads at an unprecedented speed, reaches global audiences and poses huge risks to users and communities. Most existing fake news detection algorithms focus on building supervised training models on a large amount of manually labeled data, which is expensive to acquire or often unavailable. In this work, we propose a novel label noise-resistant mean teaching approach (LNMT) for weakly supervised fake news detection. LNMT leverages unlabeled news and feedback comments of users to enlarge the amount of training data and facilitates model training by generating refined labels as weak supervision. Specifically, LNMT automatically assigns initial weak labels to unlabeled samples based on semantic correlation and emotional association between news content and the comments. Moreover, in order to suppress the noises in weak labels, LNMT establishes a mean teacher framework equipped with label propagation and label reliability estimation. The framework measures a weak label similarity matrix between the teacher and student networks, and propagates different valuable weak label information to refine the weak labels. Meanwhile, it exploits the consistency between the output class likelihood vectors of the two networks to evaluate the reliability of the weak labels and incorporates the reliability into model optimization to alleviate the negative effect of noisy weak labels. Extensive experiments show the superior performance of LNMT.
翻訳日:2022-07-04 03:56:24 公開日:2022-06-10
# 研究における抗体・ウイルス相互作用の大量増加

Massively Increasing the number of Antibody-Virus Interactions across Studies ( http://arxiv.org/abs/2206.14566v1 )

ライセンス: Link先を確認
Tal Einav and Rong Ma(参考訳) 生物学のあらゆる分野における中心的な課題は、既存の測定値を使って将来の実験の結果を予測することである。 本研究では,インフルエンザウイルスの変異株に対する抗体阻害データの豊富さを考察する。 このウイルスの遺伝的多様性と進化性のために、ある研究で調べた変異は他の研究とほとんど重複しないことが多く、共通のパターンを識別したりデータセットを統一したりすることは困難である。 そこで我々は,抗体や血清が他の研究からどのような変異を阻害するかを予測する計算フレームワークを開発した。 この枠組みは、ヘマグルチネーション阻害を利用してインフルエンザの7つのデータセットを大幅に拡張し、既存の20万の測定値の検証を行い、予測の不確かさとともに2000万以上の新しい値を予測する。 データ駆動型アプローチは、各ウイルスの名前や測定以上の情報を必要としないため、5つのウイルスしか持たないデータセットを拡張できるため、このアプローチは広く適用できる。 1968年から2011年にかけてのH3N2インフルエンザウイルスに対する新規測定された抗体反応を予測するために、ヘマグルチネーション阻害を用いた将来のインフルエンザ研究では、キュレートされたデータセットを直接利用できるようになる。 本質的には、このアプローチは、“あなたが何を見るか”から“誰もが何を見るか”まで、データ分析の視点を変えることができる。

A central challenge in every field of biology is to use existing measurements to predict the outcomes of future experiments. In this work, we consider the wealth of antibody inhibition data against variants of the influenza virus. Due to this virus's genetic diversity and evolvability, the variants examined in one study will often have little-to-no overlap with other studies, making it difficult to discern common patterns or unify datasets for further analysis. To that end, we develop a computational framework that predicts how an antibody or serum would inhibit any variant from any other study. We use this framework to greatly expand 7 influenza datasets utilizing hemagglutination inhibition, validating our method upon 200,000 existing measurements and predicting more than 2,000,000 new values along with their prediction uncertainties. This data-driven approach does not require any information beyond each virus's name and measurements, and even datasets with as few as 5 viruses can be expanded, making this approach widely applicable. Future influenza studies using hemagglutination inhibition can directly utilize our curated datasets to predict newly measured antibody responses against ~80 H3N2 influenza viruses from 1968-2011, whereas immunological studies utilizing other viruses or a different assay only need to find a single partially-overlapping dataset to extend their work. In essence, this approach enables a shift in perspective when analyzing data from "what you see is what you get" into "what anyone sees is what everyone gets."
翻訳日:2022-07-04 01:45:45 公開日:2022-06-10
# (参考訳) GPT-3の創造性を(代替用途)テストに当てる

Putting GPT-3's Creativity to the (Alternative Uses) Test ( http://arxiv.org/abs/2206.08932v1 )

ライセンス: CC BY 4.0
Claire Stevenson, Iris Smal, Matthijs Baas, Raoul Grasman and Han van der Maas(参考訳) AIの大規模言語モデルは、新聞記事から小説や詩まで、素晴らしい作品を生み出しています。 これらの作品はクリエイティビティの標準的な定義の標準を満たしている:オリジナルで有用であり、時にはサプライズの追加要素さえも満たしている。 しかし、次のテキストフラグメントを予測するために設計された大きな言語モデルは、まだ手元にある問題を解決する創造的で無意味な応答を提供することができるだろうか? 我々はOpen AIの生成自然言語モデルであるGPT-3を試験に投入した。 クリエイティビティ研究でよく使われるテストのひとつに、クリエイティブなソリューションを提供することができますか? guilford の代替利用テストにおける gpt-3 の創造性を評価し,その性能を,そのオリジナリティ,有用性,応答のサプライズ,各アイデアの柔軟性,および問題の aut オブジェクトとの意味的距離に基づいて創造性を測定する自動的手法について,以前に収集した人間応答と比較した。 我々の結果は、創造的なアウトプットに関しては、現在、人間はGPT-3を上回っていることを示している。 しかし、GPT-3がこの特定のタスクに追いつくのは時間の問題だと考えています。 我々は、人間とAIの創造性、創造性テスト、創造性の定義について、この研究が明らかにするものについて論じる。

AI large language models have (co-)produced amazing written works from newspaper articles to novels and poetry. These works meet the standards of the standard definition of creativity: being original and useful, and sometimes even the additional element of surprise. But can a large language model designed to predict the next text fragment provide creative, out-of-the-box, responses that still solve the problem at hand? We put Open AI's generative natural language model, GPT-3, to the test. Can it provide creative solutions to one of the most commonly used tests in creativity research? We assessed GPT-3's creativity on Guilford's Alternative Uses Test and compared its performance to previously collected human responses on expert ratings of originality, usefulness and surprise of responses, flexibility of each set of ideas as well as an automated method to measure creativity based on the semantic distance between a response and the AUT object in question. Our results show that -- on the whole -- humans currently outperform GPT-3 when it comes to creative output. But, we believe it is only a matter of time before GPT-3 catches up on this particular task. We discuss what this work reveals about human and AI creativity, creativity testing and our definition of creativity.
翻訳日:2022-06-27 00:43:16 公開日:2022-06-10
# (参考訳) 多段階対向誘導注意訓練によるOCTスキャンの高分解能化とセグメンテーション

Superresolution and Segmentation of OCT scans using Multi-Stage adversarial Guided Attention Training ( http://arxiv.org/abs/2206.05277v1 )

ライセンス: CC BY 4.0
Paria Jeihouni, Omid Dehzangi, Annahita Amireskandari, Ali Dabouei, Ali Rezai, Nasser M. Nasrabadi(参考訳) 光コヒーレンストモグラフィ(OCT)は、アルツハイマー病(AD)の診断のために研究されている非侵襲的で容易に取得できるバイオマーカーの一つである。 本研究は,OCT画像を自動分割することを目的としているが,スペックルノイズ,小ターゲット領域,望ましくない撮像条件など,様々な問題のために難しい課題である。 これまでの研究では,octスキャンを高分解能セグメンテーションラベルに翻訳する多段階多弁別生成逆ネットワーク (multisdgan) を提案している。 本研究では,マルチSDGANアーキテクチャに対するチャネルと空間的注意の組み合わせを評価し,より強力な特徴マップを抽出し,セグメンテーション性能を向上させることを目的としている。 さらに,特別に設計されたバイナリマスクと生成したアテンションマップのl-1損失を強制してアテンション機構を組み込んだ誘導型メタリステージアテンションフレームワークを開発し,評価した。 5倍のクロスバリデーション(5-CV)におけるWVU-OCTデータ集合に対するアブレーション実験の結果,提案するマルチSDGANが最も競争力のある性能を示し,二乗マスクによる空間的注目特徴マップの誘導により,ネットワークの性能がさらに向上することが示唆された。 その結果,Dice係数とSSIMの相対的改善は21.44%,SSIMは19.45%であった。

Optical coherence tomography (OCT) is one of the non-invasive and easy-to-acquire biomarkers (the thickness of the retinal layers, which is detectable within OCT scans) being investigated to diagnose Alzheimer's disease (AD). This work aims to segment the OCT images automatically; however, it is a challenging task due to various issues such as the speckle noise, small target region, and unfavorable imaging conditions. In our previous work, we have proposed the multi-stage & multi-discriminatory generative adversarial network (MultiSDGAN) to translate OCT scans in high-resolution segmentation labels. In this investigation, we aim to evaluate and compare various combinations of channel and spatial attention to the MultiSDGAN architecture to extract more powerful feature maps by capturing rich contextual relationships to improve segmentation performance. Moreover, we developed and evaluated a guided mutli-stage attention framework where we incorporated a guided attention mechanism by forcing an L-1 loss between a specifically designed binary mask and the generated attention maps. Our ablation study results on the WVU-OCT data-set in five-fold cross-validation (5-CV) suggest that the proposed MultiSDGAN with a serial attention module provides the most competitive performance, and guiding the spatial attention feature maps by binary masks further improves the performance in our proposed network. Comparing the baseline model with adding the guided-attention, our results demonstrated relative improvements of 21.44% and 19.45% on the Dice coefficient and SSIM, respectively.
翻訳日:2022-06-19 19:04:27 公開日:2022-06-10
# (参考訳) 心臓spectとctのクロスモダリティ登録のためのデュアルブランチスクイーズ・フュージョン・エクスシジョンモジュール

Dual-Branch Squeeze-Fusion-Excitation Module for Cross-Modality Registration of Cardiac SPECT and CT ( http://arxiv.org/abs/2206.05278v1 )

ライセンス: CC BY 4.0
Xiongchao Chen, Bo Zhou, Huidong Xie, Xueqi Guo, Jiazhen Zhang, Albert J. Sinusas, John A. Onofrey, Chi liu(参考訳) 単光放射ct(spect)は冠動脈疾患の診断に広く応用されている画像診断手法である。 心臓spectの診断精度を向上させるために、ct由来の減衰マップ(u-maps)を用いて減衰補正(ac)を行う。 しかし, SPECTとCTは臨床的に連続的に得られ, 2つのスキャンの誤登録を引き起こす可能性がある。 畳み込みニューラルネットワーク(CNN)は、医用画像登録のための強力なツールである。 従来のCNNベースのクロスモダリティ登録手法は、2つの入力モードを早期特徴融合として直接結合するか、2つの別々のCNNモジュールを用いて画像特徴抽出を行う。 これらの方法は、モダリティ情報の完全抽出や融合には至らない。 また, 深層学習による心筋SPECTおよびCT由来の u-maps の厳格な登録もこれまで検討されていない。 本稿では、心筋SPECTとCT由来のu-mapを登録するためのDuSFE(Du-Branch Squeeze-Fusion-Excitation)モジュールを提案する。 DuSFEは、複数のモダリティからの知識を融合させ、各モダリティに対するチャネルワイドと空間的特徴の両方を再検討する。 DuSFEは複数の畳み込み層に埋め込み、異なる空間次元における特徴融合を可能にする。 臨床データを用いた研究により,dusfeを組み込んだネットワークは,従来の方法よりもかなり低い登録誤差を生じさせ,ac spect画像の精度も向上した。

Single-photon emission computed tomography (SPECT) is a widely applied imaging approach for diagnosis of coronary artery diseases. Attenuation maps (u-maps) derived from computed tomography (CT) are utilized for attenuation correction (AC) to improve diagnostic accuracy of cardiac SPECT. However, SPECT and CT are obtained sequentially in clinical practice, which potentially induces misregistration between the two scans. Convolutional neural networks (CNN) are powerful tools for medical image registration. Previous CNN-based methods for cross-modality registration either directly concatenated two input modalities as an early feature fusion or extracted image features using two separate CNN modules for a late fusion. These methods do not fully extract or fuse the cross-modality information. Besides, deep-learning-based rigid registration of cardiac SPECT and CT-derived u-maps has not been investigated before. In this paper, we propose a Dual-Branch Squeeze-Fusion-Excitation (DuSFE) module for the registration of cardiac SPECT and CT-derived u-maps. DuSFE fuses the knowledge from multiple modalities to recalibrate both channel-wise and spatial features for each modality. DuSFE can be embedded at multiple convolutional layers to enable feature fusion at different spatial dimensions. Our studies using clinical data demonstrated that a network embedded with DuSFE generated substantial lower registration errors and therefore more accurate AC SPECT images than previous methods.
翻訳日:2022-06-19 18:55:16 公開日:2022-06-10
# (参考訳) pilc: エンドツーエンドgpu指向ニューラルフレームワークによる実用的な画像ロスレス圧縮

PILC: Practical Image Lossless Compression with an End-to-end GPU Oriented Neural Framework ( http://arxiv.org/abs/2206.05279v1 )

ライセンス: CC BY 4.0
Ning Kang, Shanzhao Qiu, Shifeng Zhang, Zhenguo Li, Shutao Xia(参考訳) 生成モデルに基づく画像ロスレス圧縮アルゴリズムは圧縮率の向上に大きな成功を収めている。 しかし、ほとんどのスループットは、最も先進的なAIアクセラレーションチップでも1MB/s未満であり、多くの場合100MB/sを必要とする現実世界のアプリケーションでは利用できない。 本稿では,1台のNVIDIA Tesla V100 GPUを用いて,200MB/sの圧縮と圧縮の両面で達成可能な,エンドツーエンドの画像ロスレス圧縮フレームワークPILCを提案する。 この結果を得るために、我々はまず、自動回帰モデルと軽量環境でよく機能するVQ-VAEを組み合わせたAIコーデックを開発し、コーデックとうまく機能する低複雑性エントロピーコーダを設計する。 実験の結果、複数のデータセットでpngよりも30%のマージンで圧縮できることがわかった。 これは、AI圧縮を商用利用に進めるための重要なステップだと考えています。

Generative model based image lossless compression algorithms have seen a great success in improving compression ratio. However, the throughput for most of them is less than 1 MB/s even with the most advanced AI accelerated chips, preventing them from most real-world applications, which often require 100 MB/s. In this paper, we propose PILC, an end-to-end image lossless compression framework that achieves 200 MB/s for both compression and decompression with a single NVIDIA Tesla V100 GPU, 10 times faster than the most efficient one before. To obtain this result, we first develop an AI codec that combines auto-regressive model and VQ-VAE which performs well in lightweight setting, then we design a low complexity entropy coder that works well with our codec. Experiments show that our framework compresses better than PNG by a margin of 30% in multiple datasets. We believe this is an important step to bring AI compression forward to commercial use.
翻訳日:2022-06-19 18:07:22 公開日:2022-06-10
# (参考訳) より少ない - 強力なVizWizモデルとしてのCLIP機能の線形層

Less Is More: Linear Layers on CLIP Features as Powerful VizWiz Model ( http://arxiv.org/abs/2206.05281v1 )

ライセンス: CC BY 4.0
Fabian Deuser, Konrad Habel, Philipp J. R\"osch, Norbert Oswald(参考訳) 視覚的質問応答のようなマルチモダリティタスクの現在のアーキテクチャは、その複雑さに苦しむ。 その結果、これらのアーキテクチャは訓練が困難であり、高い計算資源を必要とする。 これらの問題を解決するために,機能抽出器の微調整を必要としないCLIPベースのアーキテクチャを提案する。 単純な線形分類器は、画像とテキストエンコーダの連結特徴に使用される。 トレーニング中に補助的な損失が追加され、応答タイプが動作する。 結果の分類は、回答クラス選択の注意ゲートとして使用される。 vizwiz 2022 visual question answering challengeでは、タスク1で60.15 %の精度を達成している: ビジュアル質問に対する応答予測と、タスク2で83.78 %のapスコア: ビジュアル質問の応答可能性の予測。

Current architectures for multi-modality tasks such as visual question answering suffer from their high complexity. As a result, these architectures are difficult to train and require high computational resources. To address these problems we present a CLIP-based architecture that does not require any fine-tuning of the feature extractors. A simple linear classifier is used on the concatenated features of the image and text encoder. During training an auxiliary loss is added which operates on the answer types. The resulting classification is then used as an attention gate on the answer class selection. On the VizWiz 2022 Visual Question Answering Challenge we achieve 60.15 % accuracy on Task 1: Predict Answer to a Visual Question and AP score of 83.78 % on Task 2: Predict Answerability of a Visual Question.
翻訳日:2022-06-19 17:31:19 公開日:2022-06-10
# (参考訳) 森林と木を見る:変圧器を用いた個人的・集団的ダイナミクスの表現

Seeing the forest and the tree: Building representations of both individual and collective dynamics with transformers ( http://arxiv.org/abs/2206.06131v1 )

ライセンス: CC BY 4.0
Ran Liu, Mehdi Azabou, Max Dabagia, Jingyun Xiao, Eva L. Dyer(参考訳) 複雑な時変システムは、最初から個体群レベルのダイナミクスのモデルを構築するために個々の構成要素のダイナミクスから抽象化することでしばしば研究される。 しかしながら、人口レベルの記述を構築する場合、個々の個人と、それぞれが全体像にどのように寄与するかを見失うことは容易である。 本稿では,時間変化データから学習するための新しいトランスフォーマーアーキテクチャを提案する。 すべてのデータを最初からモデルに結合するのではなく、まず個々の時系列で動作し、それを前方に渡す前に分離可能なアーキテクチャを開発します。 我々のモデルが多体系における複雑な相互作用とダイナミクスを正常に回復するために応用できることを実証した後、神経系のニューロン集団にアプローチを適用した。 ニューラルアクティビティデータセットでは,マルチスケールトランスフォーマはロバストな復号性能をもたらすだけでなく,転送時の印象的なパフォーマンスも実現している。 実験の結果, ある動物の脳のニューロンから学習し, 異なる動物の脳のニューロンにモデルを伝達することは, 集合や動物間で解釈可能なニューロンの対応によって可能であることがわかった。 この発見は、神経細胞の大規模な集合からデコードし表現する新しい経路を開く。

Complex time-varying systems are often studied by abstracting away from the dynamics of individual components to build a model of the population-level dynamics from the start. However, when building a population-level description, it can be easy to lose sight of each individual and how each contributes to the larger picture. In this paper, we present a novel transformer architecture for learning from time-varying data that builds descriptions of both the individual as well as the collective population dynamics. Rather than combining all of our data into our model at the onset, we develop a separable architecture that operates on individual time-series first before passing them forward; this induces a permutation-invariance property and can be used to transfer across systems of different size and order. After demonstrating that our model can be applied to successfully recover complex interactions and dynamics in many-body systems, we apply our approach to populations of neurons in the nervous system. On neural activity datasets, we show that our multi-scale transformer not only yields robust decoding performance, but also provides impressive performance in transfer. Our results show that it is possible to learn from neurons in one animal's brain and transfer the model on neurons in a different animal's brain, with interpretable neuron correspondence across sets and animals. This finding opens up a new path to decode from and represent large collections of neurons.
翻訳日:2022-06-19 17:27:59 公開日:2022-06-10
# (参考訳) フレームレットに基づく局所最小優先度によるポアソニアンブラルド画像のデコンボリューション

Poissonian Blurred Image Deconvolution by Framelet based Local Minimal Prior ( http://arxiv.org/abs/2206.05283v1 )

ライセンス: CC BY 4.0
Reza Parvaz(参考訳) 画像生成ツールは必ずしも明確な画像を生成するわけではないが、うるさい画像やぼやけた画像が時々作られる。 ポアソニアンノイズ(poissonian noise)は、天文学において医学的な画像や画像に現れる最も有名なノイズの一つである。 ポアソニアンノイズのぼやけた画像は、医学や天文学において非常に重要な詳細を隠蔽している。 したがって、このようなノイズの影響を受ける画像の質を研究・向上することは研究者によって常に考慮されている。 本稿では,フレームレット変換に基づく第1ステップにおいて,局所最小の事前処理を導入し,第2ステップでは,このツールと分数計算を併用して,ポアソニアンのぼやけた画像のデコンボリューションを行う。 次の例では、モデルは盲点に一般化される。 提案モデルの性能を評価するため,実画像などの複数の画像について検討した。

Image production tools do not always create a clear image, noisy and blurry images are sometimes created. Among these cases, Poissonian noise is one of the most famous noises that appear in medical images and images taken in astronomy. Blurred image with Poissonian noise obscures important details that are of great importance in medicine or astronomy. Therefore, studying and increasing the quality of images that are affected by this type of noise is always considered by researchers. In this paper, in the first step, based on framelet transform, a local minimal prior is introduced, and in the next step, this tool together with fractional calculation is used for Poissonian blurred image deconvolution. In the following, the model is generalized to the blind case. To evaluate the performance of the presented model, several images such as real images have been investigated.
翻訳日:2022-06-19 17:03:39 公開日:2022-06-10
# (参考訳) モデル変換によるフレキシブル微分可能最適化

Flexible Differentiable Optimization via Model Transformations ( http://arxiv.org/abs/2206.06135v1 )

ライセンス: CC BY 4.0
Akshay Sharma and Mathieu Besan\c{c}on and Joaquim Dias Garcia and Beno\^it Legat(参考訳) 目的および/または制約に存在する任意のパラメータに関して凸最適化問題の解を微分するJuliaライブラリであるDiffOpt.jlを紹介する。 このライブラリはMathOptInterface上に構築されており、解決者の豊富なエコシステムを活用し、JuMPのようなモデリング言語とうまく連携する。 diffoptは前方微分モードと逆微分モードの両方を提供し、ハイパーパラメータ最適化からバックプロパゲーションや感度分析まで、エンドツーエンドの微分可能プログラミングで制約付き最適化を橋渡しすることができる。

We introduce DiffOpt.jl, a Julia library to differentiate through the solution of convex optimization problems with respect to arbitrary parameters present in the objective and/or constraints. The library builds upon MathOptInterface, thus leveraging the rich ecosystem of solvers and composing well with modelling languages like JuMP. DiffOpt offers both forward and reverse differentiation modes, enabling multiple use cases from hyperparameter optimization to backpropagation and sensitivity analysis, bridging constrained optimization with end-to-end differentiable programming.
翻訳日:2022-06-19 16:50:31 公開日:2022-06-10
# (参考訳) 最小記述長によるホークスプロセスの因果発見

Causal Discovery in Hawkes Processes by Minimum Description Length ( http://arxiv.org/abs/2206.06124v1 )

ライセンス: CC BY 4.0
Amirkasra Jalaldoust, Katerina Hlavackova-Schindler, Claudia Plant(参考訳) ホークス過程(英: Hawkes process)は、過去における事象の発生が未来の事象の確率を増加させる可能性があるため、因果関係の自然な概念を示す特別な時間的点過程のクラスである。 多次元の時間過程の次元間の基盤となる影響ネットワークの発見は、金融データや地震データなどの高周波データをモデル化する分野において、非常に重要である。 本稿では,多次元ホークス過程におけるグランジャーコーサルネットワークの学習の問題にアプローチする。 我々はこの問題を,最小記述長(MDL)の原理に従うモデル選択タスクとして定式化する。 さらに,モンテカルロ法によるMDLに基づく推論のための一般化アルゴリズムを提案し,因果探索問題に利用した。 本アルゴリズムを総合的および実世界の金融データに基づく最先端のベースライン手法と比較する。 合成実験により,本手法は,データサイズに対する基本手法と比較して,因果グラフ発見の優位性を示した。 G-7社債価格データを用いた実験結果は専門家の知識と一致している。

Hawkes processes are a special class of temporal point processes which exhibit a natural notion of causality, as occurrence of events in the past may increase the probability of events in the future. Discovery of the underlying influence network among the dimensions of multi-dimensional temporal processes is of high importance in disciplines where a high-frequency data is to model, e.g. in financial data or in seismological data. This paper approaches the problem of learning Granger-causal network in multi-dimensional Hawkes processes. We formulate this problem as a model selection task in which we follow the minimum description length (MDL) principle. Moreover, we propose a general algorithm for MDL-based inference using a Monte-Carlo method and we use it for our causal discovery problem. We compare our algorithm with the state-of-the-art baseline methods on synthetic and real-world financial data. The synthetic experiments demonstrate superiority of our method incausal graph discovery compared to the baseline methods with respect to the size of the data. The results of experiments with the G-7 bonds price data are consistent with the experts knowledge.
翻訳日:2022-06-19 16:19:45 公開日:2022-06-10
# (参考訳) 音声感情分類のためのAHD ConvNet

AHD ConvNet for Speech Emotion Classification ( http://arxiv.org/abs/2206.05286v1 )

ライセンス: CC BY 4.0
Asfand Ali, Danial Nasir, Mohammad Hassan Jawad(参考訳) 人工知能の分野での成果は、人類の促進とユーザエクスペリエンスの向上のために、コンピューティングの進歩とインテリジェントマシンの開発に活用されている。 感情は人々にとって初歩的であり、思考や、コミュニケーション、学習、指示といった通常の運動に影響を与える。 本研究では,このデータポイントを用いて,一般的なCREMA-Dデータセットにおいて,与えられたwav形式の音声ノートから感情を学習する,新しいメルスペクトル学習手法を提案する。 我々のモデルは、mels = 64の値を持つ機能としてlog mel-spectrogramを使用します。 感情音声認識の問題に対処する他のアプローチと比較して、トレーニング時間が短縮された。

Accomplishments in the field of artificial intelligence are utilized in the advancement of computing and making of intelligent machines for facilitating mankind and improving user experience. Emotions are rudimentary for people, affecting thinking and ordinary exercises like correspondence, learning and direction. Speech emotion recognition is domain of interest in this regard and in this work, we propose a novel mel spectrogram learning approach in which our model uses the datapoints to learn emotions from the given wav form voice notes in the popular CREMA-D dataset. Our model uses log mel-spectrogram as feature with number of mels = 64. It took less training time compared to other approaches used to address the problem of emotion speech recognition.
翻訳日:2022-06-19 16:01:42 公開日:2022-06-10
# (参考訳) ProActive: アクティビティシーケンスのための自己注意的一時的プロセスフロー

ProActive: Self-Attentive Temporal Point Process Flows for Activity Sequences ( http://arxiv.org/abs/2206.05291v1 )

ライセンス: CC BY 4.0
Vinayak Gupta and Srikanta Bedathur(参考訳) 人間の活動は、ある目標を達成するために行われた行動の時間的シーケンスとして表すことができる。 マシンメイドの時系列とは異なり、これらのアクションシーケンスは、同様のアクションを終えるのにかかる時間が異なるため、非常に異なる。 したがって、これらのシーケンスのダイナミクスを理解することは、アクティビティ長予測やゴール予測など、多くの下流タスクに不可欠である。 活動シーケンスをモデル化する既存のニューラルネットワークアプローチは、視覚データに限られるか、タスク固有のもの、すなわち次のアクションや目標予測に限られている。 本稿では、次のアクション予測、シーケンスゴール予測、エンドツーエンドのシーケンス生成という3つの高インパクト問題に同時に対処しながら、アクティビティシーケンス内のアクションの連続的な時間分布をモデル化する、ニューラルネットワークマーク時間点プロセス(MTPP)フレームワークであるProActiveを提案する。 具体的には、時間的正規化フローを持つ自己注意モジュールを用いて、シーケンス内のアクション間の影響と時間間隔をモデル化する。 さらに,時間に敏感な予測のために,制約付きマージンに基づく最適化手法を用いてシーケンスゴールの早期検出を行う。 このインターンにより、プロアクティブは限られた数のアクションを使用してシーケンスゴールを予測することができる。 3つのアクティビティ認識データセットから得られたシーケンスに関する広範囲な実験は、アクションとゴール予測の観点からの最先端技術に対するProActiveの大幅な精度向上と、エンドツーエンドのアクションシーケンス生成の最初の応用を示している。

Any human activity can be represented as a temporal sequence of actions performed to achieve a certain goal. Unlike machine-made time series, these action sequences are highly disparate as the time taken to finish a similar action might vary between different persons. Therefore, understanding the dynamics of these sequences is essential for many downstream tasks such as activity length prediction, goal prediction, etc. Existing neural approaches that model an activity sequence are either limited to visual data or are task specific, i.e., limited to next action or goal prediction. In this paper, we present ProActive, a neural marked temporal point process (MTPP) framework for modeling the continuous-time distribution of actions in an activity sequence while simultaneously addressing three high-impact problems -- next action prediction, sequence-goal prediction, and end-to-end sequence generation. Specifically, we utilize a self-attention module with temporal normalizing flows to model the influence and the inter-arrival times between actions in a sequence. Moreover, for time-sensitive prediction, we perform an early detection of sequence goal via a constrained margin-based optimization procedure. This in-turn allows ProActive to predict the sequence goal using a limited number of actions. Extensive experiments on sequences derived from three activity recognition datasets show the significant accuracy boost of ProActive over the state-of-the-art in terms of action and goal prediction, and the first-ever application of end-to-end action sequence generation.
翻訳日:2022-06-19 15:44:54 公開日:2022-06-10
# (参考訳) EigenFairing:画像コヒーレンスを用いた3次元モデルフェアリング

EigenFairing: 3D Model Fairing using Image Coherence ( http://arxiv.org/abs/2206.05309v1 )

ライセンス: CC BY 4.0
Pragyana Mishra and Omead Amidi and Takeo Kanade(参考訳) 表面はしばしば、メッシュの顔に関連する3Dポイントとテクスチャの三角形メッシュとしてモデル化される。 3Dポイントはレンジデータからサンプリングするか、ステレオやStructure-from-Motionアルゴリズムを使って画像の集合から抽出することができる。 点が実表面の最大曲率や不連続性の臨界点に置かれない場合、メッシュの面はモデル化された表面の近くには置かれない。 この結果、テクスチャアーティファクトが生成され、モデルは実際のイメージセットと完全に一貫性を持っていない — メッシュのテクスチャマップに使用されるもの – になります。 本稿では,物体の観察画像の集合と整合するように頂点を再構成して3次元表面モデルを完成させる手法を提案する。 複数の視点から観察されるように、テクスチュラルなアーティファクトと画像とのコヒーレンスは、平面面によって近似される表面パッチの非平面性に起因する。 視点からのイメージ領域は、Eigenspaceのパッチのテクスチャを表すために使用される。 固有空間表現は、我々が最小化しようとするテクスチャのバリエーションを捉える。 固有空間から再構成された顔テクスチャと実際の画像との差に基づくコヒーレンス尺度を用いて、モデルの改善や公正化のために頂点を再配置する。 モデル精錬の手法をEigenFairingと呼び、そのモデルが幾何学的にもテクスチャ的にも公平にフェアリングされ、実際の表面をよりよく近似する。

A surface is often modeled as a triangulated mesh of 3D points and textures associated with faces of the mesh. The 3D points could be either sampled from range data or derived from a set of images using a stereo or Structure-from-Motion algorithm. When the points do not lie at critical points of maximum curvature or discontinuities of the real surface, faces of the mesh do not lie close to the modeled surface. This results in textural artifacts, and the model is not perfectly coherent with a set of actual images -- the ones that are used to texture-map its mesh. This paper presents a technique for perfecting the 3D surface model by repositioning its vertices so that it is coherent with a set of observed images of the object. The textural artifacts and incoherence with images are due to the non-planarity of a surface patch being approximated by a planar face, as observed from multiple viewpoints. Image areas from the viewpoints are used to represent texture for the patch in Eigenspace. The Eigenspace representation captures variations of texture, which we seek to minimize. A coherence measure based on the difference between the face textures reconstructed from Eigenspace and the actual images is used to reposition the vertices so that the model is improved or faired. We refer to this technique of model refinement as EigenFairing, by which the model is faired, both geometrically and texturally, to better approximate the real surface.
翻訳日:2022-06-19 15:01:03 公開日:2022-06-10
# (参考訳) 遺伝子オントロジー記述自動生成のためのグラフイングラフネットワーク

Graph-in-Graph Network for Automatic Gene Ontology Description Generation ( http://arxiv.org/abs/2206.05311v1 )

ライセンス: CC BY 4.0
Fenglin Liu, Bang Yang, Chenyu You, Xian Wu, Shen Ge, Adelaide Woicik, Sheng Wang(参考訳) 遺伝子オントロジー (gene ontology, go) は、生物医学における計算作業を可能にする主要な遺伝子機能知識ベースである。 goの基本的な要素は、同じ機能を持つ遺伝子の集合を含む用語である。 GOの既存の研究は、主に遺伝子組立の予測に重点を置いている。 新しい用語の記述を生成するような他のタスクはめったに追求されない。 本稿では,GO用語記述生成という新しい課題を提案する。 本課題は、分子機能、生物学的プロセス、細胞成分の3つのカテゴリのうちの1つに属するGO項の機能を記述する文を自動生成することを目的とする。 そこで本研究では,goの構造情報を効率的に活用できるグラフ・イン・グラフネットワークを提案する。 提案ネットワークは2層グラフを導入し,第1層はGO項のグラフであり,各ノードがグラフ(遺伝子グラフ)でもある。 このようなグラフ・イン・グラフ・ネットワークはGO項の生物学的機能を導出し、適切な記述を生成する。 提案手法の有効性を検証するため,3つの大規模ベンチマークデータセットを構築した。 提案したグラフ・イン・グラフ・ネットワークを組み込むことで、7つの異なるシーケンス・ツー・シーケンス・モデルの性能を最大34.7%、14.5%、および39.1%の相対的なBLEU、ROUGE-L、METEORで大幅に向上させることができる。

Gene Ontology (GO) is the primary gene function knowledge base that enables computational tasks in biomedicine. The basic element of GO is a term, which includes a set of genes with the same function. Existing research efforts of GO mainly focus on predicting gene term associations. Other tasks, such as generating descriptions of new terms, are rarely pursued. In this paper, we propose a novel task: GO term description generation. This task aims to automatically generate a sentence that describes the function of a GO term belonging to one of the three categories, i.e., molecular function, biological process, and cellular component. To address this task, we propose a Graph-in-Graph network that can efficiently leverage the structural information of GO. The proposed network introduces a two-layer graph: the first layer is a graph of GO terms where each node is also a graph (gene graph). Such a Graph-in-Graph network can derive the biological functions of GO terms and generate proper descriptions. To validate the effectiveness of the proposed network, we build three large-scale benchmark datasets. By incorporating the proposed Graph-in-Graph network, the performances of seven different sequence-to-sequence models can be substantially boosted across all evaluation metrics, with up to 34.7%, 14.5%, and 39.1% relative improvements in BLEU, ROUGE-L, and METEOR, respectively.
翻訳日:2022-06-19 14:52:55 公開日:2022-06-10
# (参考訳) 強化学習のための大規模検索

Large-Scale Retrieval for Reinforcement Learning ( http://arxiv.org/abs/2206.05314v1 )

ライセンス: CC BY 4.0
Peter C. Humphreys, Arthur Guez, Olivier Tieleman, Laurent Sifre, Th\'eophane Weber, Timothy Lillicrap(参考訳) 効果的な意思決定は、過去の経験と関連する文脈情報を新しい状況に柔軟に関連付ける。 深層強化学習においては、エージェントがトレーニング損失に対する勾配降下によるネットワーク重みの決定を支援する情報を改善することが主流のパラダイムである。 本稿では,エージェントがパラメトリック計算をサポートするために,大規模コンテキストセンシティブなデータベースルックアップを活用できる代替手法を追求する。 これにより、エージェントはエンドツーエンドで直接学習し、関連する情報を利用して出力を知らせることができる。 さらに、検索データセットを単に増やすことで、再トレーニングすることなく、エージェントが新しい情報に参加することができる。 我々はこのアプローチを,過去の経験と直接マッチングすることよりも,広大なコンビネート状態空間が一般化する,挑戦的なゲームであるgoで研究する。 我々は、何千万もの専門家の実証状態から関連するデータを取得するために、高速で近似した近接技術を利用する。 この情報に従えば、これらのデモンストレーションをトレーニングトラジェクトリとして単に使用することよりも予測精度とゲームプレイのパフォーマンスが大幅に向上し、強化学習エージェントにおける大規模検索の価値の説得力のある実証を提供する。

Effective decision making involves flexibly relating past experiences and relevant contextual information to a novel situation. In deep reinforcement learning, the dominant paradigm is for an agent to amortise information that helps decision-making into its network weights via gradient descent on training losses. Here, we pursue an alternative approach in which agents can utilise large-scale context-sensitive database lookups to support their parametric computations. This allows agents to directly learn in an end-to-end manner to utilise relevant information to inform their outputs. In addition, new information can be attended to by the agent, without retraining, by simply augmenting the retrieval dataset. We study this approach in Go, a challenging game for which the vast combinatorial state space privileges generalisation over direct matching to past experiences. We leverage fast, approximate nearest neighbor techniques in order to retrieve relevant data from a set of tens of millions of expert demonstration states. Attending to this information provides a significant boost to prediction accuracy and game-play performance over simply using these demonstrations as training trajectories, providing a compelling demonstration of the value of large-scale retrieval in reinforcement learning agents.
翻訳日:2022-06-19 14:29:38 公開日:2022-06-10
# (参考訳) $\mathcal{R}$-norm誘導バイアスの固有次元性と一般化特性

Intrinsic dimensionality and generalization properties of the $\mathcal{R}$-norm inductive bias ( http://arxiv.org/abs/2206.05317v1 )

ライセンス: CC BY 4.0
Clayton Sanford, Navid Ardeshir, Daniel Hsu(参考訳) 特定の対象関数でラベル付けされたデータセットの補間を最小化する$\mathcal{r}$-normの構造および統計特性について検討する。 この$\mathcal{r}$-norm は、2層ニューラルネットワークの帰納バイアスの基礎であり、ネットワーク幅とは無関係に、ネットワーク重みのサイズを制御する機能的効果を捉えるために最近導入された。 これらの補間関数は,データに適合するリッジ関数が存在する場合でも,本質的に多変量関数であると同時に,特定の学習問題に対して統計的に最適な一般化を達成するには,$\mathcal{r}$-normインダクティブバイアスが不十分であることがわかった。 さらに、これらの結果は、実用的なニューラルネットワークトレーニングに結びついている誘導バイアスに新たな光を当てた。

We study the structural and statistical properties of $\mathcal{R}$-norm minimizing interpolants of datasets labeled by specific target functions. The $\mathcal{R}$-norm is the basis of an inductive bias for two-layer neural networks, recently introduced to capture the functional effect of controlling the size of network weights, independently of the network width. We find that these interpolants are intrinsically multivariate functions, even when there are ridge functions that fit the data, and also that the $\mathcal{R}$-norm inductive bias is not sufficient for achieving statistically optimal generalization for certain learning problems. Altogether, these results shed new light on an inductive bias that is connected to practical neural network training.
翻訳日:2022-06-19 14:11:08 公開日:2022-06-10
# (参考訳) 動的環境におけるオブジェクトインスタンスの識別

Object Instance Identification in Dynamic Environments ( http://arxiv.org/abs/2206.05319v1 )

ライセンス: CC BY 4.0
Takuma Yagi, Md Tasnimul Hasan, Yoichi Sato(参考訳) 本研究では,オブジェクトと対話する動的環境におけるオブジェクトインスタンスの識別問題について検討する。 このような環境では、オブジェクトの外観は他のエンティティとの相互作用、手による閉塞、背景の変化などによって動的に変化する。 これにより、静的環境よりも外観のインスタンス内変異が大きい。 この設定の課題を発見するために、私たちは新たに、自然活動を含むepic-kitchensデータセット上に構築された1500以上のインスタンスのベンチマークを構築し、その広範な分析を行いました。 実験結果は (i)インスタンス固有の外観変化に対するロバスト性 (ii)低レベル(例えば、色、テクスチャ)と高レベル(例えば、オブジェクトカテゴリ)の機能の統合 (iii)さらなる改良のために重ね合わせオブジェクトに対する前景特徴の選択が必要となる。

We study the problem of identifying object instances in a dynamic environment where people interact with the objects. In such an environment, objects' appearance changes dynamically by interaction with other entities, occlusion by hands, background change, etc. This leads to a larger intra-instance variation of appearance than in static environments. To discover the challenges in this setting, we newly built a benchmark of more than 1,500 instances built on the EPIC-KITCHENS dataset which includes natural activities and conducted an extensive analysis of it. Experimental results suggest that (i) robustness against instance-specific appearance change (ii) integration of low-level (e.g., color, texture) and high-level (e.g., object category) features (iii) foreground feature selection on overlapping objects are required for further improvement.
翻訳日:2022-06-19 14:10:05 公開日:2022-06-10
# (参考訳) リパラメータ化によるニューラルSDFの微分レンダリング

Differentiable Rendering of Neural SDFs through Reparameterization ( http://arxiv.org/abs/2206.05344v1 )

ライセンス: CC BY 4.0
Sai Praveen Bangaru, Micha\"el Gharbi, Tzu-Mao Li, Fujun Luan, Kalyan Sunkavalli, Milo\v{s} Ha\v{s}an, Sai Bi, Zexiang Xu, Gilbert Bernstein and Fr\'edo Durand(参考訳) ニューラルSDFレンダラーにおける幾何学的シーンパラメータに対して,正確な勾配を自動的に計算する手法を提案する。 近年のメッシュの物理的に微分可能なレンダリング技術は、特にオブジェクトシルエットにおける不連続性を扱うためにエッジサンプリングを用いているが、SDFはサンプリング可能な単純なパラメトリック形式を持っていない。 その代わり,本手法は地域サンプリング技術に基づいて,これらの不連続性を考慮に入れたSDFの継続的なワープ機能を開発する。 提案手法は,SDFで符号化された表面への距離を利用して,球面トレーサ点の次数を用いて,このワープ関数を計算する。 さらに,この手法を神経性SDFに適用できるように,点をサブサンプリングすることで実現可能であることを示す。 我々の微分可能なレンダラは、幾何最適化をガイドする2次元セグメンテーションマスクを必要とせずに、多視点画像からニューラル形状を最適化し、最近のSDFベースの逆レンダリング手法に匹敵する3次元再構成を生成することができる。

We present a method to automatically compute correct gradients with respect to geometric scene parameters in neural SDF renderers. Recent physically-based differentiable rendering techniques for meshes have used edge-sampling to handle discontinuities, particularly at object silhouettes, but SDFs do not have a simple parametric form amenable to sampling. Instead, our approach builds on area-sampling techniques and develops a continuous warping function for SDFs to account for these discontinuities. Our method leverages the distance to surface encoded in an SDF and uses quadrature on sphere tracer points to compute this warping function. We further show that this can be done by subsampling the points to make the method tractable for neural SDFs. Our differentiable renderer can be used to optimize neural shapes from multi-view images and produces comparable 3D reconstructions to recent SDF-based inverse rendering methods, without the need for 2D segmentation masks to guide the geometry optimization and no volumetric approximations to the geometry.
翻訳日:2022-06-19 14:01:33 公開日:2022-06-10
# (参考訳) シリアスゲームにおけるソーシャルな会話の実践

Social Practices for Social Driven Conversations in Serious Games ( http://arxiv.org/abs/2206.05355v1 )

ライセンス: CC BY 4.0
Agnese Augello and Manuel Gentile and Frank Dignum(参考訳) 本稿では,社会実践のモデルについて,コミュニケーションスキルの訓練医の特定の目標との会話を管理する理論的枠組みとして記述する。 この目的のために、コミュニケーションの会話を管理するドメイン推論者! \cite{jeuring} 真剣なゲームがベースになっている。 特定の社会実践を選択することは、簡単ではないため、社会実践モデルに準拠したエージェントアーキテクチャの実装に向けたステップとして、社会実践の選択のための確率論的モデルを使用します。

This paper describes the model of social practice as a theoretical framework to manage conversation with the specific goal of training physicians in communicative skills. To this aim, the domain reasoner that manages the conversation in the Communicate! \cite{jeuring} serious game is taken as a basis. Because the choice of a specific Social Practice to follow in a situation is non-trivial we use a probabilistic model for the selection of social practices as a step toward the implementation of an agent architecture compliant with the social practice model.
翻訳日:2022-06-19 13:42:15 公開日:2022-06-10
# (参考訳) 多目的強化学習のためのアンカー交換正規化自然政策勾配

Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective Reinforcement Learning ( http://arxiv.org/abs/2206.05357v1 )

ライセンス: CC BY 4.0
Ruida Zhou, Tao Liu, Dileep Kalathil, P. R. Kumar, Chao Tian(参考訳) 複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討し、比例フェアネス(滑らかな凹凸スカラー化)、ハード制約(制約付きMDP)、最大トレードオフなどの条件に従って共同最適化を行う。 我々は,多目的MDP問題に対するポリシー最適化アルゴリズムの設計に,優れた一階法からのアイデアを体系的に組み込むことができる,アンカー変換正規化自然政策勾配(ARNPG)フレームワークを提案する。 理論的には、ALNPGフレームワークに基づく設計アルゴリズムは、正確な勾配で$\tilde{O}(1/T)$大域収束を達成する。 経験的に、ALNPG誘導アルゴリズムは、厳密な勾配とサンプルベースのシナリオの両方において、既存の方針勾配に基づくアプローチと比較して優れた性能を示す。

We study policy optimization for Markov decision processes (MDPs) with multiple reward value functions, which are to be jointly optimized according to given criteria such as proportional fairness (smooth concave scalarization), hard constraints (constrained MDP), and max-min trade-off. We propose an Anchor-changing Regularized Natural Policy Gradient (ARNPG) framework, which can systematically incorporate ideas from well-performing first-order methods into the design of policy optimization algorithms for multi-objective MDP problems. Theoretically, the designed algorithms based on the ARNPG framework achieve $\tilde{O}(1/T)$ global convergence with exact gradients. Empirically, the ARNPG-guided algorithms also demonstrate superior performance compared to some existing policy gradient-based approaches in both exact gradients and sample-based scenarios.
翻訳日:2022-06-19 13:33:15 公開日:2022-06-10
# (参考訳) 衛星画像といくつかのローカルラベルからの高速建物セグメンテーション

Fast building segmentation from satellite imagery and few local labels ( http://arxiv.org/abs/2206.05377v1 )

ライセンス: CC BY 4.0
Caleb Robinson, Anthony Ortiz, Hogeun Park, Nancy Lozano Gracia, Jon Kher Kaw, Tina Sederholm, Rahul Dodhia, Juan M. Lavista Ferres(参考訳) 衛星画像解析のためのコンピュータビジョンアルゴリズムの革新は、都市化や惑星レベルでの土地利用の変化といったグローバルな課題を探求することができる。 しかし、特に発展途上国において、これらの分析を新しい領域に導くモデルを複製しようとすると、ドメインシフト問題はよく発生する。 モデルが1つの場所からの画像とラベルで訓練された場合、通常、画像とデータ分布のコンテンツが異なる新しい場所にはうまく一般化されない。 本研究では,1つの大きな衛星画像シーンを配置し,その上にフットプリントのセグメンテーションを構築するという課題を解決したいと考える。 ここでは、シーンの境界を越えて一般化するモデルを作成する必要はなく、代わりにローカルモデルをトレーニングすることができます。 この設定を念頭に置いて、高解像度(0.5m/px)の衛星画像で建物セグメンテーション問題を解決するために、驚くほど少ないラベルが必要であることを示す。 我々の最良のモデルは、わずか527個のスパースポリゴンアノテーション(1500×1500ピクセルの高密度ラベル付きピクセルに相当する)でトレーニングされ、200×200メートルの窓の建物数をカウントするタスクにおいて、持ち上げられたフットプリントに対して0.87のリコールとR2の0.93のリコールがある。 ヨルダンのアムマンの高分解能画像にモデルを適用し,都市変動検出の事例研究を行った。

Innovations in computer vision algorithms for satellite image analysis can enable us to explore global challenges such as urbanization and land use change at the planetary level. However, domain shift problems are a common occurrence when trying to replicate models that drive these analyses to new areas, particularly in the developing world. If a model is trained with imagery and labels from one location, then it usually will not generalize well to new locations where the content of the imagery and data distributions are different. In this work, we consider the setting in which we have a single large satellite imagery scene over which we want to solve an applied problem -- building footprint segmentation. Here, we do not necessarily need to worry about creating a model that generalizes past the borders of our scene but can instead train a local model. We show that surprisingly few labels are needed to solve the building segmentation problem with very high-resolution (0.5m/px) satellite imagery with this setting in mind. Our best model trained with just 527 sparse polygon annotations (an equivalent of 1500 x 1500 densely labeled pixels) has a recall of 0.87 over held out footprints and a R2 of 0.93 on the task of counting the number of buildings in 200 x 200-meter windows. We apply our models over high-resolution imagery in Amman, Jordan in a case study on urban change detection.
翻訳日:2022-06-19 13:32:14 公開日:2022-06-10
# 電力グリッドの動的安定性-グラフニューラルネットワークの新しいデータセット

Dynamic stability of power grids -- new datasets for Graph Neural Networks ( http://arxiv.org/abs/2206.06369v1 )

ライセンス: Link先を確認
Christian Nauck, Michael Lindner, Konstantin Sch\"urholt, Frank Hellmann(参考訳) 再生可能エネルギーへのエネルギー移行の成功の鍵となる課題の1つは、電力網の動的安定性の分析である。 しかし、動的解は難解であり、大きな格子に対して非常に高価である。 グラフニューラルネットワーク(gnns)は、電力グリッドの動的安定性を予測する計算労力を削減する有望な方法であるが、適切な複雑さと大きさのデータセットはまだ存在しない。 合成電力グリッドの2つの新しいデータセットを導入する。 各グリッドについて,モンテカルロシミュレーションを用いて動的安定性を推定した。 データセットは以前公表された10倍のグリッドを持つ。 実世界の応用の可能性を評価するため,テキサス電力グリッドモデルによる予測に成功した。 より複雑なモデルをより多くのデータにトレーニングすることで、パフォーマンスを驚くほどハイレベルに改善することができる。 さらに,調査対象のグリッドのサイズが異なるため,小領域から大領域への分散評価や転校学習の応用が可能となった。 ベンチマークモデルの改善にコミュニティを招待し、よりよいツールでエネルギー移行を支援します。

One of the key challenges for the success of the energy transition towards renewable energies is the analysis of the dynamic stability of power grids. However, dynamic solutions are intractable and exceedingly expensive for large grids. Graph Neural Networks (GNNs) are a promising method to reduce the computational effort of predicting dynamic stability of power grids, however datasets of appropriate complexity and size do not yet exist. We introduce two new datasets of synthetically generated power grids. For each grid, the dynamic stability has been estimated using Monte-Carlo simulations. The datasets have 10 times more grids than previously published. To evaluate the potential for real-world applications, we demonstrate the successful prediction on a Texan power grid model. The performance can be improved to surprisingly high levels by training more complex models on more data. Furthermore, the investigated grids have different sizes, enabling the application of out-of-distribution evaluation and transfer learning from a small to a large domain. We invite the community to improve our benchmark models and thus aid the energy transition with better tools.
翻訳日:2022-06-15 14:10:15 公開日:2022-06-10
# スパイクニューラルネットワークのためのシナプス閾値シナジスティック学習手法

A Synapse-Threshold Synergistic Learning Approach for Spiking Neural Networks ( http://arxiv.org/abs/2206.06129v1 )

ライセンス: Link先を確認
Hongze Sun, Wuque Cai, Baoxin Yang, Yan Cui, Yang Xia, Dezhong Yao, Daqing Guo(参考訳) スパイキングニューラルネットワーク(SNN)は、さまざまなインテリジェントなシナリオにおいて優れた機能を示している。 既存のsnsの訓練方法はシナプス可塑性の概念に基づいているが、現実的脳での学習はニューロンの非シナプス機構も活用している。 生体ニューロンのスパイク閾値は、ミリ秒の時間スケールでリッチなダイナミクスを示す重要な内在神経の特徴であり、神経情報処理の基盤となるメカニズムとして提案されている。 本研究では,SNNにおけるシナプス重みとスパイク閾値を同時に訓練する新しいシナジー学習手法を開発する。 シナプス閾値シナジスティック学習(STL-SNN)で訓練されたSNNは、シナプス閾値学習(SL)としきい値学習(TL)の2つの単一学習モデルで訓練されたSNNよりも、様々な静的およびニューロモルフィックデータセット上で有意に高い精度を達成する。 トレーニング中、シナジスティック学習アプローチは神経閾値を最適化し、適切な発射率で安定した信号伝達を提供する。 さらに分析した結果、STL-SNNはノイズの多いデータに対して堅牢であり、深層ネットワーク構造に対する低エネルギー消費を示すことが示された。 さらに、一般化された共同決定フレームワーク(JDF)を導入することにより、STL-SNNの性能をさらに向上することができる。 以上の結果から, シナプスと内因性非シナプス機構の相乗効果は, SNN学習法の開発に有効である可能性が示唆された。

Spiking neural networks (SNNs) have demonstrated excellent capabilities in various intelligent scenarios. Most existing methods for training SNNs are based on the concept of synaptic plasticity; however, learning in the realistic brain also utilizes intrinsic non-synaptic mechanisms of neurons. The spike threshold of biological neurons is a critical intrinsic neuronal feature that exhibits rich dynamics on a millisecond timescale and has been proposed as an underlying mechanism that facilitates neural information processing. In this study, we develop a novel synergistic learning approach that simultaneously trains synaptic weights and spike thresholds in SNNs. SNNs trained with synapse-threshold synergistic learning (STL-SNNs) achieve significantly higher accuracies on various static and neuromorphic datasets than SNNs trained with two single-learning models of the synaptic learning (SL) and the threshold learning (TL). During training, the synergistic learning approach optimizes neural thresholds, providing the network with stable signal transmission via appropriate firing rates. Further analysis indicates that STL-SNNs are robust to noisy data and exhibit low energy consumption for deep network structures. Additionally, the performance of STL-SNN can be further improved by introducing a generalized joint decision framework (JDF). Overall, our findings indicate that biologically plausible synergies between synaptic and intrinsic non-synaptic mechanisms may provide a promising approach for developing highly efficient SNN learning methods.
翻訳日:2022-06-14 18:02:10 公開日:2022-06-10
# グラフニューラルネットワークを用いた不均衡ノード分類のための合成オーバーサンプリング

Synthetic Over-sampling for Imbalanced Node Classification with Graph Neural Networks ( http://arxiv.org/abs/2206.05335v1 )

ライセンス: Link先を確認
Tianxiang Zhao and Xiang Zhang and Suhang Wang(参考訳) 近年,グラフニューラルネットワーク(GNN)はノード分類の最先端性能を実現している。 しかし、既存のほとんどのGNNはグラフの不均衡の問題に悩まされる。 多くの実世界のシナリオでは、ノードクラスは不均衡であり、グラフのほとんどの部分を構成する多数派クラスもある。 GNNのメッセージ伝搬機構は、これらの多数クラスの優位性をさらに増幅し、その結果、サブ最適分類性能が向上する。 本研究では,マイノリティクラスの擬似インスタンスを生成し,トレーニングデータのバランスを保ち,従来のオーバーサンプリング手法を拡張してこの問題に対処する。 これらのテクニックはインスタンスが独立しているという仮定で設計されているため、このタスクは自明ではありません。 関係情報の無視は、このオーバーサンプリングプロセスを複雑にする。 さらに、ノード分類タスクは、通常は少数のラベル付きノードで半教師付き設定を取るため、マイノリティインスタンスの生成の監督が不十分である。 低品質の新しいノードの生成は、訓練された分類器を傷つける。 本稿では,ノード属性とトポロジ情報の両方をエンコードする組込み空間において,新しいノードを合成することで,これらの課題に対処する。 さらに、エッジジェネレータを同時にトレーニングし、グラフ構造をモデル化し、新しいサンプルの関係を提供する。 データ効率をさらに向上するために、このオーバーサンプリングプロセスで多数派クラスのノードを利用するために、混在する `in- between'' ノードの合成についても検討する。 実世界のデータセット実験により,提案フレームワークの有効性が検証された。

In recent years, graph neural networks (GNNs) have achieved state-of-the-art performance for node classification. However, most existing GNNs would suffer from the graph imbalance problem. In many real-world scenarios, node classes are imbalanced, with some majority classes making up most parts of the graph. The message propagation mechanism in GNNs would further amplify the dominance of those majority classes, resulting in sub-optimal classification performance. In this work, we seek to address this problem by generating pseudo instances of minority classes to balance the training data, extending previous over-sampling-based techniques. This task is non-trivial, as those techniques are designed with the assumption that instances are independent. Neglection of relation information would complicate this oversampling process. Furthermore, the node classification task typically takes the semi-supervised setting with only a few labeled nodes, providing insufficient supervision for the generation of minority instances. Generated new nodes of low quality would harm the trained classifier. In this work, we address these difficulties by synthesizing new nodes in a constructed embedding space, which encodes both node attributes and topology information. Furthermore, an edge generator is trained simultaneously to model the graph structure and provide relations for new samples. To further improve the data efficiency, we also explore synthesizing mixed ``in-between'' nodes to utilize nodes from the majority class in this over-sampling process. Experiments on real-world datasets validate the effectiveness of our proposed framework.
翻訳日:2022-06-14 18:00:40 公開日:2022-06-10
# 結び目理論と群論における問題へのニューラルネットワークの応用(アンタングリングブレイド)

An application of neural networks to a problem in knot theory and group theory (untangling braids) ( http://arxiv.org/abs/2206.05373v1 )

ライセンス: Link先を確認
Alexei Lisitsa, Mateo Salles, Alexei Vernitski(参考訳) 長さ20および幅4まで切断する問題の解決に成功していると報告する。 強化学習の枠組みでは、フィードフォワードニューラルネットワークを用いてエージェントを訓練し、最小限の動作でブレイドを解き放つためのreidemeisterの動作を選択する。

We report on our success on solving the problem of untangling braids up to length 20 and width 4. We use feed-forward neural networks in the framework of reinforcement learning to train the agent to choose Reidemeister moves to untangle braids in the minimal number of moves.
翻訳日:2022-06-14 18:00:16 公開日:2022-06-10
# アクティビストにインスパイアされた認知の数学的モデル

An Enactivist-Inspired Mathematical Model of Cognition ( http://arxiv.org/abs/2206.06096v1 )

ライセンス: Link先を確認
Vadim Weinstein, Basak Sakcak, Steven M. LaValle(参考訳) 我々は、関連する文献において、その哲学の根底にある原則として慎重に特定した5つの実践的認知科学の基本原則を定式化する。 次に、これらの実践主義的テットに従う認知システム(人工と自然の両方)について話す数学的枠組みを開発する。 特に、我々の数学的モデリングは、エージェントにコンテントフルシンボリック表現を属性とせず、エージェントの脳、体、環境は、それらをより大きな総和の不可分な部分としてモデル化されていることに注意を払っています。 その目的は、認知のための数学的基礎を作ることであり、それはエラクティビズムと一致している。 コンピュータ科学者、ai研究者、ロボット工学者、認知科学者、心理学者にとって、エラクティビストのアイデアをよりアクセスしやすいものにし、(2)哲学者に彼らの考えを明確にし、議論の助けとなる数学的ツールを与える。 我々の主観念は、遷移系のよく研究された概念の特別な場合である感覚運動系のものである。 また,ラベル付き遷移システムや決定論的オートマトンといった関連する概念も検討する。 我々は、充足性(sufficiency)という概念を分析し、それが「実践主義的視点から認知の数学」の基本概念の非常に良い候補であることを示す。 その重要性は、(ある意味では、生物の環境への最適な適応に対応する)最小限の十分精細化に関する一意性定理を証明し、十分な歴史情報空間のような既知の概念に十分対応することを示すことによって証明する。 次に,不足度,普遍被覆度,階層性,戦略的不足度といった他の関連する概念を展開する。 最終的に、私たちはそれをすべて、エノクティビストのテネットに結び付けます。

We formulate five basic tenets of enactivist cognitive science that we have carefully identified in the relevant literature as the main underlying principles of that philosophy. We then develop a mathematical framework to talk about cognitive systems (both artificial and natural) which complies with these enactivist tenets. In particular we pay attention that our mathematical modeling does not attribute contentful symbolic representations to the agents, and that the agent's brain, body and environment are modeled in a way that makes them an inseparable part of a greater totality. The purpose is to create a mathematical foundation for cognition which is in line with enactivism. We see two main benefits of doing so: (1) It enables enactivist ideas to be more accessible for computer scientists, AI researchers, roboticists, cognitive scientists, and psychologists, and (2) it gives the philosophers a mathematical tool which can be used to clarify their notions and help with their debates. Our main notion is that of a sensorimotor system which is a special case of a well studied notion of a transition system. We also consider related notions such as labeled transition systems and deterministic automata. We analyze a notion called sufficiency and show that it is a very good candidate for a foundational notion in the "mathematics of cognition from an enactivist perspective". We demonstrate its importance by proving a uniqueness theorem about the minimal sufficient refinements (which correspond in some sense to an optimal attunement of an organism to its environment) and by showing that sufficiency corresponds to known notions such as sufficient history information spaces. We then develop other related notions such as degree of insufficiency, universal covers, hierarchies, strategic sufficiency. In the end, we tie it all back to the enactivist tenets.
翻訳日:2022-06-14 17:06:50 公開日:2022-06-10
# 多目的制約POMDPモデルによる乳癌検診

A multi-objective constrained POMDP model for breast cancer screening ( http://arxiv.org/abs/2206.05370v1 )

ライセンス: Link先を確認
Can Kavaklioglu and Mucahit Cevik and Robert Helmeczi and Davood Pirayesh Neghab(参考訳) 乳がんは一般的で致命的な疾患であるが、早期に診断すると治ることが多い。 ほとんどの国は大規模な検診プログラムを持っているが、世界的に認められた乳がん検診の方針については合意が得られていない。 この病気の複雑な性質、マンモグラフィー、MRI(MRI)、超音波スクリーニングなどのスクリーニング方法の限られた利用、および公衆衛生政策がスクリーニング政策の進展に影響を及ぼす。 リソースの可用性に関する懸念は、予算に準拠したポリシーの設計を必要とし、これは制約のある部分可観測マルコフ決定プロセス(cpomdp)としてモデル化できる問題である。 本研究では,乳がん検診のための多目的CPOMDPモデルを提案する。 さらに,マンモグラフィ以外の検診を行うための拡張されたアクション空間についても検討する。 それぞれの行動は、品質調整された寿命と寿命のリスク、およびユニークなコストに独特な影響を与える。 以上の結果から,平均的,高リスクの患者に対して,意思決定者が政策立案に活用できる最適ソリューションのパレートフロンティアが明らかとなった。

Breast cancer is a common and deadly disease, but it is often curable when diagnosed early. While most countries have large-scale screening programs, there is no consensus on a single globally accepted policy for breast cancer screening. The complex nature of the disease; limited availability of screening methods such as mammography, magnetic resonance imaging (MRI), and ultrasound screening; and public health policies all factor into the development of screening policies. Resource availability concerns necessitate the design of policies which conform to a budget, a problem which can be modelled as a constrained partially observable Markov decision process (CPOMDP). In this study, we propose a multi-objective CPOMDP model for breast cancer screening with two objectives: minimize the lifetime risk of dying due to breast cancer and maximize the quality-adjusted life years. Additionally, we consider an expanded action space which allows for screening methods beyond mammography. Each action has a unique impact on quality-adjusted life years and lifetime risk, as well as a unique cost. Our results reveal the Pareto frontier of optimal solutions for average and high risk patients at different budget levels, which can be used by decision makers to set policies in practice.
翻訳日:2022-06-14 15:35:14 公開日:2022-06-10
# 変圧器を用いた新しいビュー合成のための一般化可能なニューラルラジアンス場

Generalizable Neural Radiance Fields for Novel View Synthesis with Transformer ( http://arxiv.org/abs/2206.05375v1 )

ライセンス: Link先を確認
Dan Wang, Xinrui Cui, Septimiu Salcudean, and Z. Jane Wang(参考訳) 本研究では,新しいビュー合成タスクのための観察画像に条件付き汎用神経放射場を学習するためのTransformer-based NeRF(TransNeRF)を提案する。 対照的に、既存のMLPベースのNeRFは、任意の数で観察されたビューを直接受信することができず、ソースビュー情報を融合するために補助プーリングベースの操作を必要とするため、ソースビューとターゲットレンダリングビューの間の複雑な関係が欠落する。 さらに、現在のアプローチでは、各3dポイントを個別に処理し、ラミアンスフィールドシーン表現の局所的一貫性を無視する。 これらの制限は、ソースビューと新しいレンダリングビューの間に大きな違いが存在する可能性がある現実世界のアプリケーションにおいて、パフォーマンスを低下させる可能性がある。 これらの課題に対処するために、TransNeRFはアテンション機構を利用して、任意の数のソースビューの深い関連を座標ベースのシーン表現に自然に復号する。 形状と外観の局所的な整合性は、統一トランスフォーマーネットワーク内のレイキャスト空間と周辺ビュー空間で考慮される。 実験によって、我々のトランスナーフは、さまざまなシーンで訓練され、特にソースビューとレンダリングビューの間にかなりのギャップがある場合、シーンに依存しないシナリオとシーン毎の微調整シナリオの両方において、最先端の画像ベースのニューラルレンダリング手法よりも優れたパフォーマンスを達成できることが示されました。

We propose a Transformer-based NeRF (TransNeRF) to learn a generic neural radiance field conditioned on observed-view images for the novel view synthesis task. By contrast, existing MLP-based NeRFs are not able to directly receive observed views with an arbitrary number and require an auxiliary pooling-based operation to fuse source-view information, resulting in the missing of complicated relationships between source views and the target rendering view. Furthermore, current approaches process each 3D point individually and ignore the local consistency of a radiance field scene representation. These limitations potentially can reduce their performance in challenging real-world applications where large differences between source views and a novel rendering view may exist. To address these challenges, our TransNeRF utilizes the attention mechanism to naturally decode deep associations of an arbitrary number of source views into a coordinate-based scene representation. Local consistency of shape and appearance are considered in the ray-cast space and the surrounding-view space within a unified Transformer network. Experiments demonstrate that our TransNeRF, trained on a wide variety of scenes, can achieve better performance in comparison to state-of-the-art image-based neural rendering methods in both scene-agnostic and per-scene finetuning scenarios especially when there is a considerable gap between source views and a rendering view.
翻訳日:2022-06-14 15:33:27 公開日:2022-06-10
# 相関-相対性伝達学習と変分 stein のパラドックス

A Correlation-Ratio Transfer Learning and Variational Stein's Paradox ( http://arxiv.org/abs/2206.06086v1 )

ライセンス: Link先を確認
Lu Lin and Weiyu Li(参考訳) 効率的な伝達学習の基本的な条件は、ターゲットモデルとソースモデルとの類似性である。 しかし実際には、類似性条件は満たすのが難しいか、あるいは破られる場合さえある。 本論文では、類似性条件の代わりに、モデル間の正確な関係を構築するために、新しい戦略である線形相関比を導入する。 このような相関比は、過去のデータやサンプルの一部から容易に推定できる。 そして、相関比の組合せに基づいて相関比移動学習確率を確立する。 実用面では、新しいフレームワークはいくつかのアプリケーションシナリオ、特にデータストリームと医学研究の分野に適用されます。 方法論的には、単純なソースモデルから比較的複雑なターゲットモデルへ情報を転送する手法が提案されている。 理論的には、ソースモデルがターゲットモデルと似ていない場合であっても、大域収束率を含むいくつかの好ましい特性が達成される。 全体として、対象モデルの推論は、類似または異質なソースモデルの情報によって著しく改善されているという理論と実験結果から見ることができる。 言い換えると、変分シュタインのパラドックスは転置学習の文脈で示される。

A basic condition for efficient transfer learning is the similarity between a target model and source models. In practice, however, the similarity condition is difficult to meet or is even violated. Instead of the similarity condition, a brand-new strategy, linear correlation-ratio, is introduced in this paper to build an accurate relationship between the models. Such a correlation-ratio can be easily estimated by historical data or a part of sample. Then, a correlation-ratio transfer learning likelihood is established based on the correlation-ratio combination. On the practical side, the new framework is applied to some application scenarios, especially the areas of data streams and medical studies. Methodologically, some techniques are suggested for transferring the information from simple source models to a relatively complex target model. Theoretically, some favorable properties, including the global convergence rate, are achieved, even for the case where the source models are not similar to the target model. All in all, it can be seen from the theories and experimental results that the inference on the target model is significantly improved by the information from similar or dissimilar source models. In other words, a variational Stein's paradox is illustrated in the context of transfer learning.
翻訳日:2022-06-14 15:00:06 公開日:2022-06-10
# 圧縮センシングMRIにおける局所的対向アーティファクト

Localized adversarial artifacts for compressed sensing MRI ( http://arxiv.org/abs/2206.05289v1 )

ライセンス: Link先を確認
Rima Alaifari, Giovanni S. Alberti, Tandri Gauksson(参考訳) 画像再構成タスクに対するディープニューラルネットワーク(DNN)への関心が高まっているため、その信頼性は疑問視されている(Antun et al., 2020; Gottschling et al., 2020)。 しかし、近年の研究では、全変動(TV)の最小化と比較して、$\ell^2$-reconstruction error(Genzel et al., 2022)の点で、対向雑音と同じような頑健さを示すことが示されている。 我々は、$\ell^\infty$-normを用いて、ロバストネスの異なる概念を考え、ローカライズされた再構築アーティファクトは$\ell^2$-errorよりも関連する欠陥であると主張している。 我々は,テレビレギュラー化された再建において,高度に局所化されたアーティファクトを誘発するMRI測定をアンサンプした逆方向の摂動を生成する。 同じ攻撃方法はDNNベースの再構築には有効ではない。 最後に, この現象は, $\ell^1$- または tv-minimization を用いた圧縮センシング再構成と同様に, 正確な回復を保証できる再構成法に固有のものであることを示す。

As interest in deep neural networks (DNNs) for image reconstruction tasks grows, their reliability has been called into question (Antun et al., 2020; Gottschling et al., 2020). However, recent work has shown that compared to total variation (TV) minimization, they show similar robustness to adversarial noise in terms of $\ell^2$-reconstruction error (Genzel et al., 2022). We consider a different notion of robustness, using the $\ell^\infty$-norm, and argue that localized reconstruction artifacts are a more relevant defect than the $\ell^2$-error. We create adversarial perturbations to undersampled MRI measurements which induce severe localized artifacts in the TV-regularized reconstruction. The same attack method is not as effective against DNN based reconstruction. Finally, we show that this phenomenon is inherent to reconstruction methods for which exact recovery can be guaranteed, as with compressed sensing reconstructions with $\ell^1$- or TV-minimization.
翻訳日:2022-06-14 14:59:50 公開日:2022-06-10
# 視覚変換器を用いた共有価値推定の学習

Learning to Estimate Shapley Values with Vision Transformers ( http://arxiv.org/abs/2206.05282v1 )

ライセンス: Link先を確認
Ian Covert, Chanwoo Kim, Su-In Lee(参考訳) トランスフォーマーはコンピュータビジョンではデフォルトのアーキテクチャになっているが、予測を駆動するものを理解することは難しい問題である。 現在の説明アプローチは注意値や入力勾配に依存するが、これらはモデルの依存性を限定的に理解する。 シャプリーの値は理論的に正しい代替手段を提供するが、計算コストは大きな高次元モデルでは実用的でない。 本研究では,視覚変換器(ViT)のShapley値を実現することを目的とする。 そこで,まず注意マスキング手法を用いて部分的情報を用いたvitの評価を行い,個別に学習した説明モデルを用いてシェープリー値を生成する手法を開発した。 我々の実験はShapley値と多くのベースライン手法(例えば、注意ロールアウト、GradCAM、LRP)を比較し、我々の手法は既存のViTの手法よりも正確な説明を提供する。

Transformers have become a default architecture in computer vision, but understanding what drives their predictions remains a challenging problem. Current explanation approaches rely on attention values or input gradients, but these give a limited understanding of a model's dependencies. Shapley values offer a theoretically sound alternative, but their computational cost makes them impractical for large, high-dimensional models. In this work, we aim to make Shapley values practical for vision transformers (ViTs). To do so, we first leverage an attention masking approach to evaluate ViTs with partial information, and we then develop a procedure for generating Shapley value explanations via a separate, learned explainer model. Our experiments compare Shapley values to many baseline methods (e.g., attention rollout, GradCAM, LRP), and we find that our approach provides more accurate explanations than any existing method for ViTs.
翻訳日:2022-06-14 14:26:44 公開日:2022-06-10
# モデル複雑度最適化と周期状態同定によるプロセス発見の拡張:医療プロセスへの応用

Extending Process Discovery with Model Complexity Optimization and Cyclic States Identification: Application to Healthcare Processes ( http://arxiv.org/abs/2206.06111v1 )

ライセンス: Link先を確認
Liubov O. Elkhovskaya, Alexander D. Kshenin, Marina A. Balakhontceva, Sergey V. Kovalchuk(参考訳) プロセスマイニングでは、イベントログからビジネスプロセスモデルを自動的に構築することが可能になる。 しかし、結果がモデルの複雑さと適合する精度のバランスをとらない場合が多く、手作業によるモデル調整が必要となる。 本稿では,モデル複雑度と適合度を総合的に評価した上で,半自動的なモデル最適化を支援するプロセスマイニング手法を提案する。 両成分のバランスをとるため, 所望の粒度で生モデルを抽象化するモデル単純化手法が提案されている。 さらに,メタ状態の概念,すなわちモデル内で崩壊するサイクルを導入することにより,モデルを単純化し,解釈することができる。 医療分野の異なるアプリケーションから3つのデータセットを使用して、技術ソリューションの能力を実証することを目指している。 新型コロナウイルス(COVID-19)感染拡大に伴う高血圧症や医療従事者のワークフローの遠隔監視プロセスである。 ケーススタディはまた、プロセスモデルの解釈可能性と複雑さ/適合性バランスを改善するためのより良いプラクティスについての洞察を提供する、様々な複雑性測定と様々なソリューションアプリケーションの使用について調査する。

Within Process mining, discovery techniques had made it possible to construct business process models automatically from event logs. However, results often do not achieve the balance between model complexity and its fitting accuracy, so there is a need for manual model adjusting. The paper presents an approach to process mining providing semi-automatic support to model optimization based on the combined assessment of the model complexity and fitness. To balance between the two ingredients, a model simplification approach is proposed, which essentially abstracts the raw model at the desired granularity. Additionally, we introduce a concept of meta-states, a cycle collapsing in the model, which can potentially simplify the model and interpret it. We aim to demonstrate the capabilities of the technological solution using three datasets from different applications in the healthcare domain. They are remote monitoring process for patients with arterial hypertension and workflows of healthcare workers during the COVID-19 pandemic. A case study also investigates the use of various complexity measures and different ways of solution application providing insights on better practices in improving interpretability and complexity/fitness balance in process models.
翻訳日:2022-06-14 13:55:45 公開日:2022-06-10
# 物体検出・認識・深層学習・一般化の普遍法則

Object Detection, Recognition, Deep Learning, and the Universal Law of Generalization ( http://arxiv.org/abs/2206.05365v1 )

ライセンス: Link先を確認
Faris B. Rustom, Haluk \"O\u{g}men, Arash Yazdanbakhsh(参考訳) 物体の検出と認識は、種の成功の基礎となる基本的な機能である。 物体の外観は大きな可変性を示すため、脳は同じ物体の同一性の下でこれらの異なる刺激をグループ化しなければならない。 一般化のプロセスは、いくつかの一般的な原則に従うだろうか? 一般化の普遍法則は、一般化が様々な種やタスクにわたって同様の性質に従うことを証明した。 そこで本研究では, 一般化の基礎となる内部表現が, 対象検出と認識の自然性を反映しているという仮説を検証した。 動物の"クリア"と"カモフラージュ"のイメージで深層神経ネットワークを訓練することで、カテゴリプロトタイプの適切な選択により、一般化関数は単調に減少し、生物学的システムの一般化関数と類似していることが分かった。 我々の結果は研究の仮説を支持している。

Object detection and recognition are fundamental functions underlying the success of species. Because the appearance of an object exhibits a large variability, the brain has to group these different stimuli under the same object identity, a process of generalization. Does the process of generalization follow some general principles or is it an ad-hoc "bag-of-tricks"? The Universal Law of Generalization provided evidence that generalization follows similar properties across a variety of species and tasks. Here we test the hypothesis that the internal representations underlying generalization reflect the natural properties of object detection and recognition in our environment rather than the specifics of the system solving these problems. By training a deep-neural-network with images of "clear" and "camouflaged" animals, we found that with a proper choice of category prototypes, the generalization functions are monotone decreasing, similar to the generalization functions of biological systems. Our findings support the hypothesis of the study.
翻訳日:2022-06-14 13:37:11 公開日:2022-06-10
# クロストップ:ゼロショットのクロススキーマタスク指向構文解析

Cross-TOP: Zero-Shot Cross-Schema Task-Oriented Parsing ( http://arxiv.org/abs/2206.05352v1 )

ライセンス: Link先を確認
Melanie Rubino, Nicolas Guenon des Mesnards, Uday Shah, Nanjiang Jiang, Weiqi Sun, Konstantine Arkoudas(参考訳) 深層学習法は、ますます複雑な発話のタスク指向の意味解析を可能にする。 しかしながら、単一のモデルは、通常、各タスクのために個別にトレーニングされ、デプロイされ、それぞれにラベル付きトレーニングデータを必要とするため、単一のビジネス垂直(例えば、食品注文や旅行予約)内でも、新しいタスクのサポートが困難になる。 本稿では,Cross-Schema Task-Oriented Parsing(Cross-Schema Task-Oriented Parsing)について述べる。 同じ垂直共有語彙とセマンティック類似性からのユーザリクエストを活用することで、単一のクロススキーマパーサを使用して、任意の数のタスク(見えるか見えないか)を垂直に処理するようにトレーニングする。 そこで,Cross-TOPはトレーニングデータを必要とすることなく,これまで見られなかったタスクに対して高い精度を達成できることを示す。 この作業の一環として、さまざまなレストランメニューから5つのスキーマから派生した発話とアノテーションを備えた、食品注文の垂直なタスク指向構文解析データセットであるFoodOrderingデータセットをリリースしました。

Deep learning methods have enabled task-oriented semantic parsing of increasingly complex utterances. However, a single model is still typically trained and deployed for each task separately, requiring labeled training data for each, which makes it challenging to support new tasks, even within a single business vertical (e.g., food-ordering or travel booking). In this paper we describe Cross-TOP (Cross-Schema Task-Oriented Parsing), a zero-shot method for complex semantic parsing in a given vertical. By leveraging the fact that user requests from the same vertical share lexical and semantic similarities, a single cross-schema parser is trained to service an arbitrary number of tasks, seen or unseen, within a vertical. We show that Cross-TOP can achieve high accuracy on a previously unseen task without requiring any additional training data, thereby providing a scalable way to bootstrap semantic parsers for new tasks. As part of this work we release the FoodOrdering dataset, a task-oriented parsing dataset in the food-ordering vertical, with utterances and annotations derived from five schemas, each from a different restaurant menu.
翻訳日:2022-06-14 13:30:11 公開日:2022-06-10
# マルチセンター左心房MRIセグメントの分散学習におけるデカップリング予測

Decoupling Predictions in Distributed Learning for Multi-Center Left Atrial MRI Segmentation ( http://arxiv.org/abs/2206.05284v1 )

ライセンス: Link先を確認
Zheyao Gao, Lei Li, Fuping Wu, Sihan Wang, and Xiahai Zhuang(参考訳) 分散学習は医療画像解析に大きな可能性を示している。 プライバシ保護を備えたマルチセンタトレーニングデータを使用することができる。 しかし、ローカルセンターのデータ配信は、異なる画像ベンダーやアノテーションプロトコルによって、互いに異なる可能性がある。 このような変動は学習に基づく手法の性能を低下させる。 この影響を緩和するために、異なる目的、すなわちグローバルメソッドとパーソナライズドメソッドのための2つの方法が提案されている。 前者は、見当たらないセンター(ジェネリックデータとして知られる)からの全テストデータに対する単一のグローバルモデルの性能を改善することを目的としており、後者は各センター(ローカルデータと表記される)の複数のモデルをターゲットにしている。 しかし、両方の目標を同時に達成するための研究はほとんど行われていない。 本研究では,2つのグループ間のギャップを橋渡しし,ジェネリックデータとローカルデータの両方のパフォーマンスを向上させる分散学習の新しいフレームワークを提案する。 具体的には,分散条件適応行列を用いて,総称データと局所データの予測を分離する。 マルチセンター左心房(la)mri分割法の結果,本手法は総括的および局所的データにおいて既存の方法よりも優れた性能を示した。 私たちのコードはhttps://github.com/key1589745/decouple_predictで利用可能です。

Distributed learning has shown great potential in medical image analysis. It allows to use multi-center training data with privacy protection. However, data distributions in local centers can vary from each other due to different imaging vendors, and annotation protocols. Such variation degrades the performance of learning-based methods. To mitigate the influence, two groups of methods have been proposed for different aims, i.e., the global methods and the personalized methods. The former are aimed to improve the performance of a single global model for all test data from unseen centers (known as generic data); while the latter target multiple models for each center (denoted as local data). However, little has been researched to achieve both goals simultaneously. In this work, we propose a new framework of distributed learning that bridges the gap between two groups, and improves the performance for both generic and local data. Specifically, our method decouples the predictions for generic data and local data, via distribution-conditioned adaptation matrices. Results on multi-center left atrial (LA) MRI segmentation showed that our method demonstrated superior performance over existing methods on both generic and local data. Our code is available at https://github.com/key1589745/decouple_predict
翻訳日:2022-06-14 13:02:26 公開日:2022-06-10
# カプセル内視鏡におけるラベルから先行まで : 少ないラベルで一般化を改善するための事前指導的アプローチ

From Labels to Priors in Capsule Endoscopy: A Prior Guided Approach for Improving Generalization with Few Labels ( http://arxiv.org/abs/2206.05288v1 )

ライセンス: Link先を確認
Anuja Vats, Ahmed Mohammed, Marius Pedersen(参考訳) ワイヤレスカプセル内視鏡(wce)における病理の自動診断のためのディープラーニングアプローチの一般化性の欠如は、実際の臨床実践への悪影響を防いでいる。 その結果、WCEを用いた疾病管理は、医療専門家による徹底的な手作業による調査に依存し続けている。 これにはいくつかの利点があるが、使用範囲は限られている。 従来の研究では、一般化の欠如に対処する手段として、より高い品質とラベルの量を使用することを検討したが、大きなデータセットのラベル付けが医療スタッフに蓄積される点には言及せず、病理学の多様性を考慮すると、これはほとんどスケーラブルではない。 我々は、より堅牢で一般化可能な表現を学ぶために、事前として自由に利用可能なドメイン知識を使うことを提案する。 ラベルの代用として振る舞うことによって、ドメインの優先順位が表現の恩恵を享受できることを実験的に示す。 我々は,事前訓練中の事前指導された視点と対比目的を用い,その視点選択が病理情報に対する感受性を喚起する。 3つのデータセットに対する大規模な実験により、我々の手法はドメインの最先端技術よりも優れている(もしくはギャップを埋める)ことが示され、病理分類とクロスデータセットの一般化の新しいベンチマークが確立された。

The lack of generalizability of deep learning approaches for the automated diagnosis of pathologies in Wireless Capsule Endoscopy (WCE) has prevented any significant advantages from trickling down to real clinical practices. As a result, disease management using WCE continues to depend on exhaustive manual investigations by medical experts. This explains its limited use despite several advantages. Prior works have considered using higher quality and quantity of labels as a way of tackling the lack of generalization, however this is hardly scalable considering pathology diversity not to mention that labeling large datasets encumbers the medical staff additionally. We propose using freely available domain knowledge as priors to learn more robust and generalizable representations. We experimentally show that domain priors can benefit representations by acting in proxy of labels, thereby significantly reducing the labeling requirement while still enabling fully unsupervised yet pathology-aware learning. We use the contrastive objective along with prior-guided views during pretraining, where the view choices inspire sensitivity to pathological information. Extensive experiments on three datasets show that our method performs better than (or closes gap with) the state-of-the-art in the domain, establishing a new benchmark in pathology classification and cross-dataset generalization, as well as scaling to unseen pathology categories.
翻訳日:2022-06-14 13:02:04 公開日:2022-06-10
# メモリ分類器:機械学習におけるロバストネスの2段階分類

Memory Classifiers: Two-stage Classification for Robustness in Machine Learning ( http://arxiv.org/abs/2206.05323v1 )

ライセンス: Link先を確認
Souradeep Dutta, Yahan Yang, Elena Bernardis, Edgar Dobriban, Insup Lee(参考訳) 機械学習モデルの性能は、データの分散シフトによって著しく低下する可能性がある。 本稿では,データの「高レベル」構造に関する知識と標準分類器を組み合わせることにより,分散シフトに対するロバスト性を向上させる新しい分類法を提案する。 具体的には,二段階分類器 \textit{memory classifiers} を導入する。 まず、トレーニングデータをクラスタ化するプロトタイプデータポイント -\textit{memories} を識別する。 このステップは、エキスパートガイダンスで設計された機能に基づいています。例えば、画像データについては、デジタル画像処理アルゴリズムを使って抽出することができます。 そして、各クラスタ内で、ディープニューラルネットワークのような標準モデルを介して、より細かい識別機能に基づいてローカルな分類器を学習します。 メモリ分類器の一般化境界を確立する。 画像データセット上の分布シフトに対する一般化とロバスト性を改善する実験について説明する。 我々は、標準的なデータ拡張技術を超えて推進する改善を示す。

The performance of machine learning models can significantly degrade under distribution shifts of the data. We propose a new method for classification which can improve robustness to distribution shifts, by combining expert knowledge about the ``high-level" structure of the data with standard classifiers. Specifically, we introduce two-stage classifiers called \textit{memory classifiers}. First, these identify prototypical data points -- \textit{memories} -- to cluster the training data. This step is based on features designed with expert guidance; for instance, for image data they can be extracted using digital image processing algorithms. Then, within each cluster, we learn local classifiers based on finer discriminating features, via standard models like deep neural networks. We establish generalization bounds for memory classifiers. We illustrate in experiments that they can improve generalization and robustness to distribution shifts on image datasets. We show improvements which push beyond standard data augmentation techniques.
翻訳日:2022-06-14 13:01:39 公開日:2022-06-10
# (参考訳) コアセットを擁護する: アクティブラーニングのための密度認識型コアセット選択

In Defense of Core-set: A Density-aware Core-set Selection for Active Learning ( http://arxiv.org/abs/2206.04838v1 )

ライセンス: CC BY 4.0
Yeachan Kim, Bonggun Shin(参考訳) アクティブラーニングは、ラベルのないデータセットから情報サンプルをラベル付けすることで、ラベル付きデータセットの効率的な構築を可能にする。 実世界のアクティブな学習シナリオでは、多くの冗長あるいは非常に類似したサンプルが存在するため、選択されたサンプルの多様性を考慮することが重要である。 コアセットアプローチは、サンプル間の距離に基づいて多様なサンプルを選択する、有望な多様性に基づく手法である。 しかし、このアプローチは、神経モデルが低い信頼性を示す最も難しいサンプルを選択する不確実性に基づくアプローチに比べて、パフォーマンスが劣る。 本研究では, 密度のレンズを通して特徴空間を解析し, 興味深いことに, 局所スパース領域は密度の高い領域よりも情報的なサンプルを持つ傾向にある。 本分析により,密度認識によるコアセットのアプローチが強化され,密度認識コアセット(DACS)が提案される。 この戦略は,未ラベル標本の密度を推定し,主にスパース領域から多種多様な試料を抽出する。 密度推定における計算ボトルネックを削減するため,局所性に敏感なハッシュに基づく新しい密度近似を提案する。 実験により,DACSの分類・回帰作業における有効性が明らかに示され,実用シナリオにおいてDACSが最先端の性能を発揮できることを示す。 DACSはニューラルネットワークアーキテクチャに弱いため,既存の手法とDACSを効果的に組み合わせることができることを示すための,単純かつ効果的な組み合わせ法を提案する。

Active learning enables the efficient construction of a labeled dataset by labeling informative samples from an unlabeled dataset. In a real-world active learning scenario, considering the diversity of the selected samples is crucial because many redundant or highly similar samples exist. Core-set approach is the promising diversity-based method selecting diverse samples based on the distance between samples. However, the approach poorly performs compared to the uncertainty-based approaches that select the most difficult samples where neural models reveal low confidence. In this work, we analyze the feature space through the lens of the density and, interestingly, observe that locally sparse regions tend to have more informative samples than dense regions. Motivated by our analysis, we empower the core-set approach with the density-awareness and propose a density-aware core-set (DACS). The strategy is to estimate the density of the unlabeled samples and select diverse samples mainly from sparse regions. To reduce the computational bottlenecks in estimating the density, we also introduce a new density approximation based on locality-sensitive hashing. Experimental results clearly demonstrate the efficacy of DACS in both classification and regression tasks and specifically show that DACS can produce state-of-the-art performance in a practical scenario. Since DACS is weakly dependent on neural architectures, we present a simple yet effective combination method to show that the existing methods can be beneficially combined with DACS.
翻訳日:2022-06-14 02:16:58 公開日:2022-06-10
# (参考訳) ニューラルラプラス:ラプラス領域における微分方程式の多様なクラスを学ぶ

Neural Laplace: Learning diverse classes of differential equations in the Laplace domain ( http://arxiv.org/abs/2206.04843v1 )

ライセンス: CC BY 4.0
Samuel Holt, Zhaozhi Qian, Mihaela van der Schaar(参考訳) ニューラルネットワークによって学習される \textit{ode} を持つニューラル常微分方程式モデル力学系。 しかし、ODEは工学や生物学的システムに共通する長距離依存や不連続性を持つシステムをモデル化するには基本的に不十分である。 微分方程式の幅広いクラス (de) は、遅延微分方程式や積分微分方程式を含む修正として提案されている。 さらに、剛体ODEとODEを一方向強制関数でモデル化する場合、Neural ODEは数値不安定性に悩まされる。 そこで本研究では,DESのさまざまなクラスを学習するための統合フレームワークである‘textit{Neural Laplace}’を提案する。 時間領域のダイナミクスをモデル化するのではなく、ラプラス領域でモデル化し、時間における履歴依存性や不連続を複素指数関数の和として表すことができる。 学習をより効率的にするために、リーマン球面の幾何学的立体地図を用いてラプラス領域のより滑らかさを誘導する。 実験では、Neural Laplaceは、複雑な履歴依存や急激な変化を含む様々なDESクラスの軌道をモデル化および外挿する上で、優れた性能を示す。

Neural Ordinary Differential Equations model dynamical systems with \textit{ODE}s learned by neural networks. However, ODEs are fundamentally inadequate to model systems with long-range dependencies or discontinuities, which are common in engineering and biological systems. Broader classes of differential equations (DE) have been proposed as remedies, including delay differential equations and integro-differential equations. Furthermore, Neural ODE suffers from numerical instability when modelling stiff ODEs and ODEs with piecewise forcing functions. In this work, we propose \textit{Neural Laplace}, a unified framework for learning diverse classes of DEs including all the aforementioned ones. Instead of modelling the dynamics in the time domain, we model it in the Laplace domain, where the history-dependencies and discontinuities in time can be represented as summations of complex exponentials. To make learning more efficient, we use the geometrical stereographic map of a Riemann sphere to induce more smoothness in the Laplace domain. In the experiments, Neural Laplace shows superior performance in modelling and extrapolating the trajectories of diverse classes of DEs, including the ones with complex history dependency and abrupt changes.
翻訳日:2022-06-14 02:01:25 公開日:2022-06-10
# (参考訳) 最適二分分類木学習のための混合整数線形最適化公式

Mixed integer linear optimization formulations for learning optimal binary classification trees ( http://arxiv.org/abs/2206.04857v1 )

ライセンス: CC BY 4.0
Brandon Alston, Hamidreza Validi, Illya V. Hicks(参考訳) 決定木は分類と回帰のための強力なツールであり、機械学習の急成長する分野で働く多くの研究者を惹きつける。 他の方法よりも決定木の方が優れているのは解釈可能性であり、比較的解釈不能な他の高精度な方法よりも好まれる。 二分分類木には2種類の頂点がある。 (i)ちょうど2人の子供がいて、データポイントが一組の離散的特徴に基づいて評価される分岐頂点 (ii)データポイントが個別に予測される葉の頂点。 最適な二分分類木は、目的とする生体的最適化問題を解くことで得られる。 i) 正しく分類されたデータポイントの数を最大化し、 (ii)分岐頂点の数を最小化する。 本稿では, 最適二分分類木を設計するための4つの混合整数線形最適化 (milo) 式を提案する。 本稿では,提案した定式化とAghaei et al. (2021) の最強フローベースMILO定式化とを理論的に比較する。 我々は,パレートフロンティアを用いて,モデルがスケールする能力と2目的アプローチの強みを示すために,13の公開データセットについて実験を行う。 コードとデータはGitHubで公開されている。

Decision trees are powerful tools for classification and regression that attract many researchers working in the burgeoning area of machine learning. One advantage of decision trees over other methods is their interpretability, which is often preferred over other higher accuracy methods that are relatively uninterpretable. A binary classification tree has two types of vertices: (i) branching vertices which have exactly two children and where datapoints are assessed on a set of discrete features; and (ii) leaf vertices at which datapoints are given a discrete prediction. An optimal binary classification tree can be obtained by solving a biobjective optimization problem that seeks to (i) maximize the number of correctly classified datapoints and (ii) minimize the number of branching vertices. In this paper, we propose four mixed integer linear optimization (MILO) formulations for designing optimal binary classification trees: two flow-based formulations and two-cut based formulations. We provide theoretical comparisons between our proposed formulations and the strongest flow-based MILO formulation of Aghaei et al. (2021). We conduct experiments on 13 publicly available datasets to show the models' ability to scale and the strength of a biobjective approach using Pareto frontiers. Our code and data are available on GitHub.
翻訳日:2022-06-14 01:37:18 公開日:2022-06-10
# (参考訳) データプライバシ向上と計算量削減のための二元化スプリット学習

Binarizing Split Learning for Data Privacy Enhancement and Computation Reduction ( http://arxiv.org/abs/2206.04864v1 )

ライセンス: CC BY 4.0
Ngoc Duy Pham, Alsharif Abuadbba, Yansong Gao, Tran Khoa Phan, Naveen Chilamkurti(参考訳) Split Learning(SL)は、クライアントが生データを共有することなく、サーバとディープラーニングモデルを協調的にトレーニングすることで、データのプライバシ保護を可能にする。 しかし、slには潜在的なデータプライバシリークやクライアントでの高計算といった制限がある。 本研究では、高速な計算のために、SLローカル層を二項化し(モバイルデバイス上でのトレーニングおよび推論フェーズにおいて、最大17.5倍の転送時間)、メモリ使用量を減らす(最大32倍のメモリおよび帯域幅要求)。 さらに重要なことに、二元化sl(b-sl)モデルは、sl粉砕データからのプライバシリークを、モデル精度の小さな低下で低減することができる。 プライバシー保護をさらに強化するため,我々は2つの新しいアプローチを提案する。 1) 局所的漏洩損失の増加を伴う訓練 2) b-slモデルに分離または同時統合可能な差分プライバシーを適用すること。 異なるデータセットを用いた実験の結果、いくつかのベンチマークモデルと比較して、b-slモデルの利点が確認された。 特徴空間ハイジャック攻撃(FSHA)に対するB-SLモデルの有効性も示す。 我々の結果は、モバイルヘルスケアアプリケーションのようなプライバシー保護の要求が高い軽量IoT/モバイルアプリケーションに対して、B-SLモデルが有望であることを示している。

Split learning (SL) enables data privacy preservation by allowing clients to collaboratively train a deep learning model with the server without sharing raw data. However, SL still has limitations such as potential data privacy leakage and high computation at clients. In this study, we propose to binarize the SL local layers for faster computation (up to 17.5 times less forward-propagation time in both training and inference phases on mobile devices) and reduced memory usage (up to 32 times less memory and bandwidth requirements). More importantly, the binarized SL (B-SL) model can reduce privacy leakage from SL smashed data with merely a small degradation in model accuracy. To further enhance the privacy preservation, we also propose two novel approaches: 1) training with additional local leak loss and 2) applying differential privacy, which could be integrated separately or concurrently into the B-SL model. Experimental results with different datasets have affirmed the advantages of the B-SL models compared with several benchmark models. The effectiveness of B-SL models against feature-space hijacking attack (FSHA) is also illustrated. Our results have demonstrated B-SL models are promising for lightweight IoT/mobile applications with high privacy-preservation requirements such as mobile healthcare applications.
翻訳日:2022-06-14 01:36:12 公開日:2022-06-10
# (参考訳) もっと知りたい:偽のクレームに対する反事実的説明の生成

Ask to Know More: Generating Counterfactual Explanations for Fake Claims ( http://arxiv.org/abs/2206.04869v1 )

ライセンス: CC BY 4.0
Shih-Chieh Dai, Yi-Li Hsu, Aiping Xiong, and Lun-Wei Ku(参考訳) 本稿では,特定のニュースがフェイクであると特定された理由を理解するために,反事実的説明を用いた事実チェック予測手法を提案する。 本研究では,偽ニュースに対する反事実的説明の生成には,適切な質問,矛盾の発見,適切な推論という3つのステップが伴う。 本研究は,質問応答(QA)による係り受け推論と矛盾するものである。 まず、虚偽の主張について質問し、関連する証拠文書から潜在的な回答を得る。 次に,係り受け分類器を用いて,疑似クレームに対する最も矛盾する回答を特定する。 最後に、3つの異なる反現実的説明形式を持つ一致QAペアを用いて反現実的説明を生成する。 システム評価と人的評価のためのFEVERデータセットを用いて実験を行った。 以上の結果から,提案手法は最先端手法と比較して最も有用な説明が得られた。

In this paper, we propose elucidating fact checking predictions using counterfactual explanations to help people understand why a specific piece of news was identified as fake. In this work, generating counterfactual explanations for fake news involves three steps: asking good questions, finding contradictions, and reasoning appropriately. We frame this research question as contradicted entailment reasoning through question answering (QA). We first ask questions towards the false claim and retrieve potential answers from the relevant evidence documents. Then, we identify the most contradictory answer to the false claim by use of an entailment classifier. Finally, a counterfactual explanation is created using a matched QA pair with three different counterfactual explanation forms. Experiments are conducted on the FEVER dataset for both system and human evaluations. Results suggest that the proposed approach generates the most helpful explanations compared to state-of-the-art methods.
翻訳日:2022-06-14 01:11:51 公開日:2022-06-10
# (参考訳) 微分物理学による模倣学習

Imitation Learning via Differentiable Physics ( http://arxiv.org/abs/2206.04873v1 )

ライセンス: CC BY 4.0
Siwei Chen, Xiao Ma, Zhongwen Xu(参考訳) 逆強化学習(IRL)のような既存の模倣学習(IL)手法は通常、報酬関数とポリシーの学習を交互に行い、長い訓練時間と高い分散を経験する傾向がある。 本研究では, 微分可能な物理シミュレータの利点を特定し, 二重ループ設計を廃止し, 最終的な性能, 収束速度, 安定性に大きな改善を実現した, 微分可能な物理(ild)による模倣学習法を提案する。 提案したILDは、ポリシー学習のための計算グラフに、微分可能な物理シミュレータを物理として組み込む。 パラメータ化されたポリシーからアクションをサンプリングし、単に専門家の軌道とエージェントの軌道の間の距離を最小化し、時相物理学の演算子を介してグラデーションをポリシーにバックプロパゲーションすることで、ダイナミクスを解放する。 以前の物理では、irdポリシーは環境仕様に移行可能であるだけでなく、様々なタスクにおいて高い最終性能をもたらす。 さらに、IDDは自然に単一ループ構造を形成し、安定性とトレーニング速度を大幅に向上させる。 時間的物理演算によって引き起こされる複雑な最適化ランドスケープを単純化するため、icdは最適化中の各状態の学習目標を動的に選択する。 実験では, ILDはブラックスを用いた各種連続制御タスクにおいて, 最先端の手法よりも優れており, 1つの専門家によるデモンストレーションしか必要としないことがわかった。 さらに、IDDは変形不能なオブジェクト操作タスクに適用でき、見えない設定に一般化することができる。

Existing imitation learning (IL) methods such as inverse reinforcement learning (IRL) usually have a double-loop training process, alternating between learning a reward function and a policy and tend to suffer long training time and high variance. In this work, we identify the benefits of differentiable physics simulators and propose a new IL method, i.e., Imitation Learning via Differentiable Physics (ILD), which gets rid of the double-loop design and achieves significant improvements in final performance, convergence speed, and stability. The proposed ILD incorporates the differentiable physics simulator as a physics prior into its computational graph for policy learning. It unrolls the dynamics by sampling actions from a parameterized policy, simply minimizing the distance between the expert trajectory and the agent trajectory, and back-propagating the gradient into the policy via temporal physics operators. With the physics prior, ILD policies can not only be transferable to unseen environment specifications but also yield higher final performance on a variety of tasks. In addition, ILD naturally forms a single-loop structure, which significantly improves the stability and training speed. To simplify the complex optimization landscape induced by temporal physics operations, ILD dynamically selects the learning objectives for each state during optimization. In our experiments, we show that ILD outperforms state-of-the-art methods in a variety of continuous control tasks with Brax, requiring only one expert demonstration. In addition, ILD can be applied to challenging deformable object manipulation tasks and can be generalized to unseen configurations.
翻訳日:2022-06-14 00:54:03 公開日:2022-06-10
# (参考訳) フェデレーション学習におけるモデルからの深い漏洩

Deep Leakage from Model in Federated Learning ( http://arxiv.org/abs/2206.04887v1 )

ライセンス: CC BY 4.0
Zihao Zhao, Mengen Luo, Wenbo Ding(参考訳) 分散機械学習は、大規模で複雑なデータセット問題に取り組むために近年広く使われている。 それに伴い、分散学習のセキュリティも、学界と業界の両方から注目を集めている。 この文脈では、プライベートトレーニングデータをローカルに保持して「セキュア」な分散学習としてフェデレートラーニング(FL)が開発され、パブリックモデル勾配のみが通信される。 しかし, これまでに様々な勾配漏洩攻撃が提案されており, 安全でないことが証明されている。 例えば、これらの攻撃の共通の欠点は、モデル重み、オプティマイザ、いくつかのハイパーパラメータ(学習率など)といった、実際の状況では取得が難しい補助情報を必要とすることだ。 さらに、既存のアルゴリズムの多くは、flのモデル勾配の送信を避け、fedavgのようなモデル重みの送信に切り替えるが、そのセキュリティ侵害を考える人は少ない。 本稿では,モデル重みの伝達がクライアントのプライベートなローカルデータ(dlmとdlm+)をflのシナリオでリークする可能性を示す2つの新しいフレームワークを提案する。 さらに,攻撃フレームワークの効果と汎用性を示すために,多数の実験を行った。 本稿の最後には,提案する攻撃に対して2つの防御策を導入し,その防御効果を評価する。 包括的に、提案された攻撃と防御のスキームは、適切なカスタマイズとともに、一般的な分散学習シナリオにも適用することができる。

Distributed machine learning has been widely used in recent years to tackle the large and complex dataset problem. Therewith, the security of distributed learning has also drawn increasing attentions from both academia and industry. In this context, federated learning (FL) was developed as a "secure" distributed learning by maintaining private training data locally and only public model gradients are communicated between. However, to date, a variety of gradient leakage attacks have been proposed for this procedure and prove that it is insecure. For instance, a common drawback of these attacks is shared: they require too much auxiliary information such as model weights, optimizers, and some hyperparameters (e.g., learning rate), which are difficult to obtain in real situations. Moreover, many existing algorithms avoid transmitting model gradients in FL and turn to sending model weights, such as FedAvg, but few people consider its security breach. In this paper, we present two novel frameworks to demonstrate that transmitting model weights is also likely to leak private local data of clients, i.e., (DLM and DLM+), under the FL scenario. In addition, a number of experiments are performed to illustrate the effect and generality of our attack frameworks. At the end of this paper, we also introduce two defenses to the proposed attacks and evaluate their protection effects. Comprehensively, the proposed attack and defense schemes can be applied to the general distributed learning scenario as well, just with some appropriate customization.
翻訳日:2022-06-14 00:40:55 公開日:2022-06-10
# (参考訳) AntPivot:階層型アテンション機構によるライブストリームハイライト検出

AntPivot: Livestream Highlight Detection via Hierarchical Attention Mechanism ( http://arxiv.org/abs/2206.04888v1 )

ライセンス: CC BY 4.0
Yang Zhao, Xuan Lin, Wenqiang Xu, Maozong Zheng, Zhengyong Liu, Zhou Zhao(参考訳) 近年,ストリーミング技術はライブストリーム分野の発展を大いに促進している。 ライブストリーム記録の過剰な長さのため、効果的な再生と再配布を目的としてハイライトセグメントを抽出することが極めて重要である。 他のモーダルのハイライト検出に有効であることが証明されたアプローチはたくさんあるが、過度な時間、大きなトピックシフト、非常に無関係な情報など、ライブストリーム処理に存在する課題は、これらの手法の適応と互換性を著しく妨げている。 本稿では,新しいタスクのライブストリームハイライト検出を定式化し,上記の課題を議論・分析し,この問題を解決するための新しいアーキテクチャ antpivot を提案する。 具体的には、まず元のデータを複数のビューにエンコードし、その時間的関係をモデル化し、階層的な注意機構で手がかりを捉える。 その後、ハイライトクリップの検出を最適な決定シーケンスの探索に変換し、完全に統合された表現を用いて最終的な結果を動的プログラミング機構で予測する。 さらに、このタスクをインスタンス化し、モデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。 その結果,提案手法の有効性と妥当性が示唆された。

In recent days, streaming technology has greatly promoted the development in the field of livestream. Due to the excessive length of livestream records, it's quite essential to extract highlight segments with the aim of effective reproduction and redistribution. Although there are lots of approaches proven to be effective in the highlight detection for other modals, the challenges existing in livestream processing, such as the extreme durations, large topic shifts, much irrelevant information and so forth, heavily hamper the adaptation and compatibility of these methods. In this paper, we formulate a new task Livestream Highlight Detection, discuss and analyze the difficulties listed above and propose a novel architecture AntPivot to solve this problem. Concretely, we first encode the original data into multiple views and model their temporal relations to capture clues in a hierarchical attention mechanism. Afterwards, we try to convert the detection of highlight clips into the search for optimal decision sequences and use the fully integrated representations to predict the final results in a dynamic-programming mechanism. Furthermore, we construct a fully-annotated dataset AntHighlight to instantiate this task and evaluate the performance of our model. The extensive experiments indicate the effectiveness and validity of our proposed method.
翻訳日:2022-06-14 00:22:15 公開日:2022-06-10
# (参考訳) 対人対実環境モデル学習

Adversarial Counterfactual Environment Model Learning ( http://arxiv.org/abs/2206.04890v1 )

ライセンス: CC BY 4.0
Xiong-Hui Chen, Yang Yu, Zheng-Mao Zhu, Zhihua Yu, Zhenjun Chen, Chenghe Wang, Yinan Wu, Hongqiu Wu, Rong-Jun Qin, Ruijin Ding, Fangsheng Huang(参考訳) ロボット制御,レコメンダシステム,患者の治療選択など,多くの領域でサンプル効率の高い意思決定政策学習を実現するためには,行動効果予測のよいモデルである環境モデルが重要である。 このようなモデルで無制限の試行を行い、適切なアクションを特定することで、現実世界のクエリのコストを節約することができる。 モデルは、不正なデータを正しく処理する必要がある。 しかし、標準データフィッティング技術はそのような一般化能力を自動的に達成せず、一般的に信頼できないモデルとなる。 そこで本研究では,特定の対象とするポリシーで問合せされたデータ集合に一般化するモデル学習において,cqrm(counterfactual-query risk minimization)を導入する。 政策学習において,対象方針は多様かつ未知であるため,敵対的政策によってクエリーされた反現実的データに基づいて学習し,最終的にトラクタブルな解GALILEOを導出するCQRM目標を提案する。 また,逆CQRMは,逆モデル学習と密接に関連しており,後者の有効性が説明できる。 我々はgalileoを合成タスクと実世界のアプリケーションに適用する。 その結果、ガリレオは偽データを正確に予測し、実世界テストのポリシーを大幅に改善した。

A good model for action-effect prediction, named environment model, is important to achieve sample-efficient decision-making policy learning in many domains like robot control, recommender systems, and patients' treatment selection. We can take unlimited trials with such a model to identify the appropriate actions so that the costs of queries in the real world can be saved. It requires the model to handle unseen data correctly, also called counterfactual data. However, standard data fitting techniques do not automatically achieve such generalization ability and commonly result in unreliable models. In this work, we introduce counterfactual-query risk minimization (CQRM) in model learning for generalizing to a counterfactual dataset queried by a specific target policy. Since the target policies can be various and unknown in policy learning, we propose an adversarial CQRM objective in which the model learns on counterfactual data queried by adversarial policies, and finally derive a tractable solution GALILEO. We also discover that adversarial CQRM is closely related to the adversarial model learning, explaining the effectiveness of the latter. We apply GALILEO in synthetic tasks and a real-world application. The results show that GALILEO makes accurate predictions on counterfactual data and thus significantly improves policies in real-world testing.
翻訳日:2022-06-14 00:10:06 公開日:2022-06-10
# (参考訳) Fisher SAM:情報幾何学とシャープネスの最小化

Fisher SAM: Information Geometry and Sharpness Aware Minimisation ( http://arxiv.org/abs/2206.04920v1 )

ライセンス: CC BY 4.0
Minyoung Kim, Da Li, Shell Xu Hu, Timothy M. Hospedales(参考訳) 近年のシャープネス認識最小化 (SAM) は, 剛性向上による一般化に有用である平坦なミニマを見いだすことが知られている。 SAMは、現在のイテレート周辺の小さな地区内での最大損失値を報告することにより、損失関数を基本的に変更する。 しかし、ニューラルネットワークの損失関数は一般に確率分布(例えば、クラス予測確率)上で定義されるので、その近傍を定義するためにユークリッド球を使い、パラメータ空間を非ユークリッド空間とすることができる。 本稿では,近所の定義におけるモデルパラメータ空間の情報幾何,すなわちSAMのユークリッド球をフィッシャー情報によって誘導される楕円形に置き換える手法について考察する。 フィッシャーSAMと呼ばれる我々の手法は、基礎となる統計多様体の内在的計量に適合するより正確な近傍構造を定義する。 例えば、SAMはパラメータ空間幾何学の無知のため、近すぎるか不適切な距離で最悪の損失値を探索するが、これはフィッシャーSAMによって避けられる。 もうひとつのAdaptive SAMアプローチは、パラメータのスケールに応じてユークリッド球を伸縮/縮小する。 これは危険であり、近隣の構造を破壊する可能性がある。 いくつかのベンチマークデータセット/タスクで提案したFisher SAMの性能向上を示す。

Recent sharpness-aware minimisation (SAM) is known to find flat minima which is beneficial for better generalisation with improved robustness. SAM essentially modifies the loss function by reporting the maximum loss value within the small neighborhood around the current iterate. However, it uses the Euclidean ball to define the neighborhood, which can be inaccurate since loss functions for neural networks are typically defined over probability distributions (e.g., class predictive probabilities), rendering the parameter space non Euclidean. In this paper we consider the information geometry of the model parameter space when defining the neighborhood, namely replacing SAM's Euclidean balls with ellipsoids induced by the Fisher information. Our approach, dubbed Fisher SAM, defines more accurate neighborhood structures that conform to the intrinsic metric of the underlying statistical manifold. For instance, SAM may probe the worst-case loss value at either a too nearby or inappropriately distant point due to the ignorance of the parameter space geometry, which is avoided by our Fisher SAM. Another recent Adaptive SAM approach stretches/shrinks the Euclidean ball in accordance with the scale of the parameter magnitudes. This might be dangerous, potentially destroying the neighborhood structure. We demonstrate improved performance of the proposed Fisher SAM on several benchmark datasets/tasks.
翻訳日:2022-06-14 00:08:17 公開日:2022-06-10
# (参考訳) Ego2HandsPose:Egocentric Two-hand Global Pose Estimationのためのデータセット

Ego2HandsPose: A Dataset for Egocentric Two-hand 3D Global Pose Estimation ( http://arxiv.org/abs/2206.04927v1 )

ライセンス: CC BY 4.0
Fanqing Lin, Tony Martinez(参考訳) グローバル座標系における色に基づく2次元ポーズ推定は多くの応用において不可欠である。 しかし、このタスク専用のデータセットはほとんどなく、既存のデータセットは非作業環境での見積もりをサポートしない。 これは主に、3Dハンドポーズアノテーションに必要な高度なデータ収集プロセスによるものであり、また、野生での見積もりに必要な視覚的多様性のレベルを持つインスタンスを取得するのが困難である。 この目標に向けて、大規模なデータセットであるEgo2Handsが最近提案され、野生における両手のセグメンテーションと検出の課題に対処した。 合成に基づくデータ生成手法では, 品質, 量, 多様性の両手インスタンスを作成でき, 未知の領域によく一般化できる。 本稿では,ego2handsposeという3dハンドポーズアノテーションを含むego2handsの拡張について紹介する。 この目的を達成するためにパラメトリックフィッティングアルゴリズムのセットを開発する。 1)単一画像を用いた3次元手ポーズアノテーション 2) 2次元から3次元への自動変換,及び 3) 時間的整合性のある正確な両手追跡。 我々は,多段階パイプラインのインクリメンタルな定量的分析を行い,我々のデータセットによるトレーニングが,エゴセントリックなグローバルな3Dポーズ推定のタスクにおいて,他のデータセットよりも大幅に優れていることを示す。

Color-based two-hand 3D pose estimation in the global coordinate system is essential in many applications. However, there are very few datasets dedicated to this task and no existing dataset supports estimation in a non-laboratory environment. This is largely attributed to the sophisticated data collection process required for 3D hand pose annotations, which also leads to difficulty in obtaining instances with the level of visual diversity needed for estimation in the wild. Progressing towards this goal, a large-scale dataset Ego2Hands was recently proposed to address the task of two-hand segmentation and detection in the wild. The proposed composition-based data generation technique can create two-hand instances with quality, quantity and diversity that generalize well to unseen domains. In this work, we present Ego2HandsPose, an extension of Ego2Hands that contains 3D hand pose annotation and is the first dataset that enables color-based two-hand 3D tracking in unseen domains. To this end, we develop a set of parametric fitting algorithms to enable 1) 3D hand pose annotation using a single image, 2) automatic conversion from 2D to 3D hand poses and 3) accurate two-hand tracking with temporal consistency. We provide incremental quantitative analysis on the multi-stage pipeline and show that training on our dataset achieves state-of-the-art results that significantly outperforms other datasets for the task of egocentric two-hand global 3D pose estimation.
翻訳日:2022-06-13 23:41:56 公開日:2022-06-10
# (参考訳) 多様性認識応答生成のための応答評価器を用いた対話システムの作成・評価・選択

Generate, Evaluate, and Select: A Dialogue System with a Response Evaluator for Diversity-Aware Response Generation ( http://arxiv.org/abs/2206.04937v1 )

ライセンス: CC BY 4.0
Ryoma Sakaeda, Daisuke Kawahara(参考訳) 我々は,現在の対話システムにおける多様性の欠如を克服し,対話相手として係わる対話システムを開発することを目的としている。 本稿では,応答生成器が生成した複数の応答を評価し,評価器が最適な応答を選択するジェネレータ評価モデルを提案する。 複数の応答を生成して、多様な応答を得る。 提案システムの出力とベースラインシステムの出力を比較するために,人間による評価を行う。 評価の結果,提案システムの応答はベースラインシステムよりも優れていると判断されることが多く,提案手法の有効性が示された。

We aim to overcome the lack of diversity in responses of current dialogue systems and to develop a dialogue system that is engaging as a conversational partner. We propose a generator-evaluator model that evaluates multiple responses generated by a response generator and selects the best response by an evaluator. By generating multiple responses, we obtain diverse responses. We conduct human evaluations to compare the output of the proposed system with that of a baseline system. The results of the human evaluations showed that the proposed system's responses were often judged to be better than the baseline system's, and indicated the effectiveness of the proposed method.
翻訳日:2022-06-13 23:28:41 公開日:2022-06-10
# (参考訳) エントロピーノルムを用いた自己監督型深部宇宙クラスタリング

Self-Supervised Deep Subspace Clustering with Entropy-norm ( http://arxiv.org/abs/2206.04958v1 )

ライセンス: CC BY 4.0
Guangyi Zhao and Simin Kou and Xuesong Yin(参考訳) オートエンコーダベースのディープサブスペースクラスタリング(DSC)はコンピュータビジョン、モーションセグメンテーション、画像処理で広く使われている。 しかし, 自己表現型マトリックス学習プロセスでは, 第一に単純な再構成損失による自己表現重みの学習にはあまり有用でない, 第二に, サンプルサイズに応じた自己表現層の構築には高い計算コストが必要, 第二に既存の正規化項の接続性が限られている, という3つの問題に苦しむ。 本稿では,これらの問題に対処するために,Entropy-norm(S$^{3}$CE)を用いた自己スーパービジョン深部サブスペースクラスタリング(Self-Supervised Deep Subspace Clustering)という新しいモデルを提案する。 具体的には、S$^{3}$CEは自己教師付きコントラストネットワークを利用してより効率的な特徴ベクトルを得る。 元のデータの局所構造と密結合は、自己表現層と追加のエントロピーノルム制約の恩恵を受ける。 さらに、S$^{3}$CEがデータのキー情報にフォーカスし、スペクトルクラスタリングによって正および負のインスタンスのクラスタリング性能を向上させるために、データ拡張を伴う新しいモジュールが設計された。 実験の結果,S$^{3}$CEは最先端の手法に比べて優れた性能を示した。

Auto-Encoder based deep subspace clustering (DSC) is widely used in computer vision, motion segmentation and image processing. However, it suffers from the following three issues in the self-expressive matrix learning process: the first one is less useful information for learning self-expressive weights due to the simple reconstruction loss; the second one is that the construction of the self-expression layer associated with the sample size requires high-computational cost; and the last one is the limited connectivity of the existing regularization terms. In order to address these issues, in this paper we propose a novel model named Self-Supervised deep Subspace Clustering with Entropy-norm (S$^{3}$CE). Specifically, S$^{3}$CE exploits a self-supervised contrastive network to gain a more effetive feature vector. The local structure and dense connectivity of the original data benefit from the self-expressive layer and additional entropy-norm constraint. Moreover, a new module with data enhancement is designed to help S$^{3}$CE focus on the key information of data, and improve the clustering performance of positive and negative instances through spectral clustering. Extensive experimental results demonstrate the superior performance of S$^{3}$CE in comparison to the state-of-the-art approaches.
翻訳日:2022-06-13 23:20:56 公開日:2022-06-10
# (参考訳) 5G進化と6Gのための深層学習に基づくMIMO CSIの大量獲得

Deep Learning-based Massive MIMO CSI Acquisition for 5G Evolution and 6G ( http://arxiv.org/abs/2206.04967v1 )

ライセンス: CC BY 4.0
Xin Wang and Xiaolin Hou and Lan Chen and Yoshihisa Kishiyama and Takahiro Asai(参考訳) 近年,多くの分野の応用に触発されて,CSI取得のためのディープラーニング(DL)技術は,学術と産業の両方からかなりの研究関心を集めている。 第5世代(5G)新無線(NR)ネットワークの実践的フィードバック機構を考慮し,CSI(AI4CSI)とDLベースの受信機,エンド・ツー・エンドの設計のための2つの実装手法を提案する。 提案したAI4CSIスキームは,スペクトル効率(SE),フィードバックオーバーヘッド,計算複雑性の観点から5G NRネットワークで評価し,従来のスキームと比較した。 これらの手法が実生活シナリオで利用できるかどうかを実証するため,本研究では,モデル化されたチャネルデータと実測的なチャネルデータの両方を用いて検討を行った。 DLベースのCSI取得が受信機のみに適用される場合、空気界面への影響が少ないため、ある程度のフィードバックオーバーヘッドレベルで約25\% SEゲインを提供する。 5g進化の間、現在の5gネットワークにデプロイすることは可能である。 エンドツーエンドのDLベースのCSI拡張では、従来のCSIスキームと比較して、SEのパフォーマンスが6%、DLベースのレシーバが26%、そして33%、さらに58%向上した。 航空インターフェース設計に大きな影響を与えることを考慮すると、人工知能によって設計された航空インターフェースを使用できる第6世代(6g)ネットワークの候補技術となるだろう。

Recently, inspired by successful applications in many fields, deep learning (DL) technologies for CSI acquisition have received considerable research interest from both academia and industry. Considering the practical feedback mechanism of 5th generation (5G) New radio (NR) networks, we propose two implementation schemes for artificial intelligence for CSI (AI4CSI), the DL-based receiver and end-to-end design, respectively. The proposed AI4CSI schemes were evaluated in 5G NR networks in terms of spectrum efficiency (SE), feedback overhead, and computational complexity, and compared with legacy schemes. To demonstrate whether these schemes can be used in real-life scenarios, both the modeled-based channel data and practically measured channels were used in our investigations. When DL-based CSI acquisition is applied to the receiver only, which has little air interface impact, it provides approximately 25\% SE gain at a moderate feedback overhead level. It is feasible to deploy it in current 5G networks during 5G evolutions. For the end-to-end DL-based CSI enhancements, the evaluations also demonstrated their additional performance gain on SE, which is 6% -- 26% compared with DL-based receivers and 33% -- 58% compared with legacy CSI schemes. Considering its large impact on air-interface design, it will be a candidate technology for 6th generation (6G) networks, in which an air interface designed by artificial intelligence can be used.
翻訳日:2022-06-13 23:06:56 公開日:2022-06-10
# (参考訳) 背景知識を用いたニューラルネットワーク予測の精細化

Refining neural network predictions using background knowledge ( http://arxiv.org/abs/2206.04976v1 )

ライセンス: CC BY 4.0
Alessandro Daniele, Emile van Krieken, Luciano Serafini, Frank van Harmelen(参考訳) 近年の研究では、ラベル付きトレーニングデータの欠如を補うために、学習システムにおける論理的背景知識を活用できることが示されている。 このようなメソッドの多くは、この知識を符号化する損失関数を作成することで機能する。 しかし、たとえテスト時に有用であっても、トレーニング後にロジックは破棄されることが多い。 代わりに、ニューラルネットワークの予測は、余分な計算ステップで予測を精錬することで、知識を満足させる。 元の予測に近い補正された予測を求める微分可能な改良関数を導入する。 これらの改良関数を効果的かつ効率的に計算する方法について検討する。 新しいアルゴリズムを用いることで、複雑な論理式に対する洗練された予測を求めることができる。 このアルゴリズムは、より少ない反復で複素sat公式の最適細分化を見つけ、勾配降下ができない解を頻繁に見つける。

Recent work has showed we can use logical background knowledge in learning system to compensate for a lack of labeled training data. Many such methods work by creating a loss function that encodes this knowledge. However, often the logic is discarded after training, even if it is still useful at test-time. Instead, we ensure neural network predictions satisfy the knowledge by refining the predictions with an extra computation step. We introduce differentiable refinement functions that find a corrected prediction close to the original prediction. We study how to effectively and efficiently compute these refinement functions. Using a new algorithm, we combine refinement functions to find refined predictions for logical formulas of any complexity. This algorithm finds optimal refinements on complex SAT formulas in significantly fewer iterations and frequently finds solutions where gradient descent can not.
翻訳日:2022-06-13 22:50:52 公開日:2022-06-10
# (参考訳) 畳み込み層は翻訳同変ではない

Convolutional Layers Are Not Translation Equivariant ( http://arxiv.org/abs/2206.04979v1 )

ライセンス: CC BY 4.0
Nick McGreivy, Ammar Hakim(参考訳) 本研究の目的は,畳み込みニューラルネットワーク(CNN)に関する誤解を訂正することである。 CNNは、重み共有によるシフト同変である畳み込み層で構成されている。 しかし、一般的な信念に反して、畳み込み層は、境界効果が無視され、プールやサブサンプリングが欠如している場合でも、変換同変ではない。 これは、シフト同値が離散対称性であり、変換同値が連続対称性であるからである。 離散系が一般に連続等分散を継承しないということは、同変深層学習の基本的な限界である。 我々はこの事実の2つの意味を議論する。 まず、cnnは、モデル化した物理システムの変換等価性を継承していないにもかかわらず、画像処理で成功を収めた。 第二に、偏微分方程式(PDE)を解くためにCNNを用いると、変換同変解法は得られない。

The purpose of this paper is to correct a misconception about convolutional neural networks (CNNs). CNNs are made up of convolutional layers which are shift equivariant due to weight sharing. However, contrary to popular belief, convolutional layers are not translation equivariant, even when boundary effects are ignored and when pooling and subsampling are absent. This is because shift equivariance is a discrete symmetry while translation equivariance is a continuous symmetry. That discrete systems do not in general inherit continuous equivariances is a fundamental limitation of equivariant deep learning. We discuss two implications of this fact. First, CNNs have achieved success in image processing despite not inheriting the translation equivariance of the physical systems they model. Second, using CNNs to solve partial differential equations (PDEs) will not result in translation equivariant solvers.
翻訳日:2022-06-13 22:49:56 公開日:2022-06-10
# (参考訳) 事前学習型言語モデルからの教師なし・少ない構文解析

Unsupervised and Few-shot Parsing from Pretrained Language Models ( http://arxiv.org/abs/2206.04980v1 )

ライセンス: CC BY 4.0
Zhiyuan Zeng and Deyi Xiong(参考訳) 事前訓練された言語モデルは、構文をエンコードできることが一般的に認められている(Tenney et al., 2019, Jawahar et al., 2019, Hewitt and Manning, 2019)。 本稿では,事前学習言語モデルで学習した自己注意重み行列のみに基づいて,アウトアソシエーションスコアをスパンセグメンテーションのための構文距離として計算する,教師なし構成型パーシングモデルUPOAを提案する。 さらに,スパンの可能性を推定するために,アソシエーションスコアと外部アソシエーションスコアの両方を活用した拡張版upioを提案する。 UPOAとUPIOによる実験では、クエリの線形射影行列と自己保持機構のキーが解析において重要な役割を果たすことが明らかになった。 したがって、教師なしモデルからいくつかの注釈付き木を用いて解析のための線形射影行列を学習する少数ショット解析モデル(FPOA, FPIO)に拡張する。 Penn Treebankの実験では、教師なし構文解析モデルUPIOが短い文(長さ<=10)で、アートの状態に匹敵する結果が得られることを示した。 FPIOは20本の注釈付き木で訓練され、50本の注釈付き木で訓練された過去の数枚の構文解析よりも優れていた。 クロスリンガル構文解析の実験により、教師なし構文解析法と少数ショット構文解析法の両方が、spmrlのほとんどの言語(seddah et al., 2013)の以前の手法よりも優れていることが示された。

Pretrained language models are generally acknowledged to be able to encode syntax [Tenney et al., 2019, Jawahar et al., 2019, Hewitt and Manning, 2019]. In this article, we propose UPOA, an Unsupervised constituent Parsing model that calculates an Out Association score solely based on the self-attention weight matrix learned in a pretrained language model as the syntactic distance for span segmentation. We further propose an enhanced version, UPIO, which exploits both inside association and outside association scores for estimating the likelihood of a span. Experiments with UPOA and UPIO disclose that the linear projection matrices for the query and key in the self-attention mechanism play an important role in parsing. We therefore extend the unsupervised models to few-shot parsing models (FPOA, FPIO) that use a few annotated trees to learn better linear projection matrices for parsing. Experiments on the Penn Treebank demonstrate that our unsupervised parsing model UPIO achieves results comparable to the state of the art on short sentences (length <= 10). Our few-shot parsing model FPIO trained with only 20 annotated trees outperforms a previous few-shot parsing method trained with 50 annotated trees. Experiments on cross-lingual parsing show that both unsupervised and few-shot parsing methods are better than previous methods on most languages of SPMRL [Seddah et al., 2013].
翻訳日:2022-06-13 22:45:14 公開日:2022-06-10
# (参考訳) 適応性のあるアクティブラーニングのための重み付きアンサンブル

Weighted Ensembles for Active Learning with Adaptivity ( http://arxiv.org/abs/2206.05009v1 )

ライセンス: CC BY 4.0
Konstantinos D. Polyzos, Qin Lu, Georgios B. Giannakis(参考訳) ラベル付きデータは、医療画像、ロボティクス、コンピュータビジョンなど、いくつかのアプリケーション領域で取得するのに費用がかかる。 このような高いラベル付けコストで機械学習モデルを効率よく訓練するために、アクティブラーニング(AL)は、最も情報性の高いデータインスタンスを選択して、オンザフライでラベル付けする。 このアクティブサンプリングプロセスは、ガウス過程(GP)によって典型的に捉えられる統計関数モデルから恩恵を受けることができる。 ほとんどのGPベースのALアプローチは単一カーネル関数に依存しているが、今回のコントリビューションでは、ラベル付きデータに漸進的に適応した重み付きGPモデルのアンサンブルを提唱している。 この新しいEGPモデルに基づいて、不確実性と不一致ルールに基づいて一連の取得関数が出現する。 適応的に重み付けされたEGPベースの取得関数のアンサンブルも、さらなる性能向上のために導入された。 合成データセットと実データセットの広範なテストは、単一のGPベースのAL代替案に関して提案されたEGPベースのアプローチの利点を示している。

Labeled data can be expensive to acquire in several application domains, including medical imaging, robotics, and computer vision. To efficiently train machine learning models under such high labeling costs, active learning (AL) judiciously selects the most informative data instances to label on-the-fly. This active sampling process can benefit from a statistical function model, that is typically captured by a Gaussian process (GP). While most GP-based AL approaches rely on a single kernel function, the present contribution advocates an ensemble of GP models with weights adapted to the labeled data collected incrementally. Building on this novel EGP model, a suite of acquisition functions emerges based on the uncertainty and disagreement rules. An adaptively weighted ensemble of EGP-based acquisition functions is also introduced to further robustify performance. Extensive tests on synthetic and real datasets showcase the merits of the proposed EGP-based approaches with respect to the single GP-based AL alternatives.
翻訳日:2022-06-13 22:08:02 公開日:2022-06-10
# (参考訳) アイスランドのエンティティリンクコーパスの構築

Building an Icelandic Entity Linking Corpus ( http://arxiv.org/abs/2206.05014v1 )

ライセンス: CC BY 4.0
Steinunn Rut Fri{\dh}riksd\'ottir, Valdimar \'Ag\'ust Eggertsson, Benedikt Geir J\'ohannesson, Hjalti Dan\'ielsson, Hrafn Loftsson, Hafsteinn Einarsson(参考訳) 本稿では,アイスランド語を対象とした最初のエンティティリンクコーパスを提案する。 我々は、ウィキペディアAPI検索(WAPIS)と組み合わせて、多言語エンティティリンクモデル(mGENRE)を用いてデータをラベル付けし、WAPISのみを用いたアプローチと比較するアプローチについて述べる。 WAPISのみを用いた場合の30.9%に比べ,この組み合わせはコーパスの53.9%に達することがわかった。 アイスランド語で作業する場合に多言語システムを使うことの価値を解析し,その価値を説明する。 さらに、ラベルのないままのデータを分析し、パターンを特定し、アノテーションがより難しい理由について議論する。

In this paper, we present the first Entity Linking corpus for Icelandic. We describe our approach of using a multilingual entity linking model (mGENRE) in combination with Wikipedia API Search (WAPIS) to label our data and compare it to an approach using WAPIS only. We find that our combined method reaches 53.9% coverage on our corpus, compared to 30.9% using only WAPIS. We analyze our results and explain the value of using a multilingual system when working with Icelandic. Additionally, we analyze the data that remain unlabeled, identify patterns and discuss why they may be more difficult to annotate.
翻訳日:2022-06-13 21:52:27 公開日:2022-06-10
# (参考訳) Denoising Diffusion Probabilistic Model を用いたマルチモーダル先行画像生成

Image Generation with Multimodal Priors using Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2206.05039v1 )

ライセンス: CC BY 4.0
Nithin Gopalakrishnan Nair, Wele Gedara Chaminda Bandara, Vishal M Patel(参考訳) マルチモーダル以前の画像合成は,近年注目を集めている,有用かつ困難な課題である。 このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティ(すなわち事前)と対応する出力を含むペアデータがないことである。 最近の研究では、この課題に対処するために、変分自動エンコーダ(VAE)モデルを弱い教師付きで訓練した。 VAEの生成能力は通常限られているため、複雑な分布に属する画像を合成することは困難である。 そこで本論文では,多モデル優先条件下で画像合成を行うため,雑音拡散確率モデルに基づく解を提案する。 拡散モデルにおける各時間ステップ上の分布がガウス的であるという事実に基づいて、この研究において、画像を生成するための閉形式表現が与えられたモダリティに対応することを示す。 提案手法は,全てのモダリティに対して明示的なリトレーニングを必要とせず,個々のモダリティの出力を利用して,制約に応じてリアルな画像を生成する。 実世界の2つのデータセットの研究を行い、我々のアプローチの有効性を実証する。

Image synthesis under multi-modal priors is a useful and challenging task that has received increasing attention in recent years. A major challenge in using generative models to accomplish this task is the lack of paired data containing all modalities (i.e. priors) and corresponding outputs. In recent work, a variational auto-encoder (VAE) model was trained in a weakly supervised manner to address this challenge. Since the generative power of VAEs is usually limited, it is difficult for this method to synthesize images belonging to complex distributions. To this end, we propose a solution based on a denoising diffusion probabilistic models to synthesise images under multi-model priors. Based on the fact that the distribution over each time step in the diffusion model is Gaussian, in this work we show that there exists a closed-form expression to the generate the image corresponds to the given modalities. The proposed solution does not require explicit retraining for all modalities and can leverage the outputs of individual modalities to generate realistic images according to different constraints. We conduct studies on two real-world datasets to demonstrate the effectiveness of our approach
翻訳日:2022-06-13 21:40:04 公開日:2022-06-10
# (参考訳) ソーシャルネットワークの構造がイノベーションを形作る: rlとsapiensの体験共有

Social Network Structure Shapes Innovation: Experience-sharing in RL with SAPIENS ( http://arxiv.org/abs/2206.05060v1 )

ライセンス: CC BY 4.0
Eleni Nisioti, Mateo Mahaut, Pierre-Yves Oudeyer, Ida Momennejad, Cl\'ement Moulin-Frier(参考訳) 人類の文化的レパートリーはイノベーションに依存しています – 既存の要素をどのように組み合わせて新しい要素を作り出すか,継続的に階層的に調査する能力です。 イノベーションは孤独ではなく、以前のソリューションの集合的な蓄積とマージに依存している。 機械学習のアプローチは、完全に接続されたマルチエージェントネットワークがイノベーションに最も適していると一般的に仮定する。 しかし、人間の研究室とフィールド研究は、階層的イノベーションは動的コミュニケーショントポロジーによってより堅牢に達成されることを示した。 動的トポロジーでは、人間は個々にまたは小さなクラスターで革新し、その結果を他の人と共有する。 我々の知る限り、イノベーションにおけるマルチエージェントトポロジの役割は、機械学習において体系的に研究されていない。 不明です a) イノベーションの課題に最適なコミュニケーショントポロジ、及び b) 経験共有の特性がマルチレベルイノベーションを改善すること。 ここでは、3つの異なるイノベーションタスクを備えたマルチレベル階層的問題設定(WordCraft)を使用します。 我々は,様々なトポロジ(完全連結,小世界,動的,リング)において,リプレイバッファから経験を共有するdqnsのネットワークを体系的に設計する。 異なるタスク間で異なる経験共有トポロジによって達成されるイノベーションのレベルを比較すると、まず、人間の発見と一致して、動的トポロジ内での経験共有がタスク間のイノベーションの最高レベルを達成することが示されます。 第二に、イノベーションへの明確な道がひとつある場合、経験共有は役に立たない。 第三に、私たちが提案する2つの指標、共通体験の適合性と多様性は、異なるタスクにおける異なるトポロジの成功を説明することができる。 これらのコントリビューションは、最適なAI-AI、人間-AI、人間-AI協調ネットワークの理解を促進し、大規模組織における集団イノベーションを促進するための将来のツールを刺激します。

The human cultural repertoire relies on innovation: our ability to continuously and hierarchically explore how existing elements can be combined to create new ones. Innovation is not solitary, it relies on collective accumulation and merging of previous solutions. Machine learning approaches commonly assume that fully connected multi-agent networks are best suited for innovation. However, human laboratory and field studies have shown that hierarchical innovation is more robustly achieved by dynamic communication topologies. In dynamic topologies, humans oscillate between innovating individually or in small clusters, and then sharing outcomes with others. To our knowledge, the role of multi-agent topology on innovation has not been systematically studied in machine learning. It remains unclear a) which communication topologies are optimal for which innovation tasks, and b) which properties of experience sharing improve multi-level innovation. Here we use a multi-level hierarchical problem setting (WordCraft), with three different innovation tasks. We systematically design networks of DQNs sharing experiences from their replay buffers in varying topologies (fully connected, small world, dynamic, ring). Comparing the level of innovation achieved by different experience-sharing topologies across different tasks shows that, first, consistent with human findings, experience sharing within a dynamic topology achieves the highest level of innovation across tasks. Second, experience sharing is not as helpful when there is a single clear path to innovation. Third, two metrics we propose, conformity and diversity of shared experience, can explain the success of different topologies on different tasks. These contributions can advance our understanding of optimal AI-AI, human-human, and human-AI collaborative networks, inspiring future tools for fostering collective innovation in large organizations.
翻訳日:2022-06-13 21:34:42 公開日:2022-06-10
# (参考訳) 安全を保証できない:グラフニューラルネットワーク検証の不確定性

We Cannot Guarantee Safety: The Undecidability of Graph Neural Network Verification ( http://arxiv.org/abs/2206.05070v1 )

ライセンス: CC BY 4.0
Marco S\"alzer and Martin Lange(参考訳) グラフニューラルネットワーク(gnn)は、グラフ分類とノード分類の2つのタスクで一般的に使用される。 GNN、有効な入力の仕様、有効な出力の仕様が与えられた場合、出力仕様を満たす有効な入力が存在するかどうかを判断する。 次に、グラフ分類器の検証が一般に決定不能であることを証明し、いかなる種類の誤分類もないことを確実に保証するアルゴリズムが存在しないことを示唆する。 さらに,ノード分類の場合の検証は,検討されたグラフの度合いを制限するとすぐに決定可能であることを示す。 さらに,検討したgnnモデルと仕様による結果の変更の可能性について検討する。

Graph Neural Networks (GNN) are commonly used for two tasks: (whole) graph classification and node classification. We formally introduce generically formulated decision problems for both tasks, corresponding to the following pattern: given a GNN, some specification of valid inputs, and some specification of valid outputs, decide whether there is a valid input satisfying the output specification. We then prove that graph classifier verification is undecidable in general, implying that there cannot be an algorithm surely guaranteeing the absence of misclassification of any kind. Additionally, we show that verification in the node classification case becomes decidable as soon as we restrict the degree of the considered graphs. Furthermore, we discuss possible changes to these results depending on the considered GNN model and specifications.
翻訳日:2022-06-13 21:12:38 公開日:2022-06-10
# (参考訳) ロボットのグローバル最適化問題に対するテンソルトレイン

Tensor Train for Global Optimization Problems in Robotics ( http://arxiv.org/abs/2206.05077v1 )

ライセンス: CC BY 4.0
Suhan Shetty, Teguh Lembono, Tobias Loew, and Sylvain Calinon(参考訳) 多くの数値最適化手法の収束は、解法に提供される初期推定に非常に敏感である。 提案手法は,グローバル最適に近い既存の最適化解法を初期化するためのテンソル法に基づくアプローチである。 このアプローチではコスト関数の定義のみを使用し、優れたソリューションのデータベースにアクセスする必要はない。 まず,タスクパラメータと最適化変数の関数であるコスト関数を確率密度関数に変換する。 タスクパラメータを定数として設定する既存のアプローチとは異なり、これらを別のランダム変数の集合と考え、代用確率モデルを用いてタスクパラメータと最適化変数の結合確率分布を近似する。 与えられたタスクに対して、与えられたタスクパラメータに関する条件分布からサンプルを生成し、最適化解法の初期化として使用する。 任意の密度関数からの条件付けとサンプリングは困難であり、テンソルトレイン分解を用いて条件付きモデルとサンプルを効率的に得ることができるサロゲート確率モデルを得る。 この方法は、あるタスクに対して異なるモード(存在するとき)から生じる複数のソリューションを生成することができる。 提案手法は,まず,線形初期化による勾配に基づく最適化問題を解くのが困難な数値最適化のための様々なベンチマーク関数に適用し,提案手法がグローバルな最適値に近いサンプルを生成できることを示す。 提案手法を7-DoFマニピュレータを用いた運動計画問題と逆運動学に応用することにより,フレームワークの汎用性とロボット工学との関係を実証する。

The convergence of many numerical optimization techniques is highly sensitive to the initial guess provided to the solver. We propose an approach based on tensor methods to initialize the existing optimization solvers close to global optima. The approach uses only the definition of the cost function and does not need access to any database of good solutions. We first transform the cost function, which is a function of task parameters and optimization variables, into a probability density function. Unlike existing approaches that set the task parameters as constant, we consider them as another set of random variables and approximate the joint probability distribution of the task parameters and the optimization variables using a surrogate probability model. For a given task, we then generate samples from the conditional distribution with respect to the given task parameter and use them as initialization for the optimization solver. As conditioning and sampling from an arbitrary density function are challenging, we use Tensor Train decomposition to obtain a surrogate probability model from which we can efficiently obtain the conditional model and the samples. The method can produce multiple solutions coming from different modes (when they exist) for a given task. We first evaluate the approach by applying it to various challenging benchmark functions for numerical optimization that are difficult to solve using gradient-based optimization solvers with a naive initialization, showing that the proposed method can produce samples close to the global optima and coming from multiple modes. We then demonstrate the generality of the framework and its relevance to robotics by applying the proposed method to inverse kinematics and motion planning problems with a 7-DoF manipulator.
翻訳日:2022-06-13 20:27:15 公開日:2022-06-10
# (参考訳) muffliato: 分散最適化と平均化のためのピアツーピアプライバシ増幅

Muffliato: Peer-to-Peer Privacy Amplification for Decentralized Optimization and Averaging ( http://arxiv.org/abs/2206.05091v1 )

ライセンス: CC BY 4.0
Edwige Cyffers, Mathieu Even, Aur\'elien Bellet, Laurent Massouli\'e(参考訳) 分散最適化は、スケーラビリティと効率性のために機械学習でますます人気がある。 直感的には、ノードはネットワークグラフ内の隣人が送信するメッセージのみを監視するため、より優れたプライバシー保証を提供する必要がある。 しかし、この利益を形式化し、定量化するのは難しい。既存の結果は、分散化の利点を見落としているローカル微分プライバシー(LDP)に制限される。 本研究では、ノード$u$からノード$v$へのプライバシリークが、グラフ内の相対的な位置に依存する可能性があるという事実を捉えた、LDPの緩和であるペアワイズネットワーク差分プライバシーを導入する。 次に,ローカルノイズインジェクションと(単純あるいはランダムに)ゴシップ平均化プロトコルの組み合わせを,固定およびランダムな通信グラフ上で解析する。 また,局所勾配降下ステップとゴシップ平均化を交互に交互に行う,偏分散最適化アルゴリズムも導出する。 我々のアルゴリズムは,グラフのノード間距離の関数としてプライバシ保証を増幅し,信頼されたキュレータのプライバシユーティリティトレードオフをグラフトポロジに明示的に依存する要因にマッチさせることを示した。 最後に、合成および実世界のデータセットに関する実験によって、プライバシの向上を示す。

Decentralized optimization is increasingly popular in machine learning for its scalability and efficiency. Intuitively, it should also provide better privacy guarantees, as nodes only observe the messages sent by their neighbors in the network graph. But formalizing and quantifying this gain is challenging: existing results are typically limited to Local Differential Privacy (LDP) guarantees that overlook the advantages of decentralization. In this work, we introduce pairwise network differential privacy, a relaxation of LDP that captures the fact that the privacy leakage from a node $u$ to a node $v$ may depend on their relative position in the graph. We then analyze the combination of local noise injection with (simple or randomized) gossip averaging protocols on fixed and random communication graphs. We also derive a differentially private decentralized optimization algorithm that alternates between local gradient descent steps and gossip averaging. Our results show that our algorithms amplify privacy guarantees as a function of the distance between nodes in the graph, matching the privacy-utility trade-off of the trusted curator, up to factors that explicitly depend on the graph topology. Finally, we illustrate our privacy gains with experiments on synthetic and real-world datasets.
翻訳日:2022-06-13 19:41:49 公開日:2022-06-10
# (参考訳) マルチレータアノテーションによる自己校正光学ディスクとカップセグメンテーションの学習

Learning self-calibrated optic disc and cup segmentation from multi-rater annotations ( http://arxiv.org/abs/2206.05092v1 )

ライセンス: CC BY 4.0
Junde Wu and Huihui Fang and Fangxin Shang and Zhaowei Wang and Dalu Yang and Wenshuo Zhou and Yehui Yang and Yanwu Xu(参考訳) 眼底画像からの光ディスク(OD)とオプティカルカップ(OC)の分離は緑内障の診断に重要な課題である。 臨床実践では、複数の専門家から意見を収集して最終的なOD/OCアノテーションを得る必要があることが多い。 この臨床ルーチンは個人のバイアスを軽減するのに役立つ。 しかし、データが多重アノテートされると、標準的なディープラーニングモデルは適用できない。 本稿では,マルチレータアノテーションからOD/OCセグメンテーションを学習するためのニューラルネットワークフレームワークを提案する。 セグメンテーション結果は、マルチレート・エキスパートネス推定と校正od/ocセグメンテーションの反復最適化により自己調整される。 このようにして,両タスクの相互改善を実現し,最終的に洗練されたセグメント化結果が得られる。 具体的には,2つのタスクをそれぞれ処理するための分散モデル(DivM)と収束モデル(ConM)を提案する。 ConMはDivMが提供するマルチレータの専門性マップに基づいて、生画像をセグメント化する。 DivMは、ConMが提供するセグメンテーションマスクからマルチレータ専門性マップを生成する。 実験結果から,ConMとDivMを繰り返し実行することにより,各領域のSOTA(State-of-the-art-rater segmentation)法よりも高い精度で,自己校正が可能であることが示唆された。

The segmentation of optic disc(OD) and optic cup(OC) from fundus images is an important fundamental task for glaucoma diagnosis. In the clinical practice, it is often necessary to collect opinions from multiple experts to obtain the final OD/OC annotation. This clinical routine helps to mitigate the individual bias. But when data is multiply annotated, standard deep learning models will be inapplicable. In this paper, we propose a novel neural network framework to learn OD/OC segmentation from multi-rater annotations. The segmentation results are self-calibrated through the iterative optimization of multi-rater expertness estimation and calibrated OD/OC segmentation. In this way, the proposed method can realize a mutual improvement of both tasks and finally obtain a refined segmentation result. Specifically, we propose Diverging Model(DivM) and Converging Model(ConM) to process the two tasks respectively. ConM segments the raw image based on the multi-rater expertness map provided by DivM. DivM generates multi-rater expertness map from the segmentation mask provided by ConM. The experiment results show that by recurrently running ConM and DivM, the results can be self-calibrated so as to outperform a range of state-of-the-art(SOTA) multi-rater segmentation methods.
翻訳日:2022-06-13 18:54:29 公開日:2022-06-10
# (参考訳) 画像分類・物体検出・追跡のためのサッケード機構

Saccade Mechanisms for Image Classification, Object Detection and Tracking ( http://arxiv.org/abs/2206.05102v1 )

ライセンス: CC BY 4.0
Saurabh Farkya, Zachary Daniels, Aswin Nadamuni Raghavan, David Zhang, and Michael Piacentino(参考訳) 深層ニューラルネットワークの分類や物体検出の問題をより効率的にするために,生体ビジョンによるサッケード機構をどのように利用できるか検討する。 提案手法は,注意駆動視覚処理とサッケード,注意の影響を受けるミニチュアアイムーブメントの考え方に基づいている。 分析して実験を行います 一 画像分類及び物体検出のための部分センシング画像に対する異なるディープニューラルネットワーク(DNN)特徴抽出器の堅牢性 二 画像分類及び物体追跡のためのマスキング画像パッチにおけるサッケードの有用性 畳み込みネット(ResNet-18)とトランスフォーマーベースモデル(ViT, DETR, TransTrack)を複数のデータセット(CIFAR-10, DAVSOD, MSCOCO, MOT17)で実験した。 実験では,人間のサッケードを模倣する学習によるインテリジェントなデータ削減と,最先端のdnnを併用して分類,検出,追跡を行う。 センサデータの約30\%のみを使用しながら,分類・検出タスクにおける性能の低下を最小とした。 我々は、saccade機構が ‘in-pixel'' 処理によってハードウェア設計にどのように影響を与えるかについて議論する。

We examine how the saccade mechanism from biological vision can be used to make deep neural networks more efficient for classification and object detection problems. Our proposed approach is based on the ideas of attention-driven visual processing and saccades, miniature eye movements influenced by attention. We conduct experiments by analyzing: i) the robustness of different deep neural network (DNN) feature extractors to partially-sensed images for image classification and object detection, and ii) the utility of saccades in masking image patches for image classification and object tracking. Experiments with convolutional nets (ResNet-18) and transformer-based models (ViT, DETR, TransTrack) are conducted on several datasets (CIFAR-10, DAVSOD, MSCOCO, and MOT17). Our experiments show intelligent data reduction via learning to mimic human saccades when used in conjunction with state-of-the-art DNNs for classification, detection, and tracking tasks. We observed minimal drop in performance for the classification and detection tasks while only using about 30\% of the original sensor data. We discuss how the saccade mechanism can inform hardware design via ``in-pixel'' processing.
翻訳日:2022-06-13 18:44:33 公開日:2022-06-10
# (参考訳) ハードウェアアクセラレータを用いたエッジのリアルタイム超次元再構成

Real-time Hyper-Dimensional Reconfiguration at the Edge using Hardware Accelerators ( http://arxiv.org/abs/2206.05128v1 )

ライセンス: CC BY 4.0
Indhumathi Kandaswamy, Saurabh Farkya, Zachary Daniels, Gooitzen van der Wal, Aswin Raghavan, Yuzheng Zhang, Jun Hu, Michael Lomnitz, Michael Isnardi, David Zhang, Michael Piacentino(参考訳) 本稿では,非mac(浮動小数点多重累積演算を含まない)のディープニューラルネット(dnn)とハイパー次元(hd)コンピューティングアクセラレータを組み合わせることで,エッジでリアルタイムな再構成を行うことのできる,低スワップ組込みハードウェアを用いた戦術エッジ(hydrate)における超次元再構成可能な解析手法を提案する。 超次元論理ベースの分類器を供給しない特徴抽出器のアルゴリズム,訓練された量子化モデル生成,およびシミュレーション性能について述べる。 次に,超次元数の増加に伴う性能向上を示す。 本稿では,従来のDNNと比較して実現された低SWaPFPGAハードウェアと組み込みソフトウェアシステムについて述べる。 本稿では,映像アクティビティ分類タスクにおける実システム性能とシミュレーションシステム性能,学習可能な量子化とhdコンピューティングによる雑音のロバスト性,同一データセットにおける再構成の実証について述べる。 そこで本研究では, 勾配降下バックプロパゲーションを必要とせず, フィードフォワードhd分類器のみをリトレーニングすることで, フィールドの再構成性が達成できることを示す。 最初の作業はRCN DNNを使用して行われ、現在は2ストリームのDNNに拡張され、性能が向上している。

In this paper we present Hyper-Dimensional Reconfigurable Analytics at the Tactical Edge (HyDRATE) using low-SWaP embedded hardware that can perform real-time reconfiguration at the edge leveraging non-MAC (free of floating-point MultiplyACcumulate operations) deep neural nets (DNN) combined with hyperdimensional (HD) computing accelerators. We describe the algorithm, trained quantized model generation, and simulated performance of a feature extractor free of multiply-accumulates feeding a hyperdimensional logic-based classifier. Then we show how performance increases with the number of hyperdimensions. We describe the realized low-SWaP FPGA hardware and embedded software system compared to traditional DNNs and detail the implemented hardware accelerators. We discuss the measured system latency and power, noise robustness due to use of learnable quantization and HD computing, actual versus simulated system performance for a video activity classification task and demonstration of reconfiguration on this same dataset. We show that reconfigurability in the field is achieved by retraining only the feed-forward HD classifier without gradient descent backpropagation (gradient-free), using few-shot learning of new classes at the edge. Initial work performed used LRCN DNN and is currently extended to use Two-stream DNN with improved performance.
翻訳日:2022-06-13 18:38:31 公開日:2022-06-10
# (参考訳) 分散ロバストなエンドツーエンドのポートフォリオ構築

Distributionally Robust End-to-End Portfolio Construction ( http://arxiv.org/abs/2206.05134v1 )

ライセンス: CC BY 4.0
Giorgio Costa, Garud N. Iyengar(参考訳) 本稿では,資産リターン予測モデルとポートフォリオ最適化モデルを統合するポートフォリオ構築のためのエンドツーエンドの分散的ロバストシステムを提案する。 また,データから直接,リスク耐性パラメータとロバストネスの程度を学習する方法も示す。 エンドツーエンドシステムには、トレーニング中に予測層と決定層の間で情報を伝達できるという利点があり、予測性能だけでなく、最終的なタスクのためにパラメータをトレーニングすることができる。 しかし、既存のエンドツーエンドシステムは、モデルリスクが決定層に与える影響を定量化し、修正することはできません。 提案する分散ロバストなエンドツーエンドポートフォリオ選択システムは,モデルリスクの影響を明確に考慮する。 決定層は、資産リターンの分配が名目分布を中心とした曖昧性集合に属すると仮定されるミニマックス問題を解決することによりポートフォリオを選択する。 凸双対性を用いて、エンド・ツー・エンドシステムの効率的なトレーニングを可能にする形でミニマックス問題を再キャストする。

We propose an end-to-end distributionally robust system for portfolio construction that integrates the asset return prediction model with a distributionally robust portfolio optimization model. We also show how to learn the risk-tolerance parameter and the degree of robustness directly from data. End-to-end systems have an advantage in that information can be communicated between the prediction and decision layers during training, allowing the parameters to be trained for the final task rather than solely for predictive performance. However, existing end-to-end systems are not able to quantify and correct for the impact of model risk on the decision layer. Our proposed distributionally robust end-to-end portfolio selection system explicitly accounts for the impact of model risk. The decision layer chooses portfolios by solving a minimax problem where the distribution of the asset returns is assumed to belong to an ambiguity set centered around a nominal distribution. Using convex duality, we recast the minimax problem in a form that allows for efficient training of the end-to-end system.
翻訳日:2022-06-13 18:27:04 公開日:2022-06-10
# (参考訳) フェデレーション学習のための高速深層オートエンコーダ

Fast Deep Autoencoder for Federated learning ( http://arxiv.org/abs/2206.05136v1 )

ライセンス: CC BY 4.0
David Novoa-Paradela, Oscar Romero-Fontenla, Bertha Guijarro-Berdi\~nas(参考訳) 本稿では,ディープオートエンコーダの新規かつ高速かつプライバシ保護実装を提案する。 DAEF(Deep Autoencoder for Federated Learning)は、従来のニューラルネットワークとは異なり、ディープオートエンコーダネットワークを非定型的にトレーニングすることで、トレーニング時間を劇的に短縮する。 そのトレーニングは分散(データセットの分割を並行して行う)とインクリメンタル(部分モデルの集約)で行うことができ、数学的定式化のため、交換されるデータはユーザのプライバシを危険にさらすことはない。 これにより、DAEFはエッジコンピューティングとフェデレーション学習シナリオの有効な方法となる。 この手法は、7つの実際の異常検出データセットを用いた従来の(反復的な)ディープオートエンコーダと比較され、daefの高速トレーニングにもかかわらず、その性能が類似していることが示されている。

This paper presents a novel, fast and privacy preserving implementation of deep autoencoders. DAEF (Deep Autoencoder for Federated learning), unlike traditional neural networks, trains a deep autoencoder network in a non-iterative way, which drastically reduces its training time. Its training can be carried out in a distributed way (several partitions of the dataset in parallel) and incrementally (aggregation of partial models), and due to its mathematical formulation, the data that is exchanged does not endanger the privacy of the users. This makes DAEF a valid method for edge computing and federated learning scenarios. The method has been evaluated and compared to traditional (iterative) deep autoencoders using seven real anomaly detection datasets, and their performance have been shown to be similar despite DAEF's faster training.
翻訳日:2022-06-13 17:45:06 公開日:2022-06-10
# (参考訳) クラス優先シフト下におけるストリーミングデータの軽量条件モデル外挿

Lightweight Conditional Model Extrapolation for Streaming Data under Class-Prior Shift ( http://arxiv.org/abs/2206.05181v1 )

ライセンス: CC BY 4.0
Paulina Tomaszewska and Christoph H. Lampert(参考訳) メタ学習の成功に触発された,非定常ストリーミングデータを用いた新たな学習方法であるLIMESを紹介する。 主なアイデアは、発生したすべてのデータ分布にまたがる単一の分類器を学習することではなく、多くの異なる分類器をうまく利用することであり、ハイブリッド戦略を生かすことである:我々は、特定のデータ分布の特定の分類器が分類器適応によって導出される単一のモデルパラメータを学習する。 クラス優先シフトを伴う多クラス分類設定を仮定すると、適応ステップは分類器のバイアス項のみが影響を受けるように解析的に行うことができる。 我々の研究のもう1つの貢献は、以前のデータに基づいて将来の時間ステップに適した適応パラメータを予測する補外ステップである。 そこで本研究では,トレーニング可能なパラメータを含まない,メモリや計算オーバーヘッドをほとんど含まない,クラス分布の異なるストリーミングデータから学習する軽量な手法を提案する。 twitterのデータを使った一連の模範的なタスクの実験では、limesが他のアプローチよりも高い精度を達成していることが示されている。

We introduce LIMES, a new method for learning with non-stationary streaming data, inspired by the recent success of meta-learning. The main idea is not to attempt to learn a single classifier that would have to work well across all occurring data distributions, nor many separate classifiers, but to exploit a hybrid strategy: we learn a single set of model parameters from which a specific classifier for any specific data distribution is derived via classifier adaptation. Assuming a multi-class classification setting with class-prior shift, the adaptation step can be performed analytically with only the classifier's bias terms being affected. Another contribution of our work is an extrapolation step that predicts suitable adaptation parameters for future time steps based on the previous data. In combination, we obtain a lightweight procedure for learning from streaming data with varying class distribution that adds no trainable parameters and almost no memory or computational overhead compared to training a single model. Experiments on a set of exemplary tasks using Twitter data show that LIMES achieves higher accuracy than alternative approaches, especially with respect to the relevant real-world metric of lowest within-day accuracy.
翻訳日:2022-06-13 17:23:50 公開日:2022-06-10
# (参考訳) FedProxの収束性について:局所的な相似性不変境界、非平滑性および超越性

On Convergence of FedProx: Local Dissimilarity Invariant Bounds, Non-smoothness and Beyond ( http://arxiv.org/abs/2206.05187v1 )

ライセンス: CC BY 4.0
Xiao-Tong Yuan and Ping Li(参考訳) FedProxアルゴリズムは、異種データ上でのフェデレーション学習(FL)に広く用いられている、単純だが強力な分散近位点最適化手法である。 フェデプロックスの人気と顕著な成功にもかかわらず、フェデプロックスの理論的な理解は概ね過小評価されている:フェデプロックスの魅力的な収束挙動は、局所関数のある種の非標準的かつ非現実的異質な仮定の下で特徴づけられ、その結果は滑らかな最適化問題に限定されている。 これらの欠点を解消するために,feedprox の局所的不類似性不変収束理論とアルゴリズム安定性のレンズを通したミニバッチ確率拡張を開発した。 その結果、非凸フェデレーション最適化のためのFedProxに関するいくつかの新しい深い洞察を導出することに貢献する。 1) 局所的相似型条件に依存しない収束保証 2)非滑らかなFL問題に対する収束保証,及び 3)ミニバッチのサイズとサンプルデバイス数に関する線形速度アップ。 我々の理論では、局所的な相似性と滑らかさはfedproxが好ましい複雑性境界を得るのに必須ではないことを初めて明らかにした。 一連のベンチマークFLデータセットの予備実験結果が報告され、FedProxのサンプル効率を改善するためのミニバッチの利点を示す。

The FedProx algorithm is a simple yet powerful distributed proximal point optimization method widely used for federated learning (FL) over heterogeneous data. Despite its popularity and remarkable success witnessed in practice, the theoretical understanding of FedProx is largely underinvestigated: the appealing convergence behavior of FedProx is so far characterized under certain non-standard and unrealistic dissimilarity assumptions of local functions, and the results are limited to smooth optimization problems. In order to remedy these deficiencies, we develop a novel local dissimilarity invariant convergence theory for FedProx and its minibatch stochastic extension through the lens of algorithmic stability. As a result, we contribute to derive several new and deeper insights into FedProx for non-convex federated optimization including: 1) convergence guarantees independent on local dissimilarity type conditions; 2) convergence guarantees for non-smooth FL problems; and 3) linear speedup with respect to size of minibatch and number of sampled devices. Our theory for the first time reveals that local dissimilarity and smoothness are not must-have for FedProx to get favorable complexity bounds. Preliminary experimental results on a series of benchmark FL datasets are reported to demonstrate the benefit of minibatching for improving the sample efficiency of FedProx.
翻訳日:2022-06-13 17:12:17 公開日:2022-06-10
# (参考訳) clamnet: 医用画像分割のための可変深度unetsを用いたコントラスト学習

ClamNet: Using contrastive learning with variable depth Unets for medical image segmentation ( http://arxiv.org/abs/2206.05225v1 )

ライセンス: CC BY 4.0
Samayan Bhattacharya, Sk Shahnawaz, Avigyan Bhattacharya(参考訳) ユニッツは、完全な畳み込みネットワーク(FCN)とともに、医療画像のセマンティックセグメンテーションの標準手法となっている。 unet++は、unetとfcnsが直面するいくつかの問題を解決するために、unetの変種として導入された。 Unet++はネットワークに可変深度Unetsのアンサンブルを提供し、タスクに適した深度を推定する専門家の必要性を排除した。 unetとunet++を含むすべての派生型は、大量の注釈付きデータを必要とせずにうまくトレーニングできるネットワークを提供することを目的としていたが、いずれも、ピクセル単位で注釈付きデータの必要性を完全に排除しようとはしなかった。 診断される疾患ごとにそのようなデータを得るには、高いコストがかかる。 したがって、そのようなデータは乏しい。 本稿では,磁気共鳴画像(MRI)やCT(CT)などの医用画像を用いた医用画像のセマンティックセマンティックセマンティクスのためのUnet++の学習に,画素単位のアノテーションを必要とせず,コントラスト学習を用いる。 本稿では,提案モデルのアーキテクチャと使用するトレーニング手法について述べる。 これはまだ進行中の作業なので、この論文に結果を含めることは控えます。 結果とトレーニングされたモデルは、arxivの論文の公開またはその後のバージョンで利用可能になる。

Unets have become the standard method for semantic segmentation of medical images, along with fully convolutional networks (FCN). Unet++ was introduced as a variant of Unet, in order to solve some of the problems facing Unet and FCNs. Unet++ provided networks with an ensemble of variable depth Unets, hence eliminating the need for professionals estimating the best suitable depth for a task. While Unet and all its variants, including Unet++ aimed at providing networks that were able to train well without requiring large quantities of annotated data, none of them attempted to eliminate the need for pixel-wise annotated data altogether. Obtaining such data for each disease to be diagnosed comes at a high cost. Hence such data is scarce. In this paper we use contrastive learning to train Unet++ for semantic segmentation of medical images using medical images from various sources including magnetic resonance imaging (MRI) and computed tomography (CT), without the need for pixel-wise annotations. Here we describe the architecture of the proposed model and the training method used. This is still a work in progress and so we abstain from including results in this paper. The results and the trained model would be made available upon publication or in subsequent versions of this paper on arxiv.
翻訳日:2022-06-13 17:11:06 公開日:2022-06-10
# (参考訳) クラウドインスタンスにおけるAIの炭素強度の測定

Measuring the Carbon Intensity of AI in Cloud Instances ( http://arxiv.org/abs/2206.05229v1 )

ライセンス: CC BY 4.0
Jesse Dodge, Taylor Prewitt, Remi Tachet Des Combes, Erika Odmark, Roy Schwartz, Emma Strubell, Alexandra Sasha Luccioni, Noah A. Smith, Nicole DeCario, Will Buchanan(参考訳) クラウドコンピューティングは、計算資源への前例のないアクセスを提供することで、機械学習、高いエネルギーコストと炭素フットプリントをもたらす計算要求のような技術の急速な成長を可能にした。 その結果、最近の奨学金は、AIの温室効果ガスの影響をより正確に見積もっている。 ソフトウェア炭素強度に関する情報をユーザに提示するクラウドプロバイダは、排出を最小化するための基本的な一歩だ。 本稿では,ソフトウェアの炭素強度を測定するためのフレームワークを提案し,エネルギー単位当たりの場所ベースおよび時間特異的辺縁排出データを用いて,運転中の炭素排出量を測定することを提案する。 我々は,自然言語処理とコンピュータビジョンのための現代的なモデル群と,6.10億パラメータ言語モデルの事前学習を含む幅広いモデルサイズに対して,運用ソフトウェア炭素強度の測定を行う。 次に、Microsoft Azureクラウドコンピューティングプラットフォーム上の排出削減のための一連のアプローチを評価します。異なる地理的領域のクラウドインスタンスの使用、異なる時間にクラウドインスタンスの使用、限界炭素強度が一定のしきい値を超える場合に、動的にクラウドインスタンスを一時停止する。 我々は, データセンターの地理的領域が, 所定のクラウドインスタンスの炭素強度に重要な役割を担っていることを確認し, 適切な領域を選択すると, 最大の運転排出削減効果が得られることを確認した。 また、日中のソフトウェアがカーボン強度に顕著な影響を与えることも示しています。 最後に,機械学習の実践者がソフトウェア炭素強度情報を用いて環境影響を低減できるかを推奨する。

By providing unprecedented access to computational resources, cloud computing has enabled rapid growth in technologies such as machine learning, the computational demands of which incur a high energy cost and a commensurate carbon footprint. As a result, recent scholarship has called for better estimates of the greenhouse gas impact of AI: data scientists today do not have easy or reliable access to measurements of this information, precluding development of actionable tactics. Cloud providers presenting information about software carbon intensity to users is a fundamental stepping stone towards minimizing emissions. In this paper, we provide a framework for measuring software carbon intensity, and propose to measure operational carbon emissions by using location-based and time-specific marginal emissions data per energy unit. We provide measurements of operational software carbon intensity for a set of modern models for natural language processing and computer vision, and a wide range of model sizes, including pretraining of a 6.1 billion parameter language model. We then evaluate a suite of approaches for reducing emissions on the Microsoft Azure cloud compute platform: using cloud instances in different geographic regions, using cloud instances at different times of day, and dynamically pausing cloud instances when the marginal carbon intensity is above a certain threshold. We confirm previous results that the geographic region of the data center plays a significant role in the carbon intensity for a given cloud instance, and find that choosing an appropriate region can have the largest operational emissions reduction impact. We also show that the time of day has notable impact on operational software carbon intensity. Finally, we conclude with recommendations for how machine learning practitioners can use software carbon intensity information to reduce environmental impact.
翻訳日:2022-06-13 16:59:57 公開日:2022-06-10
# (参考訳) カリキュラム誘導ベイズ強化学習によるroi制約付き入札

ROI Constrained Bidding via Curriculum-Guided Bayesian Reinforcement Learning ( http://arxiv.org/abs/2206.05240v1 )

ライセンス: CC BY 4.0
Haozhe Wang, Chao Du, Panyan Fang, Shuo Yuan, Xuming He, Liang Wang, Bo Zheng(参考訳) リアルタイム入札(RTB)は、現代のオンライン広告システムにおいて重要なメカニズムである。 広告主はRTBの入札戦略を採用して、様々な財務要件に照らされた広告効果を最適化し、その中でも広く採用されているのがROI(Return-on-investment)の制約である。 ROIは、シーケンシャル入札プロセス中に単調に変化し、通常、制約満足度と客観的最適化の間のシーソー効果を示す。 制約対象のトレードオフに対する既存のソリューションは通常、静的または穏やかに変化する市場で確立されます。 しかし、これらの手法は、変動するダイナミクスや部分的可観測性に適応できないため、非定常広告市場では著しく失敗する。 本研究では,非定常市場におけるROI制約入札を専門とする。 部分観測可能な制約付きマルコフ決定過程に基づいて,非単調制約に対応するための最初のハードバリアソリューションを提案する。 提案手法は,パラメータフリーな指標拡張報酬関数を利用して,非定常広告市場における制約対象トレードオフを適応的に制御するカリキュラムガイドベイズ強化学習(CBRL)フレームワークを開発する。 2つの問題設定を持つ大規模産業データセットの大規模な実験により、CBRLは分布内および分布外の両方のデータレギュレーションにおいてよく一般化され、優れた安定性を享受することが明らかとなった。

Real-Time Bidding (RTB) is an important mechanism in modern online advertising systems. Advertisers employ bidding strategies in RTB to optimize their advertising effects subject to various financial requirements, among which a widely adopted one is the return-on-investment (ROI) constraint. ROIs change non-monotonically during the sequential bidding process, usually presenting a see-saw effect between constraint satisfaction and objective optimization. Existing solutions to the constraint-objective trade-off are typically established in static or mildly changing markets. However, these methods fail significantly in non-stationary advertising markets due to their inability to adapt to varying dynamics and partial observability. In this work, we specialize in ROI-Constrained Bidding in non-stationary markets. Based on a Partially Observable Constrained Markov Decision Process, we propose the first hard barrier solution to accommodate non-monotonic constraints. Our method exploits a parameter-free indicator-augmented reward function and develops a Curriculum-Guided Bayesian Reinforcement Learning (CBRL) framework to adaptively control the constraint-objective trade-off in non-stationary advertising markets. Extensive experiments on a large-scale industrial dataset with two problem settings reveal that CBRL generalizes well in both in-distribution and out-of-distribution data regimes, and enjoys outstanding stability.
翻訳日:2022-06-13 16:35:41 公開日:2022-06-10
# 複数実験と複数結果を用いた高効率不均一処理効果推定

Efficient Heterogeneous Treatment Effect Estimation With Multiple Experiments and Multiple Outcomes ( http://arxiv.org/abs/2206.04907v1 )

ライセンス: Link先を確認
Leon Yao, Caroline Lo, Israel Nir, Sarah Tan, Ariel Evnine, Adam Lerer, Alex Peysakhovich(参考訳) 異種治療効果(HTE)の学習は多くの分野において重要な問題である。 既存の手法の多くは、単一の治療アームと単一の結果メートル法による設定を考慮している。 しかし、多くの現実世界のドメインでは、実験は一貫して行われます。例えば、インターネット企業では、a/bテストが毎日実行され、さまざまな関心のある指標にまたがる潜在的な変化の影響を計測します。 分析結果から,1つの実験においてHTEのみを気にすると,すべてのデータを総合的に分析することで精度が大幅に向上し,クロス実験とクロスアウトのメトリクス相関を活用できることが示唆された。 このアイデアをテンソル分解フレームワークで定式化し,低ランクあるいはlr-learnerと呼ばれる,シンプルでスケーラブルなモデルを提案する。 合成データと実データの両方の実験により、LRラーナーは独立したHTE推定よりもはるかに正確であることが示唆された。

Learning heterogeneous treatment effects (HTEs) is an important problem across many fields. Most existing methods consider the setting with a single treatment arm and a single outcome metric. However, in many real world domains, experiments are run consistently - for example, in internet companies, A/B tests are run every day to measure the impacts of potential changes across many different metrics of interest. We show that even if an analyst cares only about the HTEs in one experiment for one metric, precision can be improved greatly by analyzing all of the data together to take advantage of cross-experiment and cross-outcome metric correlations. We formalize this idea in a tensor factorization framework and propose a simple and scalable model which we refer to as the low rank or LR-learner. Experiments in both synthetic and real data suggest that the LR-learner can be much more precise than independent HTE estimation.
翻訳日:2022-06-13 16:08:46 公開日:2022-06-10
# スパースラーニングスパイクに基づく海馬記憶モデルのバイオインスピレーションによる実装

A bio-inspired implementation of a sparse-learning spike-based hippocampus memory model ( http://arxiv.org/abs/2206.04924v1 )

ライセンス: Link先を確認
Daniel Casanueva-Morato, Alvaro Ayuso-Martinez, Juan P. Dominguez-Morales, Angel Jimenez-Fernandez, Gabriel Jimenez-Moreno(参考訳) 神経系、具体的には脳は複雑な問題をシンプルかつ効率的に解くことができ、現代のコンピュータをはるかに超えている。 この点に関して、ニューロモルフィックエンジニアリングは、そのような計算能力を達成するシステムを開発するために脳を支配する基本的な原理を模倣することに焦点を当てた研究分野である。 この分野では、バイオインスパイアされた学習と記憶システムはまだ解決すべき課題であり、ここで海馬が関与している。 短期記憶として機能する脳の領域であり、脳の大脳皮質のすべての感覚核とそのその後のリコールから情報を学習し、非構造化し、迅速に保存することができる。 本研究では,海馬をベースとした新しいバイオインスパイアされた記憶モデルを提案する。このモデルでは,記憶を学習したり,キューから記憶を思い出したり,同じキューで他人の記憶を覚えたりすることができる。 このモデルはSpike Neural Networksを用いてSpiNNakerハードウェアプラットフォーム上で実装され、その正確かつ期待された動作を示す一連の実験と試験が行われた。 提案するスパイクベースメモリモデルは、入力を受けたときのみスパイクを生成し、エネルギー効率が良く、学習ステップに7つの時間ステップと、予め記憶されたメモリをリコールする6つの時間ステップが必要である。 この研究は、完全に機能するバイオインスパイクに基づく海馬記憶モデルの最初のハードウェア実装を示し、将来のより複雑なニューロモルフィックシステムの開発への道を開いた。

The nervous system, more specifically, the brain, is capable of solving complex problems simply and efficiently, far surpassing modern computers. In this regard, neuromorphic engineering is a research field that focuses on mimicking the basic principles that govern the brain in order to develop systems that achieve such computational capabilities. Within this field, bio-inspired learning and memory systems are still a challenge to be solved, and this is where the hippocampus is involved. It is the region of the brain that acts as a short-term memory, allowing the learning and unstructured and rapid storage of information from all the sensory nuclei of the cerebral cortex and its subsequent recall. In this work, we propose a novel bio-inspired memory model based on the hippocampus with the ability to learn memories, recall them from a cue (a part of the memory associated with the rest of the content) and even forget memories when trying to learn others with the same cue. This model has been implemented on the SpiNNaker hardware platform using Spiking Neural Networks, and a set of experiments and tests were performed to demonstrate its correct and expected operation. The proposed spike-based memory model generates spikes only when it receives an input, being energy efficient, and it needs 7 timesteps for the learning step and 6 timesteps for recalling a previously-stored memory. This work presents the first hardware implementation of a fully functional bio-inspired spike-based hippocampus memory model, paving the road for the development of future more complex neuromorphic systems.
翻訳日:2022-06-13 16:08:31 公開日:2022-06-10
# 構造方向をもつ確率零次輝線

Stochastic Zeroth order Descent with Structured Directions ( http://arxiv.org/abs/2206.05124v1 )

ライセンス: Link先を確認
Marco Rando, Cesare Molinari, Silvia Villa, Lorenzo Rosasco(参考訳) d$が周囲の空間の次元である$l\leq d$直交方向の集合上の確率勾配を近似する有限差分法である構造化確率的零次降下 (s-szd) を導入し,解析する。 これらの方向はランダムに選択され、各ステップで変更される。 滑らかな凸関数に対しては、反復数の収束がほぼ確実に証明され、反復数で確率的勾配降下 (sgd) の1つに任意に近く、各$c<1/2$ に対して $o(d/l k^{-c})$ という形の関数値の収束率が証明される。 私たちの境界はまた、$l$の複数の方向を使う利点を示している。 Polyak-{\L}ojasiewicz 条件を満たす非凸函数に対して、そのような仮定の下で確率零次アルゴリズムに対する最初の収束率を確立する。 S-SZDは,仮定が満たされる数値シミュレーションや,超パラメータ最適化の現実問題において,非常に優れた実用性能を有することを観察する。

We introduce and analyze Structured Stochastic Zeroth order Descent (S-SZD), a finite difference approach which approximates a stochastic gradient on a set of $l\leq d$ orthogonal directions, where $d$ is the dimension of the ambient space. These directions are randomly chosen, and may change at each step. For smooth convex functions we prove almost sure convergence of the iterates and a convergence rate on the function values of the form $O(d/l k^{-c})$ for every $c<1/2$, which is arbitrarily close to the one of Stochastic Gradient Descent (SGD) in terms of number of iterations. Our bound also shows the benefits of using $l$ multiple directions instead of one. For non-convex functions satisfying the Polyak-{\L}ojasiewicz condition, we establish the first convergence rates for stochastic zeroth order algorithms under such an assumption. We corroborate our theoretical findings in numerical simulations where assumptions are satisfied and on the real-world problem of hyper-parameter optimization, observing that S-SZD has very good practical performances.
翻訳日:2022-06-13 16:08:05 公開日:2022-06-10
# 微分プライバシーのベイズ推定

Bayesian Estimation of Differential Privacy ( http://arxiv.org/abs/2206.05199v1 )

ライセンス: Link先を確認
Santiago Zanella-B\'eguelin (Microsoft Research) and Lukas Wutschitz (Microsoft) and Shruti Tople (Microsoft Research) and Ahmed Salem (Microsoft Research) and Victor R\"uhle (Microsoft) and Andrew Paverd (Microsoft Research) and Mohammad Naseri (University College London) and Boris K\"opf (Microsoft Research)(参考訳) 差分プライベートsgdのようなアルゴリズムは、正式なプライバシー保証で機械学習モデルをトレーニングすることができる。 しかし、そのようなアルゴリズムが理論的に保証する保護と、実際に得られる保護との間には相違がある。 新たな仕事の流れは、異なるプライベートトレーニングによって得られる保護を、モデルのトレーニングに費やされるプライバシー予算の信頼区間として、実証的に見積もっている。 既存のアプローチでは、メンバシップ推論攻撃の偽陽性率と偽陰性率の信頼区間から$\varepsilon$の信頼区間が導かれる。 残念ながら、$\epsilon$の狭い高信頼区間を得るには、非常に大きなサンプルサイズとサンプルとして多くのモデルを訓練する必要がある。 本研究では,サンプルサイズを大幅に削減し,トレーニングモデル毎に複数のサンプルを描画するヒューリスティックを適用し,検証するベイズ法を提案する。 我々のベイズ法では、メンバシップ推論攻撃の偽陽性率と偽陰性率の関節後方から$\varepsilon$(単なる信頼区間ではない)の後方を求めるために、差分プライバシーの解釈を仮説検証する。 同じサンプルサイズと信頼性で、$\varepsilon$の信頼区間は、以前の仕事よりも約40%狭くなる。 ラベルのみのDPから順応するヒューリスティックは、十分なサンプルを得るのに必要な訓練されたモデルの数を最大2桁まで削減するために使用することができる。

Algorithms such as Differentially Private SGD enable training machine learning models with formal privacy guarantees. However, there is a discrepancy between the protection that such algorithms guarantee in theory and the protection they afford in practice. An emerging strand of work empirically estimates the protection afforded by differentially private training as a confidence interval for the privacy budget $\varepsilon$ spent on training a model. Existing approaches derive confidence intervals for $\varepsilon$ from confidence intervals for the false positive and false negative rates of membership inference attacks. Unfortunately, obtaining narrow high-confidence intervals for $\epsilon$ using this method requires an impractically large sample size and training as many models as samples. We propose a novel Bayesian method that greatly reduces sample size, and adapt and validate a heuristic to draw more than one sample per trained model. Our Bayesian method exploits the hypothesis testing interpretation of differential privacy to obtain a posterior for $\varepsilon$ (not just a confidence interval) from the joint posterior of the false positive and false negative rates of membership inference attacks. For the same sample size and confidence, we derive confidence intervals for $\varepsilon$ around 40% narrower than prior work. The heuristic, which we adapt from label-only DP, can be used to further reduce the number of trained models needed to get enough samples by up to 2 orders of magnitude.
翻訳日:2022-06-13 16:07:45 公開日:2022-06-10
# 階層的フェデレーション学習とプライバシ

Hierarchical Federated Learning with Privacy ( http://arxiv.org/abs/2206.05209v1 )

ライセンス: Link先を確認
Varun Chandrasekaran, Suman Banerjee, Diego Perino, Nicolas Kourtellis(参考訳) フェデレーションラーニング(FL)では、フェデレーションされたクライアントにデータが残っており、中央アグリゲータと共有されるグラデーション更新のみをプライベートと仮定した。 最近の研究は、勾配レベルアクセスを持つ敵が推論と再構成攻撃に成功することを示す。 このような環境では、差分プライベート(DP)学習がレジリエンスを提供することが知られている。 しかし、ステータス・クオ (\ie Central と local DP) で使用されるアプローチは、異なるユーティリティとプライバシーのトレードオフを導入している。 本研究では,このようなトレードオフを階層的FL (HFL) を通じて緩和する第一歩を踏み出す。 校正されたDPノイズを付加できる新たな中間レベルを導入することで、プライバシーとユーティリティのトレードオフが向上できることを示し、これをHDPと呼ぶ。 FLのベンチマークとしてよく用いられる)3つの異なるデータセットを用いた実験から,HDPは中央のアグリゲータにノイズが付加される中央のDPと同等の精度でモデルを生成することが示唆された。 このようなアプローチは、フェデレートされたクライアントでノイズが付加されるローカルDPケースのように、推論の敵に対して同等の利点を提供する。

Federated learning (FL), where data remains at the federated clients, and where only gradient updates are shared with a central aggregator, was assumed to be private. Recent work demonstrates that adversaries with gradient-level access can mount successful inference and reconstruction attacks. In such settings, differentially private (DP) learning is known to provide resilience. However, approaches used in the status quo (\ie central and local DP) introduce disparate utility vs. privacy trade-offs. In this work, we take the first step towards mitigating such trade-offs through {\em hierarchical FL (HFL)}. We demonstrate that by the introduction of a new intermediary level where calibrated DP noise can be added, better privacy vs. utility trade-offs can be obtained; we term this {\em hierarchical DP (HDP)}. Our experiments with 3 different datasets (commonly used as benchmarks for FL) suggest that HDP produces models as accurate as those obtained using central DP, where noise is added at a central aggregator. Such an approach also provides comparable benefit against inference adversaries as in the local DP case, where noise is added at the federated clients.
翻訳日:2022-06-13 16:07:21 公開日:2022-06-10
# StructCoder:コード生成のための構造対応トランス

StructCoder: Structure-Aware Transformer for Code Generation ( http://arxiv.org/abs/2206.05239v1 )

ライセンス: Link先を確認
Sindhu Tipirneni, Ming Zhu, Chandan K. Reddy(参考訳) 近年,ディープラーニングによるソフトウェアエンジニアリングタスクの自動化に対する関心が高まっている。 この作業は、異なる言語や自然言語記述で与えられたソースコードをターゲットとするコードを生成することを目標とするコード生成の問題に対処する。 コード生成のための最先端のディープラーニングモデルのほとんどは、主に自然言語用に設計されたトレーニング戦略を使用する。 しかし、コードの理解と生成には、コードの構文とセマンティクスをより厳密に理解する必要がある。 このモチベーションにより、エンコーダとデコーダの両方が、それぞれソースコードとターゲットコード内の構文とデータフローを認識するように訓練されるエンコーダ-デコーダトランスフォーマモデルを開発した。 ソースコードの構文木とデータフローグラフを活用することでエンコーダの構造を意識するだけでなく、AST(Abstract Syntax Tree)パスの予測とデータフロー予測という2つの補助的なタスクを導入することで、デコーダがターゲットコードの構文とデータフローを保存することを保証する。 我々の知る限りでは、ターゲット構文とデータフローをモデル化して生成されたコードの品質を向上させる構造対応トランスフォーマーデコーダを導入する最初の試みである。 提案したStructCoderモデルは,CodeXGLUEベンチマークにおいて,コード翻訳およびテキスト・ツー・コード生成タスクにおける最先端のパフォーマンスを実現する。

There has been a recent surge of interest in automating software engineering tasks using deep learning. This work addresses the problem of code generation where the goal is to generate target code given source code in a different language or a natural language description. Most of the state-of-the-art deep learning models for code generation use training strategies that are primarily designed for natural language. However, understanding and generating code requires a more rigorous comprehension of the code syntax and semantics. With this motivation, we develop an encoder-decoder Transformer model where both the encoder and decoder are trained to recognize the syntax and data flow in the source and target codes, respectively. We not only make the encoder structure-aware by leveraging the source code's syntax tree and data flow graph, but we also ensure that our decoder preserves the syntax and data flow of the target code by introducing two auxiliary tasks: AST (Abstract Syntax Tree) paths prediction and data flow prediction. To the best of our knowledge, this is the first work to introduce a structure-aware Transformer decoder to enhance the quality of generated code by modeling target syntax and data flow. The proposed StructCoder model achieves state-of-the-art performance on code translation and text-to-code generation tasks in the CodeXGLUE benchmark.
翻訳日:2022-06-13 16:06:58 公開日:2022-06-10
# 非向グラフィカルモデルにおける対数凸密度推定

Log-concave density estimation in undirected graphical models ( http://arxiv.org/abs/2206.05227v1 )

ライセンス: Link先を確認
Kaie Kubjas, Olga Kuznetsova, Elina Robeva, Pardis Semnani, Luca Sodomaco(参考訳) 本稿では, 対数凹凸である密度の最大推定問題を, 与えられた無向グラフの$G$に対応するグラフィカルモデルで検討する。 最大度推定 (mle) はいくつかのテント関数の指数関数の積であり、各極大クライクに対して1つは$g$である。 グラフモデルにおける対数凸密度の集合は無限次元であるが、この結果はmleが有限次元凸最適化問題を解くことによって得られることを示唆する。 実装といくつかの例を挙げます。 さらに、MLEが存在しており、サンプル点の数が、$G$が和数であるときの最大のcliqueの規模より大きい限り、確率 1 で一意であることを示す。 MLE は、グラフ $G$ がcliques の不随伴和であるときに一貫することを示す。 最後に、G$のグラフィカルモデルにおける対数凹密度が、$G$の対数凹率分解を持つ条件について議論する。

We study the problem of maximum likelihood estimation of densities that are log-concave and lie in the graphical model corresponding to a given undirected graph $G$. We show that the maximum likelihood estimate (MLE) is the product of the exponentials of several tent functions, one for each maximal clique of $G$. While the set of log-concave densities in a graphical model is infinite-dimensional, our results imply that the MLE can be found by solving a finite-dimensional convex optimization problem. We provide an implementation and a few examples. Furthermore, we show that the MLE exists and is unique with probability 1 as long as the number of sample points is larger than the size of the largest clique of $G$ when $G$ is chordal. We show that the MLE is consistent when the graph $G$ is a disjoint union of cliques. Finally, we discuss the conditions under which a log-concave density in the graphical model of $G$ has a log-concave factorization according to $G$.
翻訳日:2022-06-13 16:06:38 公開日:2022-06-10
# 再合成予測のための2段階グラフ生成モデル$\mathsf{g^2retro}$

$\mathsf{G^2Retro}$: Two-Step Graph Generative Models for Retrosynthesis Prediction ( http://arxiv.org/abs/2206.04882v1 )

ライセンス: Link先を確認
Ziqi Chen, Oluwatosin R. Ayinde, James R. Fuchs, Huan Sun, Xia Ning(参考訳) 再合成は分子が潜在的な反応物質に変換され、合成経路が同定される過程である。 本稿では,一段階の逆合成予測のための新しい生成フレームワークである$\mathsf{g^2retro}$を提案する。 合成反応の逆論理、すなわち、まず反応中心を予測して、ターゲット分子をシントンと呼ばれる断片に変換し、その後、以前の半テンプレートに基づく方法に従って合成合成を反応物に変換する。 反応中心予測において、$\mathsf{G^2Retro}$は反応中心型の包括的集合を定義し、複数の反応中心候補を考慮して予測反応の多様性を可能にする。 シンソンを完成させる際、$\mathsf{G^2Retro}$はサブ構造アタッチメントを配置して、シンソンを反応体に変換する。 ここで、$\mathsf{g^2retro}$は、最先端のメソッドよりもベンチマークデータセットで最も起こりうる反応を優先し、ベンチマークデータセットに含まれない新規で可能性が高い反応を発見できることを示す。

Retrosynthesis is a procedure where a molecule is transformed into potential reactants and thus the synthesis routes are identified. We propose a novel generative framework, denoted as $\mathsf{G^2Retro}$, for one-step retrosynthesis prediction. $\mathsf{G^2Retro}$ imitates the reversed logic of synthetic reactions, that is, first predicting the reaction centers to convert the target molecule into fragments named synthons, and then transforming synthons into reactants, following previous semi-template-based methods. In predicting reaction centers, $\mathsf{G^2Retro}$ defines a comprehensive set of reaction center types, and enables diversity in the predicted reactions by considering multiple reaction center candidates. In completing synthons, $\mathsf{G^2Retro}$ deploys a sequence of substructure attachments to transform synthons into reactants, which utilize a holistic view of the most updated structures of the synthons to be completed, as well as all the involved synthon and product structures. Here we show that $\mathsf{G^2Retro}$ is able to better prioritize the most possible reactants in the benchmark dataset than the state-of-the-art methods, and discover novel and highly likely reactions that are not included in the benchmark dataset.
翻訳日:2022-06-13 16:04:49 公開日:2022-06-10
# Merak: 巨大ファウンデーションモデルのための3D並列処理を自動化する分散DNNトレーニングフレームワーク

Merak: A Efficient Distributed DNN Training Framework with Automated 3D Parallelism for Giant Foundation Models ( http://arxiv.org/abs/2206.04959v1 )

ライセンス: Link先を確認
Zhiquan Lai, Shengwei Li, Xudong Tang, Keshi Ge, Weijie Liu, Yabo Duan, Linbo Qiao, Dongsheng Li(参考訳) 基礎モデルが主要なディープラーニング技術になりつつある。 基礎モデルの事前トレーニングは、モデルパラメータとトレーニングデータセットの両方が大規模であるため、常に時間を要する。 コンピュータ集約性に加えて、トレーニングプロセスは極めてメモリ集約的でコミュニケーション集約である。 これらの特徴は、高いトレーニング効率を達成するために、データ並列性、パイプラインモデル並列性、テンソルモデル並列性を統合する3D並列性を適用する必要がある。 この目標を達成するために、Megatron-LMやDeepSpeedといったカスタムソフトウェアフレームワークが開発されている。 しかし、現在の3d並列処理フレームワークはまだ2つの課題を満たしている。 i) モデルを手動で修正してトレーニングを並列化する必要があるモデル開発者にとっては透過的ではない。 二 計算量、GPUメモリ及びネットワーク帯域の利用は十分ではない。 資源利用率の高い3次元並列化ディープラーニング学習フレームワークであるMerakを提案する。 Merakは、モデルのプロキシ表現にグラフシャーディングアルゴリズムを使用する自動モデルパーティショナで自動的にデプロイする。 Merak氏はまた、最小限のコード修正で基礎モデルのトレーニングをスケールアウトするための非侵入的なAPIも発表した。 さらに,Merakに高性能な3D並列ランタイムエンジンを設計する。 利用可能なトレーニングリソースを利用するには、高い計算利用率をもたらすシフトクリティカルパスパイプラインスケジュール、アイドルワーカメモリを使用するステージアウェアな再計算、通信と計算をオーバーラップするサブパイプライン型テンソルモデル並列処理など、いくつかのテクニックを使用する。 64GPUの実験では,1.5,2.5,8.3,200億のパラメータを持つモデルの最先端の3D並列化フレームワーク上で,それぞれ1.42X,1.39X,1.43X,1.61Xのトレーニングパフォーマンスが向上している。

Foundation models are becoming the dominant deep learning technologies. Pretraining a foundation model is always time-consumed due to the large scale of both the model parameter and training dataset. Besides being computing-intensive, the training process is extremely memory-intensive and communication-intensive. These features make it necessary to apply 3D parallelism, which integrates data parallelism, pipeline model parallelism and tensor model parallelism, to achieve high training efficiency. To achieve this goal, some custom software frameworks such as Megatron-LM and DeepSpeed are developed. However, current 3D parallelism frameworks still meet two issues: i) they are not transparent to model developers, which need to manually modify the model to parallelize training. ii) their utilization of computation, GPU memory and network bandwidth are not sufficient. We propose Merak, an automated 3D parallelism deep learning training framework with high resource utilization. Merak automatically deploys with an automatic model partitioner, which uses a graph sharding algorithm on a proxy representation of the model. Merak also presents the non-intrusive API for scaling out foundation model training with minimal code modification. In addition, we design a high-performance 3D parallel runtime engine in Merak. It uses several techniques to exploit available training resources, including shifted critical path pipeline schedule that brings a higher computation utilization, stage-aware recomputation that makes use of idle worker memory, and sub-pipelined tensor model parallelism that overlaps communication and computation. Experiments on 64 GPUs show Merak can speedup the training performance over the state-of-the-art 3D parallelism frameworks of models with 1.5, 2.5, 8.3, and 20 billion parameters by up to 1.42X, 1.39X, 1.43X, and 1.61X, respectively.
翻訳日:2022-06-13 16:04:22 公開日:2022-06-10
# 画像埋め込みを用いたゼロショット音声分類

Zero-Shot Audio Classification using Image Embeddings ( http://arxiv.org/abs/2206.04984v1 )

ライセンス: Link先を確認
Duygu Dogan, Huang Xie, Toni Heittola, Tuomas Virtanen(参考訳) 教師付き学習法は、ラベル付きデータの集合が存在する場合に与えられた問題を解決することができる。 しかしながら、すべてのターゲットクラスをカバーするデータセットの取得には、通常、高価で時間を要する手動ラベリングが必要となる。 ゼロショット学習モデルは、意味情報を利用して、目に見えない概念を分類することができる。 本研究では, 非線形音響意味投影を用いたゼロショット音声分類のサイド情報として画像埋め込みを導入する。 我々は,Open Imagesデータセットからセマンティック画像表現を抽出し,異なる領域のセマンティック情報(画像,音声,テキスト)を用いてAudioSetのオーディオサブセット上でモデルの性能を評価する。 画像埋め込みは,ゼロショット音声分類を行うための意味情報として利用できることを示す。 実験の結果,画像とテキストの埋め込みは,それぞれに同一の性能を示すことがわかった。 さらに,実験試料から意味的音響埋め込みを計算し,性能に上限を与える。 その結果, 分類性能は, テストクラスとトレーニングクラス間の意味的関係に非常に敏感であり, テキスト的および画像的埋め込みは, 参照クラスと未認識クラスが意味的に類似している場合に, 意味的音響的埋め込みに到達できることがわかった。

Supervised learning methods can solve the given problem in the presence of a large set of labeled data. However, the acquisition of a dataset covering all the target classes typically requires manual labeling which is expensive and time-consuming. Zero-shot learning models are capable of classifying the unseen concepts by utilizing their semantic information. The present study introduces image embeddings as side information on zero-shot audio classification by using a nonlinear acoustic-semantic projection. We extract the semantic image representations from the Open Images dataset and evaluate the performance of the models on an audio subset of AudioSet using semantic information in different domains; image, audio, and textual. We demonstrate that the image embeddings can be used as semantic information to perform zero-shot audio classification. The experimental results show that the image and textual embeddings display similar performance both individually and together. We additionally calculate the semantic acoustic embeddings from the test samples to provide an upper limit to the performance. The results show that the classification performance is highly sensitive to the semantic relation between test and training classes and textual and image embeddings can reach up to the semantic acoustic embeddings when the seen and unseen classes are semantically similar.
翻訳日:2022-06-13 16:03:52 公開日:2022-06-10
# K平均アルゴリズムにおける新しい距離測定とその応用

A new distance measurement and its application in K-Means Algorithm ( http://arxiv.org/abs/2206.05215v1 )

ライセンス: Link先を確認
Yiqun Zhang and Houbiao Li(参考訳) K-Meansクラスタリングアルゴリズムは、その単純さと効率性から、最もよく使われているクラスタリングアルゴリズムの1つである。 ユークリッド距離に基づくK平均クラスタリングアルゴリズムは、サンプル間の線形距離にのみ注意を払うが、データセットの全体分布構造(すなわちデータセットの流体構造)を無視する。 高次元データ空間におけるユークリッド距離による2つのデータ点の内部構造の記述は困難であるため,新しい距離計測法,すなわち視点距離法を提案し,k-meansアルゴリズムに適用する。 古典的な多様体学習データセット、s-curveとswiss rollデータセットでは、この新たな距離がデータ自体の構造に従ってデータをクラスタ化できるだけでなく、カテゴリ間の境界もきれいに区切られている。 さらに、実世界のデータセットに対するビュー距離に基づくK-Meansアルゴリズムの分類精度とクラスタリング効果についても検証した。 実験の結果、ほとんどのデータセットにおいて、ビュー距離に基づくK-Meansアルゴリズムは分類精度とクラスタリング効果をある程度改善していることがわかった。

K-Means clustering algorithm is one of the most commonly used clustering algorithms because of its simplicity and efficiency. K-Means clustering algorithm based on Euclidean distance only pays attention to the linear distance between samples, but ignores the overall distribution structure of the dataset (i.e. the fluid structure of dataset). Since it is difficult to describe the internal structure of two data points by Euclidean distance in high-dimensional data space, we propose a new distance measurement, namely, view-distance, and apply it to the K-Means algorithm. On the classical manifold learning datasets, S-curve and Swiss roll datasets, not only this new distance can cluster the data according to the structure of the data itself, but also the boundaries between categories are neat dividing lines. Moreover, we also tested the classification accuracy and clustering effect of the K-Means algorithm based on view-distance on some real-world datasets. The experimental results show that, on most datasets, the K-Means algorithm based on view-distance has a certain degree of improvement in classification accuracy and clustering effect.
翻訳日:2022-06-13 16:03:33 公開日:2022-06-10
# モノトン包有物の加速アルゴリズムと制約付き非凸ノンコンケーブMin-Max最適化

Accelerated Algorithms for Monotone Inclusions and Constrained Nonconvex-Nonconcave Min-Max Optimization ( http://arxiv.org/abs/2206.05248v1 )

ライセンス: Link先を確認
Yang Cai, Argyris Oikonomou, Weiqiang Zheng(参考訳) モノトン含量およびモノトン変量不等式および非モノトン設定への一般化について検討した。 まず, 制約のない凸凹最小値最適化のために, Yoon と Ryu [2021] によって提案された Extra Anchored Gradient (EAG) アルゴリズムが, リプシッツ単調包摂のより一般的な問題を解くために適用可能であることを示す。 より具体的には、eag がリプシッツ単調包含問題に対して $o(\frac{1}{t})$ の \emph{accelerated convergence rate} で解くことが証明され、これはすべての一階法において \emph{optimal} である [diakonikolas, 2020, yoon and ryu, 2021]。 第2の結果は Extra Anchored Gradient Plus (EAG+) と呼ばれる新しいアルゴリズムであり、これは加速された$O(\frac{1}{T})$収束率を全ての単調包含問題に対して達成するだけでなく、負のコモノトン作用素に関する一般(非単調)包含問題に対して同じ加速率を示す。 2つ目の結果の特別な場合として、EAG+ は非凸非凸 min-max 最適化問題の非自明なクラスを解くための$O(\frac{1}{T})$収束率を享受する。 我々の解析は単純なポテンシャル関数引数に基づいており、他の高速化アルゴリズムの解析に有用である。

We study monotone inclusions and monotone variational inequalities, as well as their generalizations to non-monotone settings. We first show that the Extra Anchored Gradient (EAG) algorithm, originally proposed by Yoon and Ryu [2021] for unconstrained convex-concave min-max optimization, can be applied to solve the more general problem of Lipschitz monotone inclusion. More specifically, we prove that the EAG solves Lipschitz monotone inclusion problems with an \emph{accelerated convergence rate} of $O(\frac{1}{T})$, which is \emph{optimal among all first-order methods} [Diakonikolas, 2020, Yoon and Ryu, 2021]. Our second result is a new algorithm, called Extra Anchored Gradient Plus (EAG+), which not only achieves the accelerated $O(\frac{1}{T})$ convergence rate for all monotone inclusion problems, but also exhibits the same accelerated rate for a family of general (non-monotone) inclusion problems that concern negative comonotone operators. As a special case of our second result, EAG+ enjoys the $O(\frac{1}{T})$ convergence rate for solving a non-trivial class of nonconvex-nonconcave min-max optimization problems. Our analyses are based on simple potential function arguments, which might be useful for analysing other accelerated algorithms.
翻訳日:2022-06-13 16:03:18 公開日:2022-06-10
# 非コヒーレント測定による状態トモグラフィのタイト境界

Tight Bounds for State Tomography with Incoherent Measurements ( http://arxiv.org/abs/2206.05265v1 )

ライセンス: Link先を確認
Sitan Chen, Brice Huang, Jerry Li, Allen Liu, Mark Sellke(参考訳) 未知の量子状態のコピー $\rho\in\mathbb{c}^{d\times d}$ が与えられると、$\|\rho - \widehat{\rho}\|_{\mathsf{tr}} \le \varepsilon$ となるような出力$\widehat{\rho}$ が得られる。 すべてのコピーにコヒーレントな測定を絡ませることが許されると、$\Theta(d^2/\varepsilon^2)$コピーは必要で十分である [Haah et al. '17, O'Donnell-Wright '16]。 残念ながら、この速度を達成するプロトコルは、現在のデバイスや短期デバイスの実装を妨げる大きな量子メモリオーバーヘッドを引き起こす。 一方, incoherent (single-copy) 測定を用いた最もよく知られたプロトコルは,$o(d^3/\varepsilon^2)$ copy [kueng-rauhut-terstiege '17] を用いている。 そこで本研究では,不整合測定を用いたプロトコルが適応的に選択されたとしても,[Kueng-Rauhut-Terstiege '17] の上界に一致する$\Omega(d^3/\varepsilon^2)$コピーが必要であることを示すことにより,この問題を完全に解決する。 我々は、測定後の後方分布の「チルト」を直接束縛する新しい証明手法によって、この手法は、我々の下限の驚くほど短い証明となり、それが独立した関心事であると信じている。

We consider the classic question of state tomography: given copies of an unknown quantum state $\rho\in\mathbb{C}^{d\times d}$, output $\widehat{\rho}$ for which $\|\rho - \widehat{\rho}\|_{\mathsf{tr}} \le \varepsilon$. When one is allowed to make coherent measurements entangled across all copies, $\Theta(d^2/\varepsilon^2)$ copies are necessary and sufficient [Haah et al. '17, O'Donnell-Wright '16]. Unfortunately, the protocols achieving this rate incur large quantum memory overheads that preclude implementation on current or near-term devices. On the other hand, the best known protocol using incoherent (single-copy) measurements uses $O(d^3/\varepsilon^2)$ copies [Kueng-Rauhut-Terstiege '17], and multiple papers have posed it as an open question to understand whether or not this rate is tight. In this work, we fully resolve this question, by showing that any protocol using incoherent measurements, even if they are chosen adaptively, requires $\Omega(d^3/\varepsilon^2)$ copies, matching the upper bound of [Kueng-Rauhut-Terstiege '17]. We do so by a new proof technique which directly bounds the "tilt" of the posterior distribution after measurements, which yields a surprisingly short proof of our lower bound, and which we believe may be of independent interest.
翻訳日:2022-06-13 16:01:35 公開日:2022-06-10
# (参考訳) メタ最適輸送

Meta Optimal Transport ( http://arxiv.org/abs/2206.05262v1 )

ライセンス: CC BY 4.0
Brandon Amos, Samuel Cohen, Giulia Luise, Ievgen Redko(参考訳) 我々は,meta otと呼ばれる入力尺度から最適な交通量(ot)マップを予測するために,償却最適化(amortized optimization)の利用について検討する。 これは、過去の問題から存在する知識と情報を活用して、新しい問題を迅速に予測し、解決することで、異なる尺度間で同様のOT問題を繰り返すのに役立つ。 そうでなければ、標準手法は過去の解の知識を無視し、各問題をスクラッチから過度に解決する。 メタOTモデルは、連続した設定における離散的な設定と凸ポテンシャルにおける対数シンクホーンソルバの標準収束率を超える。 我々は、画像、球面データ、カラーパレット間の離散的かつ連続的な輸送設定において、標準OTソルバの計算時間を桁違いに改善する。 ソースコードはhttp://github.com/facebookresearch/meta-ot.comから入手可能です。

We study the use of amortized optimization to predict optimal transport (OT) maps from the input measures, which we call Meta OT. This helps repeatedly solve similar OT problems between different measures by leveraging the knowledge and information present from past problems to rapidly predict and solve new problems. Otherwise, standard methods ignore the knowledge of the past solutions and suboptimally re-solve each problem from scratch. Meta OT models surpass the standard convergence rates of log-Sinkhorn solvers in the discrete setting and convex potentials in the continuous setting. We improve the computational time of standard OT solvers by multiple orders of magnitude in discrete and continuous transport settings between images, spherical data, and color palettes. Our source code is available at http://github.com/facebookresearch/meta-ot.
翻訳日:2022-06-13 15:58:51 公開日:2022-06-10
# 対数計数のための畳み込みネットワークの空間不変性再考

Rethinking Spatial Invariance of Convolutional Networks for Object Counting ( http://arxiv.org/abs/2206.05253v1 )

ライセンス: Link先を確認
Zhi-Qi Cheng, Qi Dai, Hong Li, JingKuan Song, Xiao Wu, Alexander G. Hauptmann(参考訳) 従来の研究は一般に、畳み込みネットワークの空間的不変性を改善することが、オブジェクトカウントの鍵であると考えている。 しかし,いくつかの主流ネットワークを検証した結果,厳密な画素レベルの空間不分散が密度マップ生成に過剰なノイズをもたらすことがわかった。 本稿では,局所連結型ガウス核を用いて元の畳み込みフィルタを置き換え,密度マップ内の空間的位置を推定する。 この目的は、特徴抽出プロセスが、アノテーションノイズを克服するために密度マップ生成プロセスを潜在的に刺激することである。 先行研究に触発されて, 大規模ガウス畳み込みの近似を好適に実装するために, 変換不変性を伴う低ランク近似を提案する。 本研究はフォローアップ研究の新たな方向性を指摘し,オブジェクトカウントのための過度に厳密なピクセルレベルの空間不変性を適切に緩和する方法を検討する。 本手法は,4つの主流オブジェクトカウントネットワーク(MCNN,CSRNet,SANet,ResNet-50)上で評価する。 3つのアプリケーション(群衆、車両、植物計数など)のための7つの人気のあるベンチマークで広範な実験が行われた。 実験の結果,本手法は他の最先端手法を著しく上回っており,対象物の空間的位置を有望に学習できることがわかった。

Previous work generally believes that improving the spatial invariance of convolutional networks is the key to object counting. However, after verifying several mainstream counting networks, we surprisingly found too strict pixel-level spatial invariance would cause overfit noise in the density map generation. In this paper, we try to use locally connected Gaussian kernels to replace the original convolution filter to estimate the spatial position in the density map. The purpose of this is to allow the feature extraction process to potentially stimulate the density map generation process to overcome the annotation noise. Inspired by previous work, we propose a low-rank approximation accompanied with translation invariance to favorably implement the approximation of massive Gaussian convolution. Our work points a new direction for follow-up research, which should investigate how to properly relax the overly strict pixel-level spatial invariance for object counting. We evaluate our methods on 4 mainstream object counting networks (i.e., MCNN, CSRNet, SANet, and ResNet-50). Extensive experiments were conducted on 7 popular benchmarks for 3 applications (i.e., crowd, vehicle, and plant counting). Experimental results show that our methods significantly outperform other state-of-the-art methods and achieve promising learning of the spatial position of objects.
翻訳日:2022-06-13 15:38:52 公開日:2022-06-10
# ドメイン一般化のための因果バランス

Causal Balancing for Domain Generalization ( http://arxiv.org/abs/2206.05263v1 )

ライセンス: Link先を確認
Xinyi Wang, Michael Saxon, Jiachen Li, Hongyang Zhang, Kun Zhang, William Yang Wang(参考訳) 機械学習モデルは様々な現実世界のタスクにおいて急速に最先端を推し進める一方、ドメイン外一般化(OOD)は、これらのモデルの脆弱性が相関関係を刺激することを考えると、難しい問題である。 現在のドメイン一般化法は、新しい損失関数設計により、異なるドメインにまたがる特定の不変特性を強制することに注力するが、観測されたトレーニング分布におけるドメイン固有のスプリアス相関を低減するために、バランスのとれたミニバッチサンプリング戦略を提案する。 具体的には,二相法を提案する。 1)スプリアス相関の発生源を特定し, 2) 同一ソースにマッチングすることで, 相関関係のないバランスの取れたミニバッチを構築する。 提案手法は,全てのトレーニング環境において,バランスの取れた,刺激のない分布から,有効にサンプルを採取可能であることを示す。 3つのコンピュータビジョンデータセットでスプリアス相関を文書化した実験を行い、バランスのとれたミニバッチサンプリング戦略が、ランダムなミニバッチサンプリング戦略と比較して、4つの異なる確立されたドメイン一般化モデルのベースラインのパフォーマンスを改善することを実証的に証明した。

While machine learning models rapidly advance the state-of-the-art on various real-world tasks, out-of-domain (OOD) generalization remains a challenging problem given the vulnerability of these models to spurious correlations. While current domain generalization methods usually focus on enforcing certain invariance properties across different domains by new loss function designs, we propose a balanced mini-batch sampling strategy to reduce the domain-specific spurious correlations in the observed training distributions. More specifically, we propose a two-phased method that 1) identifies the source of spurious correlations, and 2) builds balanced mini-batches free from spurious correlations by matching on the identified source. We provide an identifiability guarantee of the source of spuriousness and show that our proposed approach provably samples from a balanced, spurious-free distribution over all training environments. Experiments are conducted on three computer vision datasets with documented spurious correlations, demonstrating empirically that our balanced mini-batch sampling strategy improves the performance of four different established domain generalization model baselines compared to the random mini-batch sampling strategy.
翻訳日:2022-06-13 15:38:30 公開日:2022-06-10
# フェデレーションモーメントコントラストクラスタリング

Federated Momentum Contrastive Clustering ( http://arxiv.org/abs/2206.05093v1 )

ライセンス: Link先を確認
Runxuan Miao and Erdem Koyuncu(参考訳) 本研究では,分散局所データ上での識別表現を抽出するだけでなく,データクラスタリングを行う学習フレームワークであるfedmcc(federated momentum contrastive clustering)を提案する。 fedmccでは、変換されたデータペアがオンラインネットワークとターゲットネットワークの両方を通過し、損失が決定される4つの表現が生成される。 fedmccが生成する高品質表現は、線形評価や半教師付き学習タスクのための既存の自己教師付き学習手法を上回ることができる。 FedMCCは、モーメントコントラストクラスタリング(MCC)と呼ばれる方法で、通常の集中クラスタリングに容易に適用できます。 我々は,MSCがSTL-10やImageNet-10のような特定のデータセットにおいて,最先端のクラスタリング精度を実現することを示す。 また,クラスタ化方式のメモリフットプリントを削減する手法を提案する。

We present federated momentum contrastive clustering (FedMCC), a learning framework that can not only extract discriminative representations over distributed local data but also perform data clustering. In FedMCC, a transformed data pair passes through both the online and target networks, resulting in four representations over which the losses are determined. The resulting high-quality representations generated by FedMCC can outperform several existing self-supervised learning methods for linear evaluation and semi-supervised learning tasks. FedMCC can easily be adapted to ordinary centralized clustering through what we call momentum contrastive clustering (MCC). We show that MCC achieves state-of-the-art clustering accuracy results in certain datasets such as STL-10 and ImageNet-10. We also present a method to reduce the memory footprint of our clustering schemes.
翻訳日:2022-06-13 15:38:09 公開日:2022-06-10
# PAVI:プレート補正変分推論

PAVI: Plate-Amortized Variational Inference ( http://arxiv.org/abs/2206.05111v1 )

ライセンス: Link先を確認
Louis Rouillard (PARIETAL, Inria), Thomas Moreau (PARIETAL), Demian Wassermann (PARIETAL)(参考訳) いくつかの観測データと確率的生成モデルを考えると、ベイジアン推論は、データを得ることのできるモデルの潜在パラメータの分布を得ることを目的としている。 この課題は、数百の被験者からなるコホート上で何千もの測定が行われ、巨大な潜伏パラメータ空間をもたらす、大規模な集団研究にとって挑戦である。 この大きな濃度は、オフザシェルフ変分推論(VI)を計算的に非現実的である。 本研究では,大集団研究に効果的に取り組むことができる構造VIファミリーを設計する。 この目的のために、我々の主なアイデアは、モデルのプレートによって象徴される生成モデルにおける異なるi.i.d.変数のパラメータ化と学習を共有することである。 我々はこの概念をプレート・アモーティゼーション(英語版)と名付け、それが持つ強力なシナジーを描写し、その結果、大規模階層的変動分布を訓練するために、表現的、パロニカルにパラメータ化され、桁数が桁違いに速くなった。 我々は,100万の潜伏パラメータを特徴とする難解なニューロイメージングの例を通して,PAVIの実用性を説明し,スケーラブルで表現力のある変分推論に向けた重要なステップを示す。

Given some observed data and a probabilistic generative model, Bayesian inference aims at obtaining the distribution of a model's latent parameters that could have yielded the data. This task is challenging for large population studies where thousands of measurements are performed over a cohort of hundreds of subjects, resulting in a massive latent parameter space. This large cardinality renders off-the-shelf Variational Inference (VI) computationally impractical. In this work, we design structured VI families that can efficiently tackle large population studies. To this end, our main idea is to share the parameterization and learning across the different i.i.d. variables in a generative model -symbolized by the model's plates. We name this concept plate amortization, and illustrate the powerful synergies it entitles, resulting in expressive, parsimoniously parameterized and orders of magnitude faster to train large scale hierarchical variational distributions. We illustrate the practical utility of PAVI through a challenging Neuroimaging example featuring a million latent parameters, demonstrating a significant step towards scalable and expressive Variational Inference.
翻訳日:2022-06-13 15:37:57 公開日:2022-06-10
# 韓国の法律言語理解と判断予測のためのマルチタスクベンチマーク

A Multi-Task Benchmark for Korean Legal Language Understanding and Judgement Prediction ( http://arxiv.org/abs/2206.05224v1 )

ライセンス: Link先を確認
Wonseok Hwang, Dongjun Lee, Kyoungyeon Cho, Hanuhl Lee, Minjoon Seo(参考訳) ディープラーニングの最近の進歩は、機械学習、特に自然言語処理の領域において、法的領域に適用できる方法を大きく変えた。 しかし、このデータ駆動アプローチへの移行は、特に非英語言語では、より大きく、より多様なデータセットを必要とする。 本稿では,韓国法務aiデータセットの最初の大規模ベンチマークであるlbox openについて述べる。1つの法務コーパス,2つの分類タスク,2つの法務判断予測(ljp)タスク,1つの要約タスクで構成される。 この法定コーパスは150万件の韓国の先例(264万トークン)で構成されており、うち過去4年間に63万件、第1級および第2級の裁判所から96万件の判決が下されている。 2つの分類課題は事例名(10k)と個々の事例の事実記述による法令(3k)の予測である。 ljpの業務は、(1)モデルが与えられた事実に対して、罰金、禁固、無期懲役の予測を依頼された11k件の犯罪例と、(2)入力が事実であり、救済と出力の請求がクレーム受理の程度である5k件の民事例からなる。 要約作業は最高裁判所の判例とそれに対応する要約からなる。 また,本研究から,韓国初の法的コーパスを訓練した法律言語モデルであるLCubeもリリースした。 韓国の法律の独自性と、この研究がカバーする法的タスクの多様性を考えると、lbox openはグローバル法学研究の多言語性に寄与していると信じている。 LBox OpenとLCubeは一般公開される。

The recent advances of deep learning have dramatically changed how machine learning, especially in the domain of natural language processing, can be applied to legal domain. However, this shift to the data-driven approaches calls for larger and more diverse datasets, which are nevertheless still small in number, especially in non-English languages. Here we present the first large-scale benchmark of Korean legal AI datasets, LBox Open, that consists of one legal corpus, two classification tasks, two legal judgement prediction (LJP) tasks, and one summarization task. The legal corpus consists of 150k Korean precedents (264M tokens), of which 63k are sentenced in last 4 years and 96k are from the first and the second level courts in which factual issues are reviewed. The two classification tasks are case names (10k) and statutes (3k) prediction from the factual description of individual cases. The LJP tasks consist of (1) 11k criminal examples where the model is asked to predict fine amount, imprisonment with labor, and imprisonment without labor ranges for the given facts, and (2) 5k civil examples where the inputs are facts and claim for relief and outputs are the degrees of claim acceptance. The summarization task consists of the Supreme Court precedents and the corresponding summaries. We also release LCube, the first Korean legal language model trained on the legal corpus from this study. Given the uniqueness of the Law of South Korea and the diversity of the legal tasks covered in this work, we believe that LBox Open contributes to the multilinguality of global legal research. LBox Open and LCube will be publicly available.
翻訳日:2022-06-13 15:37:38 公開日:2022-06-10
# 識別属性による顔合成による不均一顔認識

Heterogeneous Face Recognition via Face Synthesis with Identity-Attribute Disentanglement ( http://arxiv.org/abs/2206.04854v1 )

ライセンス: Link先を確認
Ziming Yang, Jian Liang, Chaoyou Fu, Mandi Luo, Xiao-Yu Zhang(参考訳) Heterogeneous Face Recognition (HFR) は、認証や法医学のシナリオに広く応用されている、異なる領域(例えば近赤外線画像)にわたる顔のマッチングを目的としている。 しかし、HFRは、大きなドメイン間の相違、限られた異種データペア、および顔属性の大きなバリエーションのため、難しい問題である。 これらの課題に対処するため,FSIAD (Face Synthesis with Identity-Attribute Disentanglement) という異種データ拡張の観点から新しいHFR手法を提案する。 第一に、IAD(Identity-Atribute Disentanglement)は、顔画像をアイデンティティ関連表現とID非関連表現(属性と呼ばれる)に分解し、アイデンティティと属性の相関を減少させる。 次に, 顔合成モジュール (FSM) を考案し, 合成画像の属性の多様性を高めるために, 不整形アイデンティティと属性の確率的組み合わせによる多数の画像を生成する。 原画像と合成画像の両方を用いて、HFRネットワークをトレーニングし、課題に対処し、HFRの性能を向上させる。 5つのHFRデータベースに対する大規模な実験により、FSIADが従来のHFRアプローチよりも優れた性能を得ることを確認した。 特にFSIADは、これまで最大のHFRデータベースであるLAMP-HQでVR@FAR=0.01%で、最先端技術よりも4.8%改善されている。

Heterogeneous Face Recognition (HFR) aims to match faces across different domains (e.g., visible to near-infrared images), which has been widely applied in authentication and forensics scenarios. However, HFR is a challenging problem because of the large cross-domain discrepancy, limited heterogeneous data pairs, and large variation of facial attributes. To address these challenges, we propose a new HFR method from the perspective of heterogeneous data augmentation, named Face Synthesis with Identity-Attribute Disentanglement (FSIAD). Firstly, the identity-attribute disentanglement (IAD) decouples face images into identity-related representations and identity-unrelated representations (called attributes), and then decreases the correlation between identities and attributes. Secondly, we devise a face synthesis module (FSM) to generate a large number of images with stochastic combinations of disentangled identities and attributes for enriching the attribute diversity of synthetic images. Both the original images and the synthetic ones are utilized to train the HFR network for tackling the challenges and improving the performance of HFR. Extensive experiments on five HFR databases validate that FSIAD obtains superior performance than previous HFR approaches. Particularly, FSIAD obtains 4.8% improvement over state of the art in terms of VR@FAR=0.01% on LAMP-HQ, the largest HFR database so far.
翻訳日:2022-06-13 15:37:10 公開日:2022-06-10
# 顔認識精度の男女差は毛むくじゃらの問題だ

The Gender Gap in Face Recognition Accuracy Is a Hairy Problem ( http://arxiv.org/abs/2206.04867v1 )

ライセンス: Link先を確認
Aman Bhatta, V\'itor Albiero, Kevin W. Bowyer, Michael C. King(参考訳) 顔認識精度に「性差」があることは広く受け入れられており、女性は偽の一致率と偽の非一致率が高い。 しかし、この性差の原因については比較的知られていない。 人口統計効果に関する最近のnistレポートでさえ、"analyze cause and effect"を"what we didn not do"としてリストアップしている。 まず,男女の髪型には顔認識精度に影響を及ぼす重要な違いがあることを示す。 特に、雄の顔の毛は、雌と比較して、雄の顔の外観に平均的な違いをもたらす。 次に,認識精度を推定するために使用されるデータが性別間でバランスをとることによって,髪型が顔にどのような影響をもたらすかを示す。 この結果を2つの異なるマッチングで示し、白人とアフリカ系アメリカ人のイメージを分析した。 これらの結果から,今後の精度の変動に関する研究には,問題の定式化の一環として,テストデータのバランスの取れた品質のチェックを含めるべきであることが示唆された。 再現可能な研究を促進するため、この研究で使用されるマッチング、属性分類器、データセットは、一般に利用可能である。

It is broadly accepted that there is a "gender gap" in face recognition accuracy, with females having higher false match and false non-match rates. However, relatively little is known about the cause(s) of this gender gap. Even the recent NIST report on demographic effects lists "analyze cause and effect" under "what we did not do". We first demonstrate that female and male hairstyles have important differences that impact face recognition accuracy. In particular, compared to females, male facial hair contributes to creating a greater average difference in appearance between different male faces. We then demonstrate that when the data used to estimate recognition accuracy is balanced across gender for how hairstyles occlude the face, the initially observed gender gap in accuracy largely disappears. We show this result for two different matchers, and analyzing images of Caucasians and of African-Americans. These results suggest that future research on demographic variation in accuracy should include a check for balanced quality of the test data as part of the problem formulation. To promote reproducible research, matchers, attribute classifiers, and datasets used in this research are/will be publicly available.
翻訳日:2022-06-13 15:36:33 公開日:2022-06-10
# 画像マッチングの参照

Referring Image Matting ( http://arxiv.org/abs/2206.05149v1 )

ライセンス: Link先を確認
Jizhizi Li, Jing Zhang, Dacheng Tao(参考訳) 画像マッチングとは、画像の正確な前景を抽出することである。 現在の自動メソッドは、画像中のすべてのサルエントオブジェクトを無差別に抽出する傾向がある。 本稿では,与えられた自然言語記述に最もよく適合する特定の対象の簡潔なアルファマットを抽出する手法として,Referring Image Matting (RIM) というタスクを提案する。 しかし、一般的な視覚的接地法はすべてセグメンテーションレベルに限定されており、おそらくRIMの高品質なデータセットが不足しているためだろう。 このギャップを埋めるために, 汎用的な画像合成・表現生成エンジンを設計, フレキシブルな論理と再ラベル付き多種多様な属性を用いた現在の高品質なマットリング前景の上に合成画像を生成することで, 大規模に挑戦するデータセットrefmatteを確立する。 RefMatteは230のオブジェクトカテゴリ、47,500の画像、118,749の表現領域エンティティ、および474,996の式で構成されており、将来的にさらに拡張できる。 さらに,100個の自然画像からなる手動で生成したフレーズアノテーションを用いた実世界のテストセットを構築し,RIMモデルの一般化をさらに評価する。 まず、RIMのタスクをプロンプトベースと表現ベースという2つの設定で定義し、その後、画像マッチングのための特定のモデル設計とともにいくつかの代表的なメソッドをベンチマークする。 その結果、既存のメソッドの制限と可能なソリューションに対する経験的洞察が得られます。 新しいタスクrimとrefmatteデータセットは、この分野に新たな研究方向を開き、今後の研究を促進するだろうと考えています。 データセットとコードはhttps://github.com/JizhiziLi/RIMで公開される。

Image matting refers to extracting the accurate foregrounds in the image. Current automatic methods tend to extract all the salient objects in the image indiscriminately. In this paper, we propose a new task named Referring Image Matting (RIM), referring to extracting the meticulous alpha matte of the specific object that can best match the given natural language description. However, prevalent visual grounding methods are all limited to the segmentation level, probably due to the lack of high-quality datasets for RIM. To fill the gap, we establish the first large-scale challenging dataset RefMatte by designing a comprehensive image composition and expression generation engine to produce synthetic images on top of current public high-quality matting foregrounds with flexible logics and re-labelled diverse attributes. RefMatte consists of 230 object categories, 47,500 images, 118,749 expression-region entities, and 474,996 expressions, which can be further extended easily in the future. Besides this, we also construct a real-world test set with manually generated phrase annotations consisting of 100 natural images to further evaluate the generalization of RIM models. We first define the task of RIM in two settings, i.e., prompt-based and expression-based, and then benchmark several representative methods together with specific model designs for image matting. The results provide empirical insights into the limitations of existing methods as well as possible solutions. We believe the new task RIM along with the RefMatte dataset will open new research directions in this area and facilitate future studies. The dataset and code will be made publicly available at https://github.com/JizhiziLi/RIM.
翻訳日:2022-06-13 15:36:00 公開日:2022-06-10
# 連続潜時空間におけるコントラスト係数を用いた画像分類器の解説

Explaining Image Classifiers Using Contrastive Counterfactuals in Generative Latent Spaces ( http://arxiv.org/abs/2206.05257v1 )

ライセンス: Link先を確認
Kamran Alipour, Aditya Lahiri, Ehsan Adeli, Babak Salimi, Michael Pazzani(参考訳) 高い精度にもかかわらず、現代の複雑な画像分類器は、未知の意思決定プロセスと潜在的なバイアスのため、機密性の高いタスクには信頼できない。 反事実的説明は、これらのブラックボックスアルゴリズムの透明性を提供するのに非常に効果的である。 それでも、分類器出力に一貫した影響を及ぼし、解釈可能な機能変更を公開できる反ファクト生成は非常に難しい作業です。 本稿では,事前学習した生成モデルを用いた画像分類器の因果的かつ解釈可能な反事実的説明を生成する手法を提案する。 この手法における生成モデルは、ターゲット分類器と同じデータで訓練されることに縛られない。 我々はこの枠組みを用いて,ブラックボックス分類器のグローバルな説明として,コントラスト的かつ因果的満足度と必要性スコアを得る。 顔属性分類の課題では、因果的特徴属性と対比的特徴属性とそれに対応する対物画像の両方を提供することにより、異なる属性が分類器出力にどのように影響するかを示す。

Despite their high accuracies, modern complex image classifiers cannot be trusted for sensitive tasks due to their unknown decision-making process and potential biases. Counterfactual explanations are very effective in providing transparency for these black-box algorithms. Nevertheless, generating counterfactuals that can have a consistent impact on classifier outputs and yet expose interpretable feature changes is a very challenging task. We introduce a novel method to generate causal and yet interpretable counterfactual explanations for image classifiers using pretrained generative models without any re-training or conditioning. The generative models in this technique are not bound to be trained on the same data as the target classifier. We use this framework to obtain contrastive and causal sufficiency and necessity scores as global explanations for black-box classifiers. On the task of face attribute classification, we show how different attributes influence the classifier output by providing both causal and contrastive feature attributions, and the corresponding counterfactual images.
翻訳日:2022-06-13 15:35:30 公開日:2022-06-10
# トレーニングデータへのアクセス不要なニューラルネットワークの説明

Explaining Neural Networks without Access to Training Data ( http://arxiv.org/abs/2206.04891v1 )

ライセンス: Link先を確認
Sascha Marton, Stefan L\"udtke, Christian Bartelt, Andrej Tschalzev, Heiner Stuckenschmidt(参考訳) ネットワークのトレーニングデータがアクセスできない場合、例えばプライバシーや安全性の問題により、ニューラルネットワークの説明を生成することを検討する。 最近、$\mathcal{i}$-nets はトレーニングデータへのアクセスを必要としないグローバルモデル解釈可能性に対するサンプルフリーなアプローチとして提案されている。 彼らは、ネットワーク表現(パラメータ)を解釈可能な関数の表現にマッピングする機械学習タスクとして解釈を定式化する。 本稿では,$\mathcal{i}$-net フレームワークを標準決定木およびソフト決定木をサロゲートモデルとして拡張する。 本稿では,対応する$\mathcal{I}$-Net出力層の適切な決定木表現と設計を提案する。 さらに,$\mathcal{I}$-Net のトレーニングデータを生成する際に,より現実的な分布を考慮し,実世界のタスクに $\mathcal{I}$-Net を適用する。 従来のグローバルかつポストホックな解釈可能性アプローチに対するアプローチを実証的に評価し,トレーニングデータにアクセスできない場合に優れた結果が得られることを示す。

We consider generating explanations for neural networks in cases where the network's training data is not accessible, for instance due to privacy or safety issues. Recently, $\mathcal{I}$-Nets have been proposed as a sample-free approach to post-hoc, global model interpretability that does not require access to training data. They formulate interpretation as a machine learning task that maps network representations (parameters) to a representation of an interpretable function. In this paper, we extend the $\mathcal{I}$-Net framework to the cases of standard and soft decision trees as surrogate models. We propose a suitable decision tree representation and design of the corresponding $\mathcal{I}$-Net output layers. Furthermore, we make $\mathcal{I}$-Nets applicable to real-world tasks by considering more realistic distributions when generating the $\mathcal{I}$-Net's training data. We empirically evaluate our approach against traditional global, post-hoc interpretability approaches and show that it achieves superior results when the training data is not accessible.
翻訳日:2022-06-13 15:32:41 公開日:2022-06-10
# NAGphormer: 大規模グラフにおけるノード分類のための周辺アグリゲーショングラフ変換器

NAGphormer: Neighborhood Aggregation Graph Transformer for Node Classification in Large Graphs ( http://arxiv.org/abs/2206.04910v1 )

ライセンス: Link先を確認
Jinsong Chen, Kaiyuan Gao, Gaichao Li, Kun He(参考訳) グラフ変換器は近年,様々なグラフ学習タスクにおいて優位性を示している。 しかし、既存のグラフトランスフォーマーの複雑さはノード数と2次的にスケールするので、数千ノードのグラフにスケールするのは困難である。 そこで我々は,数百万のノードを持つ大規模グラフに対してスケーラブルなNAGphormer(Neighborhood Aggregation Graph Transformer)を提案する。 ノード機能をTransformerモデルに入力する前に、NAGphormerはHop2Tokenと呼ばれる近隣アグリゲーションモジュールによって各ノードのトークンを構成する。 各ノードに対してHop2Tokenは、各ホップの近傍の特徴を表現に集約し、トークンベクトルのシーケンスを生成する。 その後、結果の異なるホップ情報のシーケンスがトランスフォーマーモデルへの入力となる。 各ノードをシーケンスとして考えることで、nagphormerはミニバッチ方式でトレーニングできるため、大きなグラフにスケールできる。 nagphormerはさらに注意に基づく読み出し機能を開発し、各ホップの重要性を適応的に学習する。 6つの小さなデータセットと3つの大きなデータセットを含む、さまざまな人気のあるベンチマークで広範な実験を行います。 その結果、NAGphormerは既存のGraph TransformerやメインストリームのGraph Neural Networksよりも一貫して優れていた。

Graph Transformers have demonstrated superiority on various graph learning tasks in recent years. However, the complexity of existing Graph Transformers scales quadratically with the number of nodes, making it hard to scale to graphs with thousands of nodes. To this end, we propose a Neighborhood Aggregation Graph Transformer (NAGphormer) that is scalable to large graphs with millions of nodes. Before feeding the node features into the Transformer model, NAGphormer constructs tokens for each node by a neighborhood aggregation module called Hop2Token. For each node, Hop2Token aggregates neighborhood features from each hop into a representation, and thereby produces a sequence of token vectors. Subsequently, the resulting sequence of different hop information serves as input to the Transformer model. By considering each node as a sequence, NAGphormer could be trained in a mini-batch manner and thus could scale to large graphs. NAGphormer further develops an attention-based readout function so as to learn the importance of each hop adaptively. We conduct extensive experiments on various popular benchmarks, including six small datasets and three large datasets. The results demonstrate that NAGphormer consistently outperforms existing Graph Transformers and mainstream Graph Neural Networks.
翻訳日:2022-06-13 15:32:24 公開日:2022-06-10
# 生成モデルを用いた微分同相反事実

Diffeomorphic Counterfactuals with Generative Models ( http://arxiv.org/abs/2206.05075v1 )

ライセンス: Link先を確認
Ann-Kathrin Dombrowski, Jan E. Gerken, Klaus-Robert M\"uller, Pan Kessel(参考訳) counterfactualsは、人間の解釈可能な方法でニューラルネットワークの分類決定を説明することができる。 このような反事実を生成するための単純だが効果的な方法を提案する。 より具体的には、適切な微分同相座標変換を行い、次にこれらの座標の勾配上昇を行い、特定の対象クラスとして非常に信頼度の高い反事実を見つける。 生成モデルを利用して、正確にあるいはほぼ微分同型な適切な座標系を構築する2つの方法を提案する。 理論的にはリーマン微分幾何を用いて生成過程を解析し、様々な定性的および定量的尺度を用いて生成した反事実の質を検証する。

Counterfactuals can explain classification decisions of neural networks in a human interpretable way. We propose a simple but effective method to generate such counterfactuals. More specifically, we perform a suitable diffeomorphic coordinate transformation and then perform gradient ascent in these coordinates to find counterfactuals which are classified with great confidence as a specified target class. We propose two methods to leverage generative models to construct such suitable coordinate systems that are either exactly or approximately diffeomorphic. We analyze the generation process theoretically using Riemannian differential geometry and validate the quality of the generated counterfactuals using various qualitative and quantitative measures.
翻訳日:2022-06-13 15:32:04 公開日:2022-06-10
# 最大エントロピーに基づくハイブリッドアクション空間を用いた深層マルチエージェント強化学習

Deep Multi-Agent Reinforcement Learning with Hybrid Action Spaces based on Maximum Entropy ( http://arxiv.org/abs/2206.05108v1 )

ライセンス: Link先を確認
Hongzhi Hua, Kaigui Wu and Guixuan Wen(参考訳) マルチエージェント深層強化学習は、離散的あるいは連続的な行動空間を持つ様々な複雑な問題に対処するために応用され、大きな成功を収めた。 しかし、ほとんどの実世界環境は離散作用空間や連続作用空間だけでは記述できない。 また、ハイブリッドアクション空間におけるマルチエージェント問題に深層強化学習(drl)を利用した研究はほとんどない。 そこで我々は,このギャップを埋めるために,Deep Multi-Agent Hybrid Soft Actor-Critic (MAHSAC)を提案する。 このアルゴリズムは、集中的なトレーニングと分散実行(CTDE)のパラダイムに従っており、最大エントロピーに基づくマルチエージェント環境におけるハイブリッドアクション空間問題を処理するために、ソフトアクター・クリティカルアルゴリズム(SAC)を拡張している。 私たちの経験は、基本的なシミュレーション物理とともに、連続的な観察と離散的なアクション空間を備えた、簡単なマルチエージェント粒子の世界で実行されています。 実験の結果,MAHSACはトレーニング速度,安定性,対干渉能力に優れていた。 同時に、協調シナリオや競争シナリオにおいて、既存の独立したディープハイブリッド学習手法よりも優れています。

Multi-agent deep reinforcement learning has been applied to address a variety of complex problems with either discrete or continuous action spaces and achieved great success. However, most real-world environments cannot be described by only discrete action spaces or only continuous action spaces. And there are few works having ever utilized deep reinforcement learning (drl) to multi-agent problems with hybrid action spaces. Therefore, we propose a novel algorithm: Deep Multi-Agent Hybrid Soft Actor-Critic (MAHSAC) to fill this gap. This algorithm follows the centralized training but decentralized execution (CTDE) paradigm, and extend the Soft Actor-Critic algorithm (SAC) to handle hybrid action space problems in Multi-Agent environments based on maximum entropy. Our experiences are running on an easy multi-agent particle world with a continuous observation and discrete action space, along with some basic simulated physics. The experimental results show that MAHSAC has good performance in training speed, stability, and anti-interference ability. At the same time, it outperforms existing independent deep hybrid learning method in cooperative scenarios and competitive scenarios.
翻訳日:2022-06-13 15:31:55 公開日:2022-06-10
# 制御変数を用いた多元性強化学習

Multifidelity Reinforcement Learning with Control Variates ( http://arxiv.org/abs/2206.05165v1 )

ライセンス: Link先を確認
Sami Khairy, Prasanna Balaprakash(参考訳) 多くの計算科学や工学の応用において、与えられた入力に対応する関心のシステムの出力は異なるレベルの忠実度で異なるコストで照会することができる。 通常、低忠実度データは安価で豊富であるが、高忠実度データは高価で不足している。 本研究では,与えられた制御タスクに対して異なるレベルの忠実度を有する複数の環境が存在する場合の強化学習(rl)問題について検討する。 我々は,マルチフィデリティデータを用いたrlエージェントの性能向上に注目する。 具体的には、状態動作値関数の推定のばらつきを減少させるために、低忠実度と高忠実度リターンの相互相関を利用するマルチ忠実度推定器を提案する。 提案手法は多元性モンテカルロrl(mfmcrl)アルゴリズムの設計に用いられ,高忠実性環境におけるエージェントの学習を改善する。 変動低減が政策評価および政策改善に与える影響を確率境界を用いて理論的に分析する。 理論解析と数値実験により,高忠実度データサンプルの有限予算において,提案するmfmcrlエージェントは,高忠実度環境データのみを用いた標準rlエージェントよりも優れた性能が得られることを示した。

In many computational science and engineering applications, the output of a system of interest corresponding to a given input can be queried at different levels of fidelity with different costs. Typically, low-fidelity data is cheap and abundant, while high-fidelity data is expensive and scarce. In this work we study the reinforcement learning (RL) problem in the presence of multiple environments with different levels of fidelity for a given control task. We focus on improving the RL agent's performance with multifidelity data. Specifically, a multifidelity estimator that exploits the cross-correlations between the low- and high-fidelity returns is proposed to reduce the variance in the estimation of the state-action value function. The proposed estimator, which is based on the method of control variates, is used to design a multifidelity Monte Carlo RL (MFMCRL) algorithm that improves the learning of the agent in the high-fidelity environment. The impacts of variance reduction on policy evaluation and policy improvement are theoretically analyzed by using probability bounds. Our theoretical analysis and numerical experiments demonstrate that for a finite budget of high-fidelity data samples, our proposed MFMCRL agent attains superior performance compared with that of a standard RL agent that uses only the high-fidelity environment data for learning the optimal policy.
翻訳日:2022-06-13 15:31:37 公開日:2022-06-10
# 次元の縮小とクラスタリングを組み合わせたガウスの階層的混合

Hierarchical mixtures of Gaussians for combined dimensionality reduction and clustering ( http://arxiv.org/abs/2206.04841v1 )

ライセンス: Link先を確認
Sacha Sokoloski, Philipp Berens(参考訳) 次元の呪いを避けるために、高次元データをクラスタリングする一般的なアプローチは、まずデータを縮小次元の空間に投影し、次に投影されたデータをクラスタ化する。 この2段階のアプローチは有効ではあるが、次元の縮小とクラスタリングモデルの共同最適化を防ぎ、完全なモデルがそのデータをいかにうまく記述するかを曖昧にする。 ここでは、そのような2段階モデルの族が、ガウスの階層混合(HMoG)と呼ばれる単一の階層モデルにどのように結合できるかを示す。 HMoGは次元縮小とクラスタリングの両方を同時に捕捉し、その性能は確率関数によって閉形式で定量化される。 指数族理論で既存のモデルを定式化し拡張することにより、期待最大化で HMoG の確率を最大化する方法を示す。 HMoGを合成データおよびRNAシークエンシングデータに適用し、2段階モデルの限界を超える方法を示す。 究極的には、HMoGは共通の統計フレームワークの厳密な一般化であり、高次元データをクラスタリングする際のモデル性能を改善する方法を提供する。

To avoid the curse of dimensionality, a common approach to clustering high-dimensional data is to first project the data into a space of reduced dimension, and then cluster the projected data. Although effective, this two-stage approach prevents joint optimization of the dimensionality-reduction and clustering models, and obscures how well the complete model describes the data. Here, we show how a family of such two-stage models can be combined into a single, hierarchical model that we call a hierarchical mixture of Gaussians (HMoG). An HMoG simultaneously captures both dimensionality-reduction and clustering, and its performance is quantified in closed-form by the likelihood function. By formulating and extending existing models with exponential family theory, we show how to maximize the likelihood of HMoGs with expectation-maximization. We apply HMoGs to synthetic data and RNA sequencing data, and demonstrate how they exceed the limitations of two-stage models. Ultimately, HMoGs are a rigorous generalization of a common statistical framework, and provide researchers with a method to improve model performance when clustering high-dimensional data.
翻訳日:2022-06-13 15:29:42 公開日:2022-06-10
# マルコフ決定過程軌跡の共形予測間隔

Conformal Prediction Intervals for Markov Decision Process Trajectories ( http://arxiv.org/abs/2206.04860v1 )

ライセンス: Link先を確認
Thomas G. Dietterich, Jesse Hostetler(参考訳) タスクを自律システムに委譲する前に、人間のオペレータはシステムの振る舞いに関する保証を求めるかもしれない。 本稿では, マルコフ決定過程 (mdp) における定型制御ポリシーを実行する自律システムの将来の行動に関する定形予測間隔を提供するため, 関数データと定形分位回帰の共形予測に関する先行研究を拡張した。 予測間隔は、分位回帰によって計算された予測間隔に共形補正を適用することによって構成される。 結果として得られた区間は、確率1-\delta$で観測された軌道が予測区間内にあることを保証し、確率は、開始状態分布とMDPの確率性に関して計算される。 この手法はmdpで侵入種管理とstarcraft2の戦闘のために示されている。

Before delegating a task to an autonomous system, a human operator may want a guarantee about the behavior of the system. This paper extends previous work on conformal prediction for functional data and conformalized quantile regression to provide conformal prediction intervals over the future behavior of an autonomous system executing a fixed control policy on a Markov Decision Process (MDP). The prediction intervals are constructed by applying conformal corrections to prediction intervals computed by quantile regression. The resulting intervals guarantee that with probability $1-\delta$ the observed trajectory will lie inside the prediction interval, where the probability is computed with respect to the starting state distribution and the stochasticity of the MDP. The method is illustrated on MDPs for invasive species management and StarCraft2 battles.
翻訳日:2022-06-13 15:29:22 公開日:2022-06-10
# 決定論的欠落データパターンを用いたスパーシティリカバリの証明可能保証

Provable Guarantees for Sparsity Recovery with Deterministic Missing Data Patterns ( http://arxiv.org/abs/2206.04893v1 )

ライセンス: Link先を確認
Chuyang Ke, Jean Honorio(参考訳) ラッソを用いた決定論的欠落データパターンによる相関観測から回帰パラメータベクトルの空間パターンを連続的に復元する問題について検討する。 観測されたデータセットが決定論的非一様フィルタによって検閲される場合を考える。 決定論的欠落構造を持つデータセットのスパーシティパターンの回復は、一様かつランダムなシナリオで回復するよりも、間違いなく難しい。 本稿では,検閲フィルタのトポロジ特性を利用して,効率の良い値計算アルゴリズムを提案する。 次に,提案するインプテーション戦略を用いて,スパーシティパターンの正確な回復のための新しい理論的結果を与える。 統計的, 位相的条件下では, 隠れ空間パターンは多項式時間と対数的サンプルの複雑性の高い確率で連続的に復元可能であることを示す。

We study the problem of consistently recovering the sparsity pattern of a regression parameter vector from correlated observations governed by deterministic missing data patterns using Lasso. We consider the case in which the observed dataset is censored by a deterministic, non-uniform filter. Recovering the sparsity pattern in datasets with deterministic missing structure can be arguably more challenging than recovering in a uniformly-at-random scenario. In this paper, we propose an efficient algorithm for missing value imputation by utilizing the topological property of the censorship filter. We then provide novel theoretical results for exact recovery of the sparsity pattern using the proposed imputation strategy. Our analysis shows that, under certain statistical and topological conditions, the hidden sparsity pattern can be recovered consistently with high probability in polynomial time and logarithmic sample complexity.
翻訳日:2022-06-13 15:29:09 公開日:2022-06-10
# いくらで十分か? スコアベース生成モデルにおける拡散時間の検討

How Much is Enough? A Study on Diffusion Times in Score-based Generative Models ( http://arxiv.org/abs/2206.05173v1 )

ライセンス: Link先を確認
Giulio Franzese and Simone Rossi and Lixuan Yang and Alessandro Finamore and Dario Rossi and Maurizio Filippone and Pietro Michiardi(参考訳) スコアベース拡散モデルは、ノイズをデータにマッピングする確率微分方程式によって力学を記述する生成モデルのクラスである。 最近の研究はこれらのモデルの理論的基礎を築き始めているが、拡散時間Tの役割に関する分析的な理解はいまだに欠けている。 現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近い拡散をもたらすことを保証するために大きなTを提唱しているが、スコアマッチングの目的とより高い計算効率の近似のためには、より小さなTの方が好ましい。 そこで本研究では,拡散モデルの変分解釈から,このトレードオフを定量化し,より小さな拡散時間を用いることで,トレーニングとサンプリングの両方の品質と効率を向上させる新しい手法を提案する。 実際、理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルがどのように使われるかを示し、次に標準的な逆拡散過程を示す。 画像データについては,標準的なサンプル品質指標とログライクな結果から,最先端技術と競合する手法である。

Score-based diffusion models are a class of generative models whose dynamics is described by stochastic differential equations that map noise into data. While recent works have started to lay down a theoretical foundation for these models, an analytical understanding of the role of the diffusion time T is still lacking. Current best practice advocates for a large T to ensure that the forward dynamics brings the diffusion sufficiently close to a known and simple noise distribution; however, a smaller value of T should be preferred for a better approximation of the score-matching objective and higher computational efficiency. Starting from a variational interpretation of diffusion models, in this work we quantify this trade-off, and suggest a new method to improve quality and efficiency of both training and sampling, by adopting smaller diffusion times. Indeed, we show how an auxiliary model can be used to bridge the gap between the ideal and the simulated forward dynamics, followed by a standard reverse diffusion process. Empirical results support our analysis; for image data, our method is competitive w.r.t. the state-of-the-art, according to standard sample quality metrics and log-likelihood.
翻訳日:2022-06-13 15:28:56 公開日:2022-06-10
# シーンと知識グラフを用いたシンボル画像検出

Symbolic image detection using scene and knowledge graphs ( http://arxiv.org/abs/2206.04863v1 )

ライセンス: Link先を確認
Nasrin Kalanat and Adriana Kovashka(参考訳) イメージによって伝達される意味は、それらが含むオブジェクトのリストを超えることもあるが、代わりに、画像は視聴者の心に影響を与える強力なメッセージを表現することがある。 このメッセージを推測するには、オブジェクト間の関係やコンポーネントに関する一般的な常識知識に関する推論が必要である。 本稿では,画像のグラフ表現であるシーングラフを用いて視覚成分をキャプチャする。 さらに,ConceptNetから抽出した事実を用いて知識グラフを生成し,オブジェクトや属性を推論する。 シンボルを検出するために,SKG-Symというニューラルネットワークフレームワークを提案する。 このフレームワークはまず、画像のシーングラフとそのナレッジグラフの表現をグラフ畳み込みネットワークを用いて生成する。 その後、フレームワークは表現を融合させ、MDPを使用してそれらを分類する。 さらにネットワークを拡張して,グラフ表現の重要性を学習するアテンション機構を利用する。 本手法を広告のデータセット上で評価し,ベースラインシンボル分類法(resnet,vgg)と比較する。 その結果,本手法はFスコアにおいてResNetよりも優れており,注意に基づくメカニズムはVGGと競合するが,モデル複雑性ははるかに低い。

Sometimes the meaning conveyed by images goes beyond the list of objects they contain; instead, images may express a powerful message to affect the viewers' minds. Inferring this message requires reasoning about the relationships between the objects, and general common-sense knowledge about the components. In this paper, we use a scene graph, a graph representation of an image, to capture visual components. In addition, we generate a knowledge graph using facts extracted from ConceptNet to reason about objects and attributes. To detect the symbols, we propose a neural network framework named SKG-Sym. The framework first generates the representations of the scene graph of the image and its knowledge graph using Graph Convolution Network. The framework then fuses the representations and uses an MLP to classify them. We extend the network further to use an attention mechanism which learn the importance of the graph representations. We evaluate our methods on a dataset of advertisements, and compare it with baseline symbolism classification methods (ResNet and VGG). Results show that our methods outperform ResNet in terms of F-score and the attention-based mechanism is competitive with VGG while it has much lower model complexity.
翻訳日:2022-06-13 15:28:17 公開日:2022-06-10
# Out of Sight, Out of Mind:マルチビュー画像ベースレンダリングのためのソースビューワイズ機能アグリゲーション

Out of Sight, Out of Mind: A Source-View-Wise Feature Aggregation for Multi-View Image-Based Rendering ( http://arxiv.org/abs/2206.04906v1 )

ライセンス: Link先を確認
Geonho Cha, Chaehun Shin, Sungroh Yoon, Dongyoon Wee(参考訳) 多視点画像ベースレンダリングにおける3次元点の体積密度と色を推定するために、推定手順における情報的手がかりの一つである所定のソース画像特徴間のコンセンサスの存在を検査することが一般的である。 この目的のために、以前の方法の多くは等しく重み付けされた集約機能を使用する。 しかし、これが原因画像の特徴セットにしばしば生じる異常値が含まれている場合、コンセンサスの存在を確認するのが難しくなる可能性がある。 本稿では,特徴集合内の局所構造を活用することで,コンセンサスを堅牢な方法で把握することのできる,新たなソースビューワイドな特徴集約手法を提案する。 まず,提案したアグリゲーションに対して,各ソース特徴に対するソースビューワイド距離分布を計算する。 その後、距離分布は、学習可能な類似度マッピング関数を持つ複数の類似度分布に変換される。 最後に、特徴集合の各要素について、類似度分布から重みが導出される重み付き手段とばらつきを算出して集約特徴を抽出する。 実験では,合成および実画像シーンを含む様々なベンチマークデータセットで提案手法を検証する。 実験の結果,提案手法を組み込むことで性能が大幅に向上し,最新の性能が得られた。

To estimate the volume density and color of a 3D point in the multi-view image-based rendering, a common approach is to inspect the consensus existence among the given source image features, which is one of the informative cues for the estimation procedure. To this end, most of the previous methods utilize equally-weighted aggregation features. However, this could make it hard to check the consensus existence when some outliers, which frequently occur by occlusions, are included in the source image feature set. In this paper, we propose a novel source-view-wise feature aggregation method, which facilitates us to find out the consensus in a robust way by leveraging local structures in the feature set. We first calculate the source-view-wise distance distribution for each source feature for the proposed aggregation. After that, the distance distribution is converted to several similarity distributions with the proposed learnable similarity mapping functions. Finally, for each element in the feature set, the aggregation features are extracted by calculating the weighted means and variances, where the weights are derived from the similarity distributions. In experiments, we validate the proposed method on various benchmark datasets, including synthetic and real image scenes. The experimental results demonstrate that incorporating the proposed features improves the performance by a large margin, resulting in the state-of-the-art performance.
翻訳日:2022-06-13 15:28:02 公開日:2022-06-10
# サンプル制約付き深層多視点半教師付きクラスタリング

Deep Multi-view Semi-supervised Clustering with Sample Pairwise Constraints ( http://arxiv.org/abs/2206.04949v1 )

ライセンス: Link先を確認
Rui Chen, Yongqiang Tang, Wensheng Zhang, Wenlong Feng(参考訳) マルチビュークラスタリングは、マルチソース情報統合の能力により、多くの注目を集めている。 過去数十年間、数多くの高度な手法が提案されてきたが、たいていの場合、弱い教師付き情報の重要性を見落とし、複数のビューの特徴の保存に失敗したため、クラスタ化性能が不十分になった。 そこで,本稿では,マルチビュークラスタリングの損失,半教師付きペアワイズ制約損失,マルチオートエンコーダの再構成損失など,ネットワークの微調整時の3種類の損失を共同で最適化する,新しい深層マルチビューセミスーパーバイザクラスタリング(dmsc)手法を提案する。 具体的には、KL分散に基づくマルチビュークラスタリング損失を多ビューデータの共通表現に課し、不均一な特徴最適化、マルチビュー重み付け、クラスタリング予測を同時に行う。 そこで我々は,マルチビュークラスタリングのプロセスにペアワイズ制約を組み込むことを革新的に提案し,学習したマスタリンクサンプル(カンノリンクサンプル)のマルチビュー表現を類似(異種)にすることで,クラスタリングアーキテクチャがより信頼性の高いものにすることを提案する。 さらに、ネットワークの微調整中に各分岐のエンコーダのみを保持する既存のライバルとは異なり、エンコーダとデコーダの両方を含む無傷オートエンコーダフレームのチューニングも提案する。 このようにして、ビュー特化およびビュー共有機能空間の深刻な破損の問題が軽減され、トレーニング全体の安定性が向上する。 8つの人気のある画像データセットに関する総合的な実験を通して、提案手法が最先端のマルチビューやシングルビューの競合より優れていることを示す。

Multi-view clustering has attracted much attention thanks to the capacity of multi-source information integration. Although numerous advanced methods have been proposed in past decades, most of them generally overlook the significance of weakly-supervised information and fail to preserve the feature properties of multiple views, thus resulting in unsatisfactory clustering performance. To address these issues, in this paper, we propose a novel Deep Multi-view Semi-supervised Clustering (DMSC) method, which jointly optimizes three kinds of losses during networks finetuning, including multi-view clustering loss, semi-supervised pairwise constraint loss and multiple autoencoders reconstruction loss. Specifically, a KL divergence based multi-view clustering loss is imposed on the common representation of multi-view data to perform heterogeneous feature optimization, multi-view weighting and clustering prediction simultaneously. Then, we innovatively propose to integrate pairwise constraints into the process of multi-view clustering by enforcing the learned multi-view representation of must-link samples (cannot-link samples) to be similar (dissimilar), such that the formed clustering architecture can be more credible. Moreover, unlike existing rivals that only preserve the encoders for each heterogeneous branch during networks finetuning, we further propose to tune the intact autoencoders frame that contains both encoders and decoders. In this way, the issue of serious corruption of view-specific and view-shared feature space could be alleviated, making the whole training procedure more stable. Through comprehensive experiments on eight popular image datasets, we demonstrate that our proposed approach performs better than the state-of-the-art multi-view and single-view competitors.
翻訳日:2022-06-13 15:26:49 公開日:2022-06-10
# 撮影時間帯記録のための画像処理パイプライン

An Image Processing Pipeline for Camera Trap Time-Lapse Recordings ( http://arxiv.org/abs/2206.05159v1 )

ライセンス: Link先を確認
Michael L. Hilton, Mark T. Yamane, Leah M. Knezevich(参考訳) カメラトラップタイムラプス記録を分析するための新しいオープンソースの画像処理パイプラインについて述べる。 このパイプラインには、人間のループビデオセグメンテーションと動物の再識別を支援する機械学習モデルが含まれている。 本研究は,gopher tortoiseの空間生態と社会行動に関する1年間のプロジェクトにおいて,これを用いたパイプラインの有用性について検討した。

A new open-source image processing pipeline for analyzing camera trap time-lapse recordings is described. This pipeline includes machine learning models to assist human-in-the-loop video segmentation and animal re-identification. We present some performance results and observations on the utility of this pipeline after using it in a year-long project studying the spatial ecology and social behavior of the gopher tortoise.
翻訳日:2022-06-13 15:26:21 公開日:2022-06-10
# 深層モデルの空間を学ぶ

Learning the Space of Deep Models ( http://arxiv.org/abs/2206.05194v1 )

ライセンス: Link先を確認
Gianluca Berardi, Luca De Luigi, Samuele Salti, Luigi Di Stefano(参考訳) 画像やテキストといった大規模で冗長なデータを低次元空間の階層に埋め込むことは、表現学習アプローチの重要な特徴の1つであり、かつては解決が困難あるいは不可能と考えられていた問題に対して最先端のソリューションを提供する。 この研究では、強力なメタ後味のあるプロットのツイストにおいて、訓練された深層モデルが処理に最適化されたデータと同じくらい冗長であること、そして、深層学習モデルを使用して深層学習モデルを組み込む方法を示す。 特に、表現学習を用いて訓練された深層モデルの固定サイズの低次元埋め込み空間を学習することができ、そのような空間を補間や最適化によって探索して使用可能なモデルが得られることを示す。 同一アーキテクチャの複数のインスタンスと複数のアーキテクチャの埋め込み空間を学習できることが分かっています。 我々は,信号のイメージ分類とニューラル表現に対処し,その埋め込み空間を,それぞれの性能と3次元形状の概念を捉えるために学習する方法を示す。 マルチアーキテクチャの設定では、アーキテクチャのサブセットのみにトレーニングされた組込みが、トレーニング時にインスタンス化されない、すでにトレーニング済みのアーキテクチャのインスタンスを生成する方法も示しています。

Embedding of large but redundant data, such as images or text, in a hierarchy of lower-dimensional spaces is one of the key features of representation learning approaches, which nowadays provide state-of-the-art solutions to problems once believed hard or impossible to solve. In this work, in a plot twist with a strong meta aftertaste, we show how trained deep models are as redundant as the data they are optimized to process, and how it is therefore possible to use deep learning models to embed deep learning models. In particular, we show that it is possible to use representation learning to learn a fixed-size, low-dimensional embedding space of trained deep models and that such space can be explored by interpolation or optimization to attain ready-to-use models. We find that it is possible to learn an embedding space of multiple instances of the same architecture and of multiple architectures. We address image classification and neural representation of signals, showing how our embedding space can be learnt so as to capture the notions of performance and 3D shape, respectively. In the Multi-Architecture setting we also show how an embedding trained only on a subset of architectures can learn to generate already-trained instances of architectures it never sees instantiated at training time.
翻訳日:2022-06-13 15:26:15 公開日:2022-06-10
# 自己指導型学習は指導型学習よりもロバストか?

Is Self-Supervised Learning More Robust Than Supervised Learning? ( http://arxiv.org/abs/2206.05259v1 )

ライセンス: Link先を確認
Yuanyi Zhong, Haoran Tang, Junkun Chen, Jian Peng, Yu-Xiong Wang(参考訳) 自己教師付きコントラスト学習はラベルなしで視覚表現を学習する強力なツールである。 先行研究は主に様々な事前学習アルゴリズムの認識精度の評価に重点を置いているが、他の振る舞いの側面は見落としている。 精度に加えて、分散ロバスト性は機械学習モデルの信頼性において重要な役割を果たす。 コントラスト学習と教師付き学習との行動差を下流データ分布変化または事前学習データ分布変化に定量化するために,一連のロバストネステストを設計し,実施する。 これらのテストは、画素レベルのガンマ歪みからパッチレベルのシャッフル、データセットレベルの分散シフトまで、複数のレベルでデータ破損を利用する。 私たちのテストでは、対照学習と教師付き学習の興味深いロバスト性行動を明らかにしました。 一方,下流の腐敗下では,コントラスト学習は教師付き学習よりも驚くほど堅牢である。 一方、事前学習の汚職では、パッチシャッフルやピクセル強度の変化に弱いが、データセットレベルの分布変化には敏感ではない。 データ拡張と特徴空間特性の役割を通してこれらの結果を説明しようと試みる。 我々の洞察は、教師あり学習の下流の堅牢性を改善することに影響を及ぼす。

Self-supervised contrastive learning is a powerful tool to learn visual representation without labels. Prior work has primarily focused on evaluating the recognition accuracy of various pre-training algorithms, but has overlooked other behavioral aspects. In addition to accuracy, distributional robustness plays a critical role in the reliability of machine learning models. We design and conduct a series of robustness tests to quantify the behavioral differences between contrastive learning and supervised learning to downstream or pre-training data distribution changes. These tests leverage data corruptions at multiple levels, ranging from pixel-level gamma distortion to patch-level shuffling and to dataset-level distribution shift. Our tests unveil intriguing robustness behaviors of contrastive and supervised learning. On the one hand, under downstream corruptions, we generally observe that contrastive learning is surprisingly more robust than supervised learning. On the other hand, under pre-training corruptions, we find contrastive learning vulnerable to patch shuffling and pixel intensity change, yet less sensitive to dataset-level distribution change. We attempt to explain these results through the role of data augmentation and feature space properties. Our insight has implications in improving the downstream robustness of supervised learning.
翻訳日:2022-06-13 15:25:55 公開日:2022-06-10
# 長期認識のためのエキスパートのバランスの取れた製品

Balanced Product of Experts for Long-Tailed Recognition ( http://arxiv.org/abs/2206.05260v1 )

ライセンス: Link先を確認
Emanuel Sanchez Aimar, Arvi Jonnarth, Michael Felsberg, Marco Kuhlmann(参考訳) 多くの現実世界の認識問題は、不均衡またはロングテールのラベル分布に苦しむ。 これらの分布は、尾クラス上の限定的な一般化のため、表現学習をより困難にする。 テスト分布がトレーニング分布(例えば、制服とロングテール)と異なる場合、分布シフトの問題に対処する必要がある。 この目的のために、最近の研究はベイズの定理に触発されて、マージン修正を用いてソフトマックスのクロスエントロピーを拡張した。 本稿では,データの不均衡に対処するために,複数のモデル群と異なるテスト時間目標分布を組み合わせたバランデッド・プロダクト・オブ・エキスパートズ(BalPoE)を用いて,いくつかのアプローチを一般化する。 提案された専門家は、共同または独立して単一のステージで訓練され、バルポエにシームレスに融合する。 バランスの取れた誤差を最小限に抑えるため,BalPoE は Fisher に一貫性があることを示し,提案手法の有効性を検証するための実験を行った。 最後に、この設定におけるMixupの効果について検討し、正規化が校正された専門家を学習するための重要な要素であることを明らかにする。 実験の結果,CIFAR-100-LT, ImageNet-LT, iNaturalist-2018データセットでは, 正則化 BalPoE の精度と校正精度が著しく向上することが確認された。 コードは、紙が受け入れられれば公開される予定だ。

Many real-world recognition problems suffer from an imbalanced or long-tailed label distribution. Those distributions make representation learning more challenging due to limited generalization over the tail classes. If the test distribution differs from the training distribution, e.g. uniform versus long-tailed, the problem of the distribution shift needs to be addressed. To this aim, recent works have extended softmax cross-entropy using margin modifications, inspired by Bayes' theorem. In this paper, we generalize several approaches with a Balanced Product of Experts (BalPoE), which combines a family of models with different test-time target distributions to tackle the imbalance in the data. The proposed experts are trained in a single stage, either jointly or independently, and fused seamlessly into a BalPoE. We show that BalPoE is Fisher consistent for minimizing the balanced error and perform extensive experiments to validate the effectiveness of our approach. Finally, we investigate the effect of Mixup in this setting, discovering that regularization is a key ingredient for learning calibrated experts. Our experiments show that a regularized BalPoE can perform remarkably well in test accuracy and calibration metrics, leading to state-of-the-art results on CIFAR-100-LT, ImageNet-LT, and iNaturalist-2018 datasets. The code will be made publicly available upon paper acceptance.
翻訳日:2022-06-13 15:25:37 公開日:2022-06-10
# MAREO: メモリと注意に基づく視覚的リズオン

MAREO: Memory- and Attention- based visual REasOning ( http://arxiv.org/abs/2206.04928v1 )

ライセンス: Link先を確認
Mohit Vaishnav, Thomas Serre(参考訳) 人間は、複雑な視覚シーンを柔軟に解析し理解する能力において、現代のAIシステムを大きく上回っている。 注意と記憶は、行動に関連した視覚情報を選択的に保守し、操作し、最も困難な視覚的推論タスクを解決する能力において重要な役割を果たすことが知られている2つのシステムである。 本稿では,視覚推論に関する認知科学文献,記憶と注意に基づく(視覚)推論(mareo)アーキテクチャに触発された視覚推論のための新しいアーキテクチャを提案する。 MAREOは、脳が複雑な視覚的推論問題を合成的に解決し、より複雑な視覚ルーチンを形成するための基本的な視覚操作を組み合わせることを学習することで、アクティブビジョン理論をインスタンス化する。 MAREOは、アテンションシフトのシーケンスを通じて視覚的推論タスクの解決を学び、マルチヘッドトランスフォーマーモジュールを介してタスク関連視覚情報をメモリバンクに保持する。 視覚ルーチンは、シーン内のオブジェクト間のさまざまな関係を判断する専用の推論モジュールによってデプロイされる。 4種類の推論タスクの実験は、堅牢でサンプル効率のよい視覚ルーチンを学習するMAREOの能力を示している。

Humans continue to vastly outperform modern AI systems in their ability to parse and understand complex visual scenes flexibly. Attention and memory are two systems known to play a critical role in our ability to selectively maintain and manipulate behaviorally-relevant visual information to solve some of the most challenging visual reasoning tasks. Here, we present a novel architecture for visual reasoning inspired by the cognitive-science literature on visual reasoning, the Memory- and Attention-based (visual) REasOning (MAREO) architecture. MAREO instantiates an active-vision theory, which posits that the brain solves complex visual reasoning problems compositionally by learning to combine previously-learned elementary visual operations to form more complex visual routines. MAREO learns to solve visual reasoning tasks via sequences of attention shifts to route and maintain task-relevant visual information into a memory bank via a multi-head transformer module. Visual routines are then deployed by a dedicated reasoning module trained to judge various relations between objects in the scenes. Experiments on four types of reasoning tasks demonstrate MAREO's ability to learn visual routines in a robust and sample-efficient manner.
翻訳日:2022-06-13 15:23:41 公開日:2022-06-10
# 進化的エコー状態ネットワーク:フーリエ空間の進化的貯水池

Evolutionary Echo State Network: evolving reservoirs in the Fourier space ( http://arxiv.org/abs/2206.04951v1 )

ライセンス: Link先を確認
Sebastian Basterrech, Gerardo Rubino(参考訳) エコー状態ネットワーク(英: echo state network、esn)は、大量の隠れた重み(いわゆる貯水池)を持つリカレントニューラルネットワークの一種である。 カノニカルESNとその変種は、非線形力学系のモデリングにおいて顕著な成功を収めたため、近年大きな注目を集めている。 貯水池は学習過程で変化しない固定重量とランダムに結びついています。 貯水池から出力までの重量のみを訓練する。 トレーニング手順中に貯留層が固定されているため,再帰構造の計算能力が十分に活用されているかどうか疑問視する。 本稿では,フーリエ空間の貯留層重みを表現し,周波数領域に遺伝的アルゴリズムを適用することで,これらの重みを微調整する,esnタイプの新しい計算モデルを提案する。 主な関心は、この手順が古典的 ESN よりもはるかに小さな空間で機能し、初期法の次元的還元変換をもたらすことである。 提案手法は,勾配に基づく手法のトレーニング問題を回避するため,大規模再帰構造の利点を活用できる。 我々は,よく知られたカオスシステムと実世界のデータを用いて,このアプローチの優れた性能を示す詳細な実験研究を行った。

The Echo State Network (ESN) is a class of Recurrent Neural Network with a large number of hidden-hidden weights (in the so-called reservoir). Canonical ESN and its variations have recently received significant attention due to their remarkable success in the modeling of non-linear dynamical systems. The reservoir is randomly connected with fixed weights that don't change in the learning process. Only the weights from reservoir to output are trained. Since the reservoir is fixed during the training procedure, we may wonder if the computational power of the recurrent structure is fully harnessed. In this article, we propose a new computational model of the ESN type, that represents the reservoir weights in the Fourier space and performs a fine-tuning of these weights applying genetic algorithms in the frequency domain. The main interest is that this procedure will work in a much smaller space compared to the classical ESN, thus providing a dimensionality reduction transformation of the initial method. The proposed technique allows us to exploit the benefits of the large recurrent structure avoiding the training problems of gradient-based method. We provide a detailed experimental study that demonstrates the good performances of our approach with well-known chaotic systems and real-world data.
翻訳日:2022-06-13 15:23:21 公開日:2022-06-10
# 機械教育における人間-AIインタラクション設計

Human-AI Interaction Design in Machine Teaching ( http://arxiv.org/abs/2206.05182v1 )

ライセンス: Link先を確認
Karan Taneja, Harshvardhan Sikka and Ashok Goel(参考訳) 機械指導(英: Machine Teaching、MT)とは、人間と機械が特定のタスクのために機械学習モデル(ML)を訓練する目的と相互作用する対話的なプロセスである。 人間の教師はタスクの専門知識を伝え、機械学習モデルを作成するために必要なデータと知識を集める。 MTシステムは,授業に費やした時間と学習者の誤り率を両立させるために開発された。 MTシステムにおける人間-AIインタラクションの設計は、学習効率に影響を及ぼすだけでなく、学習品質に影響を与えることによって間接的にMLのパフォーマンスに影響を及ぼす。 本稿では,3つの構成要素(viz.,教示インターフェース,機械学習者,知識ベース)を備えたMTフレームワークを提案し,教育インタフェースの実現に関わる人間とAIのインタラクション設計に焦点を当てた。 MLタスクから開始するMTシステムの開発において対処すべき設計決定について概説する。 本論文は、好奇心の強い学生と賢い教師の対話を含むソクラテス的手法に従う。

Machine Teaching (MT) is an interactive process where a human and a machine interact with the goal of training a machine learning model (ML) for a specified task. The human teacher communicates their task expertise and the machine student gathers the required data and knowledge to produce an ML model. MT systems are developed to jointly minimize the time spent on teaching and the learner's error rate. The design of human-AI interaction in an MT system not only impacts the teaching efficiency, but also indirectly influences the ML performance by affecting the teaching quality. In this paper, we build upon our previous work where we proposed an MT framework with three components, viz., the teaching interface, the machine learner, and the knowledge base, and focus on the human-AI interaction design involved in realizing the teaching interface. We outline design decisions that need to be addressed in developing an MT system beginning from an ML task. The paper follows the Socratic method entailing a dialogue between a curious student and a wise teacher.
翻訳日:2022-06-13 15:22:09 公開日:2022-06-10
# 一般グラフに対する拡張性深いガウス的マルコフ確率場

Scalable Deep Gaussian Markov Random Fields for General Graphs ( http://arxiv.org/abs/2206.05032v1 )

ライセンス: Link先を確認
Joel Oskarsson, Per Sid\'en, Fredrik Lindsten(参考訳) グラフ上の機械学習手法は、一般的に構造化されたデータを扱う能力のため、多くのアプリケーションで有用であることが証明されている。 ガウス・マルコフ確率場(gmrfs)の枠組みは、それらのスパーシティ構造を利用してグラフ上のガウスモデルを定義するための原理的な方法を提供する。 本稿では,Deep GMRFの多層構造上に構築された一般グラフに対する柔軟なGMRFモデルを提案する。 新しいタイプのレイヤを設計することで、モデルを大規模グラフに拡張できる。 このレイヤは、変分推論と既存ソフトウェアフレームワークによるグラフニューラルネットワークの効率的なトレーニングを可能にするために構築されている。 ガウスの確率について、ベイズ予想に近いものは、潜在体に対して可能である。 これにより、不確実性推定を伴う予測が可能になる。 提案モデルの有用性は,様々な合成データと実世界データを用いて検証し,ベイズ法と深層学習法との比較を行った。

Machine learning methods on graphs have proven useful in many applications due to their ability to handle generally structured data. The framework of Gaussian Markov Random Fields (GMRFs) provides a principled way to define Gaussian models on graphs by utilizing their sparsity structure. We propose a flexible GMRF model for general graphs built on the multi-layer structure of Deep GMRFs, originally proposed for lattice graphs only. By designing a new type of layer we enable the model to scale to large graphs. The layer is constructed to allow for efficient training using variational inference and existing software frameworks for Graph Neural Networks. For a Gaussian likelihood, close to exact Bayesian inference is available for the latent field. This allows for making predictions with accompanying uncertainty estimates. The usefulness of the proposed model is verified by experiments on a number of synthetic and real world datasets, where it compares favorably to other both Bayesian and deep learning methods.
翻訳日:2022-06-13 15:21:51 公開日:2022-06-10
# 動的平均場プログラミング

Dynamic mean field programming ( http://arxiv.org/abs/2206.05200v1 )

ライセンス: Link先を確認
George Stamatescu(参考訳) モデルベースベイズ強化学習のための動的平均場理論を大規模状態空間極限で開発する。 乱れた系の統計物理学の類似性として、遷移確率はカップリングとして解釈され、値関数は決定論的スピンとして解釈される。 その結果、標準仮定の下では、q値の後方は漸近独立であり、状態-作用対をまたぐガウス的であることが示される。 有限ホライズンケースは、各状態-アクションペアに対して同じ振る舞いを示すが、状態-アクションペアごとに時間を超えて追加の相関を持つ。 結果は政策評価にも当てはまる。 ガウス統計量はベルマン方程式から導かれた一連の結合平均場方程式から計算でき、これを動的平均場プログラミング (dmfp) と呼ぶ。 q値反復の場合、近似方程式は極値理論に訴えることで得られ、閉形式式は独立かつ同分布の場合に見られる。 これらの閉形式方程式のリアプノフ安定性を研究した。

A dynamic mean field theory is developed for model based Bayesian reinforcement learning in the large state space limit. In an analogy with the statistical physics of disordered systems, the transition probabilities are interpreted as couplings, and value functions as deterministic spins, and thus the sampled transition probabilities are considered to be quenched random variables. The results reveal that, under standard assumptions, the posterior over Q-values is asymptotically independent and Gaussian across state-action pairs, for infinite horizon problems. The finite horizon case exhibits the same behaviour for all state-actions pairs at each time but has an additional correlation across time, for each state-action pair. The results also hold for policy evaluation. The Gaussian statistics can be computed from a set of coupled mean field equations derived from the Bellman equation, which we call dynamic mean field programming (DMFP). For Q-value iteration, approximate equations are obtained by appealing to extreme value theory, and closed form expressions are found in the independent and identically distributed case. The Lyapunov stability of these closed form equations is studied.
翻訳日:2022-06-13 15:21:37 公開日:2022-06-10
# リカレント学習による高効率単発対流船体予測

Efficient Per-Shot Convex Hull Prediction By Recurrent Learning ( http://arxiv.org/abs/2206.04877v1 )

ライセンス: Link先を確認
Somdyuti Paul, Andrey Norkin and Alan C. Bovik(参考訳) アダプティブビデオストリーミングは、帯域幅制限下で視聴者に最高の視覚品質を提供するために、効率的なビットレートラダーの構築に依存している。 従来のコンテンツ依存ビットレートラダー選択法では、ビデオショットに複数の符号化パラメータをプリエンコードして、その結果のレート品質曲線の凸殻が与える最適な操作点を見つける必要がある。 しかし、このプリエンコーディングステップは、可能な符号化パラメータの空間上の徹底的な探索プロセスと等価であり、計算と時間支出の両面で大きなオーバーヘッドを引き起こす。 このオーバヘッドを低減するために,コンテンツ認識凸予測のディープラーニングに基づく手法を提案する。 recurrent convolutional network (rcn) を用いて映像の時空間的複雑度を暗黙的に解析し,凸包の予測を行った。 提案したRCN-Hullモデルに2段階の転送学習手法を適用し,シーンの複雑さを分析するのに十分な内容の多様性を確保できるとともに,プリスタンソースビデオのシーン統計をキャプチャすることを可能にする。 実験結果から,提案モデルが最適凸包の近似値が得られ,既存の手法と比較して競合時間の節約が期待できることがわかった。 平均エンコーディング時間は, 平均58.0%, 予測凸船体の平均BD-rateは0.08%, BD-rate分布の平均絶対偏差は0.44%であった。

Adaptive video streaming relies on the construction of efficient bitrate ladders to deliver the best possible visual quality to viewers under bandwidth constraints. The traditional method of content dependent bitrate ladder selection requires a video shot to be pre-encoded with multiple encoding parameters to find the optimal operating points given by the convex hull of the resulting rate-quality curves. However, this pre-encoding step is equivalent to an exhaustive search process over the space of possible encoding parameters, which causes significant overhead in terms of both computation and time expenditure. To reduce this overhead, we propose a deep learning based method of content aware convex hull prediction. We employ a recurrent convolutional network (RCN) to implicitly analyze the spatiotemporal complexity of video shots in order to predict their convex hulls. A two-step transfer learning scheme is adopted to train our proposed RCN-Hull model, which ensures sufficient content diversity to analyze scene complexity, while also making it possible capture the scene statistics of pristine source videos. Our experimental results reveal that our proposed model yields better approximations of the optimal convex hulls, and offers competitive time savings as compared to existing approaches. On average, the pre-encoding time was reduced by 58.0% by our method, while the average Bjontegaard delta bitrate (BD-rate) of the predicted convex hulls against ground truth was 0.08%, while the mean absolute deviation of the BD-rate distribution was 0.44%
翻訳日:2022-06-13 15:18:28 公開日:2022-06-10
# 固有説明可能な分類モデルを用いた弱教師付きセグメンテーションとその脳腫瘍分類への応用

Weakly-supervised segmentation using inherently-explainable classification models and their application to brain tumour classification ( http://arxiv.org/abs/2206.05148v1 )

ライセンス: Link先を確認
Soumick Chatterjee, Hadya Yassin, Florian Dubost, Andreas N\"urnberger and Oliver Speck(参考訳) ディープラーニングモデルは、いくつかのアプリケーションの可能性を示している。 しかし、ほとんどのモデルは複雑な推論(ブラックボックス問題として知られる)のために不透明で信頼が難しい。 医学のようないくつかの分野は、そのような技術を受け入れ、採用するために高い透明性を必要とする。 したがって、説明可能な/解釈可能なモデルの作成や、ディープラーニングモデルへの信頼を構築するために分類器にポストホックメソッドを適用する必要がある。 さらに、ディープラーニングの手法は、通常、トレーニングのために手作業で注釈付きセグメンテーションラベルを必要とするセグメンテーションタスクに使用することができる。 本稿では,これら2つの問題を1つとして扱うために,本質的に説明可能な分類器を3つ導入する。 ネットワークが提供する局所化ヒートマップ -- モデルの焦点領域を表現し、分類決定に使用される -- は、モデル説明のための情報を導出するポストホックなメソッドを必要とせずに、直接解釈することができる。 モデルは、入力画像と分類ラベルのみを教師ありの方法で基底として使用することにより、興味のある領域(すなわちセグメントラベル)の場所に関する情報を使用せずに訓練され、分類ラベルを通じてモデルのセグメンテーショントレーニングが弱く監督される。 最終セグメンテーションは、これらのヒートマップをしきい値にすることで得られる。 2つの異なるデータセットを用いたマルチクラス脳腫瘍分類の課題にモデルを適用し, 最良値のf1-scoreを0.93とし, 弱教師付き分割タスクでは0.67$\pm$0.08の中央値を確保した。 さらに、腫瘍のみの画像のサブセットの精度は、最先端のグリオーマ腫瘍グレーディングバイナリ分類器よりも98.7%の精度で優れていた。

Deep learning models have shown their potential for several applications. However, most of the models are opaque and difficult to trust due to their complex reasoning - commonly known as the black-box problem. Some fields, such as medicine, require a high degree of transparency to accept and adopt such technologies. Consequently, creating explainable/interpretable models or applying post-hoc methods on classifiers to build trust in deep learning models are required. Moreover, deep learning methods can be used for segmentation tasks, which typically require hard-to-obtain, time-consuming manually-annotated segmentation labels for training. This paper introduces three inherently-explainable classifiers to tackle both of these problems as one. The localisation heatmaps provided by the networks -- representing the models' focus areas and being used in classification decision-making -- can be directly interpreted, without requiring any post-hoc methods to derive information for model explanation. The models are trained by using the input image and only the classification labels as ground-truth in a supervised fashion - without using any information about the location of the region of interest (i.e. the segmentation labels), making the segmentation training of the models weakly-supervised through classification labels. The final segmentation is obtained by thresholding these heatmaps. The models were employed for the task of multi-class brain tumour classification using two different datasets, resulting in the best F1-score of 0.93 for the supervised classification task while securing a median Dice score of 0.67$\pm$0.08 for the weakly-supervised segmentation task. Furthermore, the obtained accuracy on a subset of tumour-only images outperformed the state-of-the-art glioma tumour grading binary classifiers with the best model achieving 98.7\% accuracy.
翻訳日:2022-06-13 15:18:01 公開日:2022-06-10
# MEAT:エージェント軌道からの空気抽出

MEAT: Maneuver Extraction from Agent Trajectories ( http://arxiv.org/abs/2206.05158v1 )

ライセンス: Link先を確認
Julian Schmidt, Julian Jordan, David Raba, Tobias Welz, Klaus Dietmayer(参考訳) 学習に基づく軌道予測の進歩は、大規模データセットによって実現される。 しかし、そのようなデータセットの詳細な分析は限られている。 さらに,予測モデルの評価は,データセットのすべてのサンプルの平均値に制限される。 本研究では,そのようなデータセット内のエージェントの軌跡から操作(左折や車線変更など)を抽出するための自動化手法を提案する。 本手法では,エージェントのダイナミクスに関する情報と,エージェントが移動したレーンセグメントに関する情報を考察する。 分類ネットワークのトレーニングには,結果として得られる操作を使用できるが,その例として,広範囲な軌跡データセット解析と,複数の最先端軌跡予測モデルの操作特異的評価を行う。 また、データセットの解析とエージェントダイナミクスに基づく予測モデルの評価を提供する。

Advances in learning-based trajectory prediction are enabled by large-scale datasets. However, in-depth analysis of such datasets is limited. Moreover, the evaluation of prediction models is limited to metrics averaged over all samples in the dataset. We propose an automated methodology that allows to extract maneuvers (e.g., left turn, lane change) from agent trajectories in such datasets. The methodology considers information about the agent dynamics and information about the lane segments the agent traveled along. Although it is possible to use the resulting maneuvers for training classification networks, we exemplary use them for extensive trajectory dataset analysis and maneuver-specific evaluation of multiple state-of-the-art trajectory prediction models. Additionally, an analysis of the datasets and an evaluation of the prediction models based on the agent dynamics is provided.
翻訳日:2022-06-13 15:17:32 公開日:2022-06-10
# 自己教師付き学習はピクセルからの強化学習を本当に改善するのか?

Does Self-supervised Learning Really Improve Reinforcement Learning from Pixels? ( http://arxiv.org/abs/2206.05266v1 )

ライセンス: Link先を確認
Xiang Li, Jinghuan Shang, Srijan Das and Michael S. Ryoo(参考訳) 我々は,自己教師付き学習(SSL)が画素からオンライン強化学習(RL)を改善できるかどうかを検討する。 我々は、SSLとRLの損失を共同で最適化するコントラスト強化学習フレームワーク(例えば、CURL)を拡張し、様々な自己監督的損失を伴う大規模な実験を行う。 以上の結果から,RL の既存のSSLフレームワークは,同じ量のデータと拡張を使用する場合にのみ,画像の増大を生かして,ベースラインに有意義な改善をもたらすことが示唆された。 さらに,複数の自己教師付き損失の最適組み合わせを求める進化的探索を行うが,そのような損失の組み合わせであっても,注意深く設計された画像拡張のみを利用する手法を有意義に上回ることは不可能である。 多くの場合、既存のフレームワークでの自己監督的損失の使用はRLのパフォーマンスを低下させた。 実世界のロボット環境を含む複数の環境におけるアプローチの評価を行い、単一自己監督的損失や画像拡張手法がすべての環境を支配できないこと、SSLとRLの協調最適化のための現在のフレームワークが限定されていることを確認する。 最後に、SSL + RLの事前学習フレームワークと、異なるアプローチで学習した表現の性質を実証的に検討する。

We investigate whether self-supervised learning (SSL) can improve online reinforcement learning (RL) from pixels. We extend the contrastive reinforcement learning framework (e.g., CURL) that jointly optimizes SSL and RL losses and conduct an extensive amount of experiments with various self-supervised losses. Our observations suggest that the existing SSL framework for RL fails to bring meaningful improvement over the baselines only taking advantage of image augmentation when the same amount of data and augmentation is used. We further perform an evolutionary search to find the optimal combination of multiple self-supervised losses for RL, but find that even such a loss combination fails to meaningfully outperform the methods that only utilize carefully designed image augmentations. Often, the use of self-supervised losses under the existing framework lowered RL performances. We evaluate the approach in multiple different environments including a real-world robot environment and confirm that no single self-supervised loss or image augmentation method can dominate all environments and that the current framework for joint optimization of SSL and RL is limited. Finally, we empirically investigate the pretraining framework for SSL + RL and the properties of representations learned with different approaches.
翻訳日:2022-06-13 15:17:20 公開日:2022-06-10
# ペアの差分フィルタリングによるリスト分解可能なスパース平均推定

List-Decodable Sparse Mean Estimation via Difference-of-Pairs Filtering ( http://arxiv.org/abs/2206.05245v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Sushrut Karmalkar, Ankit Pensia, Thanasis Pittas(参考訳) リスト化可能なスパース平均推定問題について検討する。 具体的には、パラメータ $\alpha \in (0, 1/2)$ に対して、$m$ points in $\mathbb{R}^n$, $\lfloor \alpha m \rfloor$ が与えられる。 残りのポイントでは、データセットの大部分を形成する仮定は行われない。 目標は、$\| \widehat \mu - \mu \|_2$ が小さいようなベクトル $\widehat \mu$ を含む候補の小さなリストを返すことである。 先行研究は、密集した設定におけるリスト決定可能平均推定の問題を研究していた。 本研究では,リスト記述可能な平均推定のための新しい概念的手法を開発する。 提案手法の主な応用として,リストデコタブルなスパース平均推定のための最初のサンプルと計算効率のよいアルゴリズムを提案する。 特に ``certifiably bounded'''$t$-th moments in $k$-sparse directions and enough light tails の分布に対して、このアルゴリズムは、サンプル複雑性 $m = (k\log(n))^{o(t)}/\alpha$ と実行時間 $\mathrm{poly}(mn^t)$ で誤差(1/\alpha)^{o(1/t)} を達成する。 gaussian inliersの特別な場合、このアルゴリズムは準多項標本と計算複雑性を持つ$\theta (\sqrt{\log(1/\alpha)})$の最適誤差保証を達成する。 我々は上限をほぼ一致した統計クエリと低次多項式テストで補完する。

We study the problem of list-decodable sparse mean estimation. Specifically, for a parameter $\alpha \in (0, 1/2)$, we are given $m$ points in $\mathbb{R}^n$, $\lfloor \alpha m \rfloor$ of which are i.i.d. samples from a distribution $D$ with unknown $k$-sparse mean $\mu$. No assumptions are made on the remaining points, which form the majority of the dataset. The goal is to return a small list of candidates containing a vector $\widehat \mu$ such that $\| \widehat \mu - \mu \|_2$ is small. Prior work had studied the problem of list-decodable mean estimation in the dense setting. In this work, we develop a novel, conceptually simpler technique for list-decodable mean estimation. As the main application of our approach, we provide the first sample and computationally efficient algorithm for list-decodable sparse mean estimation. In particular, for distributions with ``certifiably bounded'' $t$-th moments in $k$-sparse directions and sufficiently light tails, our algorithm achieves error of $(1/\alpha)^{O(1/t)}$ with sample complexity $m = (k\log(n))^{O(t)}/\alpha$ and running time $\mathrm{poly}(mn^t)$. For the special case of Gaussian inliers, our algorithm achieves the optimal error guarantee of $\Theta (\sqrt{\log(1/\alpha)})$ with quasi-polynomial sample and computational complexity. We complement our upper bounds with nearly-matching statistical query and low-degree polynomial testing lower bounds.
翻訳日:2022-06-13 15:16:26 公開日:2022-06-10
# GD-VAEs:非線形ダイナミクス学習のための幾何学的動的変分オートエンコーダ

GD-VAEs: Geometric Dynamic Variational Autoencoders for Learning Nonlinear Dynamics and Dimension Reductions ( http://arxiv.org/abs/2206.05183v1 )

ライセンス: Link先を確認
Ryan Lopez and Paul J. Atzberger(参考訳) 本研究では,幾何学的および位相的情報を組み込んだデータ駆動手法を開発し,観測から非線形ダイナミクスの並列表現を学習する。 本研究では,変分オートエンコーダ(VAE)に関する学習戦略を用いて,一般多様体ラテント空間の非線形状態空間モデルを学習する手法を開発した。 本手法はGeometric Dynamic (GD) Variational Autoencoders (GD-VAEs) と呼ばれる。 我々は,MLP(General Multilayer Perceptrons),CNN(Convolutional Neural Networks),T-CNN(Transpose CNNs)などのディープニューラルネットワークアーキテクチャに基づいて,システム状態と進化のエンコーダとデコーダを学習する。 パラメタライズドpdesと物理に生じる問題に動機づけられ,非線形バーガース方程式の低次元表現,制約付き機械系,反応拡散系の空間場を学習するタスクにおける手法の性能について検討した。 GD-VAEは、ダイナミクスを含む学習タスクで使用する表現を得る方法を提供する。

We develop data-driven methods incorporating geometric and topological information to learn parsimonious representations of nonlinear dynamics from observations. We develop approaches for learning nonlinear state space models of the dynamics for general manifold latent spaces using training strategies related to Variational Autoencoders (VAEs). Our methods are referred to as Geometric Dynamic (GD) Variational Autoencoders (GD-VAEs). We learn encoders and decoders for the system states and evolution based on deep neural network architectures that include general Multilayer Perceptrons (MLPs), Convolutional Neural Networks (CNNs), and Transpose CNNs (T-CNNs). Motivated by problems arising in parameterized PDEs and physics, we investigate the performance of our methods on tasks for learning low dimensional representations of the nonlinear Burgers equations, constrained mechanical systems, and spatial fields of reaction-diffusion systems. GD-VAEs provide methods for obtaining representations for use in learning tasks involving dynamics.
翻訳日:2022-06-13 15:15:50 公開日:2022-06-10
# RuCoCo:コア参照アノテーションを備えた新しいロシアのコーパス

RuCoCo: a new Russian corpus with coreference annotation ( http://arxiv.org/abs/2206.04925v1 )

ライセンス: Link先を確認
Vladimir Dobrovolskii, Mariia Michurina, Alexandra Ivoylova(参考訳) 本稿では,ロシア共参照コーパス (rucoco) を用いた新しいコーパスを提案する。 RuCoCoの目標は、高いアノテーション間の合意を維持しながら、多数の注釈付きテキストを取得することである。 RuCoCoにはロシア語のニューステキストが含まれており、一部はスクラッチから注釈付けされ、残りの部分は人間のアノテーションによって改良された。 私たちのコーパスのサイズは100万語、約15万語です。 コーパスを公開しています。

We present a new corpus with coreference annotation, Russian Coreference Corpus (RuCoCo). The goal of RuCoCo is to obtain a large number of annotated texts while maintaining high inter-annotator agreement. RuCoCo contains news texts in Russian, part of which were annotated from scratch, and for the rest the machine-generated annotations were refined by human annotators. The size of our corpus is one million words and around 150,000 mentions. We make the corpus publicly available.
翻訳日:2022-06-13 15:15:09 公開日:2022-06-10
# 構造によるソート:言語モデルランキングと依存性調査

Sort by Structure: Language Model Ranking as Dependency Probing ( http://arxiv.org/abs/2206.04935v1 )

ライセンス: Link先を確認
Max M\"uller-Eberstein, Rob van der Goot and Barbara Plank(参考訳) 事前学習型言語モデル (LM) のインフォームドな選択は、性能上重要であるが、環境上はコストがかかる。 コンピュータビジョンの分野は、自然言語処理への有望な進出とともにエンコーダのランク付けに取り組み始めているが、構造化予測のような言語的タスクはカバーしていない。 本稿では,LMの文脈的埋め込みからラベル付き木が回復可能な程度を計測することにより,特定の言語における依存関係を解析するために,LMのランク付けを提案する。 46の類型的およびアーキテクチャ的に多様なLM言語ペアに対して,提案手法は,フルパーサのトレーニングよりも計算量が桁違いに少ないため,最高のLM選択を79%の時間で予測する。 この研究の中で、最近提案されている分離lm(rembert and find it)の同定と解析を行い、固有の依存関係情報が少ないことが分かりました。 このアウトリーチがなければ、私たちのアプローチは89%のケースで最高のLMを特定します。

Making an informed choice of pre-trained language model (LM) is critical for performance, yet environmentally costly, and as such widely underexplored. The field of Computer Vision has begun to tackle encoder ranking, with promising forays into Natural Language Processing, however they lack coverage of linguistic tasks such as structured prediction. We propose probing to rank LMs, specifically for parsing dependencies in a given language, by measuring the degree to which labeled trees are recoverable from an LM's contextualized embeddings. Across 46 typologically and architecturally diverse LM-language pairs, our probing approach predicts the best LM choice 79% of the time using orders of magnitude less compute than training a full parser. Within this study, we identify and analyze one recently proposed decoupled LM - RemBERT - and find it strikingly contains less inherent dependency information, but often yields the best parser after full fine-tuning. Without this outlier our approach identifies the best LM in 89% of cases.
翻訳日:2022-06-13 15:15:02 公開日:2022-06-10
# ローリングかコードスイッチングか? 言語混合における有限粒度識別のアノテーション

Borrowing or Codeswitching? Annotating for Finer-Grained Distinctions in Language Mixing ( http://arxiv.org/abs/2206.04973v1 )

ライセンス: Link先を確認
Elena Alvarez Mellado and Constantine Lignos(参考訳) スペイン語と英語のコード変更と借用のための注釈付きTwitterデータの新しいコーパスを提示する。 コーパスには、トークンレベルで注釈付けされた9,500のツイートがあり、コードスイッチ、借入、名前付きエンティティがある。 このコーパスは、コードスイッチングと借用の境界を明確に定義し注釈付けしようとする従来のコーパスと異なり、モノリンガルな文脈で使用する場合、一般的な"internet-speak"('lol'など)をコードスイッチングとして扱わない。 その結果は、スペイン語の借用とTwitterでのコードスイッチングの研究とモデリングを可能にするコーパスである。 本稿ではトランスフォーマーに基づく言語モデルを用いて,このコーパスのラベルをモデル化するためのベースラインスコアを提案する。 アノテーション自体はCC BY 4.0ライセンスでリリースされ、適用されるテキストはTwitterのサービス規約に従って配布されている。

We present a new corpus of Twitter data annotated for codeswitching and borrowing between Spanish and English. The corpus contains 9,500 tweets annotated at the token level with codeswitches, borrowings, and named entities. This corpus differs from prior corpora of codeswitching in that we attempt to clearly define and annotate the boundary between codeswitching and borrowing and do not treat common "internet-speak" ('lol', etc.) as codeswitching when used in an otherwise monolingual context. The result is a corpus that enables the study and modeling of Spanish-English borrowing and codeswitching on Twitter in one dataset. We present baseline scores for modeling the labels of this corpus using Transformer-based language models. The annotation itself is released with a CC BY 4.0 license, while the text it applies to is distributed in compliance with the Twitter terms of service.
翻訳日:2022-06-13 15:13:56 公開日:2022-06-10
# 電力用twitterポストの感性分析

Sentiment analysis on electricity twitter posts ( http://arxiv.org/abs/2206.05042v1 )

ライセンス: Link先を確認
Pardeep Kaur, Maryam Edalati(参考訳) 今日の世界では、誰もが何らかの形で表現力があり、このプロジェクトの目的は、ツイートと呼ばれるメッセージを投稿するマイクロブログプラットフォームであるtwitterのデータを使って、イギリスとインドの電力価格の上昇に関する人々の意見に焦点を当てている。 多くの人々の収入は良くなく、多くの税金や紙幣を支払わなければならないため、近年では住宅の維持が論争の的になっている。 政府が電気料金を補償する補助金制度を提案したにもかかわらず、人々はそれを歓迎していない。 このプロジェクトの目的は、twitterで表現された人々の表情や意見に対する感情分析を行うことである。 電力価格の意見を把握するためには、エネルギー市場における政府と消費者の感情分析を行う必要がある。 さらに、これらのメディアに存在するテキストは本質的に構造化されていないので、処理するにはまずデータを前処理する必要があります。 Bag of Words、TF-IDF (Term Frequency-Inverse Document Frequency)、ワード埋め込み、ワードカウントのようなNLPベースの機能など、多くの特徴抽出技術がある。 本稿では,TF-IDF単語レベルが感情分析の電力料金データセットに与える影響について分析した。 TF-IDFによる感情分析の単語レベル性能はN-gramよりも3~4高いことがわかった。 解析は,ナイーブベイ,決定木,ランダムフォレスト,ロジスティック回帰の4つの分類アルゴリズムを用いて行われ,f-スコア,精度,精度,リコール性能パラメータを考慮した。

In today's world, everyone is expressive in some way, and the focus of this project is on people's opinions about rising electricity prices in United Kingdom and India using data from Twitter, a micro-blogging platform on which people post messages, known as tweets. Because many people's incomes are not good and they have to pay so many taxes and bills, maintaining a home has become a disputed issue these days. Despite the fact that Government offered subsidy schemes to compensate people electricity bills but it is not welcomed by people. In this project, the aim is to perform sentiment analysis on people's expressions and opinions expressed on Twitter. In order to grasp the electricity prices opinion, it is necessary to carry out sentiment analysis for the government and consumers in energy market. Furthermore, text present on these medias are unstructured in nature, so to process them we firstly need to pre-process the data. There are so many feature extraction techniques such as Bag of Words, TF-IDF (Term Frequency-Inverse Document Frequency), word embedding, NLP based features like word count. In this project, we analysed the impact of feature TF-IDF word level on electricity bills dataset of sentiment analysis. We found that by using TF-IDF word level performance of sentiment analysis is 3-4 higher than using N-gram features. Analysis is done using four classification algorithms including Naive Bayes, Decision Tree, Random Forest, and Logistic Regression and considering F-Score, Accuracy, Precision, and Recall performance parameters.
翻訳日:2022-06-13 15:13:40 公開日:2022-06-10
# L2言語学習のための自動抽出文法概念の教師認識

Teacher Perception of Automatically Extracted Grammar Concepts for L2 Language Learning ( http://arxiv.org/abs/2206.05154v1 )

ライセンス: Link先を確認
Aditi Chaudhary, Arun Sampath, Ashwin Sheshadri, Antonios Anastasopoulos, Graham Neubig(参考訳) 言語教育の課題の1つは、言語の構文、意味論、音韻学に関する規則を意味のある方法で整理する方法である。 これは教育的なスキルだけでなく、その言語を深く理解する必要がある。 このようなカリキュラムを開発するための包括的な資料は英語といくつかの広義の言語で利用可能であるが、他の多くの言語では教師が生徒のニーズに応じて手作業で作成する必要がある。 このプロセスは難しいです。 一 当該専門家がアクセスし、必要な資源を有しなければならないこと。 二 たとえそのような専門家がいるとしても、言語のすべての複雑さを説明するのは、時間がかかり、省略しがちである。 本稿では,文法の異なる側面の記述を自動的に発見・可視化することで,このプロセスの促進を目的とした自動フレームワークを提案する。 具体的には,モルフォシンタックス(単語の順序,一致,ケースマーキング,あるいは単語形成の学習)と意味論(語彙の学習)に関する疑問に答える自然テキストコーパスから記述を抽出し,その例を示す。 この手法をインド語、カンナダ語、マラタイ語に応用し、英語とは異なり、十分に発達した教育資源を持っていないため、この演習の恩恵を受ける可能性が高い。 抽出された資料の有用性を評価するため,我々は,これらの言語を手作業で評価するために,北米の学校から言語教育者の支援を受ける。 全体として、教師は教材を授業準備や学習者評価のための参考資料として、興味深いものと見なしている。

One of the challenges of language teaching is how to organize the rules regarding syntax, semantics, or phonology of the language in a meaningful manner. This not only requires pedagogical skills, but also requires a deep understanding of that language. While comprehensive materials to develop such curricula are available in English and some broadly spoken languages, for many other languages, teachers need to manually create them in response to their students' needs. This process is challenging because i) it requires that such experts be accessible and have the necessary resources, and ii) even if there are such experts, describing all the intricacies of a language is time-consuming and prone to omission. In this article, we present an automatic framework that aims to facilitate this process by automatically discovering and visualizing descriptions of different aspects of grammar. Specifically, we extract descriptions from a natural text corpus that answer questions about morphosyntax (learning of word order, agreement, case marking, or word formation) and semantics (learning of vocabulary) and show illustrative examples. We apply this method for teaching the Indian languages, Kannada and Marathi, which, unlike English, do not have well-developed pedagogical resources and, therefore, are likely to benefit from this exercise. To assess the perceived utility of the extracted material, we enlist the help of language educators from schools in North America who teach these languages to perform a manual evaluation. Overall, teachers find the materials to be interesting as a reference material for their own lesson preparation or even for learner evaluation.
翻訳日:2022-06-13 15:13:13 公開日:2022-06-10
# マルチタスク学習による名目メタファー生成

Nominal Metaphor Generation with Multitask Learning ( http://arxiv.org/abs/2206.05195v1 )

ライセンス: Link先を確認
Yucheng Li, Chenghua Lin, Frank Geurin(参考訳) 名目メタファーは人間の言語で頻繁に使われ、説得力、感情の表現、興味の刺激に有効であることが示されている。 本稿は,中国の名詞メタファー(NM)生成問題に対処する。 我々は,NM識別,NMコンポーネント識別,NM生成という3つのタスクを共同で最適化する新しいマルチタスクフレームワークを提案する。 メタファー識別モジュールは、NM生成のための大規模未ラベルコーパスから新しいメタファーを発見する自己学習手順を実行することができる。 NMコンポーネント識別モジュールは、トレーニング中のコンポーネントを強調し、より一貫性のある結果を得るためにこれらのNMコンポーネントの生成を行う。 NM識別モジュールとコンポーネント識別モジュールを訓練するために,多様な比喩的パターンを含む6.3k文からなる注釈付きコーパスを構築した。 自動測定により,提案手法は可読性の高い多種多様なメタファーを生成できることが示され,92%が新しい比喩的比較である。 人間の評価は、我々のモデルが一貫性と創造性に基づくベースラインを大幅に上回っていることを示している。

Nominal metaphors are frequently used in human language and have been shown to be effective in persuading, expressing emotion, and stimulating interest. This paper tackles the problem of Chinese Nominal Metaphor (NM) generation. We introduce a novel multitask framework, which jointly optimizes three tasks: NM identification, NM component identification, and NM generation. The metaphor identification module is able to perform a self-training procedure, which discovers novel metaphors from a large-scale unlabeled corpus for NM generation. The NM component identification module emphasizes components during training and conditions the generation on these NM components for more coherent results. To train the NM identification and component identification modules, we construct an annotated corpus consisting of 6.3k sentences that contain diverse metaphorical patterns. Automatic metrics show that our method can produce diverse metaphors with good readability, where 92\% of them are novel metaphorical comparisons. Human evaluation shows our model significantly outperforms baselines on consistency and creativity.
翻訳日:2022-06-13 15:12:47 公開日:2022-06-10
# 評価理論を用いたテキスト中の感情の次元モデリング:コーパス生成、注釈信頼性、予測

Dimensional Modeling of Emotions in Text with Appraisal Theories: Corpus Creation, Annotation Reliability, and Prediction ( http://arxiv.org/abs/2206.05238v1 )

ライセンス: Link先を確認
Enrica Troiano and Laura Oberl\"ander and Roman Klinger(参考訳) 感情分析の最も顕著なタスクは、テキストに感情を割り当て、言語で感情がどのように現れるかを理解することである。 自然言語処理における重要な観察は、感情はイベントのみを参照することで暗黙的にコミュニケーションでき、感情名に明示的に言及することなく、感情の共感的、客観的な理解に訴えることができることである。 心理学において、評価理論として知られる感情理論のクラスは、出来事と感情の関係を説明することを目的としている。 評価は、関連する出来事を経験する人々による認知評価を測定する変数として形式化することができる。 それらは、イベントが新規である場合、人が自分自身を責任とみなす場合、それが自身の目標と一致している場合、その他多くの場合、評価を含む。 このような評価は、例えば、新しい状況が驚きを引き起こすことや、不確実な結果をもたらすことが恐怖を引き起こすことを、イベントに基づいてどの感情が発達するかを説明する。 テキストにおける感情分析における評価理論の適合性を分析し,評価概念が注釈者によって確実に再構築できるか,テキスト分類器によって予測可能か,評価概念が感情カテゴリーの識別に役立つかを理解することを目的としている。 そこで我々は,特定の感情を誘発する出来事をテキストで記述し,評価を明らかにすることでコーパスをコンパイルする。 そして,本文から感情や評価を再構築するよう読者に求めた。 この設定により、感情や評価がテキストから純粋に回収できるかどうかを計測することができ、モデルのパフォーマンス測定を判断するための人間のベースラインを提供する。 テキスト分類法を人間の注釈者と比較した結果,どちらも類似の性能で感情や評価を確実に検出できることがわかった。 さらに、評価概念がテキスト中の感情の分類を改善することを示す。

The most prominent tasks in emotion analysis are to assign emotions to texts and to understand how emotions manifest in language. An important observation for natural language processing is that emotions can be communicated implicitly by referring to events alone, appealing to an empathetic, intersubjective understanding of events, even without explicitly mentioning an emotion name. In psychology, the class of emotion theories known as appraisal theories aims at explaining the link between events and emotions. Appraisals can be formalized as variables that measure a cognitive evaluation by people living through an event that they consider relevant. They include the assessment if an event is novel, if the person considers themselves to be responsible, if it is in line with the own goals, and many others. Such appraisals explain which emotions are developed based on an event, e.g., that a novel situation can induce surprise or one with uncertain consequences could evoke fear. We analyze the suitability of appraisal theories for emotion analysis in text with the goal of understanding if appraisal concepts can reliably be reconstructed by annotators, if they can be predicted by text classifiers, and if appraisal concepts help to identify emotion categories. To achieve that, we compile a corpus by asking people to textually describe events that triggered particular emotions and to disclose their appraisals. Then, we ask readers to reconstruct emotions and appraisals from the text. This setup allows us to measure if emotions and appraisals can be recovered purely from text and provides a human baseline to judge model's performance measures. Our comparison of text classification methods to human annotators shows that both can reliably detect emotions and appraisals with similar performance. We further show that appraisal concepts improve the categorization of emotions in text.
翻訳日:2022-06-13 15:12:32 公開日:2022-06-10
# ABCDE:エージェントによる認知開発環境

ABCDE: An Agent-Based Cognitive Development Environment ( http://arxiv.org/abs/2206.04909v1 )

ライセンス: Link先を確認
Jieyi Ye, Jiafei Duan, Samson Yu, Bihan Wen, Cheston Tan(参考訳) 子供の認知能力はAIベンチマークとして言及されることもある。 最も一般的な1000のコンセプト(日常使用の89.%)は、どのように自然主義的な子どもの環境で学習できるか? 子どもの認知発達は品質に関するもので、新しい概念は単純な例を通して伝えられる。 知識の足場化のアプローチは、単純なオブジェクトとアクションを使って、子供たちの教え方のような概念を伝える。 ABCDEは,子ども向けの典型的なプレイルームをモデルとしたインタラクティブな3D環境である。 300以上のユニークな3dオブジェクトアセット(おもにおもちゃ)と、子供と親エージェントがオブジェクトと互いに対話するための大きなアクションスペースがある。 ABCDEは、子どもの認知発達のための自然主義的な環境を模倣することを目的とした最初の環境である。 シミュレータはhttps://pypi.org/project/ABCDESim/1.0.0/で見ることができる。

Children's cognitive abilities are sometimes cited as AI benchmarks. How can the most common 1,000 concepts (89\% of everyday use) be learnt in a naturalistic children's setting? Cognitive development in children is about quality, and new concepts can be conveyed via simple examples. Our approach of knowledge scaffolding uses simple objects and actions to convey concepts, like how children are taught. We introduce ABCDE, an interactive 3D environment modeled after a typical playroom for children. It comes with 300+ unique 3D object assets (mostly toys), and a large action space for child and parent agents to interact with objects and each other. ABCDE is the first environment aimed at mimicking a naturalistic setting for cognitive development in children; no other environment focuses on high-level concept learning through learner-teacher interactions. The simulator can be found at https://pypi.org/project/ABCDESim/1.0.0/
翻訳日:2022-06-13 15:11:53 公開日:2022-06-10
# R4D:長距離距離推定のための参照オブジェクトの利用

R4D: Utilizing Reference Objects for Long-Range Distance Estimation ( http://arxiv.org/abs/2206.04831v1 )

ライセンス: Link先を確認
Yingwei Li, Tiffany Chen, Maya Kabkab, Ruichi Yu, Longlong Jing, Yurong You, Hang Zhao(参考訳) 物体の距離を推定することは自動運転にとって安全上重要な課題である。 ショートレンジオブジェクトに焦点を当て、既存のメソッドとデータセットは同様に重要なロングレンジオブジェクトを無視します。 本稿では,この課題のために開発された新しい手法を検証するための2つのデータセットと,長距離距離推定と呼ぶ課題について紹介する。 次に,シーン内の既知の距離の参照を用いて,長距離物体の距離を正確に推定する最初のフレームワークであるr4dを提案する。 人間の知覚からインスピレーションを得たR4Dは、対象オブジェクトをすべての参照に接続することでグラフを構築する。 グラフ内のエッジは、一対のターゲットと参照オブジェクトの間の相対距離情報を符号化する。 次に、アテンションモジュールを使用して、参照オブジェクトの重要性を測り、それらを1つのターゲットオブジェクト距離予測に組み合わせる。 提案した2つのデータセットに対する実験は、既存のベースラインと比較して大幅に改善され、R4Dの有効性と堅牢性を示した。 提案されたデータセットであるWaymo OpenDataset - Long-Range Labelsをwaymo.com/open/downloadで公開したいと思っています。

Estimating the distance of objects is a safety-critical task for autonomous driving. Focusing on short-range objects, existing methods and datasets neglect the equally important long-range objects. In this paper, we introduce a challenging and under-explored task, which we refer to as Long-Range Distance Estimation, as well as two datasets to validate new methods developed for this task. We then proposeR4D, the first framework to accurately estimate the distance of long-range objects by using references with known distances in the scene. Drawing inspiration from human perception, R4D builds a graph by connecting a target object to all references. An edge in the graph encodes the relative distance information between a pair of target and reference objects. An attention module is then used to weigh the importance of reference objects and combine them into one target object distance prediction. Experiments on the two proposed datasets demonstrate the effectiveness and robustness of R4D by showing significant improvements compared to existing baselines. We are looking to make the proposed dataset, Waymo OpenDataset - Long-Range Labels, available publicly at waymo.com/open/download.
翻訳日:2022-06-13 15:10:22 公開日:2022-06-10
# Masked Autoencodersはロバストデータ拡張器

Masked Autoencoders are Robust Data Augmentors ( http://arxiv.org/abs/2206.04846v1 )

ライセンス: Link先を確認
Haohang Xu and Shuangrui Ding and Xiaopeng Zhang and Hongkai Xiong and Qi Tian(参考訳) ディープニューラルネットワークは、複雑なビジョンタスクに取り組むために強力な表現を学習することができるが、過剰フィッティング問題のような望ましくない特性を公開する。 この目的のために、ディープニューラルネットワークの一般化には、画像拡張のような正規化技術が必要である。 しかし、最も一般的な画像強化のレシピは、スケール、フリップ、カラージッタといった、市販の線形変換に限定している。 手作りの特質のため、これらの強化は真の硬い強化例を生成するには不十分である。 本稿では,トレーニングプロセスの正規化に向けた拡張の新たな視点を提案する。 自己教師付き学習にマスク付き画像モデリングを適用した最近の成功に触発されて,我々は自己教師付きマスク付きオートエンコーダを採用し,入力画像の歪んだビューを生成する。 このようなモデルに基づく非線形変換をデータ拡張として活用することで,高レベルの認識タスクを向上できることを示す。 提案手法は, 提案手法を \textbf{M}ask-\textbf{R}econstruct \textbf{A}ugmentation (MRA) と呼ぶ。 画像分類ベンチマークの広範な実験により,提案手法の有効性が検証された。 具体的には、MRAは、教師付き半教師付きおよび少数ショット分類の性能を一貫して向上させる。 コードは \url{https://github.com/haohang96/MRA} で入手できる。

Deep neural networks are capable of learning powerful representations to tackle complex vision tasks but expose undesirable properties like the over-fitting issue. To this end, regularization techniques like image augmentation are necessary for deep neural networks to generalize well. Nevertheless, most prevalent image augmentation recipes confine themselves to off-the-shelf linear transformations like scale, flip, and colorjitter. Due to their hand-crafted property, these augmentations are insufficient to generate truly hard augmented examples. In this paper, we propose a novel perspective of augmentation to regularize the training process. Inspired by the recent success of applying masked image modeling to self-supervised learning, we adopt the self-supervised masked autoencoder to generate the distorted view of the input images. We show that utilizing such model-based nonlinear transformation as data augmentation can improve high-level recognition tasks. We term the proposed method as \textbf{M}ask-\textbf{R}econstruct \textbf{A}ugmentation (MRA). The extensive experiments on various image classification benchmarks verify the effectiveness of the proposed augmentation. Specifically, MRA consistently enhances the performance on supervised, semi-supervised as well as few-shot classification. The code will be available at \url{https://github.com/haohang96/MRA}.
翻訳日:2022-06-13 15:10:06 公開日:2022-06-10
# 第1回舗装データサイエンスチャレンジ

The 1st Data Science for Pavements Challenge ( http://arxiv.org/abs/2206.04874v1 )

ライセンス: Link先を確認
Ashkan Behzadian, Tanner Wambui Muturi, Tianjie Zhang, Hongmin Kim, Amanda Mullins, Yang Lu, Neema Jasika Owor, Yaw Adu-Gyamfi, William Buttlar, Majidifard Hamed, Armstrong Aboah, David Mensching, Spragg Robert, Matthew Corrigan, Jack Youtchef, Dave Eshan(参考訳) Data Science for Pavement Challenge (DSPC)は、チームが業界で活用可能な機械学習アルゴリズムを革新し開発するためのベンチマークデータセットとコードを備えたプラットフォームを提供することによって、舗装条件の監視と評価のための自動視覚システムの研究と開発を加速することを目指している。 第1回大会は8カ国から22チームが参加した。 参加者は、複数のソースから撮影した画像や異なる条件下で、様々な種類の舗装障害を自動的に検出し分類する必要がある。 チームは、クリーニング、ラベル付け、拡張など、さまざまなデータ修正手法を活用することで、事前定義されたモデルアーキテクチャの正確性を高めるように命じられた。 F1スコアに基づいて,リアルタイムオンライン評価システムを開発した。 leaderboardの結果は、舗装の監視と評価における自動化の進歩に対する機械の期待と課題を示した。 本稿では,上位5チームからのソリューションを概説する。 これらのチームは、データクリーニング、アノテーション、拡張、検出パラメータチューニングといった分野のイノベーションを提案した。 上位チームのF1得点は約0.9。 この論文は、現在の課題に対してうまく機能するさまざまな実験と、モデル精度を大幅に改善しなかった実験のレビューで締めくくっている。

The Data Science for Pavement Challenge (DSPC) seeks to accelerate the research and development of automated vision systems for pavement condition monitoring and evaluation by providing a platform with benchmarked datasets and codes for teams to innovate and develop machine learning algorithms that are practice-ready for use by industry. The first edition of the competition attracted 22 teams from 8 countries. Participants were required to automatically detect and classify different types of pavement distresses present in images captured from multiple sources, and under different conditions. The competition was data-centric: teams were tasked to increase the accuracy of a predefined model architecture by utilizing various data modification methods such as cleaning, labeling and augmentation. A real-time, online evaluation system was developed to rank teams based on the F1 score. Leaderboard results showed the promise and challenges of machine for advancing automation in pavement monitoring and evaluation. This paper summarizes the solutions from the top 5 teams. These teams proposed innovations in the areas of data cleaning, annotation, augmentation, and detection parameter tuning. The F1 score for the top-ranked team was approximately 0.9. The paper concludes with a review of different experiments that worked well for the current challenge and those that did not yield any significant improvement in model accuracy.
翻訳日:2022-06-13 15:09:47 公開日:2022-06-10
# 自己空間-時間ラベル拡散による非教師なし霧場面理解

Unsupervised Foggy Scene Understanding via Self Spatial-Temporal Label Diffusion ( http://arxiv.org/abs/2206.04879v1 )

ライセンス: Link先を確認
Liang Liao, Wenyi Chen, Jing Xiao, Zheng Wang, Chia-Wen Lin, Shin'ichi Satoh(参考訳) 運転シーンの霧画像のシーケンスを理解することは自動運転には不可欠だが、悪天候の実際の画像の収集と注釈が難しいため、依然として難しい課題である。 近年、自己学習戦略は、対象の擬似ラベルを生成してモデルを再訓練することで、ソースドメインからターゲットドメインへ反復的にモデルを適用する、教師なしドメイン適応の強力なソリューションとみなされている。 しかし、自信のある疑似ラベルの選択は、必然的にスパーシティと精度の衝突に苦しみ、どちらも最適でないモデルに繋がる。 この問題に対処するために,運転シーンの霧画像シーケンスの特徴を利用して,自信のある擬似ラベルを識別する。 具体的には,シーケンシャル画像データの局所的空間的類似性と隣接した時間的対応の2つの発見に基づき,新たなターゲット領域駆動擬似ラベル拡散(tdo-dif)方式を提案する。 スーパーピクセルとオプティカルフローを使用して、それぞれ空間的類似性と時間的対応を識別し、フローによってリンクされたスーパーピクセルまたは時間的対応ペア内に、自信あるがスパースな擬似ラベルを拡散させる。 さらに,拡散画素の特徴的類似性を確保するために,局所的な空間的類似性損失と時間的対比損失を導入する。 実験の結果、tdo-difスキームは、最先端の非教師なしドメイン適応意味セグメンテーション法を超える2つの自然フォギーデータセット(フォギーチューリッヒとフォギー駆動)において、51.92%と53.84%の平均交点オーバー結合(miou)を達成するのに役立つことがわかった。 モデルとデータはhttps://github.com/velor2012/TDo-Difで見ることができる。

Understanding foggy image sequence in the driving scenes is critical for autonomous driving, but it remains a challenging task due to the difficulty in collecting and annotating real-world images of adverse weather. Recently, the self-training strategy has been considered a powerful solution for unsupervised domain adaptation, which iteratively adapts the model from the source domain to the target domain by generating target pseudo labels and re-training the model. However, the selection of confident pseudo labels inevitably suffers from the conflict between sparsity and accuracy, both of which will lead to suboptimal models. To tackle this problem, we exploit the characteristics of the foggy image sequence of driving scenes to densify the confident pseudo labels. Specifically, based on the two discoveries of local spatial similarity and adjacent temporal correspondence of the sequential image data, we propose a novel Target-Domain driven pseudo label Diffusion (TDo-Dif) scheme. It employs superpixels and optical flows to identify the spatial similarity and temporal correspondence, respectively and then diffuses the confident but sparse pseudo labels within a superpixel or a temporal corresponding pair linked by the flow. Moreover, to ensure the feature similarity of the diffused pixels, we introduce local spatial similarity loss and temporal contrastive loss in the model re-training stage. Experimental results show that our TDo-Dif scheme helps the adaptive model achieve 51.92% and 53.84% mean intersection-over-union (mIoU) on two publicly available natural foggy datasets (Foggy Zurich and Foggy Driving), which exceeds the state-of-the-art unsupervised domain adaptive semantic segmentation methods. Models and data can be found at https://github.com/velor2012/TDo-Dif.
翻訳日:2022-06-13 15:09:27 公開日:2022-06-10
# PatchComplete: 未知のカテゴリ上での3次元形状補完のためのマルチリゾリューション・パッチの事前学習

PatchComplete: Learning Multi-Resolution Patch Priors for 3D Shape Completion on Unseen Categories ( http://arxiv.org/abs/2206.04916v1 )

ライセンス: Link先を確認
Yuchen Rao, Yinyu Nie, Angela Dai(参考訳) 3次元形状表現は多くの視覚的・知覚的応用において強力な推論を可能にするが、3次元形状の事前学習は訓練された特定のカテゴリーに制約される傾向があり、非効率な学習プロセス、特に目に見えないカテゴリーの一般的な応用に繋がる。 そこで本研究では,マルチレゾリューションの局所パッチをベースとした効果的な形状の事前学習を行うPatchCompleteを提案する。 これらの共有部分構造を学ぶために、全列車のカテゴリーにまたがるマルチレゾリューションパッチプリアーを学習し、パッチプリアーをまたいで注意して入力された部分的な形状観察に関連付け、最終的に完全な形状再構成に復号する。 このようなパッチベースのプリエントは、特定の列車カテゴリへの過度な適合を回避し、テスト時に全く見えないカテゴリの再構築を可能にする。 本研究では,ScanNetの合成ShapeNetデータに対するアプローチの有効性と,ノイズやクラッタを含む実スキャン対象への挑戦,新規カテゴリ形状完了における技術状況の改善,ShapeNetのチャンファー距離19.3%,ScanNetの9.0%の課題について述べる。

While 3D shape representations enable powerful reasoning in many visual and perception applications, learning 3D shape priors tends to be constrained to the specific categories trained on, leading to an inefficient learning process, particularly for general applications with unseen categories. Thus, we propose PatchComplete, which learns effective shape priors based on multi-resolution local patches, which are often more general than full shapes (e.g., chairs and tables often both share legs) and thus enable geometric reasoning about unseen class categories. To learn these shared substructures, we learn multi-resolution patch priors across all train categories, which are then associated to input partial shape observations by attention across the patch priors, and finally decoded into a complete shape reconstruction. Such patch-based priors avoid overfitting to specific train categories and enable reconstruction on entirely unseen categories at test time. We demonstrate the effectiveness of our approach on synthetic ShapeNet data as well as challenging real-scanned objects from ScanNet, which include noise and clutter, improving over state of the art in novel-category shape completion by 19.3% in chamfer distance on ShapeNet, and 9.0% for ScanNet.
翻訳日:2022-06-13 15:08:49 公開日:2022-06-10
# ニューラルテンプレート:3次元メッシュのトポロジー認識再構成とアンタングル生成

Neural Template: Topology-aware Reconstruction and Disentangled Generation of 3D Meshes ( http://arxiv.org/abs/2206.04942v1 )

ライセンス: Link先を確認
Ka-Hei Hui, Ruihui Li, Jingyu Hu, Chi-Wing Fu(参考訳) 本稿では,3次元メッシュ再構成のためのdtnetと呼ばれる新しいフレームワークを提案する。 これまでの研究以外にも、各入力に特有のトポロジ認識ニューラルネットワークテンプレートを学習し、学習したトポロジを維持しながら、テンプレートを変形して詳細なメッシュを再構築する。 1つの重要な洞察は、複雑なメッシュ再構成を2つのサブタスクに分離することである。 このデカップリングのおかげで、DT-Netは潜在空間における位相と形状の非絡み合い表現を暗黙的に学習する。 これにより、従来の復元作業では実現不可能な3Dオブジェクトのトポロジをリミックスするなど、様々な形状生成アプリケーションをサポートするための新しいアンタングル制御が可能となる。 広範な実験結果から,本手法は最先端手法と比較して,高品質なメッシュ,特に多様なトポロジーを生成できることが判明した。

This paper introduces a novel framework called DTNet for 3D mesh reconstruction and generation via Disentangled Topology. Beyond previous works, we learn a topology-aware neural template specific to each input then deform the template to reconstruct a detailed mesh while preserving the learned topology. One key insight is to decouple the complex mesh reconstruction into two sub-tasks: topology formulation and shape deformation. Thanks to the decoupling, DT-Net implicitly learns a disentangled representation for the topology and shape in the latent space. Hence, it can enable novel disentangled controls for supporting various shape generation applications, e.g., remix the topologies of 3D objects, that are not achievable by previous reconstruction works. Extensive experimental results demonstrate that our method is able to produce high-quality meshes, particularly with diverse topologies, as compared with the state-of-the-art methods.
翻訳日:2022-06-13 15:08:22 公開日:2022-06-10
# NR-DFERNet:動的顔表情認識のためのノイズロバストネットワーク

NR-DFERNet: Noise-Robust Network for Dynamic Facial Expression Recognition ( http://arxiv.org/abs/2206.04975v1 )

ライセンス: Link先を確認
Hanting Li, Mingzhe Sui, Zhaoqing Zhu, and Feng zhao(参考訳) 野生の動的表情認識(dfer)は、ビデオシーケンスのノイズの多いフレームが多いため、非常に難しい課題である。 以前の研究はより差別的な特徴の抽出に重点を置いていたが、ノイズの多いフレームと鍵フレームの区別は無視した。 この問題に対処するために、DFERタスクにおけるノイズフレームの干渉を効果的に軽減できるノイズロスト動的表情認識ネットワーク(NR-DFERNet)を提案する。 具体的には,より識別的な空間的特徴を学ぶために動的特徴を静的特徴に導入する動的静的融合モジュール(dsf)を開発した。 対象の無関係フレームの影響を抑制するために, 変圧器用の新しい動的クラストークン(dct)を時間段階に導入する。 さらに,非ニュートラルシーケンス分類における中性フレームの多さの影響を低減するために,決定段階でスニペットベースフィルタ(SF)を設計する。 我々のNR-DFERNetはDFEWとAFEWのベンチマークで最先端の手法よりも優れていた。

Dynamic facial expression recognition (DFER) in the wild is an extremely challenging task, due to a large number of noisy frames in the video sequences. Previous works focus on extracting more discriminative features, but ignore distinguishing the key frames from the noisy frames. To tackle this problem, we propose a noise-robust dynamic facial expression recognition network (NR-DFERNet), which can effectively reduce the interference of noisy frames on the DFER task. Specifically, at the spatial stage, we devise a dynamic-static fusion module (DSF) that introduces dynamic features to static features for learning more discriminative spatial features. To suppress the impact of target irrelevant frames, we introduce a novel dynamic class token (DCT) for the transformer at the temporal stage. Moreover, we design a snippet-based filter (SF) at the decision stage to reduce the effect of too many neutral frames on non-neutral sequence classification. Extensive experimental results demonstrate that our NR-DFERNet outperforms the state-of-the-art methods on both the DFEW and AFEW benchmarks.
翻訳日:2022-06-13 15:08:06 公開日:2022-06-10
# 自己監督型視覚変換器の位置ラベル

Position Labels for Self-Supervised Vision Transformer ( http://arxiv.org/abs/2206.04981v1 )

ライセンス: Link先を確認
Zhemin Zhang, Xun Gong, Jinyi Wu(参考訳) 位置符号化は、入力画像の空間構造を捉えるために視覚変換器(ViT)にとって重要である。 一般的な効果はViTで証明されている。 我々の研究では、入力画像のパッチの2次元位置エンコーディングを認識するためにViTを訓練することを提案するが、この明らかに単純なタスクは意味のある自己監督タスクをもたらす。 ViT位置符号化に関するこれまでの研究に基づいて、絶対位置と相対位置を含む2次元画像専用の2つの位置ラベルを提案する。 我々の位置ラベルは、様々なViT変種と組み合わせることで、容易にトランスフォーマーに接続できる。 1.バニラViT(例えば、ViT-BとSwin-B)の補助訓練目標としてモデル性能を改善する。 2. 自己教師付きViT(例:MAE)を組み合わせることで、意味的特徴学習のためのより強力な自己教師付き信号を提供する。 実験の結果、Swin-B と ViT-B がそれぞれ Mini-ImageNet で 1.9% (top-1 Acc) と 5.6% (top-1 Acc) の改善を得た。

Position encoding is important for vision transformer (ViT) to capture the spatial structure of the input image. General efficacy has been proven in ViT. In our work we propose to train ViT to recognize the 2D position encoding of patches of the input image, this apparently simple task actually yields a meaningful self-supervisory task. Based on previous work on ViT position encoding, we propose two position labels dedicated to 2D images including absolute position and relative position. Our position labels can be easily plugged into transformer, combined with the various current ViT variants. It can work in two ways: 1.As an auxiliary training target for vanilla ViT (e.g., ViT-B and Swin-B) to improve model performance. 2. Combine the self-supervised ViT (e.g., MAE) to provide a more powerful self-supervised signal for semantic feature learning. Experiments demonstrate that solely due to the proposed self-supervised methods, Swin-B and ViT-B obtained improvements of 1.9% (top-1 Acc) and 5.6% (top-1 Acc) on Mini-ImageNet, respectively.
翻訳日:2022-06-13 15:07:49 公開日:2022-06-10
# イベントカメラのグローバル最適コントラスト最大化

Globally-Optimal Contrast Maximisation for Event Cameras ( http://arxiv.org/abs/2206.05127v1 )

ライセンス: Link先を確認
Xin Peng, Ling Gao, Yifu Wang, Laurent Kneip(参考訳) イベントカメラはバイオインスパイアされたセンサーで、照明条件に挑戦し、時間分解能が高い。 しかし、そのコンセプトは従来のフレームベースのカメラとは根本的に異なる。 イベントカメラの画素は独立かつ非同期に動作する。 対数輝度の変化を測定して、前回の出来事からある量の相対的な変化を示す高度に識別された時間スタンプのイベントを返します。 この種の測定を行うには、新しいモデルとアルゴリズムが必要である。 本研究は,イベントカメラの動作推定問題をいくつか検討する。 イベントの流れは、時空体積の一般的なホモグラフィックワープによってモデル化され、その目的は、ワープされたイベントのイメージ内のコントラストの最大化として定式化される。 私たちの中心となる貢献は、これらの一般的な非凸問題に対するグローバルな最適解を導出することにあります。 提案手法は, 6つの異なるコントラスト推定関数に対して, 新規かつ効率的かつ再帰的な上界および下界を用いた, 分岐と境界の最適化に依拠する。 本手法の実用的妥当性を,3つの異なるイベントカメラモーション推定問題に適用して実証した。

Event cameras are bio-inspired sensors that perform well in challenging illumination conditions and have high temporal resolution. However, their concept is fundamentally different from traditional frame-based cameras. The pixels of an event camera operate independently and asynchronously. They measure changes of the logarithmic brightness and return them in the highly discretised form of time-stamped events indicating a relative change of a certain quantity since the last event. New models and algorithms are needed to process this kind of measurements. The present work looks at several motion estimation problems with event cameras. The flow of the events is modelled by a general homographic warping in a space-time volume, and the objective is formulated as a maximisation of contrast within the image of warped events. Our core contribution consists of deriving globally optimal solutions to these generally non-convex problems, which removes the dependency on a good initial guess plaguing existing methods. Our methods rely on branch-and-bound optimisation and employ novel and efficient, recursive upper and lower bounds derived for six different contrast estimation functions. The practical validity of our approach is demonstrated by a successful application to three different event camera motion estimation problems.
翻訳日:2022-06-13 15:06:46 公開日:2022-06-10
# 自己教師型変圧器の機能自己相関の探索

Exploring Feature Self-relation for Self-supervised Transformer ( http://arxiv.org/abs/2206.05184v1 )

ライセンス: Link先を確認
Zhong-Yu Li, Shanghua Gao, Ming-Ming Cheng(参考訳) 畳み込みネットワーク(CNN)の自己超越による表現の学習は視覚タスクに有効であることが証明された。 CNNの代替として、ビジョントランスフォーマー(ViT)は、ピクセルレベルの自己アテンションとチャネルレベルのフィードフォワードネットワークで強力な表現能力を持つ。 最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。 それでもほとんどの研究は、サンプルのインスタンスレベルの識別など、CNN用に設計された自己監督戦略に従っている。 画素とチャネル間のモデリング関係は、他のネットワークとViTを区別する。 この特性を強制するために、自己監督型ViTを訓練するための機能自己関係について検討する。 具体的には,複数視点からの特徴埋め込みのみに焦点をあてた自己教師型学習を行う代わりに,特徴自己関係,すなわち画素/チャネルレベルの自己関係を自己教師型学習に活用する。 自己関係に基づく学習は、ViTの関係モデリング能力をさらに強化し、複数の下流タスクのパフォーマンスを安定的に向上させる強力な表現をもたらす。 私たちのソースコードは公開されます。

Learning representations with self-supervision for convolutional networks (CNN) has proven effective for vision tasks. As an alternative for CNN, vision transformers (ViTs) emerge strong representation ability with the pixel-level self-attention and channel-level feed-forward networks. Recent works reveal that self-supervised learning helps unleash the great potential of ViTs. Still, most works follow self-supervised strategy designed for CNNs, e.g., instance-level discrimination of samples, but they ignore the unique properties of ViTs. We observe that modeling relations among pixels and channels distinguishes ViTs from other networks. To enforce this property, we explore the feature self-relations for training self-supervised ViTs. Specifically, instead of conducting self-supervised learning solely on feature embeddings from multiple views, we utilize the feature self-relations, i.e., pixel/channel-level self-relations, for self-supervised learning. Self-relation based learning further enhance the relation modeling ability of ViTs, resulting in strong representations that stably improve performance on multiple downstream tasks. Our source code will be made publicly available.
翻訳日:2022-06-13 15:06:30 公開日:2022-06-10
# lost in transmission: ネットワークの腐敗がビデオ機械学習モデルに与える影響について

Lost in Transmission: On the Impact of Networking Corruptions on Video Machine Learning Models ( http://arxiv.org/abs/2206.05252v1 )

ライセンス: Link先を確認
Trenton Chang and Daniel Y. Fu(参考訳) 本稿では,ネットワークエラーによるデータ破損が,機械学習(ML)モデルに与える影響について検討する。 ベンチマークビデオMLデータセットであるKinetics-400で明らかなネットワークの破損を発見した。 シミュレーション研究では,(1)ネットワークの破損が原因となるアーティファクト,(2)そのようなアーティファクトがMLモデルにどのように影響するか,(3)標準ロバスト性手法が悪影響を軽減するかを検討する。 ネットワークの破損は視覚的および時間的アーティファクト(スミア色やフレームドロップなど)を引き起こす。 これらのネットワークの破損は、さまざまなビデオMLタスクのパフォーマンスを低下させるが、タスクとデータセットによって、タスクに必要な時間的コンテキストによって異なる。 最後に、データ拡張(データ破損の標準的な防御)を評価するが、パフォーマンスは回復しない。

We study how networking corruptions--data corruptions caused by networking errors--affect video machine learning (ML) models. We discover apparent networking corruptions in Kinetics-400, a benchmark video ML dataset. In a simulation study, we investigate (1) what artifacts networking corruptions cause, (2) how such artifacts affect ML models, and (3) whether standard robustness methods can mitigate their negative effects. We find that networking corruptions cause visual and temporal artifacts (i.e., smeared colors or frame drops). These networking corruptions degrade performance on a variety of video ML tasks, but effects vary by task and dataset, depending on how much temporal context the tasks require. Lastly, we evaluate data augmentation--a standard defense for data corruptions--but find that it does not recover performance.
翻訳日:2022-06-13 15:06:12 公開日:2022-06-10
# reknow: 統合エンティティと関係抽出のための知識の強化

REKnow: Enhanced Knowledge for Joint Entity and Relation Extraction ( http://arxiv.org/abs/2206.05123v1 )

ライセンス: Link先を確認
Sheng Zhang, Patrick Ng, Zhiguo Wang, Bing Xiang(参考訳) 関係抽出は,テキストからすべての隠れた関係事実を抽出することを目的とした重要な課題である。 深層言語モデルの開発により,関係抽出法は様々なベンチマークで良好な性能を発揮した。 しかし,従来の手法では,様々な関係抽出設定下でうまく機能する統一フレームワークが存在しないこと,背景情報がない場合に外部知識を効果的に活用すること,という2つの欠点が観察されている。 本研究では,これらの2つの問題を緩和する知識強化型生成モデルを提案する。 我々の生成モデルは,関係抽出設定下で関係三重項を逐次生成するための統一フレームワークであり,曖昧さを解決するために知識グラフ(kg)から関連する知識を明示的に活用している。 本モデルは,WebNLG,NYT10,TACREDなど,複数のベンチマークや設定において優れた性能を実現する。

Relation extraction is an important but challenging task that aims to extract all hidden relational facts from the text. With the development of deep language models, relation extraction methods have achieved good performance on various benchmarks. However, we observe two shortcomings of previous methods: first, there is no unified framework that works well under various relation extraction settings; second, effectively utilizing external knowledge as background information is absent. In this work, we propose a knowledge-enhanced generative model to mitigate these two issues. Our generative model is a unified framework to sequentially generate relational triplets under various relation extraction settings and explicitly utilizes relevant knowledge from Knowledge Graph (KG) to resolve ambiguities. Our model achieves superior performance on multiple benchmarks and settings, including WebNLG, NYT10, and TACRED.
翻訳日:2022-06-13 15:05:58 公開日:2022-06-10
# SATソルバを用いたニューラルネットワークの学習

Training Neural Networks using SAT solvers ( http://arxiv.org/abs/2206.04833v1 )

ライセンス: Link先を確認
Subham S. Sahoo(参考訳) ニューラルネットワークの学習にsatソルバを用いた大域的最適化法を探索するアルゴリズムを提案する。 ディープニューラルネットワークは、画像認識や音声認識などのタスクで大きな成果を上げています。 彼らの成功の大部分は、既存のどの方法よりも優れたソリューションを提供しながら、巨大なデータセットにうまくスケールする勾配ベースの最適化方法による。 しかし、パリティ関数や高速フーリエ変換のような学習問題があり、勾配に基づく最適化アルゴリズムを用いたニューラルネットワークでは、学習タスクの基盤構造を適切に把握できない。 したがって、局所最適化では勾配に基づく手法が立ち往生するため、グローバル最適化手法の探索は最も興味深い。 実験では,パリティ学習などのタスクにおいて,ADAMオプティマイザに対するアルゴリズムの有効性を示す。 しかし,MNISTデータセット上での画像分類を行う場合,本アルゴリズムの性能は不十分であった。 さらに、SATソルバのスケーラビリティを維持する上で、トレーニングデータセットのサイズとハイパーパラメータ設定の役割についても論じる。

We propose an algorithm to explore the global optimization method, using SAT solvers, for training a neural net. Deep Neural Networks have achieved great feats in tasks like-image recognition, speech recognition, etc. Much of their success can be attributed to the gradient-based optimisation methods, which scale well to huge datasets while still giving solutions, better than any other existing methods. However, there exist learning problems like the parity function and the Fast Fourier Transform, where a neural network using gradient-based optimisation algorithm can not capture the underlying structure of the learning task properly. Thus, exploring global optimisation methods is of utmost interest as the gradient-based methods get stuck in local optima. In the experiments, we demonstrate the effectiveness of our algorithm against the ADAM optimiser in certain tasks like parity learning. However, in the case of image classification on the MNIST Dataset, the performance of our algorithm was less than satisfactory. We further discuss the role of the size of the training dataset and the hyper-parameter settings in keeping things scalable for a SAT solver.
翻訳日:2022-06-13 15:03:01 公開日:2022-06-10
# カーネル化コンテキストバンディットのための通信効率の高い分散学習

Communication Efficient Distributed Learning for Kernelized Contextual Bandits ( http://arxiv.org/abs/2206.04835v1 )

ライセンス: Link先を確認
Chuanhao Li, Huazheng Wang, Mengdi Wang, and Hongning Wang(参考訳) 分散環境でのカーネル化されたコンテキスト帯域の学習における通信効率の課題に取り組む。 通信効率の高い分散バンディット学習の最近の進歩にもかかわらず、既存のソリューションは、実用性を妨げるマルチアーム付きバンディットや線形バンディットのような単純なモデルに限定されている。 本稿では,特徴から期待報酬への線形報酬マッピングの存在を仮定する代わりに,エージェントが再生成核ヒルベルト空間 (rkhs) において協調的に探索できる非線形報酬マッピングを考える。 これは分散カーネル学習が生データの転送を必要とするため、通信効率に重大な課題をもたらし、w.r.t.time horizon $t$が線形に増加する通信コストに繋がる。 我々は、より多くのデータポイントが収集されるにつれて適応的に更新される共通のNystr\"{o}m埋め込みを介して通信するすべてのエージェントを装備することでこの問題に対処する。 我々は, 後悔とコミュニケーションの両コストにおいて, アルゴリズムがサブ線形レートを達成できることを厳格に証明した。

We tackle the communication efficiency challenge of learning kernelized contextual bandits in a distributed setting. Despite the recent advances in communication-efficient distributed bandit learning, existing solutions are restricted to simple models like multi-armed bandits and linear bandits, which hamper their practical utility. In this paper, instead of assuming the existence of a linear reward mapping from the features to the expected rewards, we consider non-linear reward mappings, by letting agents collaboratively search in a reproducing kernel Hilbert space (RKHS). This introduces significant challenges in communication efficiency as distributed kernel learning requires the transfer of raw data, leading to a communication cost that grows linearly w.r.t. time horizon $T$. We addresses this issue by equipping all agents to communicate via a common Nystr\"{o}m embedding that gets updated adaptively as more data points are collected. We rigorously proved that our algorithm can attain sub-linear rate in both regret and communication cost.
翻訳日:2022-06-13 15:02:45 公開日:2022-06-10
# 多要素階層型ニューラルプロセス

Multi-fidelity Hierarchical Neural Processes ( http://arxiv.org/abs/2206.04872v1 )

ライセンス: Link先を確認
Dongxia Wu, Matteo Chinazzi, Alessandro Vespignani, Yi-An Ma, Rose Yu(参考訳) 科学と工学の分野ではコンピュータシミュレーションが広く使われている。 これらのシミュレーションは、精度と効率のバランスをとるために、複数のレベルの高度化で実行されることが多い。 マルチ忠実度サロゲートモデリングは、異なるシミュレーション出力を融合することにより計算コストを削減する。 低忠実度シミュレータから生成される安価なデータは、高価な高忠実度シミュレータによって生成される限られた高品質のデータと組み合わせることができる。 ガウス過程に基づく既存の手法は、カーネル関数の強い仮定に依存しており、高次元の設定にはほとんどスケールできない。 本稿では,マルチフィデリティ・サーロゲート・モデリングのための統一ニューラルネットワーク潜在変数モデルであるマルチフィデリティ階層型ニューラルネットワーク(mf-hnp)を提案する。 MF-HNPはニューラルプロセスの柔軟性とスケーラビリティを継承する。 潜在変数は、観測から潜在空間への異なる忠実度レベルの相関を変換する。 フィディティをまたいだ予測は潜在状態から条件付き独立である。 既存のメソッドにおけるエラー伝搬の問題を軽減するのに役立つ。 MF-HNPは、異なる入力次元と出力次元で異なる忠実度レベルで非ネストの高次元データを処理できるほど柔軟である。 疫学および気候モデリングタスクにおけるmf-hnpの評価を行い、精度と不確実性推定の観点から競合性能を達成する。 低次元(<10)タスクしか持たない深いガウス過程とは対照的に,本手法は高次元複雑なシミュレーション(疫学モデルでは7000以上,気候モデルでは45000以上)を高速化する大きな可能性を示している。

Science and engineering fields use computer simulation extensively. These simulations are often run at multiple levels of sophistication to balance accuracy and efficiency. Multi-fidelity surrogate modeling reduces the computational cost by fusing different simulation outputs. Cheap data generated from low-fidelity simulators can be combined with limited high-quality data generated by an expensive high-fidelity simulator. Existing methods based on Gaussian processes rely on strong assumptions of the kernel functions and can hardly scale to high-dimensional settings. We propose Multi-fidelity Hierarchical Neural Processes (MF-HNP), a unified neural latent variable model for multi-fidelity surrogate modeling. MF-HNP inherits the flexibility and scalability of Neural Processes. The latent variables transform the correlations among different fidelity levels from observations to latent space. The predictions across fidelities are conditionally independent given the latent states. It helps alleviate the error propagation issue in existing methods. MF-HNP is flexible enough to handle non-nested high dimensional data at different fidelity levels with varying input and output dimensions. We evaluate MF-HNP on epidemiology and climate modeling tasks, achieving competitive performance in terms of accuracy and uncertainty estimation. In contrast to deep Gaussian Processes with only low-dimensional (< 10) tasks, our method shows great promise for speeding up high-dimensional complex simulations (over 7000 for epidemiology modeling and 45000 for climate modeling).
翻訳日:2022-06-13 15:02:27 公開日:2022-06-10
# 主な精神疾患における深層学習に基づくサブタイプ同定の意義と安定性 分子精神医学(2022年)

Response to: Significance and stability of deep learning-based identification of subtypes within major psychiatric disorders. Molecular Psychiatry (2022) ( http://arxiv.org/abs/2206.04934v1 )

ライセンス: Link先を確認
Xizhe Zhang, Fei Wang, Weixiong Zhang(参考訳) 近年,Winter and Hahn [1] は,機械学習 [2] を用いた神経生物学的特徴に基づく主要な精神医学疾患(MPD)のサブタイプ同定に関する研究についてコメントしている。 研究チームは,本手法の一般化可能性と結果の統計的意義,安定性,過度な適合性に疑問を呈し,病型分類のためのパイプラインを提案した。 彼らの仕事に対する真剣な配慮に感謝していますが、基本的な機械学習の概念に対する誤解を指摘し、関連するいくつかの重要な問題を要約する必要があります。

Recently, Winter and Hahn [1] commented on our work on identifying subtypes of major psychiatry disorders (MPDs) based on neurobiological features using machine learning [2]. They questioned the generalizability of our methods and the statistical significance, stability, and overfitting of the results, and proposed a pipeline for disease subtyping. We appreciate their earnest consideration of our work, however, we need to point out their misconceptions of basic machine-learning concepts and delineate some key issues involved.
翻訳日:2022-06-13 15:02:04 公開日:2022-06-10
# 非自己回帰型ニューラルマシン翻訳を用いた中国語ttsフロントエンド

A Novel Chinese Dialect TTS Frontend with Non-Autoregressive Neural Machine Translation ( http://arxiv.org/abs/2206.04922v1 )

ライセンス: Link先を確認
Wudi Bao, Junhui Zhang, Junjie Pan, Xiang Yin(参考訳) 中国の方言テキスト・トゥ・スペーチ(TTS)システムは、中国語方言の表記形式がマンダリンとは異なる文字、イディオム、文法、用法を持ち、現地の話者でさえ正しい文を入力できないため、通常、ネイティブ言語学者によってのみ利用することができる。 マンダリンのテキスト入力では、中国語の方言 TTS はプロソディと自然性に乏しい部分意味のある音声しか生成できない。 そこで本研究では,翻訳モジュールを備えた新しい中国語方言ttsフロントエンドを提案する。 マンダリン語のテキストを正しい正書法と文法で慣用的な表現に変換するのに役立ち、合成音声の理解性と自然性を向上させることができる。 翻訳タスクでは、滑空サンプリング戦略を用いた非回帰型ニューラルマシン翻訳モデルを提案する。 TTSフロントエンドに翻訳を組み込んだ最初の作品である。 提案するフロントエンドは,マンダリン入力によるMOSの0.27改善を実現する上で有効である。

Chinese dialect text-to-speech(TTS) system usually can only be utilized by native linguists, because the written form of Chinese dialects has different characters, idioms, grammar and usage from Mandarin, and even the local speaker cannot input a correct sentence. For Mandarin text inputs, Chinese dialect TTS can only generate partly-meaningful speech with relatively poor prosody and naturalness. To lower the bar of use and make it more practical in commercial, we propose a novel Chinese dialect TTS frontend with a translation module. It helps to convert Mandarin text into idiomatic expressions with correct orthography and grammar, so that the intelligibility and naturalness of the synthesized speech can be improved. A non-autoregressive neural machine translation model with a glancing sampling strategy is proposed for the translation task. It is the first known work to incorporate translation with TTS frontend. Our experiments on Cantonese approve that the proposed frontend can help Cantonese TTS system achieve a 0.27 improvement in MOS with Mandarin inputs.
翻訳日:2022-06-13 15:00:22 公開日:2022-06-10
# クッキー盗難画像検査を超える:音響的特徴を用いた認知障害の検出

Going Beyond the Cookie Theft Picture Test: Detecting Cognitive Impairments using Acoustic Features ( http://arxiv.org/abs/2206.05018v1 )

ライセンス: Link先を確認
Franziska Braun, Andreas Erzigkeit, Hartmut Lehfeld, Thomas Hillemacher, Korbinian Riedhammer, and Sebastian P. Bayerl(参考訳) 標準化されたテストは認知障害の検出において重要な役割を果たす。 従来,画像記述タスクの音声データを用いて認知障害の自動検出が可能であった。 この研究は、ドイツのsktとドイツのcerad-nb、そして患者と心理学者の半構造化臨床面接という2つの標準的な神経心理学検査から得られたデータに基づいて、我々の方法を評価するものである。 本試験では, 読解数(SKT3), 干渉(SKT 7), 言語流速(CERAD-NB 1)の3つのサブテストの音声記録に焦点を当てた。 標準テストから得られた音響特徴は,認知障害のある個人と非障害者を確実に判別するために有効である。 さらに,インタビューのランダムな音声サンプルから抽出した特徴でさえ,認知障害の識別要因となりうることを示す。 ベースライン実験では、OpenSMILE機能とSupport Vector Machine分類器を使用します。 改良されたセットアップでは、代わりにwav2vec 2.0機能を使用することで、最大85%の精度を実現することができる。

Standardized tests play a crucial role in the detection of cognitive impairment. Previous work demonstrated that automatic detection of cognitive impairment is possible using audio data from a standardized picture description task. The presented study goes beyond that, evaluating our methods on data taken from two standardized neuropsychological tests, namely the German SKT and a German version of the CERAD-NB, and a semi-structured clinical interview between a patient and a psychologist. For the tests, we focus on speech recordings of three sub-tests: reading numbers (SKT 3), interference (SKT 7), and verbal fluency (CERAD-NB 1). We show that acoustic features from standardized tests can be used to reliably discriminate cognitively impaired individuals from non-impaired ones. Furthermore, we provide evidence that even features extracted from random speech samples of the interview can be a discriminator of cognitive impairment. In our baseline experiments, we use OpenSMILE features and Support Vector Machine classifiers. In an improved setup, we show that using wav2vec 2.0 features instead, we can achieve an accuracy of up to 85%.
翻訳日:2022-06-13 15:00:03 公開日:2022-06-10
# 2相特異的トリガーによるクリーンラベルバックドア攻撃の増強

Enhancing Clean Label Backdoor Attack with Two-phase Specific Triggers ( http://arxiv.org/abs/2206.04881v1 )

ライセンス: Link先を確認
Nan Luo, Yuanzhang Li, Yajie Wang, Shangbo Wu, Yu-an Tan and Quanxin Zhang(参考訳) バックドア攻撃はディープニューラルネットワーク(DNN)を脅かす。 ステルス化に向けて、研究者は、毒入りトレーニングデータセットのラベルを変更しないように敵に要求するクリーンラベルバックドア攻撃を提案する。 クリーンなラベル設定は、正しいイメージラベルペアのために攻撃をよりステルス的にするが、いくつかの問題がまだ残っている: トレーニングデータを害する従来の方法が効果がない; 第二に、従来のトリガーは、まだ認識可能なステルス性ではない。 これらの問題を解決するため,我々は,クリーンラベルバックドア攻撃を強化するために,二相および画像特異的トリガー生成法を提案する。 本手法は,(1)バックドア攻撃における2つのフェーズ(つまり,バックドア注入とアクティベーションフェーズ)を同時に促進できる,(2)ステルス:各画像からトリガーが生成される,という強力な方法である。 これらは固定トリガーではなくイメージ固有である。 広範囲にわたる実験により, 本手法は, 低毒性率~(5%), 多くの評価基準下で高い盗聴性を示し, バックドア防御法に耐性があることが確認された。

Backdoor attacks threaten Deep Neural Networks (DNNs). Towards stealthiness, researchers propose clean-label backdoor attacks, which require the adversaries not to alter the labels of the poisoned training datasets. Clean-label settings make the attack more stealthy due to the correct image-label pairs, but some problems still exist: first, traditional methods for poisoning training data are ineffective; second, traditional triggers are not stealthy which are still perceptible. To solve these problems, we propose a two-phase and image-specific triggers generation method to enhance clean-label backdoor attacks. Our methods are (1) powerful: our triggers can both promote the two phases (i.e., the backdoor implantation and activation phase) in backdoor attacks simultaneously; (2) stealthy: our triggers are generated from each image. They are image-specific instead of fixed triggers. Extensive experiments demonstrate that our approach can achieve a fantastic attack success rate~(98.98%) with low poisoning rate~(5%), high stealthiness under many evaluation metrics and is resistant to backdoor defense methods.
翻訳日:2022-06-13 14:59:22 公開日:2022-06-10
# NeRF-In: RGB-Dプリミティブを用いた自由形NeRF塗装

NeRF-In: Free-Form NeRF Inpainting with RGB-D Priors ( http://arxiv.org/abs/2206.04901v1 )

ライセンス: Link先を確認
Hao-Kang Liu, I-Chao Shen, Bing-Yu Chen(参考訳) NeRF(Neural Radiance Field)は、魅力的な新しいビュー合成結果を示しているが、ニューラルネットワークのパラメータとシーン幾何学/外観が明示的に関連付けられていないため、トレーニング済みのNeRFを編集するのは直感的ではない。 本稿では,学習済みのNeRFで表現された3次元シーンにおいて,カテゴリ固有のデータやトレーニングを使わずに不要なオブジェクトを除去したり,不要な領域に再タッチしたりできる,最初のフレームワークを提案する。 ユーザはまずフリーフォームマスクを描画して、予め訓練されたnerfからレンダリングされたビュー上の望ましくないオブジェクトを含む領域を特定する。 提案フレームワークはまず,ユーザが提供するマスクを他のレンダリングビューに転送し,移動されたマスク領域内の色と深度のイメージを推定する。 次に、NeRFモデルのパラメータを更新することにより、複数のビューにまたがるすべてのマスキング領域のイメージ内容に共同でペイントする最適化問題を定式化する。 多様なシーンのフレームワークを実演し、より短い時間と少ないユーザ手作業を用いて、複数のビューで視覚的可視かつ構造的に一貫性のある結果が得られることを示す。

Though Neural Radiance Field (NeRF) demonstrates compelling novel view synthesis results, it is still unintuitive to edit a pre-trained NeRF because the neural network's parameters and the scene geometry/appearance are often not explicitly associated. In this paper, we introduce the first framework that enables users to remove unwanted objects or retouch undesired regions in a 3D scene represented by a pre-trained NeRF without any category-specific data and training. The user first draws a free-form mask to specify a region containing unwanted objects over a rendered view from the pre-trained NeRF. Our framework first transfers the user-provided mask to other rendered views and estimates guiding color and depth images within these transferred masked regions. Next, we formulate an optimization problem that jointly inpaints the image content in all masked regions across multiple views by updating the NeRF model's parameters. We demonstrate our framework on diverse scenes and show it obtained visual plausible and structurally consistent results across multiple views using shorter time and less user manual efforts.
翻訳日:2022-06-13 14:59:00 公開日:2022-06-10
# コンピュータグラフィックスによる画像の主観的品質評価

Subjective Quality Assessment for Images Generated by Computer Graphics ( http://arxiv.org/abs/2206.05008v1 )

ライセンス: Link先を確認
Tao Wang, Zicheng Zhang, Wei Sun, Xiongkuo Min, Wei Lu, Guangtao Zhai(参考訳) レンダリング技術の発展に伴い、コンピュータグラフィックス生成画像(CGI)は、アーキテクチャ設計、ビデオゲーム、シミュレータ、映画など、実用的なアプリケーションシナリオで広く利用されている。 自然シーン画像(NSI)とは異なり、CGIの歪みは通常、ゆがみの少ない設定と限られた計算資源によって引き起こされる。 さらに、一部のCGIは、クラウドゲームやストリームメディアといった送信システムの圧縮歪みに悩まされているかもしれません。 しかし、コンピュータグラフィックス生成画像の品質評価(CG-IQA)の課題に取り組むために、限られた作業が進められている。 そこで本研究では,大規模主観的CG-IQAデータベースを構築し,CG-IQAタスクの課題に対処する。 これまでのデータベースと個人データから25,454件のCGIを収集する。 データクリーニング後、主観実験を行うために1200個のcgiを慎重に選択する。 データベース上では, NR-IQA (No-Reference Image Quality Assessment) 法が試験されている。 実験結果から,手工法は主観的判断と相関が低く,深層学習法は比較的優れた性能を示し,現在のNR-IQAモデルはCG-IQAタスクには適さないこと,より効果的なモデルが必要であることが示唆された。

With the development of rendering techniques, computer graphics generated images (CGIs) have been widely used in practical application scenarios such as architecture design, video games, simulators, movies, etc. Different from natural scene images (NSIs), the distortions of CGIs are usually caused by poor rending settings and limited computation resources. What's more, some CGIs may also suffer from compression distortions in transmission systems like cloud gaming and stream media. However, limited work has been put forward to tackle the problem of computer graphics generated images' quality assessment (CG-IQA). Therefore, in this paper, we establish a large-scale subjective CG-IQA database to deal with the challenge of CG-IQA tasks. We collect 25,454 in-the-wild CGIs through previous databases and personal collection. After data cleaning, we carefully select 1,200 CGIs to conduct the subjective experiment. Several popular no-reference image quality assessment (NR-IQA) methods are tested on our database. The experimental results show that the handcrafted-based methods achieve low correlation with subjective judgment and deep learning based methods obtain relatively better performance, which demonstrates that the current NR-IQA models are not suitable for CG-IQA tasks and more effective models are urgently needed.
翻訳日:2022-06-13 14:57:17 公開日:2022-06-10
# 3次元物理インスピレーションニューラルネットワーク(PINN)を用いた光回折トモグラフィ

Optical Diffraction Tomography based on 3D Physics-Inspired Neural Network (PINN) ( http://arxiv.org/abs/2206.05236v1 )

ライセンス: Link先を確認
Ahmed B. Ayoub, Amirhossein Saba, Carlo Gigli, Demetri Psaltis(参考訳) 光回折トモグラフィー(ODT)は半透明試料の屈折率(RI)の3次元再構成に使用される新しい3Dイメージング技術である。 ボルンやリトフ近似のような様々な試料のホログラフィー検出に基づいて、3D RIを再構成する様々な逆モデルが提案されている。 しかし、そのような近似は通常、光学軸に沿った最終的な再構成の延長をもたらすいわゆる欠落円錐問題に悩まされる。 物理フォワードモデルとk空間を埋めることを目的とした誤差関数に頼って、欠落した円錐問題を解消し、より良い再構成精度を達成するために、異なる反復スキームが提案されている。 本稿では,3次元ニューラルネットワーク(NN)を用いたアプローチを提案する。 NNは、光波伝搬の物理に基づく物理モデルから導かれるコスト関数で訓練される。 3D NNは、3D RI再構成の初期推定(ボルン、リトフ)から始まり、エラー関数に基づいてより良い3D再構成を構築することを目的としている。 この手法により、NNは、不適切な再構成(BornまたはRytov)と真実(真の形)の関係の例を示さずに訓練することができる。

Optical diffraction tomography (ODT) is an emerging 3D imaging technique that is used for the 3D reconstruction of the refractive index (RI) for semi-transparent samples. Various inverse models have been proposed to reconstruct the 3D RI based on the holographic detection of different samples such as the Born and the Rytov approximations. However, such approximations usually suffer from the so-called missing-cone problem that results in an elongation of the final reconstruction along the optical axis. Different iterative schemes have been proposed to solve the missing cone problem relying on physical forward models and an error function that aims at filling in the k-space and thus eliminating the missing-cone problem and reaching better reconstruction accuracy. In this paper, we propose a different approach where a 3D neural network (NN) is employed. The NN is trained with a cost function derived from a physical model based on the physics of optical wave propagation. The 3D NN starts with an initial guess for the 3D RI reconstruction (i.e. Born, or Rytov) and aims at reconstructing better 3D reconstruction based on an error function. With this technique, the NN can be trained without any examples of the relation between the ill-posed reconstruction (Born or Rytov) and the ground truth (true shape).
翻訳日:2022-06-13 14:56:39 公開日:2022-06-10
# 時系列解析と予測におけるハンケル低ランク近似と完備化--簡単なレビュー

Hankel low-rank approximation and completion in time series analysis and forecasting: a brief review ( http://arxiv.org/abs/2206.05103v1 )

ライセンス: Link先を確認
Jonathan Gillard, Konstantin Usevich (CRAN)(参考訳) 本稿では,この手法を時系列解析や予測にどのように活用できるかを特に強調して,ハンケル低ランク近似と完備化の研究のレビューと書誌化を行う。 まず、問題の可能な定式化を説明し、グローバルな最適解を得るための関連するトピックや課題について解説する。 重要な定理が提供され、論文はいくつかの例で閉じる。

In this paper we offer a review and bibliography of work on Hankel low-rank approximation and completion, with particular emphasis on how this methodology can be used for time series analysis and forecasting. We begin by describing possible formulations of the problem and offer commentary on related topics and challenges in obtaining globally optimal solutions. Key theorems are provided, and the paper closes with some expository examples.
翻訳日:2022-06-13 14:55:51 公開日:2022-06-10
# 心理学者・社会科学者のための因果研究パイプラインとチュートリアル

A Causal Research Pipeline and Tutorial for Psychologists and Social Scientists ( http://arxiv.org/abs/2206.05175v1 )

ライセンス: Link先を確認
Matthew J. Vowels(参考訳) 因果関係は世界を理解する科学的努力の基本的な部分である。 残念ながら、因果関係は依然として心理学や社会科学の多くにおいてタブーである。 研究に因果的アプローチを採用することの重要性に関する勧告が増えていることに動機づけられ、必然的に因果的理論と研究パイプラインの他の部分とを調和させるために心理学研究の典型的なアプローチを再構成する。 本稿では,理論の発展,検証,透過的形式化のための因果的発見と機械学習の融合による手法の導入から始まった新しいプロセスを提案する。 次に、与えられた対象仮説に関連する基本部分モデルに完全特定理論モデルの複雑性を還元する手法を提案する。 そこで本研究では,データから興味度が推定可能であるか否かを確定し,その場合,半パラメトリック機械学習手法を用いて因果効果を推定する手法を提案する。 全体的な目標は、新しい研究パイプラインを提供することだ。 (a)因果論を試したいという願望に相応しい科学的調査を促進する b)我々の理論を曖昧な数学的対象として透明に表現することを奨励する。 (c) 統計モデルと理論の特定の属性を結びつけることにより、理論とモデル間のギャップからしばしば生じる過度な特異化問題を減らし、 (d)因果的に有意義で再現可能な結果や見積もりを得る。 このプロセスは実世界のデータを使ったディダクティックな例を通じて実演され、制約の要約と議論で締めくくられる。

Causality is a fundamental part of the scientific endeavour to understand the world. Unfortunately, causality is still taboo in much of psychology and social science. Motivated by a growing number of recommendations for the importance of adopting causal approaches to research, we reformulate the typical approach to research in psychology to harmonize inevitably causal theories with the rest of the research pipeline. We present a new process which begins with the incorporation of techniques from the confluence of causal discovery and machine learning for the development, validation, and transparent formal specification of theories. We then present methods for reducing the complexity of the fully specified theoretical model into the fundamental submodel relevant to a given target hypothesis. From here, we establish whether or not the quantity of interest is estimable from the data, and if so, propose the use of semi-parametric machine learning methods for the estimation of causal effects. The overall goal is the presentation of a new research pipeline which can (a) facilitate scientific inquiry compatible with the desire to test causal theories (b) encourage transparent representation of our theories as unambiguous mathematical objects, (c) to tie our statistical models to specific attributes of the theory, thus reducing under-specification problems frequently resulting from the theory-to-model gap, and (d) to yield results and estimates which are causally meaningful and reproducible. The process is demonstrated through didactic examples with real-world data, and we conclude with a summary and discussion of limitations.
翻訳日:2022-06-13 14:55:44 公開日:2022-06-10
# ベイズモデル選択における事前密度の安全利用について

On the safe use of prior densities for Bayesian model selection ( http://arxiv.org/abs/2206.05210v1 )

ライセンス: Link先を確認
F. Llorente, L. Martino, E. Curbelo, J. Lopez-Santiago, D. Delgado(参考訳) モデル選択のためのベイズ推定の応用は、今日では非常に人気がある。 この枠組みでは、モデルはベイズ因子と呼ばれる限界確率または商によって比較される。 しかし、限界確率は以前の選択に依存する。 モデル選択の場合、パラメータ推定問題とは異なり、拡散前処理でさえ非常に有意義である。 さらに、前者が不適切な場合、対応するモデルの限界確率は未決定である。 本稿では,モデル選択における限界確率の事前感度の問題と,その役割について論じる。 我々はまた、実際非常に一般的な選択である非形式的優先順位の使用についてもコメントしている。 いくつかの実践的提案が議論され、モデル選択の目的を設計するための多くの可能な解決策が文献で提案されている。 いくつかは不適切な優先順位の使用も許可している。 また、周縁度アプローチとよく知られた情報基準との関係も示す。 主な問題と可能な解決策を図示的な数値例で説明し、関連するコードも提供します。 そのうちの1つは、太陽系外惑星の検出に関する現実世界の応用である。

The application of Bayesian inference for the purpose of model selection is very popular nowadays. In this framework, models are compared through their marginal likelihoods, or their quotients, called Bayes factors. However, marginal likelihoods depends on the prior choice. For model selection, even diffuse priors can be actually very informative, unlike for the parameter estimation problem. Furthermore, when the prior is improper, the marginal likelihood of the corresponding model is undetermined. In this work, we discuss the issue of prior sensitivity of the marginal likelihood and its role in model selection. We also comment on the use of uninformative priors, which are very common choices in practice. Several practical suggestions are discussed and many possible solutions, proposed in the literature, to design objective priors for model selection are described. Some of them also allow the use of improper priors. The connection between the marginal likelihood approach and the well-known information criteria is also presented. We describe the main issues and possible solutions by illustrative numerical examples, providing also some related code. One of them involving a real-world application on exoplanet detection.
翻訳日:2022-06-13 14:53:48 公開日:2022-06-10
# スリングショット機構:適応オプティマイザとemph{grokking"現象の実験的研究

The Slingshot Mechanism: An Empirical Study of Adaptive Optimizers and the \emph{Grokking Phenomenon} ( http://arxiv.org/abs/2206.04817v1 )

ライセンス: Link先を確認
Vimal Thilak, Etai Littwin, Shuangfei Zhai, Omid Saremi, Roni Paiss and Joshua Susskind(参考訳) power et al によって報告された \emph{grokking phenomena} 。 ~\cite{power2021grokking} は、長期のオーバーフィッティングが続き、突然、完全な一般化へと移行した状態を指す。 本稿では,Grokkingの基盤を明らかにするために,一連の実証的研究を行った。 具体的には、極端に遅い段階で適応最適化器を最適化する最適化を探索し、これを「emph{Slingshot Mechanism}」と呼ぶ。 スリングショット機構の顕著なアーチファクトは、安定なトレーニング体制と不安定なトレーニング体制の間の循環相転移によって測定でき、最後の層重みのノルムの循環挙動によって容易に監視できる。 我々は経験的に、明示的な正規化がなければ、 \cite{power2021grokking} で報告されているようなグロッキングは \emph{slingshots} の開始時にほとんどのみ起こり、それなしでは存在しない。 より一般的な環境では一般的で容易に再現できるが、スリングショット機構は我々が認識しているいかなる既知の最適化理論にも従わず、奥行きを調べることなく容易に見過ごせる。 私たちの研究は、トレーニングの後期における適応勾配最適化器の驚くほど有用な帰納的バイアスを示し、それらの起源の理論的解析の改訂を要求している。

The \emph{grokking phenomenon} as reported by Power et al.~\cite{power2021grokking} refers to a regime where a long period of overfitting is followed by a seemingly sudden transition to perfect generalization. In this paper, we attempt to reveal the underpinnings of Grokking via a series of empirical studies. Specifically, we uncover an optimization anomaly plaguing adaptive optimizers at extremely late stages of training, referred to as the \emph{Slingshot Mechanism}. A prominent artifact of the Slingshot Mechanism can be measured by the cyclic phase transitions between stable and unstable training regimes, and can be easily monitored by the cyclic behavior of the norm of the last layers weights. We empirically observe that without explicit regularization, Grokking as reported in \cite{power2021grokking} almost exclusively happens at the onset of \emph{Slingshots}, and is absent without it. While common and easily reproduced in more general settings, the Slingshot Mechanism does not follow from any known optimization theories that we are aware of, and can be easily overlooked without an in depth examination. Our work points to a surprising and useful inductive bias of adaptive gradient optimizers at late stages of training, calling for a revised theoretical analysis of their origin.
翻訳日:2022-06-13 14:52:11 公開日:2022-06-10
# ユークリッド空間の門外-時間的判別-融合と注意に基づく人間活動認識のためのグラフニューラルネットワーク

Beyond the Gates of Euclidean Space: Temporal-Discrimination-Fusions and Attention-based Graph Neural Network for Human Activity Recognition ( http://arxiv.org/abs/2206.04855v1 )

ライセンス: Link先を確認
Nafees Ahmad, Savio Ho-Chit Chow, Ho-fung Leung(参考訳) ウェアラブルデバイスによるヒューマンアクティビティ認識(HAR)は、フィットネストラッキング、ウェルネススクリーニング、生活支援など多くの応用により、大きな関心を集めている。 その結果、この分野にはたくさんの仕事があります。 従来のディープラーニング(DL)は、HARドメインのアートパフォーマンスの状態を規定している。 しかし、データの構造や連続したタイムスタンプ間の関連付けを無視する。 この制約に対処するために、入力表現を構造化し、サンプル間の関係を利用するグラフニューラルネットワーク(GNN)に基づくアプローチを提案する。 しかしながら、単純なグラフ畳み込みネットワークを使用してこの不足を取り除く場合でも、クラス間のアクティビティの問題、歪んだクラス分散、センサーデータの優先度に対する考慮の欠如など、harモデルの性能を損なういくつかの制限要素が存在する。 現在のharモデルの性能を向上させるために,グラフ構造フレームワークにおける新たな可能性を検討し,高度に識別されたリッチなアクティビティ機能を実現する。 本稿では,(1)HARデータセットから生データをグラフに変換する時系列グラフモジュールのモデル,(2)隣接ノード間の局所的依存関係と相関を検出するグラフ畳み込みニューラルネットワーク(GCN),(3)センサの相互作用とデータ優先順位を識別する自己注意型GNNエンコーダを提案する。 私たちの知る限りでは、これはharにとって最初の仕事であり、gcnとアテンション機構の両方を組み込んだgnnベースのアプローチを導入している。 均一な評価手法を用いることで,本手法の他の状況を考慮した患者の活動データセットの性能を有意に向上させる。

Human activity recognition (HAR) through wearable devices has received much interest due to its numerous applications in fitness tracking, wellness screening, and supported living. As a result, we have seen a great deal of work in this field. Traditional deep learning (DL) has set a state of the art performance for HAR domain. However, it ignores the data's structure and the association between consecutive time stamps. To address this constraint, we offer an approach based on Graph Neural Networks (GNNs) for structuring the input representation and exploiting the relations among the samples. However, even when using a simple graph convolution network to eliminate this shortage, there are still several limiting factors, such as inter-class activities issues, skewed class distribution, and a lack of consideration for sensor data priority, all of which harm the HAR model's performance. To improve the current HAR model's performance, we investigate novel possibilities within the framework of graph structure to achieve highly discriminated and rich activity features. We propose a model for (1) time-series-graph module that converts raw data from HAR dataset into graphs; (2) Graph Convolutional Neural Networks (GCNs) to discover local dependencies and correlations between neighboring nodes; and (3) self-attention GNN encoder to identify sensors interactions and data priorities. To the best of our knowledge, this is the first work for HAR, which introduces a GNN-based approach that incorporates both the GCN and the attention mechanism. By employing a uniform evaluation method, our framework significantly improves the performance on hospital patient's activities dataset comparatively considered other state of the art baseline methods.
翻訳日:2022-06-13 14:51:43 公開日:2022-06-10
# (参考訳) 単純なキューが強力なマルチオブジェクトトラッカーに導く

Simple Cues Lead to a Strong Multi-Object Tracker ( http://arxiv.org/abs/2206.04656v2 )

ライセンス: CC BY 4.0
Jenny Seidenschwarz, Guillem Bras\'o, Ismail Elezi, and Laura Leal-Taix\'e(参考訳) 長い間、マルチオブジェクト追跡の最も一般的なパラダイムはtracking-by-detection(tbd)で、まずオブジェクトを検出してビデオフレーム上で関連付ける。 関連して、ほとんどのモデルは動きと外観の手がかりに頼りになる。 これらの方法に引き続き依存しているが、近年のアプローチでは、例えば、データトレーニングや全体的な複雑なフレームワークの必要性が高まっている。 私たちは 1) 設計上の重要な選択が適用されれば,少量のトレーニングデータから強固な手がかりを得ることができる。 2) これらの強い手がかりから、ハンガリーの標準マッチングに基づく協会は、印象的な結果を得るのに十分である。 私たちの主な洞察は、外見に基づくトラッキングにおいて、標準的な再識別ネットワークが優れている重要なコンポーネントを特定することです。 その障害事例を広範囲に分析し,我々の外観特徴と単純な運動モデルの組み合わせが強い追跡結果をもたらすことを示した。 IDF1では5.4pp,HOTAでは4.4ppに向上し,MOT17およびMOT20データセットの最先端性能が向上した。 論文が受け入れられた後、コードとモデルをリリースします。

For a long time, the most common paradigm in Multi-Object Tracking was tracking-by-detection (TbD), where objects are first detected and then associated over video frames. For association, most models resource to motion and appearance cues. While still relying on these cues, recent approaches based on, e.g., attention have shown an ever-increasing need for training data and overall complex frameworks. We claim that 1) strong cues can be obtained from little amounts of training data if some key design choices are applied, 2) given these strong cues, standard Hungarian matching-based association is enough to obtain impressive results. Our main insight is to identify key components that allow a standard reidentification network to excel at appearance-based tracking. We extensively analyze its failure cases and show that a combination of our appearance features with a simple motion model leads to strong tracking results. Our model achieves state-of-the-art performance on MOT17 and MOT20 datasets outperforming previous state-of-the-art trackers by up to 5.4pp in IDF1 and 4.4pp in HOTA. We will release the code and models after the paper's acceptance.
翻訳日:2022-06-13 14:50:18 公開日:2022-06-10
# (参考訳) ダウンストリームタスクにおけるマスクリコンストラクション事前トレーニングがなぜ役に立つのか

Towards Understanding Why Mask-Reconstruction Pretraining Helps in Downstream Tasks ( http://arxiv.org/abs/2206.03826v3 )

ライセンス: CC BY 4.0
Jiachun Pan, Pan Zhou, Shuicheng Yan(参考訳) 教師なし事前トレーニングでは、マスク再構成事前トレーニング(MRP)がランダムに入力パッチをマスクし、オートエンコーダを介してこれらのマスクパッチのピクセルや意味的特徴を再構成する。 そして、下流タスクでは、事前学習されたエンコーダの微調整が、スクラッチから訓練された従来の教師付き学習(sl)を大幅に上回る。 しかし、まだ不明である。 1)MRPが事前学習フェーズで意味学習を行う方法と課題 2) ダウンストリームタスクになぜ役立つのか。 これらの問題を解決するために,2層/1層畳み込みエンコーダ/デコーダの自動エンコーダにおいて,mrpはプリトレーニングデータセット内のすべての識別意味をキャプチャできることを示す。 具体的には,プレトレーニングデータセットには1-\mu$の複数ビューサンプルと1-\mu$の単一ビューサンプルが含まれていると仮定する。 事前訓練のためには 1) MRPエンコーダの畳み込みカーネルは、事前学習データ中のすべての識別的意味をキャプチャし、 2)畳み込みカーネルは、少なくとも1つの意味をキャプチャする。 したがって、下流の教師付き微調整では、ほとんどのセマンティクスはキャプチャされ、異なるセマンティクスは融合しない。 これにより、下流の微調整ネットワークは、カーネルとセマンティクスクラスラベルの関係を簡単に確立できる。 このようにして、mrpの微調整エンコーダは、マルチビューとシングルビューの両方のテストデータに対して高い確率でゼロテストエラーを実現できる。 一方、~[3]で証明されたように、従来のslはシングルビューテストデータに対して0.5\mu$程度の精度しか得られない。 これらの結果は下流タスクにおけるmrpの利点を説明するものである。 実験結果はマルチビューデータの仮定と理論的意味を検証した。

For unsupervised pretraining, mask-reconstruction pretraining (MRP) approaches randomly mask input patches and then reconstruct pixels or semantic features of these masked patches via an auto-encoder. Then for a downstream task, supervised fine-tuning the pretrained encoder remarkably surpasses the conventional supervised learning (SL) trained from scratch. However, it is still unclear 1) how MRP performs semantic learning in the pretraining phase and 2) why it helps in downstream tasks. To solve these problems, we theoretically show that on an auto-encoder of a two/one-layered convolution encoder/decoder, MRP can capture all discriminative semantics in the pretraining dataset, and accordingly show its provable improvement over SL on the classification downstream task. Specifically, we assume that pretraining dataset contains multi-view samples of ratio $1-\mu$ and single-view samples of ratio $\mu$, where multi/single-view samples has multiple/single discriminative semantics. Then for pretraining, we prove that 1) the convolution kernels of the MRP encoder captures all discriminative semantics in the pretraining data; and 2) a convolution kernel captures at most one semantic. Accordingly, in the downstream supervised fine-tuning, most semantics would be captured and different semantics would not be fused together. This helps the downstream fine-tuned network to easily establish the relation between kernels and semantic class labels. In this way, the fine-tuned encoder in MRP provably achieves zero test error with high probability for both multi-view and single-view test data. In contrast, as proved by~[3], conventional SL can only obtain a test accuracy between around $0.5\mu$ for single-view test data. These results together explain the benefits of MRP in downstream tasks. Experimental results testify to multi-view data assumptions and our theoretical implications.
翻訳日:2022-06-13 12:15:38 公開日:2022-06-10
# pFL-Bench: 個人化フェデレーション学習のための総合ベンチマーク

pFL-Bench: A Comprehensive Benchmark for Personalized Federated Learning ( http://arxiv.org/abs/2206.03655v2 )

ライセンス: Link先を確認
Daoyuan Chen, Dawei Gao, Weirui Kuang, Yaliang Li, Bolin Ding(参考訳) 個別の局所モデルを利用して展開するパーソナライズドフェデレーション学習(pfl)は、近年、flクライアントの統計的不均一性に対処することに成功し、注目を集めている。 しかし,pfl法の標準化評価と体系的分析は依然として課題である。 まず、非常に多様なデータセット、FLシミュレーション設定、pFL実装により、pFL法の高速かつ公正な比較が防止される。 第2に、新しいクライアントの一般化やリソース制限されたクライアントの参加など、様々な実用的なシナリオにおいて、pflメソッドの有効性と堅牢性は未検討である。 最終的に、現在のpFL文献は、採用された評価プロトコルとアブレーションプロトコルに分岐する。 これらの課題に対処するため、我々はpFLベンチマークpFL-Benchを提案し、高速で再現性があり、標準化され、徹底的なpFL評価を行う。 提案するベンチマークには、統合データ分割と現実的な異種設定を備えた多様なアプリケーションドメイン内の10以上のデータセット、20以上の競合pflベースライン実装を備えたモジュラーで拡張が容易なpflコードベース、一般化、公平性、システムオーバーヘッド、収束性といった点でコンテナ化された環境下での体系的な評価が含まれている。 我々は、最先端の pFL 手法の利点と可能性を強調し、pFL-Bench がさらなる pFL 研究を可能にすることを期待する。 コードはhttps://github.com/alibaba/FederatedScope/tree/master/benchmark/pFL-Benchで公開されている。

Personalized Federated Learning (pFL), which utilizes and deploys distinct local models, has gained increasing attention in recent years due to its success in handling the statistical heterogeneity of FL clients. However, standardized evaluation and systematical analysis of diverse pFL methods remain a challenge. Firstly, the highly varied datasets, FL simulation settings and pFL implementations prevent fast and fair comparisons of pFL methods. Secondly, the effectiveness and robustness of pFL methods are under-explored in various practical scenarios, such as new clients generalization and resource-limited clients participation. Finally, the current pFL literature diverges in the adopted evaluation and ablation protocols. To tackle these challenges, we propose the first comprehensive pFL benchmark, pFL-Bench, for facilitating rapid, reproducible, standardized and thorough pFL evaluation. The proposed benchmark contains more than 10 datasets in diverse application domains with unified data partition and realistic heterogeneous settings; a modular and easy-to-extend pFL codebase with more than 20 competitive pFL baseline implementations; and systematic evaluations under containerized environments in terms of generalization, fairness, system overhead, and convergence. We highlight the benefits and potential of state-of-the-art pFL methods and hope pFL-Bench enables further pFL research and broad applications that would otherwise be difficult owing to the absence of a dedicated benchmark. The code is released at https://github.com/alibaba/FederatedScope/tree/master/benchmark/pFL-Bench.
翻訳日:2022-06-13 12:14:11 公開日:2022-06-10
# FedHPO-B:フェデレーションハイパーパラメータ最適化のためのベンチマークスイート

FedHPO-B: A Benchmark Suite for Federated Hyperparameter Optimization ( http://arxiv.org/abs/2206.03966v2 )

ライセンス: Link先を確認
Zhen Wang, Weirui Kuang, Ce Zhang, Bolin Ding, Yaliang Li(参考訳) ハイパーパラメータ最適化(HPO)は、関連するベンチマークによって進歩が加速されている良好なパフォーマンスを達成するために、機械学習アルゴリズムにとって不可欠である。 それにもかかわらず、既存のベンチマークの取り組みは、分散データからモデルを協調学習するための有望なパラダイムであるフェデレートラーニング(FL)を無視しながら、従来の集中学習のためのHPOに焦点を当てている。 本稿ではまず,FLアルゴリズムにおけるHPOの特異性について,様々な側面から同定する。 この特異性のため、既存のHPOベンチマークはFL設定でHPOメソッドを比較する必要性をもはや満たしていない。 FL設定におけるHPOの研究を容易にするために,包括的FLタスクを組み込んだベンチマークスイートであるFedHPO-Bを提案し,その実装を行った。 我々はまた、FedHPO-Bに基づく広範な実験を行い、いくつかのHPO法をベンチマークする。 https://github.com/alibaba/FederatedScope/tree/master/benchmark/FedHPOB.comでFedHPO-Bをオープンソース化しました。

Hyperparameter optimization (HPO) is crucial for machine learning algorithms to achieve satisfactory performance, whose progress has been boosted by related benchmarks. Nonetheless, existing efforts in benchmarking all focus on HPO for traditional centralized learning while ignoring federated learning (FL), a promising paradigm for collaboratively learning models from dispersed data. In this paper, we first identify some uniqueness of HPO for FL algorithms from various aspects. Due to this uniqueness, existing HPO benchmarks no longer satisfy the need to compare HPO methods in the FL setting. To facilitate the research of HPO in the FL setting, we propose and implement a benchmark suite FedHPO-B that incorporates comprehensive FL tasks, enables efficient function evaluations, and eases continuing extensions. We also conduct extensive experiments based on FedHPO-B to benchmark a few HPO methods. We open-source FedHPO-B at https://github.com/alibaba/FederatedScope/tree/master/benchmark/FedHPOB.
翻訳日:2022-06-13 12:13:44 公開日:2022-06-10
# sharp-maml:シャープネス認識モデル非依存なメタ学習

Sharp-MAML: Sharpness-Aware Model-Agnostic Meta Learning ( http://arxiv.org/abs/2206.03996v2 )

ライセンス: Link先を確認
Momin Abbas, Quan Xiao, Lisha Chen, Pin-Yu Chen, Tianyi Chen(参考訳) モデルに依存しないメタラーニング(MAML)は、現在、数発のメタラーニングにおいて支配的なアプローチの1つである。 有効性はあるものの,本質的な2レベル問題構造のため,mamlの最適化は困難である。 特に、mamlの損失状況は、経験的リスク最小化よりも、多分サドルポイントと局所的最小化ではるかに複雑である。 この課題に対処するために、最近発明されたシャープネス対応の最小化を活用し、シャープネス対応のMAMLアプローチを開発した。 Sharp-MAMLとその計算効率が既存のMAMLベースライン(例:Mini-Imagenetで$+12\%の精度)を上回ることを実証的に実証した。 本稿では,シャープ-MAMLの収束速度解析と一般化境界を補完する。 我々の知る限り、これは二段階学習の文脈におけるシャープネスを意識した最小化に関する最初の経験的および理論的研究である。 コードはhttps://github.com/mominabbass/Sharp-MAMLで入手できる。

Model-agnostic meta learning (MAML) is currently one of the dominating approaches for few-shot meta-learning. Albeit its effectiveness, the optimization of MAML can be challenging due to the innate bilevel problem structure. Specifically, the loss landscape of MAML is much more complex with possibly more saddle points and local minimizers than its empirical risk minimization counterpart. To address this challenge, we leverage the recently invented sharpness-aware minimization and develop a sharpness-aware MAML approach that we term Sharp-MAML. We empirically demonstrate that Sharp-MAML and its computation-efficient variant can outperform popular existing MAML baselines (e.g., $+12\%$ accuracy on Mini-Imagenet). We complement the empirical study with the convergence rate analysis and the generalization bound of Sharp-MAML. To the best of our knowledge, this is the first empirical and theoretical study on sharpness-aware minimization in the context of bilevel learning. The code is available at https://github.com/mominabbass/Sharp-MAML.
翻訳日:2022-06-13 12:13:25 公開日:2022-06-10
# オフライン確率的最短経路:学習、評価、最適性に向けて

Offline Stochastic Shortest Path: Learning, Evaluation and Towards Optimality ( http://arxiv.org/abs/2206.04921v1 )

ライセンス: Link先を確認
Ming Yin, Wenjing Chen, Mengdi Wang and Yu-Xiang Wang(参考訳) 目標指向強化学習(Goal-oriented Reinforcement Learning)では,エージェントが目標状態に到達すると同時に,コストを最小化する。 その理論的定式化であるstochastic shortest path (ssp)は、オンライン環境で集中的に研究されている。 それにもかかわらず、そのようなオンラインインタラクションが禁止され、歴史的データのみが提供される時期は未定である。 本稿では,状態空間と動作空間が有限である場合,オフライン確率的最短経路問題を考える。 我々は、オフラインポリシー評価(ope)とオフラインポリシー学習タスクの両方に取り組むための単純な価値イテレーションベースのアルゴリズムを設計する。 特に、これらの単純なアルゴリズムの解析は、極小に近い最悪のケース境界を示す強いインスタンス依存境界をもたらす。 本研究は,オフラインssp問題の基本的な統計的な限界を照らし,現在の考察の範囲を超えてさらなる研究を動機付けることを期待する。

Goal-oriented Reinforcement Learning, where the agent needs to reach the goal state while simultaneously minimizing the cost, has received significant attention in real-world applications. Its theoretical formulation, stochastic shortest path (SSP), has been intensively researched in the online setting. Nevertheless, it remains understudied when such an online interaction is prohibited and only historical data is provided. In this paper, we consider the offline stochastic shortest path problem when the state space and the action space are finite. We design the simple value iteration-based algorithms for tackling both offline policy evaluation (OPE) and offline policy learning tasks. Notably, our analysis of these simple algorithms yields strong instance-dependent bounds which can imply worst-case bounds that are near-minimax optimal. We hope our study could help illuminate the fundamental statistical limits of the offline SSP problem and motivate further studies beyond the scope of current consideration.
翻訳日:2022-06-13 12:12:47 公開日:2022-06-10
# ナッシュ平衡としての一般化固有値問題

The Generalized Eigenvalue Problem as a Nash Equilibrium ( http://arxiv.org/abs/2206.04993v1 )

ライセンス: Link先を確認
Ian Gemp, Charlie Chen, Brian McWilliams(参考訳) 一般化固有値問題(GEP)は数値線型代数の基本概念である。 正準相関分析、独立成分分析、部分最小二乗、線形判別分析、主成分、後続特徴など、多くの古典的機械学習問題の解をキャプチャする。 それにもかかわらず、ほとんどの一般的な解法器は膨大なデータセットを扱う際に非常に高価であり、研究は特定の問題インスタンスに対する効率的な解を見つけることに集中している。 本研究では,nash 平衡が一般化固有ベクトルの集合であるトップ-$k$ gep のゲーム理論的定式化を考案する。 また,Nashへの漸近収束を保証した並列化可能なアルゴリズムを提案する。 現在の最先端の手法では、1イテレーションあたり$\mathcal{O}(d^2k)$の複雑さが要求される。 我々は、$\mathcal{O}(dk)$複雑さを実現し、100\times$のデータセットにスケールする方法を示す。 実験により,本アルゴリズムは,ニューラルネットワークのアクティベーションの大規模解析を含む,様々なgep問題のインスタンスを解決できることを実証する。

The generalized eigenvalue problem (GEP) is a fundamental concept in numerical linear algebra. It captures the solution of many classical machine learning problems such as canonical correlation analysis, independent components analysis, partial least squares, linear discriminant analysis, principal components, successor features and others. Despite this, most general solvers are prohibitively expensive when dealing with massive data sets and research has instead concentrated on finding efficient solutions to specific problem instances. In this work, we develop a game-theoretic formulation of the top-$k$ GEP whose Nash equilibrium is the set of generalized eigenvectors. We also present a parallelizable algorithm with guaranteed asymptotic convergence to the Nash. Current state-of-the-art methods require $\mathcal{O}(d^2k)$ complexity per iteration which is prohibitively expensive when the number of dimensions ($d$) is large. We show how to achieve $\mathcal{O}(dk)$ complexity, scaling to datasets $100\times$ larger than those evaluated by prior methods. Empirically we demonstrate that our algorithm is able to solve a variety of GEP problem instances including a large-scale analysis of neural network activations.
翻訳日:2022-06-13 12:12:30 公開日:2022-06-10
# 線形帯域における選好制約の相互学習

Interactively Learning Preference Constraints in Linear Bandits ( http://arxiv.org/abs/2206.05255v1 )

ライセンス: Link先を確認
David Lindner and Sebastian Tschiatschek and Katja Hofmann and Andreas Krause(参考訳) 安全で快適な運転行動など,人間の好みを評価できる条件によって動機づけられた,既知の報酬と未知の制約による逐次的意思決定について検討する。 我々は,これらの制約を対話的に学習する課題を,制約付き線形最良アーム識別と呼ばれる新しい線形バンディット問題として定式化する。 そこで本研究では,適応制約学習(ACOL)アルゴリズムを提案する。 制約付き線形最良アーム識別のためのインスタンス依存下限を提供し,acolのサンプル複雑性が最悪の場合の下限に一致することを示す。 平均的な場合、ACOLのサンプル複雑性境界は、より単純なアプローチの境界よりもかなり厳密である。 合成実験では、ACOLはオラクル溶液と同等に働き、ベースラインの幅を上回っている。 アプリケーションとして,運転シミュレーションにおいて人間の嗜好を表現するために学習制約を検討する。 ACOLは、この用途の代替案よりもはるかに試料効率が高い。 さらに,運転シナリオの変化に対する制約としての学習選好は,報奨関数に直接選好を符号化するよりも頑健であることがわかった。

We study sequential decision-making with known rewards and unknown constraints, motivated by situations where the constraints represent expensive-to-evaluate human preferences, such as safe and comfortable driving behavior. We formalize the challenge of interactively learning about these constraints as a novel linear bandit problem which we call constrained linear best-arm identification. To solve this problem, we propose the Adaptive Constraint Learning (ACOL) algorithm. We provide an instance-dependent lower bound for constrained linear best-arm identification and show that ACOL's sample complexity matches the lower bound in the worst-case. In the average case, ACOL's sample complexity bound is still significantly tighter than bounds of simpler approaches. In synthetic experiments, ACOL performs on par with an oracle solution and outperforms a range of baselines. As an application, we consider learning constraints to represent human preferences in a driving simulation. ACOL is significantly more sample efficient than alternatives for this application. Further, we find that learning preferences as constraints is more robust to changes in the driving scenario than encoding the preferences directly in the reward function.
翻訳日:2022-06-13 12:12:10 公開日:2022-06-10
# (参考訳) 高分解能画像合成のためのスコアベース生成モデル

Accelerating Score-based Generative Models for High-Resolution Image Synthesis ( http://arxiv.org/abs/2206.04029v3 )

ライセンス: CC BY 4.0
Hengyuan Ma, Li Zhang, Xiatian Zhu, Jingfeng Zhang, Jianfeng Feng(参考訳) スコアベース生成モデル(sgms)は最近、有望な生成モデルのクラスとして登場している。 重要なアイデアは、ターゲット分布、すなわち拡散サンプリングに収束するまで、ガウスノイズや勾配をガウスサンプルに繰り返し付加することにより、高品質な画像を生成することである。 しかし、サンプリングと生成品質の収束の安定性を確保するためには、このシーケンシャルサンプリングプロセスは小さなステップサイズと多くのサンプリング反復(例えば2000)を必要とする。 低解像度生成に焦点をあてた加速法がいくつか提案されている。 本研究では,SGMによる高分解能発生の加速について考察する。 この緩やかな収束の欠点は、主に対象分布の無知に起因することを理論的に証明する。 さらに,空間領域と周波数領域の構造的前提を利用して,TDAS(Target Distribution Aware Smpling)手法を提案する。 CIFAR-10、CelebA、LSUN、FFHQのデータセットに対する大規模な実験は、TDASが一貫して最先端のSGM、特により困難な高解像度(1024x1024)画像生成タスクを18.4倍まで加速できることを示した。 サンプリングを少なくすれば、tdaは高品質な画像を生成することができる。 対照的に、既存のメソッドは劇的に劣化するか、あるいは完全に失敗する

Score-based generative models (SGMs) have recently emerged as a promising class of generative models. The key idea is to produce high-quality images by recurrently adding Gaussian noises and gradients to a Gaussian sample until converging to the target distribution, a.k.a. the diffusion sampling. To ensure stability of convergence in sampling and generation quality, however, this sequential sampling process has to take a small step size and many sampling iterations (e.g., 2000). Several acceleration methods have been proposed with focus on low-resolution generation. In this work, we consider the acceleration of high-resolution generation with SGMs, a more challenging yet more important problem. We prove theoretically that this slow convergence drawback is primarily due to the ignorance of the target distribution. Further, we introduce a novel Target Distribution Aware Sampling (TDAS) method by leveraging the structural priors in space and frequency domains. Extensive experiments on CIFAR-10, CelebA, LSUN, and FFHQ datasets validate that TDAS can consistently accelerate state-of-the-art SGMs, particularly on more challenging high resolution (1024x1024) image generation tasks by up to 18.4x, whilst largely maintaining the synthesis quality. With fewer sampling iterations, TDAS can still generate good quality images. In contrast, the existing methods degrade drastically or even fails completely
翻訳日:2022-06-13 12:11:26 公開日:2022-06-10
# (参考訳) ノイズインジェクションによる過パラメータモデルの明示的正規化

Explicit Regularization in Overparametrized Models via Noise Injection ( http://arxiv.org/abs/2206.04613v2 )

ライセンス: CC0 1.0
Antonio Orvieto, Anant Raj, Hans Kersting and Francis Bach(参考訳) 勾配降下中の騒音の注入にはいくつかの望ましい特徴がある。 本稿では,スムース化および正規化特性を有するグラデーションステップを計算する前に,ノイズインジェクションについて検討する。 小さな摂動は、l1-ノルム、群 l1-ノルム、核ノルムに基づく単純な有限次元モデルに対して明示的な正則化をもたらすことを示す。 大幅の過パラメータニューラルネットワークに適用すると、過パラメータ化によって生じる分散爆発によって同じ摂動が機能しないことが示された。 しかし, 独立層を賢明に摂動させることで, 拡散項の爆発を回避でき, 明示的な正則化も得られることを示した。 実験では,小さな摂動がバニラ (stochastic) 勾配降下訓練よりも一般化性能が向上し,訓練手順に微調整を加えた。

Injecting noise within gradient descent has several desirable features. In this paper, we explore noise injection before computing a gradient step, which is known to have smoothing and regularizing properties. We show that small perturbations induce explicit regularization for simple finite-dimensional models based on the l1-norm, group l1-norms, or nuclear norms. When applied to overparametrized neural networks with large widths, we show that the same perturbations do not work due to variance explosion resulting from overparametrization. However, we also show that independent layer wise perturbations allow to avoid the exploding variance term, and explicit regularizers can then be obtained. We empirically show that the small perturbations lead to better generalization performance than vanilla (stochastic) gradient descent training, with minor adjustments to the training procedure.
翻訳日:2022-06-13 11:50:39 公開日:2022-06-10
# 模倣ゲームを超えて:言語モデルの能力の定量化と外挿

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models ( http://arxiv.org/abs/2206.04615v2 )

ライセンス: Link先を確認
Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid, Adam Fisch, Adam R. Brown, Adam Santoro, Aditya Gupta, Adri\`a Garriga-Alonso, Agnieszka Kluska, Aitor Lewkowycz, Akshat Agarwal, Alethea Power, Alex Ray, Alex Warstadt, Alexander W. Kocurek, Ali Safaya, Ali Tazarv, Alice Xiang, Alicia Parrish, Allen Nie, Aman Hussain, Amanda Askell, Amanda Dsouza, Ambrose Slone, Ameet Rahane, Anantharaman S. Iyer, Anders Andreassen, Andrea Madotto, Andrea Santilli, Andreas Stuhlm\"uller, Andrew Dai, Andrew La, Andrew Lampinen, Andy Zou, Angela Jiang, Angelica Chen, Anh Vuong, Animesh Gupta, Anna Gottardi, Antonio Norelli, Anu Venkatesh, Arash Gholamidavoodi, Arfa Tabassum, Arul Menezes, Arun Kirubarajan, Asher Mullokandov, Ashish Sabharwal, Austin Herrick, Avia Efrat, Aykut Erdem, Ayla Karaka\c{s}, B. Ryan Roberts, Bao Sheng Loe, Barret Zoph, Bart{\l}omiej Bojanowski, Batuhan \"Ozyurt, Behnam Hedayatnia, Behnam Neyshabur, Benjamin Inden, Benno Stein, Berk Ekmekci, Bill Yuchen Lin, Blake Howald, Cameron Diao, Cameron Dour, Catherine Stinson, Cedrick Argueta, C\'esar Ferri Ram\'irez, Chandan Singh, Charles Rathkopf, Chenlin Meng, Chitta Baral, Chiyu Wu, Chris Callison-Burch, Chris Waites, Christian Voigt, Christopher D. Manning, Christopher Potts, Cindy Ramirez, Clara E. Rivera, Clemencia Siro, Colin Raffel, Courtney Ashcraft, Cristina Garbacea, Damien Sileo, Dan Garrette, Dan Hendrycks, Dan Kilman, Dan Roth, Daniel Freeman, Daniel Khashabi, Daniel Levy, Daniel Mosegu\'i Gonz\'alez, Danielle Perszyk, Danny Hernandez, Danqi Chen, Daphne Ippolito, Dar Gilboa, David Dohan, David Drakard, David Jurgens, Debajyoti Datta, Deep Ganguli, Denis Emelin, Denis Kleyko, Deniz Yuret, Derek Chen, Derek Tam, Dieuwke Hupkes, Diganta Misra, Dilyar Buzan, Dimitri Coelho Mollo, Diyi Yang, Dong-Ho Lee, Ekaterina Shutova, Ekin Dogus Cubuk, Elad Segal, Eleanor Hagerman, Elizabeth Barnes, Elizabeth Donoway, Ellie Pavlick, Emanuele Rodola, Emma Lam, Eric Chu, Eric Tang, Erkut Erdem, Ernie Chang, Ethan A. Chi, Ethan Dyer, Ethan Jerzak, Ethan Kim, Eunice Engefu Manyasi, Evgenii Zheltonozhskii, Fanyue Xia, Fatemeh Siar, Fernando Mart\'inez-Plumed, Francesca Happ\'e, Francois Chollet, Frieda Rong, Gaurav Mishra, Genta Indra Winata, Gerard de Melo, Germ\'an Kruszewski, Giambattista Parascandolo, Giorgio Mariani, Gloria Wang, Gonzalo Jaimovitch-L\'opez, Gregor Betz, Guy Gur-Ari, Hana Galijasevic, Hannah Kim, Hannah Rashkin, Hannaneh Hajishirzi, Harsh Mehta, Hayden Bogar, Henry Shevlin, Hinrich Sch\"utze, Hiromu Yakura, Hongming Zhang, Hugh Mee Wong, Ian Ng, Isaac Noble, Jaap Jumelet, Jack Geissinger, Jackson Kernion, Jacob Hilton, Jaehoon Lee, Jaime Fern\'andez Fisac, James B. Simon, James Koppel, James Zheng, James Zou, Jan Koco\'n, Jana Thompson, Jared Kaplan, Jarema Radom, Jascha Sohl-Dickstein, Jason Phang, Jason Wei, Jason Yosinski, Jekaterina Novikova, Jelle Bosscher, Jennifer Marsh, Jeremy Kim, Jeroen Taal, Jesse Engel, Jesujoba Alabi, Jiacheng Xu, Jiaming Song, Jillian Tang, Joan Waweru, John Burden, John Miller, John U. Balis, Jonathan Berant, J\"org Frohberg, Jos Rozen, Jose Hernandez-Orallo, Joseph Boudeman, Joseph Jones, Joshua B. Tenenbaum, Joshua S. Rule, Joyce Chua, Kamil Kanclerz, Karen Livescu, Karl Krauth, Karthik Gopalakrishnan, Katerina Ignatyeva, Katja Markert, Kaustubh D. Dhole, Kevin Gimpel, Kevin Omondi, Kory Mathewson, Kristen Chiafullo, Ksenia Shkaruta, Kumar Shridhar, Kyle McDonell, Kyle Richardson, Laria Reynolds, Leo Gao, Li Zhang, Liam Dugan, Lianhui Qin, Lidia Contreras-Ochando, Louis-Philippe Morency, Luca Moschella, Lucas Lam, Lucy Noble, Ludwig Schmidt, Luheng He, Luis Oliveros Col\'on, Luke Metz, L\"utfi Kerem \c{S}enel, Maarten Bosma, Maarten Sap, Maartje ter Hoeve, Maheen Farooqi, Manaal Faruqui, Mantas Mazeika, Marco Baturan, Marco Marelli, Marco Maru, Maria Jose Ram\'irez Quintana, Marie Tolkiehn, Mario Giulianelli, Martha Lewis, Martin Potthast, Matthew L. Leavitt, Matthias Hagen, M\'aty\'as Schubert, Medina Orduna Baitemirova, Melody Arnaud, Melvin McElrath, Michael A. Yee, Michael Cohen, Michael Gu, Michael Ivanitskiy, Michael Starritt, Michael Strube, Micha{\l} Sw\k{e}drowski, Michele Bevilacqua, Michihiro Yasunaga, Mihir Kale, Mike Cain, Mimee Xu, Mirac Suzgun, Mo Tiwari, Mohit Bansal, Moin Aminnaseri, Mor Geva, Mozhdeh Gheini, Mukund Varma T, Nanyun Peng, Nathan Chi, Nayeon Lee, Neta Gur-Ari Krakover, Nicholas Cameron, Nicholas Roberts, Nick Doiron, Nikita Nangia, Niklas Deckers, Niklas Muennighoff, Nitish Shirish Keskar, Niveditha S. Iyer, Noah Constant, Noah Fiedel, Nuan Wen, Oliver Zhang, Omar Agha, Omar Elbaghdadi, Omer Levy, Owain Evans, Pablo Antonio Moreno Casares, Parth Doshi, Pascale Fung, Paul Pu Liang, Paul Vicol, Pegah Alipoormolabashi, Peiyuan Liao, Percy Liang, Peter Chang, Peter Eckersley, Phu Mon Htut, Pinyu Hwang, Piotr Mi{\l}kowski, Piyush Patil, Pouya Pezeshkpour, Priti Oli, Qiaozhu Mei, Qing Lyu, Qinlang Chen, Rabin Banjade, Rachel Etta Rudolph, Raefer Gabriel, Rahel Habacker, Ram\'on Risco Delgado, Rapha\"el Milli\`ere, Rhythm Garg, Richard Barnes, Rif A. Saurous, Riku Arakawa, Robbe Raymaekers, Robert Frank, Rohan Sikand, Roman Novak, Roman Sitelew, Ronan LeBras, Rosanne Liu, Rowan Jacobs, Rui Zhang, Ruslan Salakhutdinov, Ryan Chi, Ryan Lee, Ryan Stovall, Ryan Teehan, Rylan Yang, Sahib Singh, Saif M. Mohammad, Sajant Anand, Sam Dillavou, Sam Shleifer, Sam Wiseman, Samuel Gruetter, Samuel R. Bowman, Samuel S. Schoenholz, Sanghyun Han, Sanjeev Kwatra, Sarah A. Rous, Sarik Ghazarian, Sayan Ghosh, Sean Casey, Sebastian Bischoff, Sebastian Gehrmann, Sebastian Schuster, Sepideh Sadeghi, Shadi Hamdan, Sharon Zhou, Shashank Srivastava, Sherry Shi, Shikhar Singh, Shima Asaadi, Shixiang Shane Gu, Shubh Pachchigar, Shubham Toshniwal, Shyam Upadhyay, Shyamolima (Shammie) Debnath, Siamak Shakeri, Simon Thormeyer, Simone Melzi, Siva Reddy, Sneha Priscilla Makini, Soo-Hwan Lee, Spencer Torene, Sriharsha Hatwar, Stanislas Dehaene, Stefan Divic, Stefano Ermon, Stella Biderman, Stephanie Lin, Stephen Prasad, Steven T. Piantadosi, Stuart M. Shieber, Summer Misherghi, Svetlana Kiritchenko, Swaroop Mishra, Tal Linzen, Tal Schuster, Tao Li, Tao Yu, Tariq Ali, Tatsu Hashimoto, Te-Lin Wu, Th\'eo Desbordes, Theodore Rothschild, Thomas Phan, Tianle Wang, Tiberius Nkinyili, Timo Schick, Timofei Kornev, Timothy Telleen-Lawton, Titus Tunduny, Tobias Gerstenberg, Trenton Chang, Trishala Neeraj, Tushar Khot, Tyler Shultz, Uri Shaham, Vedant Misra, Vera Demberg, Victoria Nyamai, Vikas Raunak, Vinay Ramasesh, Vinay Uday Prabhu, Vishakh Padmakumar, Vivek Srikumar, William Fedus, William Saunders, William Zhang, Wout Vossen, Xiang Ren, Xiaoyu Tong, Xinran Zhao, Xinyi Wu, Xudong Shen, Yadollah Yaghoobzadeh, Yair Lakretz, Yangqiu Song, Yasaman Bahri, Yejin Choi, Yichi Yang, Yiding Hao, Yifu Chen, Yonatan Belinkov, Yu Hou, Yufang Hou, Yuntao Bai, Zachary Seid, Zhuoye Zhao, Zijian Wang, Zijie J. Wang, Zirui Wang, Ziyi Wu(参考訳) 言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。 その可能性のある変革的影響にもかかわらず、これらの新しい機能は、まだ不十分な特徴を持っている。 将来の研究を知らせ、破壊的な新しいモデル能力を準備し、社会的に有害な効果を改善するためには、現在および近未来の言語モデルの能力と限界を理解することが不可欠である。 この課題に対処するため,Beyond the Imitation Game benchmark (BIG-bench)を導入する。 BIGベンチは現在204のタスクで構成されており、132の機関で442人の著者が貢献している。 タスクのトピックは多様で、言語学、幼少期の開発、数学、常識推論、生物学、物理学、社会的偏見、ソフトウェア開発などから問題を引き出す。 BIG-benchは、現在の言語モデルの能力を超えると思われるタスクに焦点を当てている。 我々は,OpenAIのGPTモデル,Google内部の高密度トランスフォーマーアーキテクチャ,BIGベンチ上のスイッチスタイルスパーストランスの挙動を,数百万から数十億のパラメータにわたって評価した。 さらに、人間専門家のチームが、強力なベースラインを提供するために、すべてのタスクを実行しました。 Findings include: model performance and calibration both improve with scale, but are poor in absolute terms (and when compared with rater performance); performance is remarkably similar across model classes, though with benefits from sparsity; tasks that improve gradually and predictably commonly involve a large knowledge or memorization component, whereas tasks that exhibit "breakthrough" behavior at a critical scale often involve multiple steps or components, or brittle metrics; social bias typically increases with scale in settings with ambiguous context, but this can be improved with prompting.

Language models demonstrate both quantitative improvement and new qualitative capabilities with increasing scale. Despite their potentially transformative impact, these new capabilities are as yet poorly characterized. In order to inform future research, prepare for disruptive new model capabilities, and ameliorate socially harmful effects, it is vital that we understand the present and near-future capabilities and limitations of language models. To address this challenge, we introduce the Beyond the Imitation Game benchmark (BIG-bench). BIG-bench currently consists of 204 tasks, contributed by 442 authors across 132 institutions. Task topics are diverse, drawing problems from linguistics, childhood development, math, common-sense reasoning, biology, physics, social bias, software development, and beyond. BIG-bench focuses on tasks that are believed to be beyond the capabilities of current language models. We evaluate the behavior of OpenAI's GPT models, Google-internal dense transformer architectures, and Switch-style sparse transformers on BIG-bench, across model sizes spanning millions to hundreds of billions of parameters. In addition, a team of human expert raters performed all tasks in order to provide a strong baseline. Findings include: model performance and calibration both improve with scale, but are poor in absolute terms (and when compared with rater performance); performance is remarkably similar across model classes, though with benefits from sparsity; tasks that improve gradually and predictably commonly involve a large knowledge or memorization component, whereas tasks that exhibit "breakthrough" behavior at a critical scale often involve multiple steps or components, or brittle metrics; social bias typically increases with scale in settings with ambiguous context, but this can be improved with prompting.
翻訳日:2022-06-13 11:48:26 公開日:2022-06-10
# 行動予測モデルにおける座標フレームギャップの狭化:効率よく正確なシーン中心運動予測のための蒸留

Narrowing the Coordinate-frame Gap in Behavior Prediction Models: Distillation for Efficient and Accurate Scene-centric Motion Forecasting ( http://arxiv.org/abs/2206.03970v2 )

ライセンス: Link先を確認
DiJia Su, Bertrand Douillard, Rami Al-Rfou, Cheolho Park, Benjamin Sapp(参考訳) 行動予測モデルは近年,特に自律運転の現実的なロボット工学の応用において,安全で快適な運動計画のためには,移動エージェントの将来性に関する分布を表現することが不可欠である。 これらのモデルでは、入力と出力を表す座標フレームの選択は、2つのカテゴリの1つに大別される重要なトレードオフを持つ。 エージェント中心モデルは入力を変換し、エージェント中心の座標で推論を行う。 これらのモデルは、内在的にシーン要素間の翻訳と回転に不変であり、パブリックなリーダーボード上で最高のパフォーマンスを示すが、エージェント数とシーン要素の数で二乗的にスケールする。 シーン中心のモデルは、すべてのエージェントを処理するために固定座標システムを使用する。 これにより、すべてのエージェント間で表現を共有する利点があり、エージェント数と線形にスケールする効率的な償却推論計算を提供する。 しかし、これらのモデルはシーン要素間の変換と回転の不変性を学び、典型的にはエージェント中心のモデルに劣る。 本研究では,確率的動き予測モデル間の知識蒸留技術を開発し,エージェント中心モデルとシーン中心モデル間の性能ギャップを埋めるためにこれらの手法を適用した。 これにより、パブリックなArgoverseベンチマークで13.2%、Waymo Open Datasetで7.8%、大規模なIn-Houseデータセットで9.4%のシーン中心モデルのパフォーマンスが改善される。 これらの改善されたシーン中心のモデルは、公共のリーダーボードで高く評価され、忙しいシーンではエージェント中心の教師よりも最大15倍効率が高い。

Behavior prediction models have proliferated in recent years, especially in the popular real-world robotics application of autonomous driving, where representing the distribution over possible futures of moving agents is essential for safe and comfortable motion planning. In these models, the choice of coordinate frames to represent inputs and outputs has crucial trade offs which broadly fall into one of two categories. Agent-centric models transform inputs and perform inference in agent-centric coordinates. These models are intrinsically invariant to translation and rotation between scene elements, are best-performing on public leaderboards, but scale quadratically with the number of agents and scene elements. Scene-centric models use a fixed coordinate system to process all agents. This gives them the advantage of sharing representations among all agents, offering efficient amortized inference computation which scales linearly with the number of agents. However, these models have to learn invariance to translation and rotation between scene elements, and typically underperform agent-centric models. In this work, we develop knowledge distillation techniques between probabilistic motion forecasting models, and apply these techniques to close the gap in performance between agent-centric and scene-centric models. This improves scene-centric model performance by 13.2% on the public Argoverse benchmark, 7.8% on Waymo Open Dataset and up to 9.4% on a large In-House dataset. These improved scene-centric models rank highly in public leaderboards and are up to 15 times more efficient than their agent-centric teacher counterparts in busy scenes.
翻訳日:2022-06-13 11:48:00 公開日:2022-06-10
# CASS:医療画像分析のためのクロスアーキテクチャセルフスーパービジョン

CASS: Cross Architectural Self-Supervision for Medical Image Analysis ( http://arxiv.org/abs/2206.04170v2 )

ライセンス: Link先を確認
Pranav Singh, Elena Sizikova, Jacopo Cirrone(参考訳) 近年のDeep LearningとComputer Visionの進歩はボトルネックの多くを緩和し、より良いパフォーマンスでアルゴリズムをラベルフリーにしている。 具体的には、Transformerはイメージのグローバルな視点を提供し、CNN(Convolutional Neural Networks)は設計によって欠落している。 ここでは、トランスフォーマーとCNNを同時に活用する、新しい自己教師型学習アプローチであるCross Architectural Self-Supervisionを紹介します。 既存の最先端の自己教師型学習手法と比較して、CASSがトレーニングしたCNNを実証的に示し、Transformersは100%ラベル付きデータで平均8.5%、10%ラベル付きデータで7.3%、1%ラベル付きデータで11.5%を得た。 中でも注目に値するのは,自己免疫疾患の病理組織学的所見であり,医療画像では軽視され,データも少ない点である。 また,cassは他の最先端手法に比べてトレーニング時間において2倍効率が良いことが判明した。

Recent advances in Deep Learning and Computer Vision have alleviated many of the bottlenecks, allowing algorithms to be label-free with better performance. Specifically, Transformers provide a global perspective of the image, which Convolutional Neural Networks (CNN) lack by design. Here we present Cross Architectural Self-Supervision, a novel self-supervised learning approach which leverages transformers and CNN simultaneously, while also being computationally accessible to general practitioners via easily available cloud services. Compared to existing state-of-the-art self-supervised learning approaches, we empirically show CASS trained CNNs, and Transformers gained an average of 8.5% with 100% labelled data, 7.3% with 10% labelled data, and 11.5% with 1% labelled data, across three diverse datasets. Notably, one of the employed datasets included histopathology slides of an autoimmune disease, a topic underrepresented in Medical Imaging and has minimal data. In addition, our findings reveal that CASS is twice as efficient as other state-of-the-art methods in terms of training time.
翻訳日:2022-06-13 11:47:32 公開日:2022-06-10
# Arm Group Graph を用いたニューラルバンド

Neural Bandit with Arm Group Graph ( http://arxiv.org/abs/2206.03644v2 )

ライセンス: Link先を確認
Yunzhe Qi, Yikun Ban, Jingrui He(参考訳) コンテキストブレイディットは、コンテキスト情報に基づいて最も高い報酬を持つ最適なアームのセットを識別することを目的としている。 両腕が通常集団行動を示し,相互の影響が群間に存在するという事実に触発されて,ノードが群群を表し,重み付きエッジが群間の相関を定式化する新たなモデルであるArm Group Graph(AGG)を導入する。 aggの豊富な情報を活用するために,ニューラルネットワークが報酬を推定するために設計されたバンドイットアルゴリズム agg-ucb を提案し,グラフニューラルネットワーク (gnn) を用いて相関関係を持つアーム群の表現を学ぶ。 バンディットにおけるエクスプロレーション-探索ジレンマを解決するために、探索のためのニューラルネットワーク(探索)上に構築された新しい上部信頼境界(UCB)を導出する。 さらに、AGG-UCBは、過度にパラメータ化されたニューラルネットワークに縛られたほぼ最適の後悔を達成できることを証明し、GNNを独立した関心を持つような完全に接続された層で収束解析する。 最後に,複数の公開データセットに対する最先端ベースラインに対する広範な実験を行い,提案アルゴリズムの有効性を示す。

Contextual bandits aim to identify among a set of arms the optimal one with the highest reward based on their contextual information. Motivated by the fact that the arms usually exhibit group behaviors and the mutual impacts exist among groups, we introduce a new model, Arm Group Graph (AGG), where the nodes represent the groups of arms and the weighted edges formulate the correlations among groups. To leverage the rich information in AGG, we propose a bandit algorithm, AGG-UCB, where the neural networks are designed to estimate rewards, and we propose to utilize graph neural networks (GNN) to learn the representations of arm groups with correlations. To solve the exploitation-exploration dilemma in bandits, we derive a new upper confidence bound (UCB) built on neural networks (exploitation) for exploration. Furthermore, we prove that AGG-UCB can achieve a near-optimal regret bound with over-parameterized neural networks, and provide the convergence analysis of GNN with fully-connected layers which may be of independent interest. In the end, we conduct extensive experiments against state-of-the-art baselines on multiple public data sets, showing the effectiveness of the proposed algorithm.
翻訳日:2022-06-13 11:47:11 公開日:2022-06-10
# 高速複数出力カーネルメソッドのための$p$-sparsified sketch

$p$-Sparsified Sketches for Fast Multiple Output Kernel Methods ( http://arxiv.org/abs/2206.03827v2 )

ライセンス: Link先を確認
Tamim El Ahmad, Pierre Laforgue, Florence d'Alch\'e-Buc(参考訳) カーネル法(英: kernel method)は、計算上の重要な制限に苦しめながら、しっかりとした理論的基礎を享受する学習アルゴリズムである。 縮小次元の部分空間の解を求めることからなるスケッチは、この数値的負担を軽減するために広く研究されているアプローチである。 しかし、非適応部分サンプリングのような素早いスケッチ戦略はアルゴリズムの保証を著しく低下させるが、ガウス的スケッチのような理論的に正確なスケッチは実際には比較的遅いままである。 本稿では,統計精度と計算効率との良好なトレードオフを実現するために,両者のアプローチの利点を組み合わせた,p$-sparsified sketchsを提案する。 本手法をサポートするため,本手法は,単一出力問題と複数出力問題の両方に対する過大なリスク境界を導出し,ロバスト回帰から複数量子量回帰まで,幅広いアプリケーションに対して新たな保証を提供する。 また、最近のSOTAアプローチよりもスケッチの方が優れているという実証的な証拠も提示する。

Kernel methods are learning algorithms that enjoy solid theoretical foundations while suffering from important computational limitations. Sketching, that consists in looking for solutions among a subspace of reduced dimension, is a widely studied approach to alleviate this numerical burden. However, fast sketching strategies, such as non-adaptive subsampling, significantly degrade the guarantees of the algorithms, while theoretically-accurate sketches, such as the Gaussian one, turn out to remain relatively slow in practice. In this paper, we introduce the $p$-sparsified sketches, that combine the benefits from both approaches to achieve a good tradeoff between statistical accuracy and computational efficiency. To support our method, we derive excess risk bounds for both single and multiple output problems, with generic Lipschitz losses, providing new guarantees for a wide range of applications, from robust regression to multiple quantile regression. We also provide empirical evidences of the superiority of our sketches over recent SOTA approaches.
翻訳日:2022-06-13 11:46:50 公開日:2022-06-10
# 固定予算最良アーム識別のためのグローバル最適アルゴリズム

Globally Optimal Algorithms for Fixed-Budget Best Arm Identification ( http://arxiv.org/abs/2206.04646v2 )

ライセンス: Link先を確認
Junpei Komiyama, Taira Tsuchiya, Junya Honda(参考訳) 我々は,最大平均のアームを一定数のサンプルで見つけることを目標とする固定予算最良アーム識別問題を考える。 最良の腕を誤認する確率は、ラウンド数に対して指数関数的に小さいことが知られている。 しかし、この値の速度(指数)について限定的な特徴づけが議論されている。 本稿では,全ての可能なパラメータに対する大域的最適化の結果として最適速度を特徴付ける。 R^{\mathrm{go}}$ と $R^{\mathrm{go}}_{\infty}$ という2つのレートを導入する。 R^{\mathrm{go}}$は$R^{\mathrm{go}}$-trackingに関連付けられており、ニューラルネットワークによって効率的に実装でき、既存のアルゴリズムより優れていることが示されている。 しかし、この速度は達成可能な非自明な条件を必要とする。 この問題に対処するために、第二のレート$R^{\mathrm{go}}_\infty$を導入する。 本稿では,遅延最適追跡 (DOT) という概念アルゴリズムを導入することで,この速度が実現可能であることを示す。

We consider the fixed-budget best arm identification problem where the goal is to find the arm of the largest mean with a fixed number of samples. It is known that the probability of misidentifying the best arm is exponentially small to the number of rounds. However, limited characterizations have been discussed on the rate (exponent) of this value. In this paper, we characterize the optimal rate as a result of global optimization over all possible parameters. We introduce two rates, $R^{\mathrm{go}}$ and $R^{\mathrm{go}}_{\infty}$, corresponding to lower bounds on the misidentification probability, each of which is associated with a proposed algorithm. The rate $R^{\mathrm{go}}$ is associated with $R^{\mathrm{go}}$-tracking, which can be efficiently implemented by a neural network and is shown to outperform existing algorithms. However, this rate requires a nontrivial condition to be achievable. To deal with this issue, we introduce the second rate $R^{\mathrm{go}}_\infty$. We show that this rate is indeed achievable by introducing a conceptual algorithm called delayed optimal tracking (DOT).
翻訳日:2022-06-13 11:46:31 公開日:2022-06-10
# 職業的フラッド検出のためのオープンERPシステムデータ

Open ERP System Data For Occupational Fraud Detection ( http://arxiv.org/abs/2206.04460v2 )

ライセンス: Link先を確認
Julian Tritscher, Fabian Gwinner, Daniel Schl\"or, Anna Krause, Andreas Hotho(参考訳) 最近の推計では、企業は労働詐欺によって収益の5%を失う。 中規模・大規模の企業のほとんどは、企業リソース計画(erp)システムを使用してビジネスプロセスに関する膨大な情報を追跡しているため、研究者らは過去に、erpシステムデータによる不正の自動検出に関心を示したことがある。 しかし, この分野での現在の研究は, 不正検出手法の開発と比較のためにERPシステムデータが公開されていないという事実によって妨げられている。 したがって、通常の業務運用と不正の両方を含む公開ERPシステムデータを生成する。 本研究では,重大ゲームを通じてERPシステムデータを生成する戦略を提案し,監査の専門家と協調して様々な不正シナリオをモデル化し,複数の研究参加者を持つ模擬生産会社からデータを生成する。 生成したデータをERPシステムにおける不正検出のためのデータセットに集約し、生データと集約データの両方を一般向けに供給し、ERPシステムデータに対する不正検出手法のオープンな開発と比較を可能にする。

Recent estimates report that companies lose 5% of their revenue to occupational fraud. Since most medium-sized and large companies employ Enterprise Resource Planning (ERP) systems to track vast amounts of information regarding their business process, researchers have in the past shown interest in automatically detecting fraud through ERP system data. Current research in this area, however, is hindered by the fact that ERP system data is not publicly available for the development and comparison of fraud detection methods. We therefore endeavour to generate public ERP system data that includes both normal business operation and fraud. We propose a strategy for generating ERP system data through a serious game, model a variety of fraud scenarios in cooperation with auditing experts, and generate data from a simulated make-to-stock production company with multiple research participants. We aggregate the generated data into ready to used datasets for fraud detection in ERP systems, and supply both the raw and aggregated data to the general public to allow for open development and comparison of fraud detection approaches on ERP system data.
翻訳日:2022-06-13 11:46:07 公開日:2022-06-10