このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220918となっている論文です。

PDF登録状況(公開日: 20220918)

TitleAuthorsAbstract論文公表日・翻訳日
# 実現可能な安定なニューラルネットワークチューリングマシン

A provably stable neural network Turing Machine ( http://arxiv.org/abs/2006.03651v4 )

ライセンス: Link先を確認
John Stogin, Ankur Mali and C Lee Giles(参考訳) 我々は,スタックを明示的に表現するパラメータの適切な選択のために,スタックプッシュとpop操作を近似する微分可能なパラメータ化スタック演算子を含むニューラルスタックアーキテクチャを導入する。 我々は、このスタックアーキテクチャの安定性を証明した: 任意の数のスタック操作の後、ニューラルスタックの状態は依然として離散スタックの状態によく似ている。 ニューラルスタックとリカレントニューラルネットワークを用いて、ニューラルネットワークPushdown Automaton(nnPDA)を導入し、有限有界ニューロンと時間を持つnnPDAが任意のPDAをシミュレートできることを証明する。 さらに、構築を拡張し、新しいアーキテクチャ・ニューラルステート・チューリング・マシン(nnTM)を提案する。 我々は,有界ニューロンとの微分可能なnnTMがチューリングマシン(TM)をリアルタイムにシミュレートできることを証明した。 ニューラルネットワークと同じように、これらのアーキテクチャも安定している。 最後に、微分可能な nnTM がUniversal Turing Machine (UTM) と等価であることを示し、任意の TM を \textbf{seven finite/bounded precision} ニューロンでシミュレートできることを示す。 この研究は、メモリで拡張された有界精度RNNの計算能力に対する新たな理論的バウンダリを提供する。

We introduce a neural stack architecture, including a differentiable parametrized stack operator that approximates stack push and pop operations for suitable choices of parameters that explicitly represents a stack. We prove the stability of this stack architecture: after arbitrarily many stack operations, the state of the neural stack still closely resembles the state of the discrete stack. Using the neural stack with a recurrent neural network, we introduce a neural network Pushdown Automaton (nnPDA) and prove that nnPDA with finite/bounded neurons and time can simulate any PDA. Furthermore, we extend our construction and propose new architecture neural state Turing Machine (nnTM). We prove that differentiable nnTM with bounded neurons can simulate Turing Machine (TM) in real-time. Just like the neural stack, these architectures are also stable. Finally, we extend our construction to show that differentiable nnTM is equivalent to Universal Turing Machine (UTM) and can simulate any TM with only \textbf{seven finite/bounded precision} neurons. This work provides a new theoretical bound for the computational capability of bounded precision RNNs augmented with memory.
翻訳日:2022-11-25 03:35:15 公開日:2022-09-18
# バイアス分散分解による敵対的ロバスト性:フェデレーション学習の新しい展望

Adversarial Robustness through Bias Variance Decomposition: A New Perspective for Federated Learning ( http://arxiv.org/abs/2009.09026v3 )

ライセンス: Link先を確認
Yao Zhou, Jun Wu, Haixun Wang, Jingrui He(参考訳) フェデレーション学習は、プライバシ保護制約の下で分散クライアントのグループからの知識を集約することで、ニューラルネットワークモデルを学ぶ。 本稿では,このパラダイムが集中型ニューラルネットワークの敵意的脆弱性を継承する可能性があることを示す。 集中型ニューラルネットワークの更新動作を近似するようにフェデレーション学習パラダイムが設計された場合、これはさらに警告となる。 そこで本研究では,サーバとクライアントの更新機構を改良したfederated learningフレームワークfeed_bvaを提案する。 これは、フェデレーション学習における一般化誤差が、複数のクライアントの予測によって引き起こされるバイアスと分散に自然に分解できるという観測によるものである。 そこで本研究では,サーバ更新時のバイアスとばらつきを最大化し,クライアント更新時のモデル更新から,逆向きに頑健なモデル更新を学習する手法を提案する。 その結果、これらの改善されたローカルクライアントのモデル更新から、逆向きに堅牢なニューラルネットワークを集約することができる。 実験は,複数のニューラルネットワークモデルを用いて,複数のベンチマークデータセット上で実施し,実験結果から,アイドと非アイドのいずれにおいても,ホワイトボックスとブラックボックスの敵対的腐敗に対してロバストなフレームワークであることが判明した。

Federated learning learns a neural network model by aggregating the knowledge from a group of distributed clients under the privacy-preserving constraint. In this work, we show that this paradigm might inherit the adversarial vulnerability of the centralized neural network, i.e., it has deteriorated performance on adversarial examples when the model is deployed. This is even more alarming when federated learning paradigm is designed to approximate the updating behavior of a centralized neural network. To solve this problem, we propose an adversarially robust federated learning framework, named Fed_BVA, with improved server and client update mechanisms. This is motivated by our observation that the generalization error in federated learning can be naturally decomposed into the bias and variance triggered by multiple clients' predictions. Thus, we propose to generate the adversarial examples via maximizing the bias and variance during server update, and learn the adversarially robust model updates with those examples during client update. As a result, an adversarially robust neural network can be aggregated from these improved local clients' model updates. The experiments are conducted on multiple benchmark data sets using several prevalent neural network models, and the empirical results show that our framework is robust against white-box and black-box adversarial corruptions under both IID and non-IID settings.
翻訳日:2022-10-17 02:33:37 公開日:2022-09-18
# Achilles Heels for AGI/ASI via Decision Theoretic Adversaries

Achilles Heels for AGI/ASI via Decision Theoretic Adversaries ( http://arxiv.org/abs/2010.05418v7 )

ライセンス: Link先を確認
Stephen Casper(参考訳) AIの進歩が進むにつれて、先進的なシステムがどのように選択するか、どのように失敗するかを知ることが不可欠である。 機械は、すでに一部のドメインで人間より優れており、人間レベル以上の能力を持つものを安全に構築する方法を理解することは、特に懸念事項である。 agi(artificial general intelligent)とasi(artificial superintelligent, 人工超知能)は、人間が定義上、確実に賢くはなれないものとしてモデル化されるべきであると考える人もいるでしょう。 この仮定への挑戦として、本論文はアキレス・ヒール仮説(英語版)を提示し、超知的なシステムでさえも安定した決定論的推論を持つ可能性があると述べる。 決定論の文献からの関連するジレンマとパラドックスの調査では、この仮説の文脈でこれらの潜在的なアキレス・ハイルが議論されている。 これらの弱点をシステムに組み込む方法を理解するために、いくつかの新しい貢献がなされている。

As progress in AI continues to advance, it is crucial to know how advanced systems will make choices and in what ways they may fail. Machines can already outsmart humans in some domains, and understanding how to safely build ones which may have capabilities at or above the human level is of particular concern. One might suspect that artificially generally intelligent (AGI) and artificially superintelligent (ASI) systems should be modeled as as something which humans, by definition, can't reliably outsmart. As a challenge to this assumption, this paper presents the Achilles Heel hypothesis which states that even a potentially superintelligent system may nonetheless have stable decision-theoretic delusions which cause them to make obviously irrational decisions in adversarial settings. In a survey of relevant dilemmas and paradoxes from the decision theory literature, a number of these potential Achilles Heels are discussed in context of this hypothesis. Several novel contributions are made toward understanding the ways in which these weaknesses might be implanted into a system.
翻訳日:2022-10-08 07:07:39 公開日:2022-09-18
# 共同グローバル局所相互作用モデルによるタンパク質-リガンド結合親和性予測

Predicting Protein-Ligand Binding Affinity via Joint Global-Local Interaction Modeling ( http://arxiv.org/abs/2209.13014v1 )

ライセンス: Link先を確認
Yang Zhang, Gengmo Zhou, Zhewei Wei, Hongteng Xu(参考訳) タンパク質-リガンド結合親和性の予測は、薬物研究における鉛化合物の発見に非常に重要である。 この困難な課題に直面した既存の予測手法のほとんどは、タンパク質とリガンド間の多レベル分子間相互作用を無視しながら、分子と局所的な相互作用の位相的および/または空間的構造に依存する。 本稿では,タンパク質結合親和性を予測するための新しいグローバル・ローカル相互作用(gli)フレームワークを提案する。 特に、我々のgliフレームワークは、閉じた原子間の高エネルギー短距離相互作用だけでなく、非結合原子間の低エネルギー長距離相互作用を含むタンパク質とリガンド間の分子間相互作用を考察している。 タンパク質とリガンドのペアごとに、GLIは長距離相互作用をグローバルに埋め込み、局所的短距離相互作用を集約します。 このようなグローバルなインタラクションモデリング戦略は、予測精度の向上に役立ち、フレームワーク全体がさまざまなニューラルネットワークベースのモジュールと互換性がある。 実験により、我々のGLIフレームワークは、単純なニューラルネットワークアーキテクチャと適度な計算コストで最先端の手法より優れていることが示された。

The prediction of protein-ligand binding affinity is of great significance for discovering lead compounds in drug research. Facing this challenging task, most existing prediction methods rely on the topological and/or spatial structure of molecules and the local interactions while ignoring the multi-level inter-molecular interactions between proteins and ligands, which often lead to sub-optimal performance. To solve this issue, we propose a novel global-local interaction (GLI) framework to predict protein-ligand binding affinity. In particular, our GLI framework considers the inter-molecular interactions between proteins and ligands, which involve not only the high-energy short-range interactions between closed atoms but also the low-energy long-range interactions between non-bonded atoms. For each pair of protein and ligand, our GLI embeds the long-range interactions globally and aggregates local short-range interactions, respectively. Such a joint global-local interaction modeling strategy helps to improve prediction accuracy, and the whole framework is compatible with various neural network-based modules. Experiments demonstrate that our GLI framework outperforms state-of-the-art methods with simple neural network architectures and moderate computational costs.
翻訳日:2022-10-02 23:22:34 公開日:2022-09-18
# グラフに基づく新規抗菌ペプチド生成・選択のためのアクティブ機械学習手法

Graph-Based Active Machine Learning Method for Diverse and Novel Antimicrobial Peptides Generation and Selection ( http://arxiv.org/abs/2209.13518v1 )

ライセンス: Link先を確認
Bonaventure F. P. Dossou, Dianbo Liu, Xu Ji, Moksh Jain, Almer M. van der Sloot, Roger Palou, Michael Tyers, Yoshua Bengio(参考訳) 抗生物質耐性の細菌株が世界中で急速に普及しているため、毎年何百万人もの人が死亡する世界的な危機として、これらの菌株による感染症が出現している。 抗微生物ペプチド(AMP)は、その潜在的な多様性と宿主の免疫反応を良好に調節する能力のためにこの問題に対処する候補の1つである。 しかし、新しいAMP候補の大規模スクリーニングは高価で、時間もかかり、開発途上国では最も治療を必要とする。 本研究では,新しいAMPの設計に必要なウェットラブ実験の数を統計的に最小化するとともに,マルチラウンドのウェットラブAMPスクリーニング設定において,生成されたAMP配列の多様性と新規性を確保できる,アクティブ機械学習ベースのフレームワークを提案する。 繰り返し発生するニューラルネットワークモデルとグラフベースのフィルタ(graphcc)を組み合わせることで,提案手法は新規で多様な候補を導出し,我々の定義した指標によりよりよいパフォーマンスを示す。

As antibiotic-resistant bacterial strains are rapidly spreading worldwide, infections caused by these strains are emerging as a global crisis causing the death of millions of people every year. Antimicrobial Peptides (AMPs) are one of the candidates to tackle this problem because of their potential diversity, and ability to favorably modulate the host immune response. However, large-scale screening of new AMP candidates is expensive, time-consuming, and now affordable in developing countries, which need the treatments the most. In this work, we propose a novel active machine learning-based framework that statistically minimizes the number of wet-lab experiments needed to design new AMPs, while ensuring a high diversity and novelty of generated AMPs sequences, in multi-rounds of wet-lab AMP screening settings. Combining recurrent neural network models and a graph-based filter (GraphCC), our proposed approach delivers novel and diverse candidates and demonstrates better performances according to our defined metrics.
翻訳日:2022-10-02 23:21:28 公開日:2022-09-18
# siamese networkによるトマト葉病認識のための軽量フレームワーク

Siamese Network-based Lightweight Framework for Tomato Leaf Disease Recognition ( http://arxiv.org/abs/2209.11214v1 )

ライセンス: Link先を確認
Selvarajah Thuseethan, Palanisamy Vigneshwaran, Joseph Charles and Chathrie Wimalasooriya(参考訳) 葉画像からのトマト病の自動認識は, 制御措置を経時的に適用することにより作物の損失を回避するために重要である。 最近の深層学習に基づくトマト病の診断法では, 古典的訓練法が有望な認識結果を示したが, 大量のラベル付きデータを要求し, 高価な訓練を要した。 トマト病の認識のために提案された従来のディープラーニングモデルは、多くのパラメータのために高いメモリと記憶を消費する。 軽量ネットワークはこれらの問題をある程度克服しているが、パフォーマンスが低く、不均衡なデータを扱うのに苦労している。 本稿では,トマト葉病自動認識のための新規なsiamese network-based lightweight frameworkを提案する。 この枠組みは、植物プランテーションデータセットから得られたトマトサブセットの96.97%、台湾トマト葉病データセットの95.48%を最高精度で達成する。 実験の結果, 提案手法が不均衡・小型データに対して有効であることを確認した。 このフレームワークに統合されたbackbone deep networkは、約2.9629億のトレーニング可能なパラメータを持つ軽量で、既存の軽量ディープネットワークよりもはるかに低い。

Automatic tomato disease recognition from leaf images is vital to avoid crop losses by applying control measures on time. Even though recent deep learning-based tomato disease recognition methods with classical training procedures showed promising recognition results, they demand large labelled data and involve expensive training. The traditional deep learning models proposed for tomato disease recognition also consume high memory and storage because of a high number of parameters. While lightweight networks overcome some of these issues to a certain extent, they continue to show low performance and struggle to handle imbalanced data. In this paper, a novel Siamese network-based lightweight framework is proposed for automatic tomato leaf disease recognition. This framework achieves the highest accuracy of 96.97% on the tomato subset obtained from the PlantVillage dataset and 95.48% on the Taiwan tomato leaf disease dataset. Experimental results further confirm that the proposed framework is effective with imbalanced and small data. The backbone deep network integrated with this framework is lightweight with approximately 2.9629 million trainable parameters, which is way lower than existing lightweight deep networks.
翻訳日:2022-09-23 13:42:48 公開日:2022-09-18
# テンポラルマルチチャネルトランスを用いた脳波によるてんかん発作予測

EEG-Based Epileptic Seizure Prediction Using Temporal Multi-Channel Transformers ( http://arxiv.org/abs/2209.11172v1 )

ライセンス: Link先を確認
Ricardo V. Godoy, Tharik J. S. Reis, Paulo H. Polegato, Gustavo J. G. Lahr, Ricardo L. Saute, Frederico N. Nakano, Helio R. Machado, Americo C. Sakamoto, Marcelo Becker, Glauco A. P. Caurin(参考訳) てんかんは最も一般的な神経疾患の1つで、てんかん発作と呼ばれる過渡期および未発症の事象を特徴とする。 脳波(Electroencephalogram、EEG)はてんかんの診断とモニタリングを補助的に行う方法である。 てんかん発作の予期せぬ性質を考えると、その予測は患者のケアを改善し、生活の質とてんかんの治療を最適化する。 てんかん発作を予知することは、てんかん患者の脳波の2つの異なる状態(前頭骨と間頭骨)の同定を意味する。 本稿では,TMC-T(Temporal Multi-Channel Transformer)とTMC-ViT(Vision Transformer)という2つのディープラーニングモデルを開発した。 さらに,専門家の間では一致しないため,前立腺長の異なる選択の影響にもアクセスし,サンプルサイズが各モデルに与える影響を評価した。 私たちのモデルは、完全接続、畳み込み、再帰的なネットワークと比較されます。 アルゴリズムはchb-mitデータベースから得られた脳波信号に基づいて患者固有の訓練を行い評価した。 TMC-ViTモデルがCNNアーキテクチャ, 発作予知の最先端を超越したことを示す実験結果と統計的検証を行った。

Epilepsy is one of the most common neurological diseases, characterized by transient and unprovoked events called epileptic seizures. Electroencephalogram (EEG) is an auxiliary method used to perform both the diagnosis and the monitoring of epilepsy. Given the unexpected nature of an epileptic seizure, its prediction would improve patient care, optimizing the quality of life and the treatment of epilepsy. Predicting an epileptic seizure implies the identification of two distinct states of EEG in a patient with epilepsy: the preictal and the interictal. In this paper, we developed two deep learning models called Temporal Multi-Channel Transformer (TMC-T) and Vision Transformer (TMC-ViT), adaptations of Transformer-based architectures for multi-channel temporal signals. Moreover, we accessed the impact of choosing different preictal duration, since its length is not a consensus among experts, and also evaluated how the sample size benefits each model. Our models are compared with fully connected, convolutional, and recurrent networks. The algorithms were patient-specific trained and evaluated on raw EEG signals from the CHB-MIT database. Experimental results and statistical validation demonstrated that our TMC-ViT model surpassed the CNN architecture, state-of-the-art in seizure prediction.
翻訳日:2022-09-23 12:32:03 公開日:2022-09-18
# 深層学習とアンサンブル技術を用いた相互資金の予測

Predicting Performances of Mutual Funds using Deep Learning and Ensemble Techniques ( http://arxiv.org/abs/2209.09649v1 )

ライセンス: Link先を確認
Nghia Chu, Binh Dao, Nga Pham, Huy Nguyen, Hien Tran(参考訳) ファンドのパフォーマンス予測は投資家とファンドマネジャーの両方にとって有益であり、それでも難しい課題だ。 本稿では,ディープラーニングモデルが従来の統計手法よりも精度の高いファンドパフォーマンスを予測できるかどうかを検証した。 ファンドのパフォーマンスは一般的に、リスク調整されたパフォーマンスを表わし、ファンド間の有意義なコンパラビリティを保証するシャープ比によって評価される。 我々は、米国で上場されている大型株式に投資する600以上のオープンエンド相互ファンドの月次リターン時系列データに基づいて、年次シャープ比率を算出した。 長短期記憶(LSTM)とゲートリカレント単位(GRU)の深層学習法は,いずれも現代のベイズ最適化で訓練されたものであり,従来の統計手法よりもシャープ比の予測精度が高いことがわかった。 LSTMとGRUの予測を組み合わせたアンサンブル法は,全モデルの最高の性能を実現する。 ディープラーニングとアンサンブルが、ファンドのパフォーマンス予測の課題に対処する上で有望なソリューションを提供するという証拠がある。

Predicting fund performance is beneficial to both investors and fund managers, and yet is a challenging task. In this paper, we have tested whether deep learning models can predict fund performance more accurately than traditional statistical techniques. Fund performance is typically evaluated by the Sharpe ratio, which represents the risk-adjusted performance to ensure meaningful comparability across funds. We calculated the annualised Sharpe ratios based on the monthly returns time series data for more than 600 open-end mutual funds investing in listed large-cap equities in the United States. We find that long short-term memory (LSTM) and gated recurrent units (GRUs) deep learning methods, both trained with modern Bayesian optimization, provide higher accuracy in forecasting funds' Sharpe ratios than traditional statistical ones. An ensemble method, which combines forecasts from LSTM and GRUs, achieves the best performance of all models. There is evidence to say that deep learning and ensembling offer promising solutions in addressing the challenge of fund performance forecasting.
翻訳日:2022-09-21 19:37:34 公開日:2022-09-18
# 時間依存フロー問題における外挿予測のための深い畳み込み構造

Deep Convolutional Architectures for Extrapolative Forecast in Time-dependent Flow Problems ( http://arxiv.org/abs/2209.09651v1 )

ライセンス: Link先を確認
Pratyush Bhatt, Yash Kumar, Azzeddine Soulaimani(参考訳) 力学が偏微分方程式(PDE)によって支配される物理系は、工学設計から天気予報に至るまで、多くの分野に適用できる。 このようなPDEから解を得るプロセスは、大規模かつパラメータ化された問題に対して計算コストがかかる可能性がある。 本研究では,特にLSTMやTCNなどの時系列予測やCNNなどの空間特徴抽出のために開発された深層学習技術を用いて,対流支配問題に対するシステム力学をモデル化する。 これらのモデルは、PDEから得られた連続時間ステップに対する高忠実度ベクトル解の列を入力として、自動回帰を用いてその後の時間ステップに対する解を予測し、そのような高忠実度解を得るのに必要な計算時間と電力を削減する。 モデルは、トレーニング領域の外でさえも長期予測精度を評価するために、数値ベンチマーク(1D Burgersの方程式とStokerのダム破壊問題)でテストされる。 深層オートエンコーダネットワークなどの非侵襲的低次モデリング技術を用いて,高忠実度スナップショットを圧縮し,予測モデルへの入力として送信することにより,オンラインおよびオフライン段階における複雑性と計算量を削減する。 深層アンサンブルを用いて予測モデルの不確実な定量化を行い、疫学的な不確実性の結果として予測のばらつきに関する情報を提供する。

Physical systems whose dynamics are governed by partial differential equations (PDEs) find applications in numerous fields, from engineering design to weather forecasting. The process of obtaining the solution from such PDEs may be computationally expensive for large-scale and parameterized problems. In this work, deep learning techniques developed especially for time-series forecasts, such as LSTM and TCN, or for spatial-feature extraction such as CNN, are employed to model the system dynamics for advection dominated problems. These models take as input a sequence of high-fidelity vector solutions for consecutive time-steps obtained from the PDEs and forecast the solutions for the subsequent time-steps using auto-regression; thereby reducing the computation time and power needed to obtain such high-fidelity solutions. The models are tested on numerical benchmarks (1D Burgers' equation and Stoker's dam break problem) to assess the long-term prediction accuracy, even outside the training domain (extrapolation). Non-intrusive reduced-order modelling techniques such as deep auto-encoder networks are utilized to compress the high-fidelity snapshots before feeding them as input to the forecasting models in order to reduce the complexity and the required computations in the online and offline stages. Deep ensembles are employed to perform uncertainty quantification of the forecasting models, which provides information about the variance of the predictions as a result of the epistemic uncertainties.
翻訳日:2022-09-21 19:37:15 公開日:2022-09-18
# 深層強化学習に基づくスケジューリングのマルチレベル説明

Multi-level Explanation of Deep Reinforcement Learning-based Scheduling ( http://arxiv.org/abs/2209.09645v1 )

ライセンス: Link先を確認
Shaojun Zhang and Chen Wang and Albert Zomaya(参考訳) クラスタ内の依存性を意識したジョブスケジューリングはNPハードである。 最近の研究は、Deep Reinforcement Learning (DRL)がそれを解くことができることを示している。 アドミニストレータがDRLベースのポリシーを理解することは,性能が著しく向上しても困難である。 したがって、複雑なモデルベースのスケジューラは、単純さを好むシステムに対して信頼を得ることは容易ではない。 本稿では,DRLに基づくスケジューリングのポリシーを解釈するためのマルチレベル説明フレームワークを提案する。 意思決定プロセスをジョブレベルとタスクレベルに分類し、各レベルを運用プラクティスに合わせて解釈可能なモデルとルールで近似します。 このフレームワークは,システム管理者に最先端スケジューラに関する洞察を与え,その動作パターンに関する堅牢性の問題を明らかにする。

Dependency-aware job scheduling in the cluster is NP-hard. Recent work shows that Deep Reinforcement Learning (DRL) is capable of solving it. It is difficult for the administrator to understand the DRL-based policy even though it achieves remarkable performance gain. Therefore the complex model-based scheduler is not easy to gain trust in the system where simplicity is favored. In this paper, we give the multi-level explanation framework to interpret the policy of DRL-based scheduling. We dissect its decision-making process to job level and task level and approximate each level with interpretable models and rules, which align with operational practices. We show that the framework gives the system administrator insights into the state-of-the-art scheduler and reveals the robustness issue in regards to its behavior pattern.
翻訳日:2022-09-21 19:30:46 公開日:2022-09-18
# 知的表面支援テラヘルツ大規模MIMOのための深層学習に基づくレート分割多重アクセス

Deep Learning-Based Rate-Splitting Multiple Access for Reconfigurable Intelligent Surface-Aided Tera-Hertz Massive MIMO ( http://arxiv.org/abs/2209.08456v1 )

ライセンス: Link先を確認
Minghui Wu, Zhen Gao, Yang Huang, Zhenyu Xiao, Derrick Wing Kwan Ng, and Zhaoyang Zhang(参考訳) reconfigurable intelligent surface (ris)はtera-hertz massive multi-input multiple-output (mimo)通信システムのサービスカバレッジを著しく向上させる。 しかし、パイロットとフィードバック信号のオーバーヘッドが限定された正確な高次元チャネル状態情報(csi)を得ることは困難であり、従来の空間分割多重アクセスの性能を著しく低下させる。 本稿では, RIS支援Tera-HertzマルチユーザMIMOシステムを対象とした, 深層学習(DL)に基づくマルチアクセス(RSMA)方式を提案する。 具体的には、まず、RISにおけるパッシブプリコーディングやアナログアクティブプリコーディング、ベースステーション(BS)におけるRSMAデジタルアクティブプリコーディングを含む、ハイブリッドデータモデル駆動型DLベースのRSMAプリコーディング方式を提案する。 RISにおける受動的プリコーディングを実現するために,Transformer を用いたデータ駆動型 RIS 反射ネットワーク (RRN) を提案する。 BSにおけるアナログアクティブプリコーディングについては、BSとRISがLoS-MIMOアンテナアレイアーキテクチャを採用することを考慮し、マッチフィルタに基づくアナログプリコーディング方式を提案する。 bs における rsma ディジタルアクティブプリコーディングについて,低複素近似重み付き最小二乗誤差 (awmmse) ディジタルプリコーディング方式を提案する。 さらに、プリコーディング性能の向上と計算複雑性の低減のために、提案したAWMMSEスキームとDLを組み合わせたモデル駆動の深部展開型アクティブプリコーディングネットワーク(DFAPN)も設計されている。 次に, RSMAプリコーディング方式を用いて, 高スペクトル効率を実現するためのBSにおける正確なCSIを取得するために, ダウンリンク・パイロット・トランスミッション, ユーザ機器(UE)におけるCSIフィードバック, およびBSにおけるCSI再構成をTransformerに基づくエンドツーエンドニューラルネットワークとしてモデル化したCSI取得ネットワーク(CAN)を提案する。

Reconfigurable intelligent surface (RIS) can significantly enhance the service coverage of Tera-Hertz massive multiple-input multiple-output (MIMO) communication systems. However, obtaining accurate high-dimensional channel state information (CSI) with limited pilot and feedback signaling overhead is challenging, severely degrading the performance of conventional spatial division multiple access. To improve the robustness against CSI imperfection, this paper proposes a deep learning (DL)-based rate-splitting multiple access (RSMA) scheme for RIS-aided Tera-Hertz multi-user MIMO systems. Specifically, we first propose a hybrid data-model driven DL-based RSMA precoding scheme, including the passive precoding at the RIS as well as the analog active precoding and the RSMA digital active precoding at the base station (BS). To realize the passive precoding at the RIS, we propose a Transformer-based data-driven RIS reflecting network (RRN). As for the analog active precoding at the BS, we propose a match-filter based analog precoding scheme considering that the BS and RIS adopt the LoS-MIMO antenna array architecture. As for the RSMA digital active precoding at the BS, we propose a low-complexity approximate weighted minimum mean square error (AWMMSE) digital precoding scheme. Furthermore, for better precoding performance as well as lower computational complexity, a model-driven deep unfolding active precoding network (DFAPN) is also designed by combining the proposed AWMMSE scheme with DL. Then, to acquire accurate CSI at the BS for the investigated RSMA precoding scheme to achieve higher spectral efficiency, we propose a CSI acquisition network (CAN) with low pilot and feedback signaling overhead, where the downlink pilot transmission, CSI feedback at the user equipments (UEs), and CSI reconstruction at the BS are modeled as an end-to-end neural network based on Transformer.
翻訳日:2022-09-21 18:09:53 公開日:2022-09-18
# 補間整合性規則付き分散型半教師付きファジィ回帰

Distributed Semi-supervised Fuzzy Regression with Interpolation Consistency Regularization ( http://arxiv.org/abs/2209.09240v1 )

ライセンス: Link先を確認
Ye Shi, Leijie Zhang, Zehong Cao, and M. Tanveer, Chin-Teng Lin(参考訳) 近年、分散半教師付き学習(DSSL)アルゴリズムは、エージェントが互いに元のデータを共有できず、隣人との非機密情報しか通信できないような、相互接続されたネットワーク上でラベルのないサンプルを活用する効果を示している。 しかし、既存のDSSLアルゴリズムはデータの不確実性に対処できず、高い計算と通信オーバーヘッドの問題に悩まされる可能性がある。 これらの問題に対処するために、ファジィif-thenルールと補間整合正則化(ICR)を備えた分散半教師付きファジィ回帰(DSFR)モデルを提案する。 半教師付き問題に対して最近提案されたICRは、決定境界をスパースデータ領域に通過させ、モデルロバスト性を高める。 しかし、分散シナリオでの応用はまだ検討されていない。 本研究では,分散ファジィ c-means (dfcm) 法と分散補間一貫性正規化法 (dicr) を提案し,dsfr の先行成分と連続成分のパラメータをそれぞれ同定した。 特に、DSFRモデルはバックプロパゲーション手順を含まないため非常に高速に収束し、DFCMとDICRの利用による大規模データセットにスケーラブルである。 人工的および実世界の両方のデータセットに対する実験結果から、DSFRモデルは損失値と計算コストの両方の観点から、最先端のDSSLアルゴリズムよりもはるかに優れた性能が得られることが示された。

Recently, distributed semi-supervised learning (DSSL) algorithms have shown their effectiveness in leveraging unlabeled samples over interconnected networks, where agents cannot share their original data with each other and can only communicate non-sensitive information with their neighbors. However, existing DSSL algorithms cannot cope with data uncertainties and may suffer from high computation and communication overhead problems. To handle these issues, we propose a distributed semi-supervised fuzzy regression (DSFR) model with fuzzy if-then rules and interpolation consistency regularization (ICR). The ICR, which was proposed recently for semi-supervised problem, can force decision boundaries to pass through sparse data areas, thus increasing model robustness. However, its application in distributed scenarios has not been considered yet. In this work, we proposed a distributed Fuzzy C-means (DFCM) method and a distributed interpolation consistency regularization (DICR) built on the well-known alternating direction method of multipliers to respectively locate parameters in antecedent and consequent components of DSFR. Notably, the DSFR model converges very fast since it does not involve back-propagation procedure and is scalable to large-scale datasets benefiting from the utilization of DFCM and DICR. Experiments results on both artificial and real-world datasets show that the proposed DSFR model can achieve much better performance than the state-of-the-art DSSL algorithm in terms of both loss value and computational cost.
翻訳日:2022-09-21 17:44:16 公開日:2022-09-18
# 遷移金属蛍光体励起状態特性予測のための低コスト機械学習手法

Low-cost machine learning approach to the prediction of transition metal phosphor excited state properties ( http://arxiv.org/abs/2209.08595v1 )

ライセンス: Link先を確認
Gianmarco Terrones, Chenru Duan, Aditya Nandy, and Heather J. Kulik(参考訳) 光活性イリジウム錯体は、光から光触媒への応用から広く関心を集めている。 しかしながら、これらの錯体の励起状態特性予測は、精度と計算コストの観点から、高スループット仮想スクリーニング(htvs)を複雑化する時間依存密度汎関数理論(tddft)のようなab initio法に挑戦する。 代わりに、低コスト機械学習モデルを用いて光活性イリジウム錯体の励起状態特性を予測する。 1,380個のイリジウム錯体の実験データを用いて, mlモデルのトレーニングと評価を行い, 低コスト密度汎関数理論の密結合計算から電子構造特性を訓練した最良かつ最も転移性の高いモデルを特定する。 これらのモデルを用いて, 蛍光平均放出エネルギー, 励起状態寿命, 発光スペクトル積分の3つの励起状態特性を推算し, tddftと競合し, 取って代わる精度を示した。 我々は,イリジウム錯体特性が励起状態特性を支配するかを特定するために,特徴量解析を行い,これらの傾向を明示的な例で検証する。 HTVSと化学発見の加速に我々のMLモデルをどのように利用できるかを示すために、新しい仮説的イリジウム錯体の集合をキュレートし、新しいリンの設計のための有望な配位子を同定する。

Photoactive iridium complexes are of broad interest due to their applications ranging from lighting to photocatalysis. However, the excited state property prediction of these complexes challenges ab initio methods such as time-dependent density functional theory (TDDFT) both from an accuracy and a computational cost perspective, complicating high throughput virtual screening (HTVS). We instead leverage low-cost machine learning (ML) models to predict the excited state properties of photoactive iridium complexes. We use experimental data of 1,380 iridium complexes to train and evaluate the ML models and identify the best-performing and most transferable models to be those trained on electronic structure features from low-cost density functional theory tight binding calculations. Using these models, we predict the three excited state properties considered, mean emission energy of phosphorescence, excited state lifetime, and emission spectral integral, with accuracy competitive with or superseding TDDFT. We conduct feature importance analysis to identify which iridium complex attributes govern excited state properties and we validate these trends with explicit examples. As a demonstration of how our ML models can be used for HTVS and the acceleration of chemical discovery, we curate a set of novel hypothetical iridium complexes and identify promising ligands for the design of new phosphors.
翻訳日:2022-09-20 20:26:06 公開日:2022-09-18
# 低周波データに対するマルチグループ情報の抽出とマップマッチングアルゴリズム

A Map-matching Algorithm with Extraction of Multi-group Information for Low-frequency Data ( http://arxiv.org/abs/2209.08500v1 )

ライセンス: Link先を確認
Jie Fang, Xiongwei Wu, Dianchao Lin, Mengyun Xu, Huahua Wu, Xuesong Wu and Ting Bi(参考訳) 探査機の利用が増加すると、大量のGNSSデータが生成される。 衛星測位技術によって制限され、地図マッチングの精度をさらに向上することは、特に低周波軌道において難しい作業である。 軌跡と一致する場合、エゴ車両の現在旅行の時空間情報は、最も少ないデータ量で最も有用である。 また、他の車両の状態や過去の予測結果など、他にも大量のデータがあるが、地図のマッチングや経路の推測に有用な情報を抽出することは困難である。 ほとんどの地図マッチング研究はエゴ車のデータのみを使用し、他の車両のデータを無視した。 そこで本研究では,「ビッグデータ」をフル活用するための新しい地図マッチング手法を考案した。 まず,その空間的および時間的距離に応じて,全データを4つのグループに分類し,その有用性を整理する。 次に, 速度と軸受のスコア, 歴史的利用のスコア, スペクトルグラフマルコフ中立ネットワークを用いたトラヒック状態のスコアという, 価値情報(スコア)を抽出するための3つの異なる手法を考案した。 最後に,改良されたtop-k shortest-path法を用いて楕円領域内の候補パスを探索し,融合スコアを用いて経路(投影位置)を推定する。 中国における実世界のデータセットを用いて,提案手法をベースラインアルゴリズムに対してテストした。 その結果,すべてのスコアリング手法が地図マッチング精度を向上させることがわかった。 さらに, GNSS の周波数が 0.01 Hz 未満の場合には, 本手法は他の手法よりも優れる。

The growing use of probe vehicles generates a huge number of GNSS data. Limited by the satellite positioning technology, further improving the accuracy of map-matching is challenging work, especially for low-frequency trajectories. When matching a trajectory, the ego vehicle's spatial-temporal information of the present trip is the most useful with the least amount of data. In addition, there are a large amount of other data, e.g., other vehicles' state and past prediction results, but it is hard to extract useful information for matching maps and inferring paths. Most map-matching studies only used the ego vehicle's data and ignored other vehicles' data. Based on it, this paper designs a new map-matching method to make full use of "Big data". We first sort all data into four groups according to their spatial and temporal distance from the present matching probe which allows us to sort for their usefulness. Then we design three different methods to extract valuable information (scores) from them: a score for speed and bearing, a score for historical usage, and a score for traffic state using the spectral graph Markov neutral network. Finally, we use a modified top-K shortest-path method to search the candidate paths within an ellipse region and then use the fused score to infer the path (projected location). We test the proposed method against baseline algorithms using a real-world dataset in China. The results show that all scoring methods can enhance map-matching accuracy. Furthermore, our method outperforms the others, especially when GNSS probing frequency is less than 0.01 Hz.
翻訳日:2022-09-20 20:13:46 公開日:2022-09-18
# 分布推定リスク:漏れ源の特定と緩和

Distribution inference risks: Identifying and mitigating sources of leakage ( http://arxiv.org/abs/2209.08541v1 )

ライセンス: Link先を確認
Valentin Hartmann, L\'eo Meynent, Maxime Peyrard, Dimitrios Dimitriadis, Shruti Tople, Robert West(参考訳) 機械学習(ML)モデルは、トレーニングデータに関する機密情報や機密情報を漏洩させる可能性がある。 近年,分散推論(あるいはプロパティ推論)攻撃による漏洩が注目されている。 この攻撃において、敵の目標は、トレーニングデータに関する分布情報を推測することである。 今のところ、分布推論の研究は、リークの潜在的な原因を特定し、緩和策を提案することにほとんど注意を払わず、攻撃の成功の実証に焦点を当てている。 このギャップを埋めるために、我々の主な貢献として、敵が分散推論攻撃を繰り返すことを可能にする情報漏洩源を理論的かつ実証的に分析する。 漏洩の原因として,(1)敵に対して興味のある$\mathbb{e}[y|x]$(特徴値が与える期待ラベル),(2)モデルの誤帰納バイアス,(3)トレーニングデータの有限性,の3つを同定した。 次に,本分析に基づき,分散推論攻撃に対する原理的緩和手法を提案する。 具体的には、因果学習手法は、連想学習法よりも、特定の種類の分布推定リスクに対してより耐性があることを実証する。 最後に,これまでに可能であった以上の一般敵の推論を可能にする分布推論の形式化を提案する。

A large body of work shows that machine learning (ML) models can leak sensitive or confidential information about their training data. Recently, leakage due to distribution inference (or property inference) attacks is gaining attention. In this attack, the goal of an adversary is to infer distributional information about the training data. So far, research on distribution inference has focused on demonstrating successful attacks, with little attention given to identifying the potential causes of the leakage and to proposing mitigations. To bridge this gap, as our main contribution, we theoretically and empirically analyze the sources of information leakage that allows an adversary to perpetrate distribution inference attacks. We identify three sources of leakage: (1) memorizing specific information about the $\mathbb{E}[Y|X]$ (expected label given the feature values) of interest to the adversary, (2) wrong inductive bias of the model, and (3) finiteness of the training data. Next, based on our analysis, we propose principled mitigation techniques against distribution inference attacks. Specifically, we demonstrate that causal learning techniques are more resilient to a particular type of distribution inference risk termed distributional membership inference than associative learning methods. And lastly, we present a formalization of distribution inference that allows for reasoning about more general adversaries than was previously possible.
翻訳日:2022-09-20 20:07:17 公開日:2022-09-18
# 自動層キャッシングによるDNNベースのソフトウェアサービスの性能向上

Improving the Performance of DNN-based Software Services using Automated Layer Caching ( http://arxiv.org/abs/2209.08625v1 )

ライセンス: Link先を確認
Mohammadamin Abedi, Yanni Iouannou, Pooyan Jamshidi, Hadi Hemmati(参考訳) ディープニューラルネットワーク(DNN)は、Webベースのサービスを含む多くのアプリケーションドメインにおいて重要なコンポーネントとなっている。 これらのサービスには、高いスループットと(近い)リアルタイム機能が必要で、例えば、ユーザの要求に応答したり、応答したり、時間どおりに着信データストリームを処理したりする。 しかし、DNN設計のトレンドは、より正確な結果を得るために多くの層とパラメータを持つより大きなモデルに向かっている。 これらのモデルはしばしば事前訓練されているが、そのような大きなモデルの計算複雑性は依然として比較的重要であり、低い推論遅延を妨げる。 キャッシュメカニズムの実装は、サービスレスポンス時間を短縮するための典型的なシステムエンジニアリングソリューションです。 しかし、従来のキャッシュはDNNベースのサービスには適していないことが多い。 本稿では、DNNベースのサービスの性能を計算複雑性と推論遅延の観点から改善するエンドツーエンドの自動ソリューションを提案する。 キャッシュ方式はDNNモデルと早期出口の自己蒸留の考え方を採用する。 提案手法は,初期出口のキャッシュモデルが最終的な予測に十分自信がある場合,推論時間中に大規模モデルの早期終了を可能にするオンライン・レイヤ・キャッシュ機構である。 本論文の主なコントリビューションの1つは、オンラインキャッシングとして、キャッシュモデルがトレーニングデータにアクセスする必要がなく、実行時に入ってくるデータのみに基づいて実行するので、事前訓練されたモデルを使用したアプリケーションに適している、という考え方である。 実験の結果,2つの下流タスク(顔と対象の分類)において,キャッシングは平均して58\%(FLOP数)までの計算複雑性を低減し,推論遅延を46\%まで改善し,精度を低下させることができた。

Deep Neural Networks (DNNs) have become an essential component in many application domains including web-based services. A variety of these services require high throughput and (close to) real-time features, for instance, to respond or react to users' requests or to process a stream of incoming data on time. However, the trend in DNN design is toward larger models with many layers and parameters to achieve more accurate results. Although these models are often pre-trained, the computational complexity in such large models can still be relatively significant, hindering low inference latency. Implementing a caching mechanism is a typical systems engineering solution for speeding up a service response time. However, traditional caching is often not suitable for DNN-based services. In this paper, we propose an end-to-end automated solution to improve the performance of DNN-based services in terms of their computational complexity and inference latency. Our caching method adopts the ideas of self-distillation of DNN models and early exits. The proposed solution is an automated online layer caching mechanism that allows early exiting of a large model during inference time if the cache model in one of the early exits is confident enough for final prediction. One of the main contributions of this paper is that we have implemented the idea as an online caching, meaning that the cache models do not need access to training data and perform solely based on the incoming data at run-time, making it suitable for applications using pre-trained models. Our experiments results on two downstream tasks (face and object classification) show that, on average, caching can reduce the computational complexity of those services up to 58\% (in terms of FLOPs count) and improve their inference latency up to 46\% with low to zero reduction in accuracy.
翻訳日:2022-09-20 20:06:56 公開日:2022-09-18
# ガスネットワークのエミッションアウェア最適化:入力凸ニューラルネットワークアプローチ

Emission-Aware Optimization of Gas Networks: Input-Convex Neural Network Approach ( http://arxiv.org/abs/2209.08645v1 )

ライセンス: Link先を確認
Vladimir Dvorkin, Samuel Chevalier, Spyros Chatzivasileiadis(参考訳) 排出制約下でのガスネットワーク計画最適化は、co$_2$の最小強度でガス供給を優先する。 この問題はガスの流れの複雑な物理法則を含んでいるため、標準最適化解法では実現可能な解への収束を保証できない。 この問題に対処するため,我々は,ガス流方程式を高精度に近似する訓練されたICNNを組み込んだ入力凸ニューラルネットワーク(ICNN)の最適化ルーチンを開発した。 ベルギーのガスネットワークにおける数値実験により、icnnによる最適化が非凸および緩和ベースのソルバを支配しており、より厳密な排出目標に関する最適性の向上が示されている。 さらに、非凸ソルバが故障するたびに、icnn支援最適化はネットワーク計画に実行可能な解決策を提供する。

Gas network planning optimization under emission constraints prioritizes gas supply with the least CO$_2$ intensity. As this problem includes complex physical laws of gas flow, standard optimization solvers cannot guarantee convergence to a feasible solution. To address this issue, we develop an input-convex neural network (ICNN) aided optimization routine which incorporates a set of trained ICNNs approximating the gas flow equations with high precision. Numerical tests on the Belgium gas network demonstrate that the ICNN-aided optimization dominates non-convex and relaxation-based solvers, with larger optimality gains pertaining to stricter emission targets. Moreover, whenever the non-convex solver fails, the ICNN-aided optimization provides a feasible solution to network planning.
翻訳日:2022-09-20 20:06:29 公開日:2022-09-18
# オンライン再生学習

Online Regenerative Learning ( http://arxiv.org/abs/2209.08657v1 )

ライセンス: Link先を確認
Owen Shen(参考訳) 対象関数を確率的入力で最大化するオンラインリニアプログラミング(olp)問題について検討する。 このタイプのOLPを解析する様々なアルゴリズムの性能は、確率的入力がいくつかのi.i.d分布に従うとよく研究される。 質問の中心となる2つの質問は (i)確率入力がi.i.dではなく静止している場合、アルゴリズムは同じ効率が得られるか。 (II)確率入力がトレンドであることを知っていれば、アルゴリズムをどう修正するか。 再生型入力を解析して最初の質問に答え、一般的な2つのアルゴリズムがi.i.dと同じ順序で有界であることの後悔を示す。 線形に拡大する入力の文脈で2つ目の疑問を議論し, 2つのトレンド適応アルゴリズムを提案する。 再生型とトレンド型の両方の入力下でのアルゴリズムの性能を示す数値シミュレーションを提供する。

We study a type of Online Linear Programming (OLP) problem that maximizes the objective function with stochastic inputs. The performance of various algorithms that analyze this type of OLP is well studied when the stochastic inputs follow some i.i.d distribution. The two central questions to ask are: (i) can the algorithms achieve the same efficiency if the stochastic inputs are not i.i.d but still stationary, and (ii) how can we modify our algorithms if we know the stochastic inputs are trendy, hence not stationary. We answer the first question by analyzing a regenerative type of input and show the regret of two popular algorithms are bounded by the same order as their i.i.d counterpart. We discuss the second question in the context of linearly growing inputs and propose two trend-adaptive algorithms. We provide numerical simulations to illustrate the performance of our algorithms under both regenerative and trendy inputs.
翻訳日:2022-09-20 20:06:15 公開日:2022-09-18
# マルコフ決定過程における楽器変数を用いたオフライン強化学習

Offline Reinforcement Learning with Instrumental Variables in Confounded Markov Decision Processes ( http://arxiv.org/abs/2209.08666v1 )

ライセンス: Link先を確認
Zuyue Fu, Zhengling Qi, Zhaoran Wang, Zhuoran Yang, Yanxun Xu, Michael R. Kosorok(参考訳) 本研究では, オフライン強化学習(RL)について検討した。 環境とのオンラインインタラクションの欠如により、オフラインrlは以下の2つの大きな課題に直面している。 (i) エージェントは,監視されていない状態変数によって構成することができる。 (ii)事前に収集したオフラインデータは、環境に十分なカバレッジを提供していない。 上記の課題に取り組むため,本研究は,mdpを統合した政策学習をインストゥルメンタル変数を用いて検討する。 具体的には,まず,MDPにおける期待総報酬に対する価値関数(VF)に基づく最小化重要度サンプリング(MIS)に基づく識別結果を確立する。 そして、悲観主義と識別結果を活用することで、最小限のデータカバレッジとモデリング仮定の下で最適なクラスポリシーを見つけるための有限サンプル準最適性を保証する様々なポリシー学習手法を提案する。 最後に, 腎移植を動機とした広範な理論的研究と数値的研究により, 提案手法の有望な性能が示された。

We study the offline reinforcement learning (RL) in the face of unmeasured confounders. Due to the lack of online interaction with the environment, offline RL is facing the following two significant challenges: (i) the agent may be confounded by the unobserved state variables; (ii) the offline data collected a prior does not provide sufficient coverage for the environment. To tackle the above challenges, we study the policy learning in the confounded MDPs with the aid of instrumental variables. Specifically, we first establish value function (VF)-based and marginalized importance sampling (MIS)-based identification results for the expected total reward in the confounded MDPs. Then by leveraging pessimism and our identification results, we propose various policy learning methods with the finite-sample suboptimality guarantee of finding the optimal in-class policy under minimal data coverage and modeling assumptions. Lastly, our extensive theoretical investigations and one numerical study motivated by the kidney transplantation demonstrate the promising performance of the proposed methods.
翻訳日:2022-09-20 20:06:01 公開日:2022-09-18
# 配置適合型プレースセルリプレイによる迷路内フレキシブルナビゲーションの計算モデル

A Computational Model of Learning Flexible Navigation in a Maze by Layout-Conforming Replay of Place Cells ( http://arxiv.org/abs/2209.08572v1 )

ライセンス: Link先を確認
Yuanxiang Gao(参考訳) 近年の実験的観察により、睡眠や不動時の海馬胎盤細胞(pc)の再活性化は、バリアを回り、変化する迷路レイアウトに柔軟に対応できる軌道を描いていることが示されている。 このようなレイアウト形成リプレイは、プレース細胞の活動がどのようにして動的に変化する迷路の中で動物の柔軟な航行の学習を支援するかを示す。 しかし、既存のリプレイの計算モデルはレイアウトに適合するリプレイを生成できないため、リニアトラックやオープンフィールドのような単純な環境に制限される。 本稿では,レイアウト共用リプレイを生成する計算モデルを提案し,このようなリプレイが迷路での柔軟なナビゲーションの学習をいかに促進させるかを説明する。 まず,迷路探索中にpc間シナプス強度を学ぶためのヘビアン様規則を提案する。 次に、フィードバック阻害を伴う連続的誘引ネットワーク(CAN)を用いて、場所細胞と海馬介在ニューロン間の相互作用をモデル化する。 プレースセルの活性バンプは、レイアウト調整リプレイをモデル化した迷路の経路に沿って漂う。 胎盤細胞から線条体中脊髄ニューロン(MSN)へのシナプス強度は、新しいドーパミン修飾3因子規則により学習され、位置-逆相関を記憶する。 ゴール指向ナビゲーションの間、canは定期的に動物の位置から経路計画のためのリプレイ軌道を生成し、最大msn活性につながる軌道を動物に追従する。 我々はこのモデルをmujoco物理シミュレータで高忠実度仮想ラットに実装した。 迷路でのナビゲーションにおける優れた柔軟性は、PC間およびPC-MSNシナプス強度の連続的再学習によるものであることが、大規模な実験で示されている。

Recent experimental observations have shown that the reactivation of hippocampal place cells (PC) during sleep or immobility depicts trajectories that can go around barriers and can flexibly adapt to a changing maze layout. Such layout-conforming replay sheds a light on how the activity of place cells supports the learning of flexible navigation of an animal in a dynamically changing maze. However, existing computational models of replay fall short of generating layout-conforming replay, restricting their usage to simple environments, like linear tracks or open fields. In this paper, we propose a computational model that generates layout-conforming replay and explains how such replay drives the learning of flexible navigation in a maze. First, we propose a Hebbian-like rule to learn the inter-PC synaptic strength during exploring a maze. Then we use a continuous attractor network (CAN) with feedback inhibition to model the interaction among place cells and hippocampal interneurons. The activity bump of place cells drifts along a path in the maze, which models layout-conforming replay. During replay in rest, the synaptic strengths from place cells to striatal medium spiny neurons (MSN) are learned by a novel dopamine-modulated three-factor rule to store place-reward associations. During goal-directed navigation, the CAN periodically generates replay trajectories from the animal's location for path planning, and the trajectory leading to a maximal MSN activity is followed by the animal. We have implemented our model into a high-fidelity virtual rat in the MuJoCo physics simulator. Extensive experiments have demonstrated that its superior flexibility during navigation in a maze is due to a continuous re-learning of inter-PC and PC-MSN synaptic strength.
翻訳日:2022-09-20 19:48:55 公開日:2022-09-18
# LATITUDE:都市型NeRFにおける動的低域通過フィルタを用いたロボットグローバルローカライゼーション

LATITUDE: Robotic Global Localization with Truncated Dynamic Low-pass Filter in City-scale NeRF ( http://arxiv.org/abs/2209.08498v1 )

ライセンス: Link先を確認
Zhenxin Zhu, Yuantao Chen, Zirui Wu, Chao Hou, Yongliang Shi, Chuxuan Li, Pengfei Li, Hao Zhao, Guyue Zhou(参考訳) Neural Radiance Fields (NeRF)は複雑な3Dシーンを高精細で効率的なメモリで表現することに成功した。 それでも、現在のNeRFベースのポーズ推定器は、初期ポーズ予測がなく、最適化中に局所最適になる傾向がある。 本稿では,都市規模NeRFにおける2段階の局所化機構を導入したTrncated Dynamic Low-pass Filterを用いたLATITUDE: Global Localizationを提案する。 位置認識の段階では、トレーニングされたNeRFから生成された画像を通して回帰器を訓練し、グローバルなローカライゼーションの初期値を提供する。 ポーズ最適化段階では、接面上でのポーズを直接最適化することにより、観察画像とレンダリング画像との残差を最小限に抑える。 局所的最適への収束を避けるために,粗いポーズ登録のための遮断型動的低パスフィルタ(tdlf)を導入する。 提案手法を合成・実世界の双方で評価し,大規模都市景観における高精度ナビゲーションの可能性を示す。 コードとデータはhttps://github.com/jike5/LATITUDE.comで公開されている。

Neural Radiance Fields (NeRFs) have made great success in representing complex 3D scenes with high-resolution details and efficient memory. Nevertheless, current NeRF-based pose estimators have no initial pose prediction and are prone to local optima during optimization. In this paper, we present LATITUDE: Global Localization with Truncated Dynamic Low-pass Filter, which introduces a two-stage localization mechanism in city-scale NeRF. In place recognition stage, we train a regressor through images generated from trained NeRFs, which provides an initial value for global localization. In pose optimization stage, we minimize the residual between the observed image and rendered image by directly optimizing the pose on tangent plane. To avoid convergence to local optimum, we introduce a Truncated Dynamic Low-pass Filter (TDLF) for coarse-to-fine pose registration. We evaluate our method on both synthetic and real-world data and show its potential applications for high-precision navigation in large-scale city scenes. Codes and data will be publicly available at https://github.com/jike5/LATITUDE.
翻訳日:2022-09-20 19:41:22 公開日:2022-09-18
# ASAP:イベントベースビジョンアルゴリズムの非同期処理のための適応型スキーム

ASAP: Adaptive Scheme for Asynchronous Processing of Event-based Vision Algorithms ( http://arxiv.org/abs/2209.08597v1 )

ライセンス: Link先を確認
Raul Tapia, Augusto G\'omez Egu\'iluz, Jos\'e Ramiro Mart\'inez-de Dios, Anibal Ollero(参考訳) イベントカメラは、非常に高い時間分解能とダイナミックレンジでピクセルレベルの照明変化を捉えることができる。 照明条件や動きのぼやけに対する頑丈さから研究の関心が高まっている。 イベントベースの処理アルゴリズムを提供する2つの主要なアプローチがある。イベントパッケージにトリガされたイベントをパッケージ化し、単一のイベントとして1対1で送信する。 これらのアプローチはオーバーフロー処理や応答性の欠如によって制限を受ける。 処理オーバーフローは、アルゴリズムがすべてのイベントをリアルタイムで処理できない場合、高いイベント発生率によって引き起こされる。 逆に、応答性の欠如は、イベントパッケージが低周波数で送信される場合のイベント発生率が低い場合に発生する。 本稿では、イベントパッケージ処理時間に対応する可変サイズのパッケージを通じてイベントストリームを管理する適応型スキームASAPを提案する。 実験の結果,ASAPは非同期なイベント・バイ・イベント・クラスタリングアルゴリズムを応答的かつ効率的な方法で供給でき,同時にオーバーフローを防止できることがわかった。

Event cameras can capture pixel-level illumination changes with very high temporal resolution and dynamic range. They have received increasing research interest due to their robustness to lighting conditions and motion blur. Two main approaches exist in the literature to feed the event-based processing algorithms: packaging the triggered events in event packages and sending them one-by-one as single events. These approaches suffer limitations from either processing overflow or lack of responsivity. Processing overflow is caused by high event generation rates when the algorithm cannot process all the events in real-time. Conversely, lack of responsivity happens in cases of low event generation rates when the event packages are sent at too low frequencies. This paper presents ASAP, an adaptive scheme to manage the event stream through variable-size packages that accommodate to the event package processing times. The experimental results show that ASAP is capable of feeding an asynchronous event-by-event clustering algorithm in a responsive and efficient manner and at the same time prevents overflow.
翻訳日:2022-09-20 19:41:03 公開日:2022-09-18
# MetaDIP: メタ学習に先立つディープイメージの高速化

MetaDIP: Accelerating Deep Image Prior with Meta Learning ( http://arxiv.org/abs/2209.08452v1 )

ライセンス: Link先を確認
Kevin Zhang, Mingyang Xie, Maharshi Gor, Yi-Ting Chen, Yvonne Zhou, Christopher A. Metzler(参考訳) 深部画像先行(Deep Image prior, DIP)は, 再構成した画像を非拘束畳み込みニューラルネットワークの出力に合わせることで, 画像逆問題を解決する手法である。 事前学習されたfeedforwardニューラルネットワークとは異なり、同じディップは、同期から位相検索まで任意の逆問題に一般化し、各タスクで競合性能を提供する。 DIPの主な欠点は、フィードフォワードニューラルネットワークが単一のパスでイメージを再構築できるのに対して、DIPはその重みを数百から数千回にわたって、かなりの計算コストで徐々に更新する必要があることである。 この研究では、ディップベースの再構築を大規模に加速するためにメタラーニングを使用します。 ディップウェイトの適切な初期化を学習することにより、様々な逆イメージングタスクにおけるランタイムの10倍の改善を実証する。 さらに,顔の再構築を迅速に行うネットワークが,自然な画像パッチの再構築に有効であることを示す。

Deep image prior (DIP) is a recently proposed technique for solving imaging inverse problems by fitting the reconstructed images to the output of an untrained convolutional neural network. Unlike pretrained feedforward neural networks, the same DIP can generalize to arbitrary inverse problems, from denoising to phase retrieval, while offering competitive performance at each task. The central disadvantage of DIP is that, while feedforward neural networks can reconstruct an image in a single pass, DIP must gradually update its weights over hundreds to thousands of iterations, at a significant computational cost. In this work we use meta-learning to massively accelerate DIP-based reconstructions. By learning a proper initialization for the DIP weights, we demonstrate a 10x improvement in runtimes across a range of inverse imaging tasks. Moreover, we demonstrate that a network trained to quickly reconstruct faces also generalizes to reconstructing natural image patches.
翻訳日:2022-09-20 19:31:39 公開日:2022-09-18
# TODE-Trans:トランスを用いた透明物体深度推定

TODE-Trans: Transparent Object Depth Estimation with Transformer ( http://arxiv.org/abs/2209.08455v1 )

ライセンス: Link先を確認
Kang Chen, Shaochen Wang, Beihao Xia, Dongxu Li, Zhen Kan, and Bin Li(参考訳) 透明な物体は産業自動化や日常生活で広く使われている。 しかし、透明物体の堅牢な視覚認識と認識は、常に大きな課題であった。 現在、ほとんどの商業グレードの深度カメラは、光の屈折と反射のために透明な物体の表面を感知するのが得意ではない。 本研究では、1つのRGB-D入力からトランスフォーマーに基づく透明物体深度推定手法を提案する。 変換器のグローバルな特性は、コンテキスト情報を抽出し、透明領域の深度推定を容易にすることを観察する。 さらに、細かな機能を強化するため、機能融合モジュール(ffm)はコヒーレントな予測を支援するように設計されている。 私たちのモデルは最近の人気データセットにおいて、例えばRMSEで25%、RELで21%、ClearGraspで最先端の畳み込みベースのデータセットで21%、大幅な改善を実現していることを示す経験的証拠です。 その結果,変換器を用いたモデルにより,オブジェクトのRGBの集約性が向上し,不正確な深度情報が得られることがわかった。 私たちのコードと事前トレーニングされたモデルは、https://github.com/yuchendoudou/TODE.orgで公開されます。

Transparent objects are widely used in industrial automation and daily life. However, robust visual recognition and perception of transparent objects have always been a major challenge. Currently, most commercial-grade depth cameras are still not good at sensing the surfaces of transparent objects due to the refraction and reflection of light. In this work, we present a transformer-based transparent object depth estimation approach from a single RGB-D input. We observe that the global characteristics of the transformer make it easier to extract contextual information to perform depth estimation of transparent areas. In addition, to better enhance the fine-grained features, a feature fusion module (FFM) is designed to assist coherent prediction. Our empirical evidence demonstrates that our model delivers significant improvements in recent popular datasets, e.g., 25% gain on RMSE and 21% gain on REL compared to previous state-of-the-art convolutional-based counterparts in ClearGrasp dataset. Extensive results show that our transformer-based model enables better aggregation of the object's RGB and inaccurate depth information to obtain a better depth representation. Our code and the pre-trained model will be available at https://github.com/yuchendoudou/TODE.
翻訳日:2022-09-20 19:31:24 公開日:2022-09-18
# stereovoxelnet:ディープニューラルネットワークを用いたステレオカメラからの占有ボクセルに基づくリアルタイム障害物検出

StereoVoxelNet: Real-Time Obstacle Detection Based on Occupancy Voxels from a Stereo Camera Using Deep Neural Networks ( http://arxiv.org/abs/2209.08459v1 )

ライセンス: Link先を確認
Hongyu Li, Zhengang Li, Neset Unver Akmandor, Huaizu Jiang, Yanzhi Wang, Taskin Padir(参考訳) 障害物検出は、ステレオマッチングが一般的な視覚ベースのアプローチであるロボットナビゲーションにおいて、安全に重要な問題である。 ディープニューラルネットワークはコンピュータビジョンにおいて印象的な結果を示しているが、以前の障害物検出のほとんどは、従来のステレオマッチング技術を利用してリアルタイムフィードバックの計算制約を満たすだけである。 本稿では,ディープニューラルネットワークを用いてステレオ画像からの占有率を直接検出する計算効率の高い手法を提案する。 ステレオデータから点雲対応を学習する代わりに,容積表現に基づくコンパクトな障害物分布を抽出する。 さらに,デコーダが生成するオクタリーに基づいて,無関係空間に対する安全性の計算を粗密に行う。 その結果,車載コンピュータ(NVIDIA Jetson TX2)上でのリアルタイム性能を実現した。 提案手法は,32mの範囲の障害物を正確に検出し,最新ステレオモデルの計算コストのわずか2%に留まらず,IoU (Intersection over Union) とCD (Chamfer Distance) のスコアが向上する。 さらに,実ロボットを用いた自律ナビゲーション実験により,本手法のロバスト性と実世界の実現可能性を検証する。 そこで本研究は,ロボット知覚におけるステレオベースシステムとコンピュータビジョンにおける最先端ステレオモデルとのギャップを埋めることに寄与する。 高品質な屋内ステレオデータセットの不足に対処するため、モデルを微調整するジャカルロボットを用いて、1.36時間のステレオデータセットを収集した。 データセット、コードはhttps://lhy.xyz/stereovoxelnet/で確認できる。

Obstacle detection is a safety-critical problem in robot navigation, where stereo matching is a popular vision-based approach. While deep neural networks have shown impressive results in computer vision, most of the previous obstacle detection works only leverage traditional stereo matching techniques to meet the computational constraints for real-time feedback. This paper proposes a computationally efficient method that leverages a deep neural network to detect occupancy from stereo images directly. Instead of learning the point cloud correspondence from the stereo data, our approach extracts the compact obstacle distribution based on volumetric representations. In addition, we prune the computation of safety irrelevant spaces in a coarse-to-fine manner based on octrees generated by the decoder. As a result, we achieve real-time performance on the onboard computer (NVIDIA Jetson TX2). Our approach detects obstacles accurately in the range of 32 meters and achieves better IoU (Intersection over Union) and CD (Chamfer Distance) scores with only 2% of the computation cost of the state-of-the-art stereo model. Furthermore, we validate our method's robustness and real-world feasibility through autonomous navigation experiments with a real robot. Hence, our work contributes toward closing the gap between the stereo-based system in robot perception and state-of-the-art stereo models in computer vision. To counter the scarcity of high-quality real-world indoor stereo datasets, we collect a 1.36 hours stereo dataset with a Jackal robot which is used to fine-tune our model. The dataset, the code, and more visualizations are available at https://lhy.xyz/stereovoxelnet/
翻訳日:2022-09-20 19:31:02 公開日:2022-09-18
# ニューラルアニメーションメッシュによる人のパフォーマンスモデリングとレンダリング

Human Performance Modeling and Rendering via Neural Animated Mesh ( http://arxiv.org/abs/2209.08468v1 )

ライセンス: Link先を確認
Fuqiang Zhao, Yuheng Jiang, Kaixin Yao, Jiakai Zhang, Liao Wang, Haizhao Dai, Yuhui Zhong, Yingliang Zhang, Minye Wu, Lan Xu, Jingyi Yu(参考訳) 私たちは最近、フォトリアルな人間のモデリングとレンダリングにおける神経の進歩を目にしました。 しかし、下流アプリケーションのための既存のメッシュベースのパイプラインに統合することは依然として難しい。 本稿では,高精細なマルチビュービデオから高画質の再現・圧縮・レンダリングを行うための包括的ニューラルネットワークを提案する。 私たちの中心となる直感は、従来のアニメーションメッシュワークフローを、高度に効率的なニューラルテクニックの新しいクラスに橋渡しすることです。 まず,高品質表面生成のための神経表面再構成器について紹介する。 これは、TSDF (truncated signed distance field) の暗黙のボリュームレンダリングとマルチレゾリューションハッシュ符号化をマージする。 さらに,自己教師付きフレームワークにおける明示的な非剛性追跡と暗黙的動的変形を組み合わせた,アニメーションメッシュを生成するハイブリッドニューラルネットワークトラッカを提案する。 前者は粗い反りを正準空間に戻すが、後者は暗黙的に4dハッシュエンコーディングを用いてさらに変位を予測する。 次に,様々な帯域幅設定下での動的テキスト作成からlumigraphレンダリングまで,得られたアニメーションメッシュを用いたレンダリング方式について検討する。 品質と帯域幅の複雑なバランスをとるために,まず6つの仮想ビューを描画し,次にオクルージョン・アウェアニューラルテクスチャブレンドを行うことにより,階層的ソリューションを提案する。 さまざまなプラットフォーム上でのメッシュベースのアプリケーションや写真リアリスティックなフリービューエクスペリエンス,例えばモバイルARによる仮想人間パフォーマンスの実際の環境への挿入,あるいはVRヘッドセットによるタレントショーの没入的な視聴などにおいて,このアプローチの有効性を実証する。

We have recently seen tremendous progress in the neural advances for photo-real human modeling and rendering. However, it's still challenging to integrate them into an existing mesh-based pipeline for downstream applications. In this paper, we present a comprehensive neural approach for high-quality reconstruction, compression, and rendering of human performances from dense multi-view videos. Our core intuition is to bridge the traditional animated mesh workflow with a new class of highly efficient neural techniques. We first introduce a neural surface reconstructor for high-quality surface generation in minutes. It marries the implicit volumetric rendering of the truncated signed distance field (TSDF) with multi-resolution hash encoding. We further propose a hybrid neural tracker to generate animated meshes, which combines explicit non-rigid tracking with implicit dynamic deformation in a self-supervised framework. The former provides the coarse warping back into the canonical space, while the latter implicit one further predicts the displacements using the 4D hash encoding as in our reconstructor. Then, we discuss the rendering schemes using the obtained animated meshes, ranging from dynamic texturing to lumigraph rendering under various bandwidth settings. To strike an intricate balance between quality and bandwidth, we propose a hierarchical solution by first rendering 6 virtual views covering the performer and then conducting occlusion-aware neural texture blending. We demonstrate the efficacy of our approach in a variety of mesh-based applications and photo-realistic free-view experiences on various platforms, i.e., inserting virtual human performances into real environments through mobile AR or immersively watching talent shows with VR headsets.
翻訳日:2022-09-20 19:30:20 公開日:2022-09-18
# EMA-VIO:外的記憶注意を伴う深部視覚慣性オドメトリー

EMA-VIO: Deep Visual-Inertial Odometry with External Memory Attention ( http://arxiv.org/abs/2209.08490v1 )

ライセンス: Link先を確認
Zheming Tu, Changhao Chen, Xianfei Pan, Ruochen Liu, Jiarui Cui, Jun Mao(参考訳) 正確なロバストなローカライゼーションは、モバイルエージェントの基本的なニーズである。 視覚慣性オドメトリー(VIO)アルゴリズムは、カメラと慣性センサーからの情報を利用して位置と翻訳を推定する。 近年のディープラーニングベースのVIOモデルは、手作りのアルゴリズムを設計することなく、データ駆動型でポーズ情報を提供するため、注目を集めている。 既存の学習ベースのVIOモデルは、マルチモーダルデータとプロセスセンサ信号を融合させるために、反復モデルに依存している。 状態推定のための視覚的特徴と慣性的特徴を効果的かつ効率的に組み合わせた,外部記憶に配慮した新しい学習ベースのVIOフレームワークを提案する。 提案手法は, オーバーキャスト日や水満たした地盤など, 従来のvioアルゴリズムでは視覚的特徴抽出が困難である困難なシナリオにおいても, 正確に, かつロバストにポーズを推定することができる。 実験では、従来のVIOベースラインと学習ベースのVIOベースラインの両方を異なるシーンで比較した。

Accurate and robust localization is a fundamental need for mobile agents. Visual-inertial odometry (VIO) algorithms exploit the information from camera and inertial sensors to estimate position and translation. Recent deep learning based VIO models attract attentions as they provide pose information in a data-driven way, without the need of designing hand-crafted algorithms. Existing learning based VIO models rely on recurrent models to fuse multimodal data and process sensor signal, which are hard to train and not efficient enough. We propose a novel learning based VIO framework with external memory attention that effectively and efficiently combines visual and inertial features for states estimation. Our proposed model is able to estimate pose accurately and robustly, even in challenging scenarios, e.g., on overcast days and water-filled ground , which are difficult for traditional VIO algorithms to extract visual features. Experiments validate that it outperforms both traditional and learning based VIO baselines in different scenes.
翻訳日:2022-09-20 19:29:30 公開日:2022-09-18
# 赤外線:メタバグ検知器

Infrared: A Meta Bug Detector ( http://arxiv.org/abs/2209.08510v1 )

ライセンス: Link先を確認
Chi Zhang, Yu Wang, Linzhang Wang(参考訳) 近年のディープラーニング手法のブレークスルーは、学習ベースのバグ検出に多くの関心を呼んだ。 従来の静的解析ツールと比較して、これらのバグ検出はデータから直接学習されるため、作成が容易である。 一方で、トレーニングが難しいため、簡単には利用できない大量のデータが必要になる。 本稿では,既存の学習ベースのバグ検出装置に対して,バグタイプジェネリック(つまり,トレーニング中に完全に観察できないバグの種類を捕捉できる),自己説明可能な(つまり,外部解釈可能性のメソッドを使わずに独自の予測を記述できる),サンプルの効率(つまり,標準的なバグ検出装置よりもかなり少ないトレーニングデータを必要とする)という,3つの重要なメリットを提供するメタバグ検出という新しいアプローチを提案する。 当社のメタバグ検出器(mbd)は,nullポインタ参照,配列インデックスアウトオブバウンド,ファイルハンドルリーク,さらには並列プログラムにおけるデータ競合など,さまざまなバグをキャッチする上で有効であることが広範な評価で分かりました。このプロセスでは,著名な静的解析ツールであるfacebook inferや,最新の異常検出方法であるficsなど,注目すべきベースラインをかなり上回っています。

The recent breakthroughs in deep learning methods have sparked a wave of interest in learning-based bug detectors. Compared to the traditional static analysis tools, these bug detectors are directly learned from data, thus, easier to create. On the other hand, they are difficult to train, requiring a large amount of data which is not readily available. In this paper, we propose a new approach, called meta bug detection, which offers three crucial advantages over existing learning-based bug detectors: bug-type generic (i.e., capable of catching the types of bugs that are totally unobserved during training), self-explainable (i.e., capable of explaining its own prediction without any external interpretability methods) and sample efficient (i.e., requiring substantially less training data than standard bug detectors). Our extensive evaluation shows our meta bug detector (MBD) is effective in catching a variety of bugs including null pointer dereference, array index out-of-bound, file handle leak, and even data races in concurrent programs; in the process MBD also significantly outperforms several noteworthy baselines including Facebook Infer, a prominent static analysis tool, and FICS, the latest anomaly detection method.
翻訳日:2022-09-20 19:13:16 公開日:2022-09-18
# 大規模言語モデルを用いたモバイルUIとの対話インタラクションの実現

Enabling Conversational Interaction with Mobile UI using Large Language Models ( http://arxiv.org/abs/2209.08655v1 )

ライセンス: Link先を確認
Bryan Wang, Gang Li, Yang Li(参考訳) 会話エージェントは、ユーザーが言語を使ってモバイルデバイスと対話できることを約束します。 しかし、自然言語で多様なuiタスクを実行するには、開発者は通常、特定のタスクごとに別々のデータセットとモデルを作成する必要がある。 近年,学習済みの大規模言語モデル (LLM) は,対象タスクからいくつかの例を抽出して,様々な下流タスクに一般化できることが示されている。 本稿では,単一LLMを用いたモバイルUIとの多目的対話の実現可能性について検討する。 モバイルタスクを協調的に実行する際に,ユーザとエージェント間の会話を分類する設計空間を提案する。 モバイルUI上での会話タスクにLLMを適用するためのプロンプト手法を設計する。 実験の結果,本手法は適切な性能と様々な対話的対話を可能にし,その実現可能性を示している。 本研究のユースケースと,その言語に基づくモバイルインタラクションへの影響について考察する。

Conversational agents show the promise to allow users to interact with mobile devices using language. However, to perform diverse UI tasks with natural language, developers typically need to create separate datasets and models for each specific task, which is expensive and effort-consuming. Recently, pre-trained large language models (LLMs) have been shown capable of generalizing to various downstream tasks when prompted with a handful of examples from the target task. This paper investigates the feasibility of enabling versatile conversational interactions with mobile UIs using a single LLM. We propose a design space to categorize conversations between the user and the agent when collaboratively accomplishing mobile tasks. We design prompting techniques to adapt an LLM to conversational tasks on mobile UIs. The experiments show that our approach enables various conversational interactions with decent performances, manifesting its feasibility. We discuss the use cases of our work and its implications for language-based mobile interaction.
翻訳日:2022-09-20 19:12:52 公開日:2022-09-18
# 自己教師付き学習モデルの幾何学と転校学習への影響

The Geometry of Self-supervised Learning Models and its Impact on Transfer Learning ( http://arxiv.org/abs/2209.08622v1 )

ライセンス: Link先を確認
Romain Cosentino, Sarath Shekkizhar, Mahdi Soltanolkotabi, Salman Avestimehr, Antonio Ortega(参考訳) 自己教師付き学習(SSL)は、限られたラベルを持つドメインで一般化可能な表現を学習できないために、コンピュータビジョンにおいて望ましいパラダイムとして登場した。 SSLの最近の人気は、トランスファーラーニングにおけるその効果を研究または評価するための既存の統一されたフレームワークなしで、多様なトレーニング戦略、アーキテクチャ、データ拡張ポリシーを利用するいくつかのモデルの開発につながった。 本稿では,各特徴空間の局所的近傍を用いて異なるsslモデルの解析を行うためのデータ駆動幾何戦略を提案する。 パラメータや個々のコンポーネント、最適化のランドスケープの数学的近似を考える既存のアプローチとは異なり、本研究はsslモデルによって学習された表現多様体の幾何学的性質を探求することを目的としている。 提案する多様体グラフメトリクス(mgms)は、利用可能なsslモデル間の幾何学的類似性と差異、特定の拡張に関する不変性、転送学習タスクにおけるそれらのパフォーマンスに関する洞察を提供する。 重要な発見は2つあります (i)一般的な信念に反して、SSLモデルの幾何学はトレーニングパラダイム(対照的、非競合、クラスタベース)とは無関係である。 (ii)その意味的および拡張的多様体の幾何学的性質に基づいて,特定のモデルの伝達学習能力を予測することができる。

Self-supervised learning (SSL) has emerged as a desirable paradigm in computer vision due to the inability of supervised models to learn representations that can generalize in domains with limited labels. The recent popularity of SSL has led to the development of several models that make use of diverse training strategies, architectures, and data augmentation policies with no existing unified framework to study or assess their effectiveness in transfer learning. We propose a data-driven geometric strategy to analyze different SSL models using local neighborhoods in the feature space induced by each. Unlike existing approaches that consider mathematical approximations of the parameters, individual components, or optimization landscape, our work aims to explore the geometric properties of the representation manifolds learned by SSL models. Our proposed manifold graph metrics (MGMs) provide insights into the geometric similarities and differences between available SSL models, their invariances with respect to specific augmentations, and their performances on transfer learning tasks. Our key findings are two fold: (i) contrary to popular belief, the geometry of SSL models is not tied to its training paradigm (contrastive, non-contrastive, and cluster-based); (ii) we can predict the transfer learning capability for a specific model based on the geometric properties of its semantic and augmentation manifolds.
翻訳日:2022-09-20 19:05:43 公開日:2022-09-18
# 確率勾配は最適に近いか?

Is Stochastic Gradient Descent Near Optimal? ( http://arxiv.org/abs/2209.08627v1 )

ライセンス: Link先を確認
Yifan Zhu (1), Hong Jun Jeon (1), Benjamin Van Roy (1) ((1) Stanford University Department of Electrical Engineering)(参考訳) 過去10年間のニューラルネットワークの成功により、多くの関連するデータ生成プロセスの効果的なモデルとして確立された。 ニューラルネットワークの統計理論は、サンプル複雑性の優雅なスケーリングを示している。 例えば、Joen & Van Roy (arXiv:2203.00246) は、データが$W$パラメータを持つReLUの教師ネットワークによって生成される場合、最適な学習者は、期待されるエラー$\epsilon$を達成するために$\tilde{O}(W/\epsilon)$サンプルだけを必要とすることを示した。 しかし、既存の計算理論では、一階層の教師ネットワークであっても、そのような教師ネットワークに対して小さな誤差を犯すためには、この複雑さを実現するのに必要な計算は難解であることが示唆されている。 本研究では,自然分布から引き出されたパラメータを持つ単層ReLU教師ネットワークから生成されるデータに,単層ニューラルネットワークを適合させる。 自動幅選択による確率勾配降下(SGD)は,多数のサンプルと,入力次元と幅のほぼ線形なクエリの総数で,予測誤差が小さいことを実証した。 このことは、SGDがJoen & Van Roy (arXiv:2203.00246) の情報理論的なサンプル複雑性境界を計算的に効率よく達成していることを示唆している。 我々の正の実証結果と負の理論的結果との間に重要な違いは、後者が決定論的アルゴリズムの最悪の場合の誤りに対処し、一方、我々の分析は確率的アルゴリズムの予測誤差に焦点を合わせていることである。

The success of neural networks over the past decade has established them as effective models for many relevant data generating processes. Statistical theory on neural networks indicates graceful scaling of sample complexity. For example, Joen & Van Roy (arXiv:2203.00246) demonstrate that, when data is generated by a ReLU teacher network with $W$ parameters, an optimal learner needs only $\tilde{O}(W/\epsilon)$ samples to attain expected error $\epsilon$. However, existing computational theory suggests that, even for single-hidden-layer teacher networks, to attain small error for all such teacher networks, the computation required to achieve this sample complexity is intractable. In this work, we fit single-hidden-layer neural networks to data generated by single-hidden-layer ReLU teacher networks with parameters drawn from a natural distribution. We demonstrate that stochastic gradient descent (SGD) with automated width selection attains small expected error with a number of samples and total number of queries both nearly linear in the input dimension and width. This suggests that SGD nearly achieves the information-theoretic sample complexity bounds of Joen & Van Roy (arXiv:2203.00246) in a computationally efficient manner. An important difference between our positive empirical results and the negative theoretical results is that the latter address worst-case error of deterministic algorithms, while our analysis centers on expected error of a stochastic algorithm.
翻訳日:2022-09-20 19:05:21 公開日:2022-09-18
# NeuCEPT: 精度保証付き臨界ニューロン同定によるニューラルネットワークのメカニズムの局所的発見

NeuCEPT: Locally Discover Neural Networks' Mechanism via Critical Neurons Identification with Precision Guarantee ( http://arxiv.org/abs/2209.08448v1 )

ライセンス: Link先を確認
Minh N. Vu, Truc D. Nguyen, My T. Thai(参考訳) ディープニューラルネットワーク(DNN)の理解に関する最近の研究にもかかわらず、DNNが予測をどのように生成するかには多くの疑問がある。 特に、異なる入力サンプル上での同様の予測を考えると、その予測を生成するメカニズムは同じだろうか? 本研究では,モデル予測において重要な役割を担う重要なニューロンを局所的に発見し,モデルが生成するメカニズムを同定する手法であるNeuCEPTを提案する。 まず, 臨界ニューロンの同定問題を, 相互情報量の列の最大化として定式化し, 精度を制御下に保ちながら, 臨界ニューロンを効率的に解ける理論的枠組みを提供する。 NeuCEPTは次に、教師なしの方法で異なるモデルのメカニズムをヒューリスティックに学習する。 実験の結果,NeuCEPTで同定されたニューロンはモデル予測に強い影響を与えるだけでなく,モデル機構に関する有意義な情報も保持できることがわかった。

Despite recent studies on understanding deep neural networks (DNNs), there exists numerous questions on how DNNs generate their predictions. Especially, given similar predictions on different input samples, are the underlying mechanisms generating those predictions the same? In this work, we propose NeuCEPT, a method to locally discover critical neurons that play a major role in the model's predictions and identify model's mechanisms in generating those predictions. We first formulate a critical neurons identification problem as maximizing a sequence of mutual-information objectives and provide a theoretical framework to efficiently solve for critical neurons while keeping the precision under control. NeuCEPT next heuristically learns different model's mechanisms in an unsupervised manner. Our experimental results show that neurons identified by NeuCEPT not only have strong influence on the model's predictions but also hold meaningful information about model's mechanisms.
翻訳日:2022-09-20 18:54:40 公開日:2022-09-18
# EMaP: マニフォールドに基づく摂動を用いた説明可能なAI

EMaP: Explainable AI with Manifold-based Perturbations ( http://arxiv.org/abs/2209.08453v1 )

ライセンス: Link先を確認
Minh N. Vu, Huy Q. Mai, My T. Thai(参考訳) 近年,ブラックボックスモデルによる意思決定の理解を深めるため,入力データの摂動に基づく多くの説明手法が導入されている。 本研究の目的は、より忠実で堅牢な説明を得ることのできる、新しい摂動スキームを導入することである。 本研究では,摂動方向がデータトポロジに与える影響に着目した。 入力多様体の直交方向に沿った摂動は、離散グロモフ・ハウスドルフ距離の最悪のケース解析と永続ホモロジーによる平均ケース解析の両方において、データトポロジーをよりよく保存することを示す。 これらの結果から直交摂動方式を実現するEMaPアルゴリズムを提案する。 実験の結果,EMaPは説明者の性能を向上するだけでなく,近年開発された摂動法に対する攻撃の克服にも有効であることがわかった。

In the last few years, many explanation methods based on the perturbations of input data have been introduced to improve our understanding of decisions made by black-box models. The goal of this work is to introduce a novel perturbation scheme so that more faithful and robust explanations can be obtained. Our study focuses on the impact of perturbing directions on the data topology. We show that perturbing along the orthogonal directions of the input manifold better preserves the data topology, both in the worst-case analysis of the discrete Gromov-Hausdorff distance and in the average-case analysis via persistent homology. From those results, we introduce EMaP algorithm, realizing the orthogonal perturbation scheme. Our experiments show that EMaP not only improves the explainers' performance but also helps them overcome a recently-developed attack against perturbation-based methods.
翻訳日:2022-09-20 18:54:26 公開日:2022-09-18
# 非対称カーネルのランダムフーリエ特性

Random Fourier Features for Asymmetric Kernels ( http://arxiv.org/abs/2209.08461v1 )

ライセンス: Link先を確認
Mingzhen He and Fan He and Fanghui Liu and Xiaolin Huang(参考訳) ランダムフーリエ法 (RFFs) はカーネル法の拡張性に対するカーネル近似において強力で一般的な手法である。 RFFの理論的基礎は、対称正定値(PD)関数と確率測度を関連付けるボヒナーの定理に基づいている。 この条件は、例えば有向グラフ、条件確率、非対称カーネルなど、実際には幅広い応用を持つ非対称関数を自然に除外する。 それでも、非対称関数(カーネル)と RFF によるスケーラビリティの理解は理論的にも経験的にも不明確である。 本稿では, 4つの有限正測度に対応する実部と虚部からなる複素測度を導入し,bochner定理の適用範囲を拡大する。 これにより、このフレームワークは古典対称のPDカーネルを1つの正の測度、対称で非正の定値カーネルを符号付き測度、非対称カーネルを複素測度で扱えるようになり、その結果、AsK-RFFと呼ばれるRAFによって一般のフレームワークに統一される。 複素測度によるそのような近似スキームは、一様収束の観点から理論的な保証を享受する。 アルゴリズムの実装では,総質量の計算で費用がかかるカーネル近似プロセスを高速化するために,サブトレーニング集合上の総質量を最適化するサブセットベース高速推定法を採用し,高次元の計算効率を享受する。 AsK-RFFs法は、いくつかの典型的な大規模データセットに対して実験的に検証され、AsK-RFFsの有効性を示す有望なカーネル近似性能を実現する。

The random Fourier features (RFFs) method is a powerful and popular technique in kernel approximation for scalability of kernel methods. The theoretical foundation of RFFs is based on the Bochner theorem that relates symmetric, positive definite (PD) functions to probability measures. This condition naturally excludes asymmetric functions with a wide range applications in practice, e.g., directed graphs, conditional probability, and asymmetric kernels. Nevertheless, understanding asymmetric functions (kernels) and its scalability via RFFs is unclear both theoretically and empirically. In this paper, we introduce a complex measure with the real and imaginary parts corresponding to four finite positive measures, which expands the application scope of the Bochner theorem. By doing so, this framework allows for handling classical symmetric, PD kernels via one positive measure; symmetric, non-positive definite kernels via signed measures; and asymmetric kernels via complex measures, thereby unifying them into a general framework by RFFs, named AsK-RFFs. Such approximation scheme via complex measures enjoys theoretical guarantees in the perspective of the uniform convergence. In algorithmic implementation, to speed up the kernel approximation process, which is expensive due to the calculation of total mass, we employ a subset-based fast estimation method that optimizes total masses on a sub-training set, which enjoys computational efficiency in high dimensions. Our AsK-RFFs method is empirically validated on several typical large-scale datasets and achieves promising kernel approximation performance, which demonstrate the effectiveness of AsK-RFFs.
翻訳日:2022-09-20 18:54:12 公開日:2022-09-18
# koopman-theoretic approachによる非定常時系列データにおける外因性異常の同定

Koopman-theoretic Approach for Identification of Exogenous Anomalies in Nonstationary Time-series Data ( http://arxiv.org/abs/2209.08618v1 )

ライセンス: Link先を確認
Alex Mallen, Christoph A. Keller, J. Nathan Kutz(参考訳) 多くのシナリオでは、観測の時系列を通して複雑なシステムを監視し、異常な外因性事象がいつ発生したかを判断し、関連するアクションを取る必要がある。 現在の観察が異常かどうかを決定することは難しい。 歴史的データから力学の推測的確率モデルを学び、限られた数の現在の観測を使って分類を行う必要がある。 多次元時系列データに異常を分類する一般的な方法を構築するために, 長期確率的予測の最近の進歩, すなわち, 深い確率的koopman} を活用する。 また,タイプIとタイプIIのエラーを低減するために,ドメイン知識を持つ動的モデルの活用方法を示す。 我々は,nasaの地球システムモデルと統合し,地球大気汚染モニタリングの重要な実世界課題に関する提案手法を実証する。 このシステムは、新型コロナウイルス(COVID-19)のロックダウンや山火事などにより、空気質の局所的な異常を検出することに成功した。

In many scenarios, it is necessary to monitor a complex system via a time-series of observations and determine when anomalous exogenous events have occurred so that relevant actions can be taken. Determining whether current observations are abnormal is challenging. It requires learning an extrapolative probabilistic model of the dynamics from historical data, and using a limited number of current observations to make a classification. We leverage recent advances in long-term probabilistic forecasting, namely {\em Deep Probabilistic Koopman}, to build a general method for classifying anomalies in multi-dimensional time-series data. We also show how to utilize models with domain knowledge of the dynamics to reduce type I and type II error. We demonstrate our proposed method on the important real-world task of global atmospheric pollution monitoring, integrating it with NASA's Global Earth System Model. The system successfully detects localized anomalies in air quality due to events such as COVID-19 lockdowns and wildfires.
翻訳日:2022-09-20 18:53:44 公開日:2022-09-18
# 神経常微分方程式を用いた意味セグメンテーション

Semantic Segmentation using Neural Ordinary Differential Equations ( http://arxiv.org/abs/2209.08667v1 )

ライセンス: Link先を確認
Seyedalireza Khoshsirat, Chandra Kambhamettu(参考訳) ニューラル正規微分方程式(ODE)の考え方は、関数自体ではなく関数(データモデル)の微分を近似することである。 残差ネットワークでは、隠れたレイヤの離散的なシーケンスを持つ代わりに、隠れた状態の連続的なダイナミクスの導出はodeによってパラメータ化することができる。 このタイプのニューラルネットワークは、画像分類のための等価な残差ネットワークと同じ結果を生成することができることが示されている。 本稿では,セマンティックセグメンテーションタスクのための新しいニューラルODEを設計する。 まず、残余モジュールで構成されるベースラインネットワークから始め、その後、モジュールを使用してニューラルODEネットワークを構築します。 われわれのニューラルODEは、トレーニング用メモリの57%、テスト用メモリの42%、パラメータの68%を減らし、最先端の結果を達成することができることを示した。 本研究では,Cityscapes,CamVid,LIP,PASCAL-Contextデータセットのモデルを評価する。

The idea of neural Ordinary Differential Equations (ODE) is to approximate the derivative of a function (data model) instead of the function itself. In residual networks, instead of having a discrete sequence of hidden layers, the derivative of the continuous dynamics of hidden state can be parameterized by an ODE. It has been shown that this type of neural network is able to produce the same results as an equivalent residual network for image classification. In this paper, we design a novel neural ODE for the semantic segmentation task. We start by a baseline network that consists of residual modules, then we use the modules to build our neural ODE network. We show that our neural ODE is able to achieve the state-of-the-art results using 57% less memory for training, 42% less memory for testing, and 68% less number of parameters. We evaluate our model on the Cityscapes, CamVid, LIP, and PASCAL-Context datasets.
翻訳日:2022-09-20 18:21:37 公開日:2022-09-18
# Webスケール近距離画像検出システムの進化

Evolution of a Web-Scale Near Duplicate Image Detection System ( http://arxiv.org/abs/2209.08433v1 )

ライセンス: Link先を確認
Andrey Gusev and Jiajing Xu(参考訳) 重複に近い画像を検出することは、写真共有ウェブアプリケーションのコンテンツエコシステムに不可欠である。 しかし、何十億もの画像を含むウェブスケールのイメージコーパスを巻き込む場合、このような作業は困難である。 本稿では,80億画像にまたがる近接重複画像を検出する効率的なシステムを提案する。 本システムは,候補生成,候補選択,クラスタリングの3段階からなる。 また,本システムは,多数の実世界のアプリケーションを対象とした推薦や検索結果の質向上に有効であることを示す。 さらに,6年間にわたるシステムの進化と,最新技術とともに有機的コンテンツの成長に対応するための新システムの設計方法についての経験と教訓を提供する。 最後に,本稿で紹介した約53,000対の画像の人間ラベルデータセットをリリースする。

Detecting near duplicate images is fundamental to the content ecosystem of photo sharing web applications. However, such a task is challenging when involving a web-scale image corpus containing billions of images. In this paper, we present an efficient system for detecting near duplicate images across 8 billion images. Our system consists of three stages: candidate generation, candidate selection, and clustering. We also demonstrate that this system can be used to greatly improve the quality of recommendations and search results across a number of real-world applications. In addition, we include the evolution of the system over the course of six years, bringing out experiences and lessons on how new systems are designed to accommodate organic content growth as well as the latest technology. Finally, we are releasing a human-labeled dataset of ~53,000 pairs of images introduced in this paper.
翻訳日:2022-09-20 18:11:53 公開日:2022-09-18
# SDFE-LV:ロングビデオにおける動的顔表情検索のための大規模・マルチソース・非制約データベース

SDFE-LV: A Large-Scale, Multi-Source, and Unconstrained Database for Spotting Dynamic Facial Expressions in Long Videos ( http://arxiv.org/abs/2209.08445v1 )

ライセンス: Link先を確認
Xiaolin Xu, Yuan Zong, Wenming Zheng, Yang Li, Chuangao Tang, Xingxun Jiang, Haolin Jiang(参考訳) 本稿では,SDFE-LVと呼ばれる大規模・マルチソース・非制約のデータベースを用いて,表情解析タスクにおける動的表情スポッティング(DFES)のトピックとして知られる長編ビデオから,完全な動的表情の開始フレームとオフセットフレームを抽出する手法を提案する。 具体的には、SDFE-LVは1,191本の長ビデオで構成され、それぞれが1つ以上の完全な動的表情を含む。 さらに、対応する長ビデオ中の各完全な動的表情は、10個のよく訓練されたアノテータによって5回独立にラベル付けされた。 我々の知る限り、SDFE-LVはDFESタスクのための最初の非制約の大規模データベースであり、長いビデオは複数の実世界のメディアソース、例えばテレビインタビュー、ドキュメンタリー、映画、マルチメディアショートビデオから収集される。 したがって、SDFE-LVデータベース上でのDFESタスクは、頭部姿勢の変化、閉塞、照明といった多くの困難に直面することになる。 また,最近の最先端のディープスポッティング手法を多用し,様々な角度から総合的なベンチマーク評価を行い,dfesに興味を持つ研究者が迅速かつ容易に始めることができることを示した。 最後に,実験結果について深く議論し,DFESの課題に対処するためのいくつかの意味ある方向性を指摘し,今後DFESがより進歩することを期待している。 加えて、SDFE-LVは、できるだけ早く、学術的にのみ無料でリリースされる。

In this paper, we present a large-scale, multi-source, and unconstrained database called SDFE-LV for spotting the onset and offset frames of a complete dynamic facial expression from long videos, which is known as the topic of dynamic facial expression spotting (DFES) and a vital prior step for lots of facial expression analysis tasks. Specifically, SDFE-LV consists of 1,191 long videos, each of which contains one or more complete dynamic facial expressions. Moreover, each complete dynamic facial expression in its corresponding long video was independently labeled for five times by 10 well-trained annotators. To the best of our knowledge, SDFE-LV is the first unconstrained large-scale database for the DFES task whose long videos are collected from multiple real-world/closely real-world media sources, e.g., TV interviews, documentaries, movies, and we-media short videos. Therefore, DFES tasks on SDFE-LV database will encounter numerous difficulties in practice such as head posture changes, occlusions, and illumination. We also provided a comprehensive benchmark evaluation from different angles by using lots of recent state-of-the-art deep spotting methods and hence researchers interested in DFES can quickly and easily get started. Finally, with the deep discussions on the experimental evaluation results, we attempt to point out several meaningful directions to deal with DFES tasks and hope that DFES can be better advanced in the future. In addition, SDFE-LV will be freely released for academic use only as soon as possible.
翻訳日:2022-09-20 18:11:41 公開日:2022-09-18
# GaitFM: 歩行認識のための微粒な動き表現

GaitFM: Fine-grained Motion Representation for Gait Recognition ( http://arxiv.org/abs/2209.08470v1 )

ライセンス: Link先を確認
Lei Wang, Fangfang Liang, Bincheng Wang, Bo Liu(参考訳) 歩行認識は,各部位の周期的な動きの観察に大きく依存する個々の歩行パターンを特定することを目的としている。 しかし,既存の手法では,歩数列のサンプリング率が高いため,各部分を等しく扱い,データの冗長性を無視している。 本研究では,3面の歩行認識性能を向上させるために,微細な動き表現ネットワーク(GaitFM)を提案する。 まず、部分独立な時空間表現を探索するためにFPSLモジュールを設計する。 第二に、局所運動集約(LMA)と呼ばれるフレームワイド圧縮戦略は、動きの変動を高めるために用いられる。 最後に、重み付き一般化平均プーリング(wgem)層は、空間ダウンサンプリングにおいてより識別可能な情報を適応的に保持する。 CASIA-BとOUMVLPの2つの公開データセットに対する実験により、我々のアプローチが最先端のパフォーマンスに達することが示された。 CASIA-Bデータセットでは,通常の歩行では98.0%,95.7%,87.9%の順に,バッグで歩行し,コートで歩行する。 OUMVLPデータセットではランク1の精度が90.5%に達した。

Gait recognition aims at identifying individual-specific walking patterns, which is highly dependent on the observation of the different periodic movements of each body part. However, most existing methods treat each part equally and neglect the data redundancy due to the high sampling rate of gait sequences. In this work, we propose a fine-grained motion representation network (GaitFM) to improve gait recognition performance in three aspects. First, a fine-grained part sequence learning (FPSL) module is designed to explore part-independent spatio-temporal representations. Secondly, a frame-wise compression strategy, called local motion aggregation (LMA), is used to enhance motion variations. Finally, a weighted generalized mean pooling (WGeM) layer works to adaptively keep more discriminative information in the spatial downsampling. Experiments on two public datasets, CASIA-B and OUMVLP, show that our approach reaches state-of-the-art performances. On the CASIA-B dataset, our method achieves rank-1 accuracies of 98.0%, 95.7% and 87.9% for normal walking, walking with a bag and walking with a coat, respectively. On the OUMVLP dataset, our method achieved a rank-1 accuracy of 90.5%.
翻訳日:2022-09-20 18:11:09 公開日:2022-09-18
# ロスランドスケープから見たブートストラップ一般化能力

Bootstrap Generalization Ability from Loss Landscape Perspective ( http://arxiv.org/abs/2209.08473v1 )

ライセンス: Link先を確認
Huanran Chen, Shitong Shao, Ziyi Wang, Zirui Shang, Jin Chen, Xiaofeng Ji, Xinxiao Wu(参考訳) ドメインの一般化は、トレーニングデータセットと異なる分布を持つ、未発見のテストデータセット、すなわち、アウトオブディストリビューションデータに基づいて、うまく一般化できるモデルを学ぶことを目的としています。 コンピュータビジョンにおける領域一般化に対処するために、この分野に損失景観理論を導入する。 具体的には、バックボーン、正規化、トレーニングパラダイム、学習率という4つの側面から、損失景観の観点からディープラーニングモデルの一般化能力をブートストラップする。 NICO++,PACS,VLCSデータセットに関する提案理論を,広範囲にわたるアブレーション研究と可視化により検証した。 さらに,この理論をECCV 2022 NICO Challenge1に適用し,ドメイン不変の手法を使わずに第3位を達成する。

Domain generalization aims to learn a model that can generalize well on the unseen test dataset, i.e., out-of-distribution data, which has different distribution from the training dataset. To address domain generalization in computer vision, we introduce the loss landscape theory into this field. Specifically, we bootstrap the generalization ability of the deep learning model from the loss landscape perspective in four aspects, including backbone, regularization, training paradigm, and learning rate. We verify the proposed theory on the NICO++, PACS, and VLCS datasets by doing extensive ablation studies as well as visualizations. In addition, we apply this theory in the ECCV 2022 NICO Challenge1 and achieve the 3rd place without using any domain invariant methods.
翻訳日:2022-09-20 18:10:50 公開日:2022-09-18
# 転がりシャッターバンドル調整の再検討:正確かつ高速な解を目指して

Revisiting Rolling Shutter Bundle Adjustment: Toward Accurate and Fast Solution ( http://arxiv.org/abs/2209.08503v1 )

ライセンス: Link先を確認
Bangyan Liao, Delin Qu, Yifei Xue, Huiqing Zhang, Yizhen Lao(参考訳) 本研究では,ローリングシャッター(RS)カメラの計測値に基づいて,カメラの6-DoFポーズと環境形状を推定する頑健で高速なバンドル調整ソリューションを提案する。 これは、センサーの追加、フレームレートの高い動画の入力、カメラの動きに対する制限的な仮定、読み出し方向、低効率といった既存の作業の課題に取り組む。 この目的のために,まず画像点の正規化がRSBA性能に与える影響について検討し,実際の6-DoFカメラ動作のモデル化において,その近似性を示す。 そこで本研究では,視覚残差共分散の新たな解析モデルを提案し,最適化中の再投影誤差を標準化し,全体の精度を向上させる。 さらに重要なことに、rsba(nw-rsba)における正規化と共分散標準化の重み付けの組み合わせは、撮影方法に制約を加えることなく、共通の平面縮退を避けることができる。 さらに,そのヤコビ行列とシュール補体の空間性に基づくNW-RSBAの加速戦略を提案する。 広範な合成および実データ実験により,提案手法の有効性と有効性が検証された。 また,提案手法はrssfmおよびrsslamソリューションとして,gssfmおよびgsslamシステムを容易に実装し,プラグインできることを示す。

We propose a robust and fast bundle adjustment solution that estimates the 6-DoF pose of the camera and the geometry of the environment based on measurements from a rolling shutter (RS) camera. This tackles the challenges in the existing works, namely relying on additional sensors, high frame rate video as input, restrictive assumptions on camera motion, readout direction, and poor efficiency. To this end, we first investigate the influence of normalization to the image point on RSBA performance and show its better approximation in modelling the real 6-DoF camera motion. Then we present a novel analytical model for the visual residual covariance, which can be used to standardize the reprojection error during the optimization, consequently improving the overall accuracy. More importantly, the combination of normalization and covariance standardization weighting in RSBA (NW-RSBA) can avoid common planar degeneracy without needing to constrain the filming manner. Besides, we propose an acceleration strategy for NW-RSBA based on the sparsity of its Jacobian matrix and Schur complement. The extensive synthetic and real data experiments verify the effectiveness and efficiency of the proposed solution over the state-of-the-art works. We also demonstrate the proposed method can be easily implemented and plug-in famous GSSfM and GSSLAM systems as completed RSSfM and RSSLAM solutions.
翻訳日:2022-09-20 18:10:37 公開日:2022-09-18
# SF2SE3: 提案と選択によるシーンフローのSE(3)へのクラスタリング

SF2SE3: Clustering Scene Flow into SE(3)-Motions via Proposal and Selection ( http://arxiv.org/abs/2209.08532v1 )

ライセンス: Link先を確認
Leonhard Sommer, Philipp Schr\"oppel, and Thomas Brox(参考訳) SF2SE3は,独立に動く剛体物体とそのSE(3)運動へのセグメンテーションの形でシーンダイナミクスを推定する新しい手法である。 SF2SE3は2つのステレオまたはRGB-D画像で動作する。 まず,既存の光学的流れと深度推定アルゴリズムを用いて雑音場の流れを求める。 sf2se3は、(1)ピクセル集合をサンプリングしてse(3)モーションプロポーザルを計算し、(2)最大カバレッジ定式化に関して最適なse(3)モーションプロポーザルを選択する。 最後に、入力シーンフローと空間近接との整合性に基づいて、選択されたSE(3)モーションに一意に画素を割り当ててオブジェクトを形成する。 主な新規性は、運動提案のサンプリングのためのより情報的な戦略と、提案選択のための最大カバレッジ定式化である。 SF2SE3のシーンフロー推定,オブジェクトセグメンテーション,ビジュアルオドメトリーへの応用について,複数のデータセットで評価を行った。 SF2SE3はシーンフロー推定のための技術の状態と同等に動作し、セグメンテーションやオドメトリーの精度が高い。

We propose SF2SE3, a novel approach to estimate scene dynamics in form of a segmentation into independently moving rigid objects and their SE(3)-motions. SF2SE3 operates on two consecutive stereo or RGB-D images. First, noisy scene flow is obtained by application of existing optical flow and depth estimation algorithms. SF2SE3 then iteratively (1) samples pixel sets to compute SE(3)-motion proposals, and (2) selects the best SE(3)-motion proposal with respect to a maximum coverage formulation. Finally, objects are formed by assigning pixels uniquely to the selected SE(3)-motions based on consistency with the input scene flow and spatial proximity. The main novelties are a more informed strategy for the sampling of motion proposals and a maximum coverage formulation for the proposal selection. We conduct evaluations on multiple datasets regarding application of SF2SE3 for scene flow estimation, object segmentation and visual odometry. SF2SE3 performs on par with the state of the art for scene flow estimation and is more accurate for segmentation and odometry.
翻訳日:2022-09-20 18:10:18 公開日:2022-09-18
# ActiveNeRF: 不確実性推定で見る場所を学ぶ

ActiveNeRF: Learning where to See with Uncertainty Estimation ( http://arxiv.org/abs/2209.08546v1 )

ライセンス: Link先を確認
Xuran Pan, Zihang Lai, Shiji Song, and Gao Huang(参考訳) 近年,Neural Radiance Fields (NeRF) は,3次元シーンの再構成や,スパース2次元画像からの新規ビューの合成に有望な性能を示した。 効果的ではあるが、nerfの性能はトレーニングサンプルの品質に大きく影響される。 シーンからの限られたポーズ画像により、NeRFは新しいビューにうまく一般化できず、観測されていない領域で自明な解に崩壊する可能性がある。 これにより、NeRFはリソース制約のシナリオでは実用的ではない。 本稿では,制約付き入力予算で3Dシーンをモデル化することを目的とした,新しい学習フレームワークであるActiveNeRFを提案する。 具体的には、まず不確実性推定をNeRFモデルに組み込み、少ない観測条件下で頑健性を確保し、NeRFがシーンをどのように理解するかを解釈する。 そこで本研究では,アクティブな学習手法に基づいて,既存のトレーニングセットを新たに取得したサンプルで補うことを提案する。 新しい入力が与えられた不確実性の低減を評価することにより、最も情報を得るサンプルを選択する。 このようにして、新たなビュー合成の品質を最小限の追加リソースで改善することができる。 特にスカーサーのトレーニングデータを用いて,実写シーンと合成シーンの両方において,モデルの性能を検証する広範な実験を行った。 コードは \url{https://github.com/LeapLabTHU/ActiveNeRF} でリリースされる。

Recently, Neural Radiance Fields (NeRF) has shown promising performances on reconstructing 3D scenes and synthesizing novel views from a sparse set of 2D images. Albeit effective, the performance of NeRF is highly influenced by the quality of training samples. With limited posed images from the scene, NeRF fails to generalize well to novel views and may collapse to trivial solutions in unobserved regions. This makes NeRF impractical under resource-constrained scenarios. In this paper, we present a novel learning framework, ActiveNeRF, aiming to model a 3D scene with a constrained input budget. Specifically, we first incorporate uncertainty estimation into a NeRF model, which ensures robustness under few observations and provides an interpretation of how NeRF understands the scene. On this basis, we propose to supplement the existing training set with newly captured samples based on an active learning scheme. By evaluating the reduction of uncertainty given new inputs, we select the samples that bring the most information gain. In this way, the quality of novel view synthesis can be improved with minimal additional resources. Extensive experiments validate the performance of our model on both realistic and synthetic scenes, especially with scarcer training data. Code will be released at \url{https://github.com/LeapLabTHU/ActiveNeRF}.
翻訳日:2022-09-20 18:09:59 公開日:2022-09-18
# SegNeXt: セマンティックセグメンテーションのための畳み込みアテンション設計の再考

SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation ( http://arxiv.org/abs/2209.08575v1 )

ライセンス: Link先を確認
Meng-Hao Guo, Cheng-Ze Lu, Qibin Hou, Zhengning Liu, Ming-Ming Cheng, Shi-Min Hu(参考訳) セマンティックセグメンテーションのための単純な畳み込みネットワークアーキテクチャであるSegNeXtを提案する。 近年のトランスフォーマーモデルでは,空間情報の符号化における自己注意の効率性から,意味セグメンテーションの分野が主流となっている。 本稿では,畳み込みの注意が,トランスフォーマーの自己着脱機構よりもコンテクスト情報をエンコードするための効率的かつ効果的な方法であることを示す。 セグメンテーションモデルが持つ特徴を再検討することにより,セグメンテーションモデルの性能改善につながる重要な要素をいくつか発見する。 これは、安価な畳み込み操作を使用する新しい畳み込み注意ネットワークを設計する動機となる。 ベルやホイッスルがなければ、SegNeXtはADE20K、Cityscapes、COCO-Stuff、Pascal VOC、Pascal Context、iSAIDなど、一般的なベンチマークにおける従来の最先端メソッドのパフォーマンスを大幅に改善します。 特に、SegNeXtはEfficientNet-L2 w/NAS-FPNより優れ、Pascal VOC 2012テストリーダーボード上では1/10パラメータのみを使用して90.6%のmIoUを達成した。 平均して、SegNeXtは、同じまたは少ない計算でADE20Kデータセットの最先端メソッドと比較して、約2.0% mIoUの改善を実現している。 コードはhttps://github.com/uyzhang/JSeg (Jittor)とhttps://github.com/Visual-Attention-Network/SegNeXt (Pytorch)で入手できる。

We present SegNeXt, a simple convolutional network architecture for semantic segmentation. Recent transformer-based models have dominated the field of semantic segmentation due to the efficiency of self-attention in encoding spatial information. In this paper, we show that convolutional attention is a more efficient and effective way to encode contextual information than the self-attention mechanism in transformers. By re-examining the characteristics owned by successful segmentation models, we discover several key components leading to the performance improvement of segmentation models. This motivates us to design a novel convolutional attention network that uses cheap convolutional operations. Without bells and whistles, our SegNeXt significantly improves the performance of previous state-of-the-art methods on popular benchmarks, including ADE20K, Cityscapes, COCO-Stuff, Pascal VOC, Pascal Context, and iSAID. Notably, SegNeXt outperforms EfficientNet-L2 w/ NAS-FPN and achieves 90.6% mIoU on the Pascal VOC 2012 test leaderboard using only 1/10 parameters of it. On average, SegNeXt achieves about 2.0% mIoU improvements compared to the state-of-the-art methods on the ADE20K datasets with the same or fewer computations. Code is available at https://github.com/uyzhang/JSeg (Jittor) and https://github.com/Visual-Attention-Network/SegNeXt (Pytorch).
翻訳日:2022-09-20 18:09:39 公開日:2022-09-18
# 深部手術モデルはなぜ失敗するのか? ロバスト性レンズによる手術行動トリプルト認識の再検討

Why Deep Surgical Models Fail?: Revisiting Surgical Action Triplet Recognition through the Lens of Robustness ( http://arxiv.org/abs/2209.08647v1 )

ライセンス: Link先を確認
Yanqi Cheng, Lihao Liu, Shujun Wang, Yueming Jin, Carola-Bibiane Sch\"onlieb, Angelica I. Aviles-Rivero(参考訳) 手術行動の三重項認識は手術場面をよりよく理解する。 このタスクは、外科医にコンテキスト認識のサポートと安全性を提供するため、非常に関連性が高い。 パフォーマンスを改善するための現在の戦略は、新しいネットワークメカニズムの開発である。 しかし、現在の最先端技術の性能は他の外科的作業よりもかなり低い。 なぜこんなことが起こるの? これは私たちがこの仕事で取り組んだ質問です。 本稿では,既存のディープラーニングモデルの失敗をロバスト性と説明可能性のレンズを通して理解する最初の研究を行う。 まず、逆最適化スキームを用いて、現在のモデルについて弱く強い$\delta-$perturbationsの下で検討する。 次に、機能ベースの説明を通じて障害モードを提供します。 本研究は,性能向上と信頼性向上の鍵が,中核的かつ突発的な属性にあることを明らかにする。 我々の研究は、外科科学における信頼性と信頼性の高いディープラーニングモデルへの扉を開く。

Surgical action triplet recognition provides a better understanding of the surgical scene. This task is of high relevance as it provides to the surgeon with context-aware support and safety. The current go-to strategy for improving performance is the development of new network mechanisms. However, the performance of current state-of-the-art techniques is substantially lower than other surgical tasks. Why is this happening? This is the question that we address in this work. We present the first study to understand the failure of existing deep learning models through the lens of robustness and explainabilty. Firstly, we study current existing models under weak and strong $\delta-$perturbations via adversarial optimisation scheme. We then provide the failure modes via feature based explanations. Our study revels that the key for improving performance and increasing reliability is in the core and spurious attributes. Our work opens the door to more trustworthiness and reliability deep learning models in surgical science.
翻訳日:2022-09-20 18:09:13 公開日:2022-09-18
# 文書レベルの引数抽出のための動的グローバルメモリ

Dynamic Global Memory for Document-level Argument Extraction ( http://arxiv.org/abs/2209.08679v1 )

ライセンス: Link先を確認
Xinya Du, Sha Li, Heng Ji(参考訳) ニュース記事からイベントの情報的議論を抽出することは、各文書のグローバルな文脈理解を必要とする情報抽出において難しい問題である。 文書レベルの抽出に関する最近の研究は、単一文を超越し、エンドツーエンドモデルのクロス文推論能力を高めてきたが、それでも特定の入力シーケンス長の制約によって制限されており、通常はイベント間のグローバルコンテキストを無視している。 この問題に対処するために、文書メモリストアを構築してコンテキストイベント情報を記録し、それを暗黙的に明示的に活用することで、文書レベルのイベント引数抽出のための新しいグローバルなニューラル生成ベースのフレームワークを導入する。 実験結果から,本フレームワークは従来の手法よりも大幅に優れており,制約付き復号設計では逆アノテート例がより堅牢であることが示された。 (研究目的のコードとリソースはhttps://github.com/xinyadu/Memory_docieで入手できる)。

Extracting informative arguments of events from news articles is a challenging problem in information extraction, which requires a global contextual understanding of each document. While recent work on document-level extraction has gone beyond single-sentence and increased the cross-sentence inference capability of end-to-end models, they are still restricted by certain input sequence length constraints and usually ignore the global context between events. To tackle this issue, we introduce a new global neural generation-based framework for document-level event argument extraction by constructing a document memory store to record the contextual event information and leveraging it to implicitly and explicitly help with decoding of arguments for later events. Empirical results show that our framework outperforms prior methods substantially and it is more robust to adversarially annotated examples with our constrained decoding design. (Our code and resources are available at https://github.com/xinyadu/memory_docie for research purpose.)
翻訳日:2022-09-20 17:45:08 公開日:2022-09-18
# ドメイン分類に基づくHate-speech検出におけるドメイン適応のためのソース固有項罰

Domain Classification-based Source-specific Term Penalization for Domain Adaptation in Hate-speech Detection ( http://arxiv.org/abs/2209.08681v1 )

ライセンス: Link先を確認
Tulika Bose, Nikolaos Aletras, Irina Illina, Dominique Fohr(参考訳) ヘイトスピーチ検出に対する最先端のアプローチは通常、ドメイン外設定でパフォーマンスが低下する。 これは典型的には、分類器がそのドメイン不変性に悪影響を及ぼすソース固有の情報を過大に強調するためである。 先行研究は、予測を行う際に分類器が入力語に割り当てる重要性を定量化する特徴帰属法を用いて、手動でキュレートされたリストからヘイトスピーチに関連する用語をペナルティ化しようとした。 そこで我々は,ドメインの区別を学習するドメイン分類器と,ヘイトスピーチクラスの特徴属性スコアを用いて,ソース固有の用語を自動的に抽出し,ペナライズするドメイン適応手法を提案する。

State-of-the-art approaches for hate-speech detection usually exhibit poor performance in out-of-domain settings. This occurs, typically, due to classifiers overemphasizing source-specific information that negatively impacts its domain invariance. Prior work has attempted to penalize terms related to hate-speech from manually curated lists using feature attribution methods, which quantify the importance assigned to input terms by the classifier when making a prediction. We, instead, propose a domain adaptation approach that automatically extracts and penalizes source-specific terms using a domain classifier, which learns to differentiate between domains, and feature-attribution scores for hate-speech classes, yielding consistent improvements in cross-domain evaluation.
翻訳日:2022-09-20 17:44:51 公開日:2022-09-18
# HAPI: 商用ML API予測の大規模時系列データセット

HAPI: A Large-scale Longitudinal Dataset of Commercial ML API Predictions ( http://arxiv.org/abs/2209.08443v1 )

ライセンス: Link先を確認
Lingjiao Chen and Zhihua Jin and Sabri Eyuboglu and Christopher R\'e and Matei Zaharia and James Zou(参考訳) Google、Amazon、Microsoftなどのプロバイダが提供する商用ML APIは、多くのアプリケーションでMLの採用を劇的に単純化した。 多数の企業や学者が、オブジェクト検出、ocr、感情分析などのタスクにml apiを使用するために支払う。 同じタスクに取り組む異なるML APIは、非常に異質なパフォーマンスを持つ。 さらに、APIを支えるMLモデルも時間とともに進化します。 ML APIは急速に価値あるマーケットプレースになり、機械学習を広く利用するようになるため、さまざまなAPIを体系的に研究し、比較し、時間とともにAPIがどのように変化するかを特徴付けることが重要です。 しかし、このトピックはデータ不足のため、現在あまり探索されていない。 本稿では,HAPI(History of API)という,商用ML APIアプリケーション(Amazon,Google,IBM,MicrosoftなどのプロバイダのAPIを含む)の1,761,417の時系列データセットを,画像タグ付けや音声認識,テキストマイニングなど,さまざまなタスクにわたって紹介する。 各インスタンスは、API(例えば、画像やテキスト)に対するクエリ入力と、APIの出力予測/アノテーションと信頼性スコアで構成されている。 HAPIはML API使用量の最初の大規模データセットであり、ML-as-a-service(MLaaS)を研究するためのユニークなリソースである。 HAPIが実現した分析のタイプとして、ML APIのパフォーマンスが、時間とともに大幅に変化していることが示される。 APIの集約パフォーマンスが安定している場合でも、エラーモードは2020年から2022年の間に、さまざまなサブタイプのデータに移行することができる。 このような変更は、ML APIをコンポーネントとして使用する分析パイプライン全体に大きな影響を与える可能性がある。 さらに、HAPIを使用して、時間とともに人口構成サブグループ間での商用APIのパフォーマンス格差を調査します。 HAPIはMLaaSの成長分野におけるさらなる研究を促進することができる。

Commercial ML APIs offered by providers such as Google, Amazon and Microsoft have dramatically simplified ML adoption in many applications. Numerous companies and academics pay to use ML APIs for tasks such as object detection, OCR and sentiment analysis. Different ML APIs tackling the same task can have very heterogeneous performance. Moreover, the ML models underlying the APIs also evolve over time. As ML APIs rapidly become a valuable marketplace and a widespread way to consume machine learning, it is critical to systematically study and compare different APIs with each other and to characterize how APIs change over time. However, this topic is currently underexplored due to the lack of data. In this paper, we present HAPI (History of APIs), a longitudinal dataset of 1,761,417 instances of commercial ML API applications (involving APIs from Amazon, Google, IBM, Microsoft and other providers) across diverse tasks including image tagging, speech recognition and text mining from 2020 to 2022. Each instance consists of a query input for an API (e.g., an image or text) along with the API's output prediction/annotation and confidence scores. HAPI is the first large-scale dataset of ML API usages and is a unique resource for studying ML-as-a-service (MLaaS). As examples of the types of analyses that HAPI enables, we show that ML APIs' performance change substantially over time--several APIs' accuracies dropped on specific benchmark datasets. Even when the API's aggregate performance stays steady, its error modes can shift across different subtypes of data between 2020 and 2022. Such changes can substantially impact the entire analytics pipelines that use some ML API as a component. We further use HAPI to study commercial APIs' performance disparities across demographic subgroups over time. HAPI can stimulate more research in the growing field of MLaaS.
翻訳日:2022-09-20 17:35:31 公開日:2022-09-18
# 談話依存注入による話題セグメンテーションの改善

Improving Topic Segmentation by Injecting Discourse Dependencies ( http://arxiv.org/abs/2209.08626v1 )

ライセンス: Link先を確認
Linzi Xing, Patrick Huber, Giuseppe Carenini(参考訳) 最近のニューラル教師付きトピックセグメンテーションモデルは、ウィキペディアからサンプル化した大規模なトレーニングコーパスが利用可能であり、教師なし手法よりも優れた効果を達成する。 しかしながら、これらのモデルは、単純な言語的手がかりを予測に利用することで生じる堅牢さと伝達可能性の制限に苦しむかもしれないが、より重要な局所的一貫性を軽視する。 この問題に対処するため,本論文では,文章間の話題の一貫性に基づいた話題境界予測を奨励するために,上述の談話依存性構造を注入した談話認識型ニューラルトピックセグメンテーションモデルを提案する。 英語評価データセットに関する実証研究により,提案手法により,ドメイン内およびドメイン外データの性能が大幅に向上し,モデルの複雑さが増大する可能性が示唆された。

Recent neural supervised topic segmentation models achieve distinguished superior effectiveness over unsupervised methods, with the availability of large-scale training corpora sampled from Wikipedia. These models may, however, suffer from limited robustness and transferability caused by exploiting simple linguistic cues for prediction, but overlooking more important inter-sentential topical consistency. To address this issue, we present a discourse-aware neural topic segmentation model with the injection of above-sentence discourse dependency structures to encourage the model make topic boundary prediction based more on the topical consistency between sentences. Our empirical study on English evaluation datasets shows that injecting above-sentence discourse structures to a neural topic segmenter with our proposed strategy can substantially improve its performances on intra-domain and out-of-domain data, with little increase of model's complexity.
翻訳日:2022-09-20 17:33:43 公開日:2022-09-18
# RVSL:半教師あり学習に基づく実環境におけるロバスト車両類似学習

RVSL: Robust Vehicle Similarity Learning in Real Hazy Scenes Based on Semi-supervised Learning ( http://arxiv.org/abs/2209.08630v1 )

ライセンス: Link先を確認
Wei-Ting Chen, I-Hsiang Chen, Chih-Yuan Yeh, Hao-Hsiang Yang, Hua-En Chang, Jian-Jiun Ding, Sy-Yen Kuo(参考訳) 近年,車両類似性学習(re-identification, ReID)がコンピュータビジョンにおいて注目されている。 いくつかのアルゴリズムが開発され、かなりの成功を収めた。 しかし、既存のほとんどのメソッドは可視性が悪いため、あいまいなシナリオでは不愉快なパフォーマンスを持っている。 この問題を解決するための戦略はいくつかあるが、現実のシナリオでの限られたパフォーマンスと現実の明確な真実の欠如のために改善の余地がある。 そこで、cycleganに触発されたこの問題を解決するために、reidとドメイン変換技術を統合する \textbf{rvsl} と呼ばれるトレーニングパラダイムを構築した。 ネットワークは、半教師付き方式で訓練されており、現実世界のヘイズシーンでハイジーな車両ReIDミッションを学ぶために、IDラベルとそれに対応する明確な真実を使用する必要はない。 教師なし学習プロセスを効果的に抑制するため、いくつかの損失が生じる。 合成および実世界のデータセットにおける実験結果から,提案手法が車載用reid問題に対して最先端の性能を達成可能であることが示された。 提案手法は実世界のラベル情報を使わずに訓練されているが,完全ラベル情報に基づいて訓練された既存の教師付き手法と比較して,競争力を発揮する。

Recently, vehicle similarity learning, also called re-identification (ReID), has attracted significant attention in computer vision. Several algorithms have been developed and obtained considerable success. However, most existing methods have unpleasant performance in the hazy scenario due to poor visibility. Though some strategies are possible to resolve this problem, they still have room to be improved due to the limited performance in real-world scenarios and the lack of real-world clear ground truth. Thus, to resolve this problem, inspired by CycleGAN, we construct a training paradigm called \textbf{RVSL} which integrates ReID and domain transformation techniques. The network is trained on semi-supervised fashion and does not require to employ the ID labels and the corresponding clear ground truths to learn hazy vehicle ReID mission in the real-world haze scenes. To further constrain the unsupervised learning process effectively, several losses are developed. Experimental results on synthetic and real-world datasets indicate that the proposed method can achieve state-of-the-art performance on hazy vehicle ReID problems. It is worth mentioning that although the proposed method is trained without real-world label information, it can achieve competitive performance compared to existing supervised methods trained on complete label information.
翻訳日:2022-09-20 17:27:31 公開日:2022-09-18
# 流れモデルによるsr空間の知覚・ゆがみトレードオフ

Perception-Distortion Trade-off in the SR Space Spanned by Flow Models ( http://arxiv.org/abs/2209.08564v1 )

ライセンス: Link先を確認
Cansu Korkmaz, A.Murat Tekalp, Zafer Dogan, Erkut Erdem, Aykut Erdem(参考訳) フローベース生成超解法(SR)モデルは、SR空間と呼ばれる、実現可能なSRソリューションの多様なセットを生成することを学ぶ。 sr溶液の多様性は、潜在変数の温度($\tau$)によって増大し、サンプル溶液間でのテクスチャのランダムな変化をもたらし、その結果、視覚的アーティファクトと低い忠実度をもたらす。 本稿では,無作為なアーティファクトを除去し,知覚品質を損なうことなく忠実性を向上させるための,単純かつ効果的なイメージセンシング/フュージョン手法を提案する。 我々は、フローモデルにまたがるSR空間における多種多様なフォトリアリスティック・ソリューションの恩恵を受ける。 本稿では,SR空間におけるサンプル解を,タスクの忠実度と知覚品質の要件に応じて制御可能な方法で,より望ましい目標へ移動させる複数の経路を提供する,異なるイメージアンサンブルと融合戦略を提案する。 実験の結果, 画像センシング・フュージョン戦略は, フローモデルと逆行訓練モデルで生成したsr画像と比較して, 定量的指標と視覚品質の両面で, より有望な知覚・ゆがみトレードオフを実現することがわかった。

Flow-based generative super-resolution (SR) models learn to produce a diverse set of feasible SR solutions, called the SR space. Diversity of SR solutions increases with the temperature ($\tau$) of latent variables, which introduces random variations of texture among sample solutions, resulting in visual artifacts and low fidelity. In this paper, we present a simple but effective image ensembling/fusion approach to obtain a single SR image eliminating random artifacts and improving fidelity without significantly compromising perceptual quality. We achieve this by benefiting from a diverse set of feasible photo-realistic solutions in the SR space spanned by flow models. We propose different image ensembling and fusion strategies which offer multiple paths to move sample solutions in the SR space to more desired destinations in the perception-distortion plane in a controllable manner depending on the fidelity vs. perceptual quality requirements of the task at hand. Experimental results demonstrate that our image ensembling/fusion strategy achieves more promising perception-distortion trade-off compared to sample SR images produced by flow models and adversarially trained models in terms of both quantitative metrics and visual quality.
翻訳日:2022-09-20 17:25:37 公開日:2022-09-18
# MMSR:複数モデルで学習した画像の高解像度化

MMSR: Multiple-Model Learned Image Super-Resolution Benefiting From Class-Specific Image Priors ( http://arxiv.org/abs/2209.08568v1 )

ライセンス: Link先を確認
Cansu Korkmaz, A.Murat Tekalp, Zafer Dogan(参考訳) 既知の劣化モデルと仮定すると、学習画像超解像(SR)モデルの性能は、トレーニングセット内の様々な画像特性がテストセットのそれとどの程度うまく一致しているかに依存する。 その結果、srモデルの性能は、特定の画像の特性がトレーニングセットのものと類似しているか否かによって、テストセットよりも画像ごとに顕著に変化する。 したがって、一般に、単一のSRモデルはあらゆる種類の画像コンテンツに対して十分に一般化できない。 本研究では,複数のSRモデルが生成する出力を最もよく融合する方法を学習する後処理ネットワークを用いて,画像の異なるクラス(テキスト,テクスチャなど)に対する複数のSRモデルのトレーニングを行うことで,最先端の汎用SRモデルの性能を上回っていることを示す。 実験結果から,提案手法は1つの事前学習状態SRモデルに対して,定量的かつ視覚的に有意に優れることが示された。 同様のテキストやテクスチャイメージでトレーニングされた、最高のシングルクラス固有のsrモデルのパフォーマンスを超えている。

Assuming a known degradation model, the performance of a learned image super-resolution (SR) model depends on how well the variety of image characteristics within the training set matches those in the test set. As a result, the performance of an SR model varies noticeably from image to image over a test set depending on whether characteristics of specific images are similar to those in the training set or not. Hence, in general, a single SR model cannot generalize well enough for all types of image content. In this work, we show that training multiple SR models for different classes of images (e.g., for text, texture, etc.) to exploit class-specific image priors and employing a post-processing network that learns how to best fuse the outputs produced by these multiple SR models surpasses the performance of state-of-the-art generic SR models. Experimental results clearly demonstrate that the proposed multiple-model SR (MMSR) approach significantly outperforms a single pre-trained state-of-the-art SR model both quantitatively and visually. It even exceeds the performance of the best single class-specific SR model trained on similar text or texture images.
翻訳日:2022-09-20 17:25:14 公開日:2022-09-18
# 最適ラベル置換を用いた分類によるカテゴリーデータの分岐因果探索

Bivariate Causal Discovery for Categorical Data via Classification with Optimal Label Permutation ( http://arxiv.org/abs/2209.08579v1 )

ライセンス: Link先を確認
Yang Ni(参考訳) 定量的データの因果発見は広く研究されているが、分類学的データでは知られていない。 本稿では,新しい分類モデルに基づく分類データのための新しい因果モデルを提案する。 設計上、コルプは散発的な分類器であり、証明可能な因果モデルを生み出している。 因果的モデルと反因果的モデルの確率関数を比較した単純な学習アルゴリズムは因果的方向を学習するのに十分である。 合成および実データを用いた実験により,提案したCOLPに基づく因果モデルの性能を最先端の手法と比較した。 また,提案する因果探索アルゴリズムと分類的因果効果ペアのベンチマークデータセットを含む,付随するRパッケージCOLPも利用可能である。

Causal discovery for quantitative data has been extensively studied but less is known for categorical data. We propose a novel causal model for categorical data based on a new classification model, termed classification with optimal label permutation (COLP). By design, COLP is a parsimonious classifier, which gives rise to a provably identifiable causal model. A simple learning algorithm via comparing likelihood functions of causal and anti-causal models suffices to learn the causal direction. Through experiments with synthetic and real data, we demonstrate the favorable performance of the proposed COLP-based causal model compared to state-of-the-art methods. We also make available an accompanying R package COLP, which contains the proposed causal discovery algorithm and a benchmark dataset of categorical cause-effect pairs.
翻訳日:2022-09-20 17:16:20 公開日:2022-09-18
# ASD分類における機械学習と深層学習の比較研究

Comparative study of machine learning and deep learning methods on ASD classification ( http://arxiv.org/abs/2209.08601v1 )

ライセンス: Link先を確認
Ramchandra Rimal, Mitchell Brannon and Yingxin Wang(参考訳) 自閉症データセットは、自閉症と健康なグループの違いを特定するために研究される。 このために、2つのグループの静止状態機能磁気共鳴イメージング(rs-fMRI)データを解析し、脳領域間の接続ネットワークを構築した。 グループ間の接続パターンを識別するために、いくつかの分類フレームワークが開発されている。 統計的推測と精度の最良のモデルを比較し,精度とモデルの解釈可能性のトレードオフを分析した。 最後に, 分類精度尺度を報告し, フレームワークの性能を正当化した。 我々の最善のモデルは、71%の精度でマルチサイト abide i データに基づいて自閉症患者と健康患者を分類できる。

The autism dataset is studied to identify the differences between autistic and healthy groups. For this, the resting-state Functional Magnetic Resonance Imaging (rs-fMRI) data of the two groups are analyzed, and networks of connections between brain regions were created. Several classification frameworks are developed to distinguish the connectivity patterns between the groups. The best models for statistical inference and precision were compared, and the tradeoff between precision and model interpretability was analyzed. Finally, the classification accuracy measures were reported to justify the performance of our framework. Our best model can classify autistic and healthy patients on the multisite ABIDE I data with 71% accuracy.
翻訳日:2022-09-20 17:16:08 公開日:2022-09-18
# 会員推論攻撃と一般化:因果的視点

Membership Inference Attacks and Generalization: A Causal Perspective ( http://arxiv.org/abs/2209.08615v1 )

ライセンス: Link先を確認
Teodora Baluta and Shiqi Shen and S. Hitarth and Shruti Tople and Prateek Saxena(参考訳) メンバーシップ推論(MI)攻撃は、現在のニューラルネットワークの確率的トレーニング方法におけるプライバシーの弱点を浮き彫りにする。 しかし、なぜそれが生じたのかはよく分かっていない。 これらは不完全な一般化の自然な結果か? これらの攻撃を軽減するためにトレーニング中に対処すべき根本原因は何か? そこで本研究では,mi攻撃と一般化との関連を説明する最初のアプローチを提案する。 我々は6ドルで達成されたMI攻撃性能を定量的に説明する因果グラフを提供する。 我々は、根本原因の影響を過度に単純化または過大評価し、その結果、いくつかの要因間の複雑な相互作用を捉えることができないという、以前の非定量的仮説に反論する。 我々の因果モデルはまた、それらの共用因果因子を介して、一般化とMI攻撃の新たな関係を示す。 我々の因果関係モデルは高い予測力(0.90$)、すなわち、解析的予測は目に見えない実験でしばしば観測される結果と一致し、実際的な代替となる。

Membership inference (MI) attacks highlight a privacy weakness in present stochastic training methods for neural networks. It is not well understood, however, why they arise. Are they a natural consequence of imperfect generalization only? Which underlying causes should we address during training to mitigate these attacks? Towards answering such questions, we propose the first approach to explain MI attacks and their connection to generalization based on principled causal reasoning. We offer causal graphs that quantitatively explain the observed MI attack performance achieved for $6$ attack variants. We refute several prior non-quantitative hypotheses that over-simplify or over-estimate the influence of underlying causes, thereby failing to capture the complex interplay between several factors. Our causal models also show a new connection between generalization and MI attacks via their shared causal factors. Our causal models have high predictive power ($0.90$), i.e., their analytical predictions match with observations in unseen experiments often, which makes analysis via them a pragmatic alternative.
翻訳日:2022-09-20 17:09:50 公開日:2022-09-18
# 報酬最適化推薦システムのオフライン評価:シミュレーションの場合

Offline Evaluation of Reward-Optimizing Recommender Systems: The Case of Simulation ( http://arxiv.org/abs/2209.08642v1 )

ライセンス: Link先を確認
Imad Aouali, Amine Benhalloum, Martin Bompaire, Benjamin Heymann, Olivier Jeunen, David Rohde, Otmane Sakhi and Flavian Vasile(参考訳) 学術研究と産業研究の両方において、オンライン評価手法はレコメンデーションシステムのようなインタラクティブなアプリケーションの黄金の標準と見なされている。 当然、この理由は、介入に依存するユーティリティメトリクスを直接測定することができ、ユーザに提示される推奨事項であるからです。 それでも、オンライン評価手法は様々な理由でコストがかかるため、信頼性の高いオフライン評価手順の必要性は明らかである。 業界では、オフラインメトリクスは、オンラインで評価する有望な候補モデルを生成するためのファーストライン評価としてしばしば使用される。 学術研究において、オンラインシステムへの限られたアクセスは、オフラインメトリクスを新しい方法を検証するデファクトアプローチにする。 オフラインメトリクスには、プロキシベースのメソッドと偽のメソッドという2つのクラスがある。 第1のクラスは私たちが関心を持っているオンラインメトリクスと相関が低く、後者のクラスは現実の環境では達成できない仮定の下でのみ理論的保証を提供する。 ここでは、シミュレーションに基づく比較がオフラインのメトリクスを超えて先進的な方法を提供し、それらが望ましい評価方法であると主張する。

Both in academic and industry-based research, online evaluation methods are seen as the golden standard for interactive applications like recommendation systems. Naturally, the reason for this is that we can directly measure utility metrics that rely on interventions, being the recommendations that are being shown to users. Nevertheless, online evaluation methods are costly for a number of reasons, and a clear need remains for reliable offline evaluation procedures. In industry, offline metrics are often used as a first-line evaluation to generate promising candidate models to evaluate online. In academic work, limited access to online systems makes offline metrics the de facto approach to validating novel methods. Two classes of offline metrics exist: proxy-based methods, and counterfactual methods. The first class is often poorly correlated with the online metrics we care about, and the latter class only provides theoretical guarantees under assumptions that cannot be fulfilled in real-world environments. Here, we make the case that simulation-based comparisons provide ways forward beyond offline metrics, and argue that they are a preferable means of evaluation.
翻訳日:2022-09-20 17:09:34 公開日:2022-09-18
# 分析評価におけるアロケーションスキーム:申請者中心の全体的あるいは属性中心のセグメンテーション?

Allocation Schemes in Analytic Evaluation: Applicant-Centric Holistic or Attribute-Centric Segmented? ( http://arxiv.org/abs/2209.08665v1 )

ライセンス: Link先を確認
Jingyan Wang, Carmel Baharav, Nihar B. Shah, Anita Williams Woolley, R Ravi(参考訳) 雇用や大学入学などの多くの申請は、応募者の評価と選定を伴う。 これらのタスクは基本的に困難であり、複数の異なる側面("属性"と呼ぶもの)から証拠を組み合わせる必要がある。 これらのアプリケーションでは、応募者数はしばしば多く、分散した方法で複数のエミュレータにタスクを割り当てることが一般的である。 具体的には、しばしば使用される総括的割り当てにおいて、各評価者は出願人のサブセットを割り当てられ、割り当てられた出願人のすべての関連情報を評価するように要求される。 しかし、このような評価プロセスは、不一致(評価者は応募者のごく一部しか見えず、相対的な品質の良さが得られない)や差別(評価者は、応募者に関する無関係な情報によって影響を受ける)といった問題にかかっている。 このような属性に基づく評価は代替的な割当スキームを可能にする。 具体的には、各評価官をより多くの応募者で割り当てるが、応募者1人あたりの属性は少なく、セグメント割り当てと呼ぶ。 複数次元の分割割当と総括割当を理論的および実験的手法で比較した。 これら2つのアプローチ間のさまざまなトレードオフを確立し、一方のアプローチが他方よりも正確な評価をもたらす条件を特定する。

Many applications such as hiring and university admissions involve evaluation and selection of applicants. These tasks are fundamentally difficult, and require combining evidence from multiple different aspects (what we term "attributes"). In these applications, the number of applicants is often large, and a common practice is to assign the task to multiple evaluators in a distributed fashion. Specifically, in the often-used holistic allocation, each evaluator is assigned a subset of the applicants, and is asked to assess all relevant information for their assigned applicants. However, such an evaluation process is subject to issues such as miscalibration (evaluators see only a small fraction of the applicants and may not get a good sense of relative quality), and discrimination (evaluators are influenced by irrelevant information about the applicants). We identify that such attribute-based evaluation allows alternative allocation schemes. Specifically, we consider assigning each evaluator more applicants but fewer attributes per applicant, termed segmented allocation. We compare segmented allocation to holistic allocation on several dimensions via theoretical and experimental methods. We establish various tradeoffs between these two approaches, and identify conditions under which one approach results in more accurate evaluation than the other.
翻訳日:2022-09-20 17:09:15 公開日:2022-09-18
# Pinterestのパーソナライズされたランキングを再考する - エンドツーエンドアプローチ

Rethinking Personalized Ranking at Pinterest: An End-to-End Approach ( http://arxiv.org/abs/2209.08435v1 )

ライセンス: Link先を確認
Jiajing Xu, Andrew Zhai, Charles Rosenberg(参考訳) 本稿では、ユーザアクションからエンド・ツー・エンドの学習を通じて、パーソナライズされたレコメンデーションエンジンに革命をもたらす旅を紹介する。 ユーザの長期的関心をpinner- formerにエンコードする。これは、新しい密集した全アクション損失を通じて、長期的アクションに最適化された埋め込みユーザであり、リアルタイムアクションシーケンスから直接学習することで、ユーザの短期的意図をキャプチャする。 新しいモデルアーキテクチャのパフォーマンスを検証するために、オフラインとオンラインの両方の実験を行い、本番環境でのcpu/gpuの混合セットアップを使用して、このような複雑なモデルを提供するという課題にも対処しました。 提案されたシステムはpinterestのプロダクションにデプロイされ、オーガニックと広告のアプリケーションで大きな成果を上げている。

In this work, we present our journey to revolutionize the personalized recommendation engine through end-to-end learning from raw user actions. We encode user's long-term interest in Pinner- Former, a user embedding optimized for long-term future actions via a new dense all-action loss, and capture user's short-term intention by directly learning from the real-time action sequences. We conducted both offline and online experiments to validate the performance of the new model architecture, and also address the challenge of serving such a complex model using mixed CPU/GPU setup in production. The proposed system has been deployed in production at Pinterest and has delivered significant online gains across organic and Ads applications.
翻訳日:2022-09-20 16:58:56 公開日:2022-09-18
# モデルベースRLの簡易化:学習表現、潜在空間モデル、および1つの目的によるポリシー

Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective ( http://arxiv.org/abs/2209.08466v1 )

ライセンス: Link先を確認
Raj Ghugare, Homanga Bharadhwaj, Benjamin Eysenbach, Sergey Levine and Ruslan Salakhutdinov(参考訳) 環境の内部モデルを学習する強化学習(RL)法は、モデルなしの手法よりもサンプル効率が高い可能性があるが、高次元センサからの生観測をモデル化する学習は困難である。 先行研究は、再構成や価値予測のような補助的な目的を通して観測の低次元表現を学ぶことで、この課題に対処してきた。 しかし、これらの補助目的とrl目標の整合はしばしば不明確である。 本研究では,自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。 この目標は期待値よりも低い値である。 政策探索やモデル保証に関するモデルベースRLの以前の境界とは異なり、我々の境界は全体RLの目的に直接依存する。 得られたアルゴリズムがモデルベースおよびモデルフリーRL手法のサンプル効率に適合するか改善することを示した。 このようなサンプル効率のよい手法は一般に計算的に要求されるが,SACの性能は壁面時間で約50%低下する。

While reinforcement learning (RL) methods that learn an internal model of the environment have the potential to be more sample efficient than their model-free counterparts, learning to model raw observations from high dimensional sensors can be challenging. Prior work has addressed this challenge by learning low-dimensional representation of observations through auxiliary objectives, such as reconstruction or value prediction. However, the alignment between these auxiliary objectives and the RL objective is often unclear. In this work, we propose a single objective which jointly optimizes a latent-space model and policy to achieve high returns while remaining self-consistent. This objective is a lower bound on expected returns. Unlike prior bounds for model-based RL on policy exploration or model guarantees, our bound is directly on the overall RL objective. We demonstrate that the resulting algorithm matches or improves the sample-efficiency of the best prior model-based and model-free RL methods. While such sample efficient methods typically are computationally demanding, our method attains the performance of SAC in about 50\% less wall-clock time.
翻訳日:2022-09-20 16:58:42 公開日:2022-09-18
# 階層型ファジィニューラルネットワークによる異種ビッグデータのプライバシ保護

Hierarchical fuzzy neural networks with privacy preservation for heterogeneous big data ( http://arxiv.org/abs/2209.08467v1 )

ライセンス: Link先を確認
Leijie Zhang, Ye Shi, Yu-Cheng Chang, and Chin-Teng Lin(参考訳) 不均一なビッグデータは、機械学習に多くの課題をもたらす。 その巨大なスケール、高次元性、および固有の不確実性は、十分な処理能力を提供することからモデル精度の維持、プライバシ保護に至るまで、機械学習のほぼすべての側面を困難にします。 しかし、おそらく最も重要な問題は、ビッグデータがしばしば機密性の高い個人データに分散していることだ。 そこで本研究では,プライバシ保護型階層型ファジィニューラルネットワーク(pp-hfnn)を提案する。 ネットワークは2段階最適化アルゴリズムで訓練され、階層の低レベルのパラメータは、他のエージェントに局所データを明かさない乗算器のよく知られた交互方向法に基づくスキームで学習される。 階層の高レベルの座標は交互最適化法によって処理され、非常に早く収束する。 トレーニング手順全体がスケーラブルで高速で、バックプロパゲーションに基づいたメソッドのような勾配の解消に苦しむことはない。 回帰タスクと分類タスクの両方で実施した総合シミュレーションは,提案モデルの有効性を実証する。

Heterogeneous big data poses many challenges in machine learning. Its enormous scale, high dimensionality, and inherent uncertainty make almost every aspect of machine learning difficult, from providing enough processing power to maintaining model accuracy to protecting privacy. However, perhaps the most imposing problem is that big data is often interspersed with sensitive personal data. Hence, we propose a privacy-preserving hierarchical fuzzy neural network (PP-HFNN) to address these technical challenges while also alleviating privacy concerns. The network is trained with a two-stage optimization algorithm, and the parameters at low levels of the hierarchy are learned with a scheme based on the well-known alternating direction method of multipliers, which does not reveal local data to other agents. Coordination at high levels of the hierarchy is handled by the alternating optimization method, which converges very quickly. The entire training procedure is scalable, fast and does not suffer from gradient vanishing problems like the methods based on back-propagation. Comprehensive simulations conducted on both regression and classification tasks demonstrate the effectiveness of the proposed model.
翻訳日:2022-09-20 16:58:25 公開日:2022-09-18
# スーパーコンピュータ環境における分散深層学習のためのトップk勾配スカラー化に関する実証分析

Empirical Analysis on Top-k Gradient Sparsification for Distributed Deep Learning in a Supercomputing Environment ( http://arxiv.org/abs/2209.08497v1 )

ライセンス: Link先を確認
Daegun Yoon and Sangyoon Oh(参考訳) ディープラーニングモデルを高速にトレーニングするために、複数のGPU上での分散トレーニングが近年非常に人気のあるスキームである。 しかし、通信帯域幅は依然としてトレーニング性能の大きなボトルネックである。 総合訓練性能を向上させるため,近年では通信トラフィックを大幅に削減する勾配スペーシフィケーション手法が提案されている。 それらの多くは、Top-k Gragient Sparsification (Top-k SGD)のような意味のある勾配を選択するために勾配ソートを必要とする。 しかし、Top-k SGDはGPUでは勾配ソートが著しく非効率であるため、トレーニング全体の高速化に限界がある。 本稿では,Top-k SGDの非効率性を示す実験を行い,低性能について考察する。 実験分析から得られた知見に基づき,今後の研究として,高性能な勾配スカラー化手法を提案する。

To train deep learning models faster, distributed training on multiple GPUs is the very popular scheme in recent years. However, the communication bandwidth is still a major bottleneck of training performance. To improve overall training performance, recent works have proposed gradient sparsification methods that reduce the communication traffic significantly. Most of them require gradient sorting to select meaningful gradients such as Top-k gradient sparsification (Top-k SGD). However, Top-k SGD has a limit to increase the speed up overall training performance because gradient sorting is significantly inefficient on GPUs. In this paper, we conduct experiments that show the inefficiency of Top-k SGD and provide the insight of the low performance. Based on observations from our empirical analysis, we plan to yield a high performance gradient sparsification method as a future work.
翻訳日:2022-09-20 16:58:09 公開日:2022-09-18
# ソフトヌル空間プロジェクタを用いた高速一般化のための非パラメトリックスキル表現

A Non-parametric Skill Representation with Soft Null Space Projectors for Fast Generalization ( http://arxiv.org/abs/2209.08522v1 )

ライセンス: Link先を確認
Jo\~ao Silv\'erio and Yanlong Huang(参考訳) 過去20年間、ロボティクスのコミュニティは様々な動きの表現の出現を目撃し、特に行動的クローニングにおいて、スキルをコンパクトにエンコードし、一般化するために広く使われた。 これらのうち、確率論的アプローチは、変化のエンコーディング、相関、新しいタスク条件への適応性など、関連する位置を占めてきた。 しかし、そのようなプリミティブの変調は、しばしば計算コストのかかる演算を伴うパラメータの再最適化を必要とするため、しばしば面倒である。 本稿では、ヌル空間プロジェクタを含む非パラメトリック運動原始的な定式化を導出する。 このような定式化は,計算量 O(n2) を計算量 O(n3) に含まない高速かつ効率的な運動生成を可能にすることを示す。 これは、nullスペースを使用してセカンダリターゲットを追跡することで実現され、トレーニングデータセットによって精度が決定される。 時間入力に関連する2次元例を用いて、我々の非パラメトリック解が最先端パラメトリック法と好適に比較できることを示す。 高次元入力による実演スキルについては,オンザフライ適応も可能であることを示す。

Over the last two decades, the robotics community witnessed the emergence of various motion representations that have been used extensively, particularly in behavorial cloning, to compactly encode and generalize skills. Among these, probabilistic approaches have earned a relevant place, owing to their encoding of variations, correlations and adaptability to new task conditions. Modulating such primitives, however, is often cumbersome due to the need for parameter re-optimization which frequently entails computationally costly operations. In this paper we derive a non-parametric movement primitive formulation that contains a null space projector. We show that such formulation allows for fast and efficient motion generation with computational complexity O(n2) without involving matrix inversions, whose complexity is O(n3). This is achieved by using the null space to track secondary targets, with a precision determined by the training dataset. Using a 2D example associated with time input we show that our non-parametric solution compares favourably with a state-of-the-art parametric approach. For demonstrated skills with high-dimensional inputs we show that it permits on-the-fly adaptation as well.
翻訳日:2022-09-20 16:57:54 公開日:2022-09-18
# エリートバッファを用いた進化的深層強化学習:連続制御タスクにおけるEAと組み合わせたDRLに向けた新しいアプローチ

Evolutionary Deep Reinforcement Learning Using Elite Buffer: A Novel Approach Towards DRL Combined with EA in Continuous Control Tasks ( http://arxiv.org/abs/2209.08480v1 )

ライセンス: Link先を確認
Marzieh Sadat Esmaeeli, Hamed Malek(参考訳) 多くの制御タスクにおける深層強化学習の多くの応用と成功にもかかわらず、少額報酬を伴う一時的なクレジット割り当て、効果的な探索の欠如、問題のハイパーパラメーターに非常に敏感な脆性収束など、依然として多くの重要な問題と制限に苦しめられている。 継続的制御における深い強化学習の問題は、これらの問題に直面する進化的アルゴリズムの成功とともに、進化的強化学習という概念が生まれ、多くの議論を呼んだ。 この分野でいくつかの研究が成功したにもかかわらず、これらの問題に対する適切な解法とその制限はまだ提示されていない。 本研究の目的は,深層強化学習と進化的計算の2つの分野を組み合わせることの効率性について検討し,手法と既存の課題を改善するための一歩を踏み出すことである。 Evolutionary Deep Reinforcement Learning Using Elite Buffer"アルゴリズムは、対話型学習能力と人間の脳における仮説的結果からインスピレーションを得て、新しいメカニズムを導入した。 この方法では、クロスオーバーと突然変異演算子の存在とともに、エリートバッファ(人間の心における経験一般化に基づく学習にインスパイアされた)の利用と、連続的な制御の分野における効率性、収束性、適切な進行性を向上させる。 実験結果によると,提案手法は複雑で次元の大きい環境において,他のよく知られた手法を超越し,上記の問題や制限の解決に優れている。

Despite the numerous applications and success of deep reinforcement learning in many control tasks, it still suffers from many crucial problems and limitations, including temporal credit assignment with sparse reward, absence of effective exploration, and a brittle convergence that is extremely sensitive to the hyperparameters of the problem. The problems of deep reinforcement learning in continuous control, along with the success of evolutionary algorithms in facing some of these problems, have emerged the idea of evolutionary reinforcement learning, which attracted many controversies. Despite successful results in a few studies in this field, a proper and fitting solution to these problems and their limitations is yet to be presented. The present study aims to study the efficiency of combining the two fields of deep reinforcement learning and evolutionary computations further and take a step towards improving methods and the existing challenges. The "Evolutionary Deep Reinforcement Learning Using Elite Buffer" algorithm introduced a novel mechanism through inspiration from interactive learning capability and hypothetical outcomes in the human brain. In this method, the utilization of the elite buffer (which is inspired by learning based on experience generalization in the human mind), along with the existence of crossover and mutation operators, and interactive learning in successive generations, have improved efficiency, convergence, and proper advancement in the field of continuous control. According to the results of experiments, the proposed method surpasses other well-known methods in environments with high complexity and dimension and is superior in resolving the mentioned problems and limitations.
翻訳日:2022-09-20 16:49:53 公開日:2022-09-18
# 対話型知識ベース多目的進化アルゴリズムフレームワークの実用化

An Interactive Knowledge-based Multi-objective Evolutionary Algorithm Framework for Practical Optimization Problems ( http://arxiv.org/abs/2209.08604v1 )

ライセンス: Link先を確認
Abhiroop Ghosh, Kalyanmoy Deb, Erik Goodman, and Ronald Averill(参考訳) 経験豊富なユーザは、現実世界の最適化問題を解決する上で有用な知識と直感を持っていることが多い。 ユーザ知識を変数間の関係として定式化することで、優れたソリューションを見つけるための最適化アルゴリズムを支援することができる。 このような変数間の相互作用は、最適化実行中の中間イテレーションで発見されたハイパフォーマンスなソリューションから自動的に学習することができる。 これらの関係は、ユーザによって検証された場合、新しく生成されたソリューション間で強制され、検索空間の有望な領域に向けて最適化アルゴリズムを操ることができる。 このような変数関係の数が高くなるような大規模問題に対して問題が発生する。 本稿では,ハイパフォーマンスソリューションの進化から隠れた変数間関係を知識として抽出し,ユーザと共有してフィードバックを受け取り,その効果を改善するための最適化プロセスに適用する,対話型知識ベース進化多目的最適化(ik-emo)フレームワークを提案する。 知識抽出プロセスでは,変数数によく適合する体系的かつエレガントなグラフ分析手法を用いる。 提案したIK-EMOの動作は、3つの大規模な実世界のエンジニアリング設計問題で実証されている。 提案する知識抽出プロセスの単純さとエレガンスさ,高パフォーマンス解の達成は,提案手法のパワーを素早く示している。 提案する結果は,実際の日常的使用に対するインタラクションに基づくさらなる最適化研究を動機付けるものと思われる。

Experienced users often have useful knowledge and intuition in solving real-world optimization problems. User knowledge can be formulated as inter-variable relationships to assist an optimization algorithm in finding good solutions faster. Such inter-variable interactions can also be automatically learned from high-performing solutions discovered at intermediate iterations in an optimization run - a process called innovization. These relations, if vetted by the users, can be enforced among newly generated solutions to steer the optimization algorithm towards practically promising regions in the search space. Challenges arise for large-scale problems where the number of such variable relationships may be high. This paper proposes an interactive knowledge-based evolutionary multi-objective optimization (IK-EMO) framework that extracts hidden variable-wise relationships as knowledge from evolving high-performing solutions, shares them with users to receive feedback, and applies them back to the optimization process to improve its effectiveness. The knowledge extraction process uses a systematic and elegant graph analysis method which scales well with number of variables. The working of the proposed IK-EMO is demonstrated on three large-scale real-world engineering design problems. The simplicity and elegance of the proposed knowledge extraction process and achievement of high-performing solutions quickly indicate the power of the proposed framework. The results presented should motivate further such interaction-based optimization studies for their routine use in practice.
翻訳日:2022-09-20 16:49:25 公開日:2022-09-18
# 貴重なサンプルマイニングに基づくグラフニューラルネットワークの不均衡ノード分類

Imbalanced Nodes Classification for Graph Neural Networks Based on Valuable Sample Mining ( http://arxiv.org/abs/2209.08514v1 )

ライセンス: Link先を確認
Min Liu, Siwen Jin, Luo Jin, Shuohan Wang, Yu Fang, Yuliang Shi(参考訳) ノード分類はグラフニューラルネットワークにおいて重要なタスクであるが、既存の研究のほとんどは異なるクラスからのサンプルがバランスを取っていると仮定している。 しかし、クラス不均衡問題は広く、モデルの性能に深刻な影響を及ぼす可能性がある。 モデルトレーニングにおける不均衡データセットの悪影響を減らすことは、モデルのパフォーマンスを改善するために不可欠である。 したがって、従来のアルゴリズムレベルの不均衡問題に対するアプローチに基づいて、新たな損失関数FD-Lossを再構成する。 まず,エッジハードサンプルと簡単なサンプルを分布に基づいてフィルタするサンプル測定距離を提案する。 そして、誤測定距離に基づいて重み係数を定義し、損失関数重み付け項で使用することにより、損失関数が貴重なサンプルのみに焦点を当てる。 いくつかのベンチマーク実験により, 損失関数はノードの不均衡問題を効果的に解くことができ, ノード分類タスクの既存手法と比較して, 分類精度を4%向上できることが示された。

Node classification is an important task in graph neural networks, but most existing studies assume that samples from different classes are balanced. However, the class imbalance problem is widespread and can seriously affect the model's performance. Reducing the adverse effects of imbalanced datasets on model training is crucial to improve the model's performance. Therefore, a new loss function FD-Loss is reconstructed based on the traditional algorithm-level approach to the imbalance problem. Firstly, we propose sample mismeasurement distance to filter edge-hard samples and simple samples based on the distribution. Then, the weight coefficients are defined based on the mismeasurement distance and used in the loss function weighting term, so that the loss function focuses only on valuable samples. Experiments on several benchmarks demonstrate that our loss function can effectively solve the sample node imbalance problem and improve the classification accuracy by 4% compared to existing methods in the node classification task.
翻訳日:2022-09-20 16:42:23 公開日:2022-09-18
# VisTaNet:表面粗さ分類のための注意深い核融合

VisTaNet: Attention Guided Deep Fusion for Surface Roughness Classification ( http://arxiv.org/abs/2209.08516v1 )

ライセンス: Link先を確認
Prasanna Kumar Routray, Aditya Sanjiv Kanade, Jay Bhanushali, Manivannan Muniyandi(参考訳) ヒトのテクスチャ知覚は、視覚と触覚のマルチセンサー入力の重み付け平均である。 視覚センシング機構はグローバルな特徴を抽出するが、触覚機構は局所的な特徴を抽出することでそれを補完する。 文献におけるビズオタクティルデータセットの欠如は、人間のテクスチャ知覚に類似したマルチモーダル融合戦略を研究する上での課題である。 本稿では,既存の触覚データセットを補完する視覚データセットを提案する。 本稿では,要約,連結,最大プール,注意という4種類の融合戦略を用いて,視覚と触覚データを融合する新しい深層融合アーキテクチャを提案する。 本モデルでは,触覚のみ (SVM - 92.60%) と視覚のみ (FENet-50 - 85.01%) で表面粗さ分類精度が97.22%向上した。 いくつかの融合技術の中で、注意誘導アーキテクチャはより良い分類精度をもたらす。 本研究は,人間のテクスチャ知覚に類似し,提案するモデルは2つのモダリティ(視覚と触覚)の重み付けの組み合わせを選択し,それによって表面粗さの分類精度が向上することを示し,視覚モダリティが失敗する触覚モダリティの重み付けを最大化する。

Human texture perception is a weighted average of multi-sensory inputs: visual and tactile. While the visual sensing mechanism extracts global features, the tactile mechanism complements it by extracting local features. The lack of coupled visuotactile datasets in the literature is a challenge for studying multimodal fusion strategies analogous to human texture perception. This paper presents a visual dataset that augments an existing tactile dataset. We propose a novel deep fusion architecture that fuses visual and tactile data using four types of fusion strategies: summation, concatenation, max-pooling, and attention. Our model shows significant performance improvements (97.22%) in surface roughness classification accuracy over tactile only (SVM - 92.60%) and visual only (FENet-50 - 85.01%) architectures. Among the several fusion techniques, attention-guided architecture results in better classification accuracy. Our study shows that analogous to human texture perception, the proposed model chooses a weighted combination of the two modalities (visual and tactile), thus resulting in higher surface roughness classification accuracy; and it chooses to maximize the weightage of the tactile modality where the visual modality fails and vice-versa.
翻訳日:2022-09-20 16:42:08 公開日:2022-09-18
# トランスダクティブFew-Shot分類における適応次元削減と変分推論

Adaptive Dimension Reduction and Variational Inference for Transductive Few-Shot Classification ( http://arxiv.org/abs/2209.08527v1 )

ライセンス: Link先を確認
Yuqing Hu, St\'ephane Pateux, Vincent Gripon(参考訳) データアノテーションのコストと、数ショットの領域でラベルなしサンプルによって提供される精度の増加を考慮すると、トランスダクティブな少数ショット学習が注目を集めている。 特にFew-Shot Classification (FSC)では、未知のパラメータに対する可能性や後肢の最大化を目的とした特徴分布を探索している。 この流れに従い、FSCとクラスタリングの並列性を考慮し、データの欠如による推定の不確実性や、各クラスに関連するクラスタの統計的特性をよりよく考慮することを模索する。 そこで本稿では,確率線形判別分析に基づく適応次元削減法により,変分ベイズ推定に基づく新たなクラスタリング手法を提案する。 提案手法は, 各種Few-Shotベンチマークにおける実測的非バランスなトランスダクティブ・セッティングの精度を, 従来研究で用いた機能に適用した場合に, 最大6\%の精度で向上させる。 また,バランスの取れた設定に適用した場合,実例に相反するクラスバランスアーチファクトを使わずに,非常に競争力のある結果が得られる。 また,本手法を高性能な事前訓練バックボーンに適用し,提案手法の汎用性を示すとともに,現状の精度をさらに上回る結果を得た。

Transductive Few-Shot learning has gained increased attention nowadays considering the cost of data annotations along with the increased accuracy provided by unlabelled samples in the domain of few shot. Especially in Few-Shot Classification (FSC), recent works explore the feature distributions aiming at maximizing likelihoods or posteriors with respect to the unknown parameters. Following this vein, and considering the parallel between FSC and clustering, we seek for better taking into account the uncertainty in estimation due to lack of data, as well as better statistical properties of the clusters associated with each class. Therefore in this paper we propose a new clustering method based on Variational Bayesian inference, further improved by Adaptive Dimension Reduction based on Probabilistic Linear Discriminant Analysis. Our proposed method significantly improves accuracy in the realistic unbalanced transductive setting on various Few-Shot benchmarks when applied to features used in previous studies, with a gain of up to $6\%$ in accuracy. In addition, when applied to balanced setting, we obtain very competitive results without making use of the class-balance artefact which is disputable for practical use cases. We also provide the performance of our method on a high performing pretrained backbone, with the reported results further surpassing the current state-of-the-art accuracy, suggesting the genericity of the proposed method.
翻訳日:2022-09-20 16:41:44 公開日:2022-09-18
# RankFeat: アウト・オブ・ディストリビューション検出のための Rank-1 特徴除去

RankFeat: Rank-1 Feature Removal for Out-of-distribution Detection ( http://arxiv.org/abs/2209.08590v1 )

ライセンス: Link先を確認
Yue Song, Nicu Sebe, Wei Wang(参考訳) out-of-distribution(ood)検出のタスクは、実際の環境で機械学習モデルをデプロイする上で非常に重要です。 本稿では,in-distribution (id) と ood の特徴の特異値分布がかなり異なることを観察する。 ood 特徴行列は id 特徴よりも支配的特異値が大きい傾向にあり,ood サンプルのクラス予測はそれらによって決定される。 この観測は、最高特異値とそれに関連する特異ベクトルからなるランク1行列を高次特徴量から除去することで、OOD検出のための単純で効果的な \texttt{RankFeat} アプローチである \texttt{RankFeat} を提案する(つまり、$\mathbf{X}{-} \mathbf{s}_{1}\mathbf{u}_{1}\mathbf{v}_{1}^{T}$)。 texttt{RankFeat} は \emph{state-of-the-art} のパフォーマンスを達成し、前のベストメソッドと比較して平均偽陽性率 (FPR95) を 17.90 % 削減する。 実験結果を支持するために,広範囲なアブレーション研究と包括的理論解析を行った。

The task of out-of-distribution (OOD) detection is crucial for deploying machine learning models in real-world settings. In this paper, we observe that the singular value distributions of the in-distribution (ID) and OOD features are quite different: the OOD feature matrix tends to have a larger dominant singular value than the ID feature, and the class predictions of OOD samples are largely determined by it. This observation motivates us to propose \texttt{RankFeat}, a simple yet effective \texttt{post hoc} approach for OOD detection by removing the rank-1 matrix composed of the largest singular value and the associated singular vectors from the high-level feature (\emph{i.e.,} $\mathbf{X}{-} \mathbf{s}_{1}\mathbf{u}_{1}\mathbf{v}_{1}^{T}$). \texttt{RankFeat} achieves the \emph{state-of-the-art} performance and reduces the average false positive rate (FPR95) by 17.90\% compared with the previous best method. Extensive ablation studies and comprehensive theoretical analyses are presented to support the empirical results.
翻訳日:2022-09-20 16:41:20 公開日:2022-09-18
# ランドマーク特徴の融合による成人顔面表情の深層適応

Deep Adaptation of Adult-Child Facial Expressions by Fusing Landmark Features ( http://arxiv.org/abs/2209.08614v1 )

ライセンス: Link先を確認
Megan A. Witherow, Manar D. Samad, Norou Diawara, Haim Y. Bar, and Khan M. Iftekharuddin(参考訳) 顔の感情のイメージングは、成人を通じて子供の心理生理学的特性を測定するために、特に自閉症スペクトラム障害のような生涯の状況を監視するために用いられる。 深い畳み込みニューラルネットワークは、成人の表情を分類する有望な結果を示している。 しかし、成人のベンチマークデータを用いて訓練された分類器モデルは、精神物理学的発達の相違による児童表現の学習には適さない。 同様に、子供のデータで訓練されたモデルは、大人の表現分類が不十分である。 本稿では,共用潜在空間における大人と子どもの表現の分布を同時に整列させるドメイン適応法を提案する。 さらに、年齢変化の年齢変化は、年齢不変の顔認識において研究されるが、成人の表情分類では未熟である。 我々は,複数の分野からインスピレーションを得て,成人の表情分類のためのBEtaMix Selected Landmark Features (FACE-BE-SELF) を用いた深層適応FACial Expressionを提案する。 文献の中で初めて、表情、ドメイン、アイデンティティ因子との相関に基づいて顔の特徴を分解し選択するために、ベータ分布の混合物が使用される。 2組の成人児データセット上でFACE-BE-SELFを評価する。 提案手法は,成人・児童表現の潜在表現の整合において,成人の転校学習や他のベースラインドメイン適応手法よりも優れている。

Imaging of facial affects may be used to measure psychophysiological attributes of children through their adulthood, especially for monitoring lifelong conditions like Autism Spectrum Disorder. Deep convolutional neural networks have shown promising results in classifying facial expressions of adults. However, classifier models trained with adult benchmark data are unsuitable for learning child expressions due to discrepancies in psychophysical development. Similarly, models trained with child data perform poorly in adult expression classification. We propose domain adaptation to concurrently align distributions of adult and child expressions in a shared latent space to ensure robust classification of either domain. Furthermore, age variations in facial images are studied in age-invariant face recognition yet remain unleveraged in adult-child expression classification. We take inspiration from multiple fields and propose deep adaptive FACial Expressions fusing BEtaMix SElected Landmark Features (FACE-BE-SELF) for adult-child facial expression classification. For the first time in the literature, a mixture of Beta distributions is used to decompose and select facial features based on correlations with expression, domain, and identity factors. We evaluate FACE-BE-SELF on two pairs of adult-child data sets. Our proposed FACE-BE-SELF approach outperforms adult-child transfer learning and other baseline domain adaptation methods in aligning latent representations of adult and child expressions.
翻訳日:2022-09-20 16:40:50 公開日:2022-09-18
# 学習する時間を学ぶ - 継続的学習におけるリプレイスケジューリング

Learn the Time to Learn: Replay Scheduling in Continual Learning ( http://arxiv.org/abs/2209.08660v1 )

ライセンス: Link先を確認
Marcus Klasson, Hedvig Kjellstr\"om, Cheng Zhang(参考訳) リプレイ手法は、歴史的データへのアクセスが限られているにもかかわらず、継続的な学習シナリオにおける破滅的な忘れを緩和することに成功した。 しかし、多くの実世界のアプリケーションでは履歴データの保存は安価だが、処理時間の制約によりすべての履歴データの再生が禁止される。 そこで本研究では,様々な時間ステップでどのタスクをリプレイするかを学習するリプレイスケジュールを学習する,連続学習システムのための学習時間を提案する。 学習時間を学習することの重要性を示すために,まずモンテカルロ木探索を用いて適切な再生スケジュールを見つけ,連続的な学習性能の点から一定のスケジューリングポリシーを上回り得ることを示す。 さらに,スケジューリング効率を向上するために,計算コストを伴わずに新たな連続学習シナリオに一般化可能なリプレイスケジューリングポリシーの学習に強化学習を用いることを提案する。 実験では、学習する時間を学習する利点を示し、現在の継続的な学習研究を現実世界のニーズに近づける。

Replay methods have shown to be successful in mitigating catastrophic forgetting in continual learning scenarios despite having limited access to historical data. However, storing historical data is cheap in many real-world applications, yet replaying all historical data would be prohibited due to processing time constraints. In such settings, we propose learning the time to learn for a continual learning system, in which we learn replay schedules over which tasks to replay at different time steps. To demonstrate the importance of learning the time to learn, we first use Monte Carlo tree search to find the proper replay schedule and show that it can outperform fixed scheduling policies in terms of continual learning performance. Moreover, to improve the scheduling efficiency itself, we propose to use reinforcement learning to learn the replay scheduling policies that can generalize to new continual learning scenarios without added computational cost. In our experiments, we show the advantages of learning the time to learn, which brings current continual learning research closer to real-world needs.
翻訳日:2022-09-20 16:40:29 公開日:2022-09-18
# 人間入力によるロバストなオフポリティ評価に向けて

Towards Robust Off-Policy Evaluation via Human Inputs ( http://arxiv.org/abs/2209.08682v1 )

ライセンス: Link先を確認
Harvineet Singh, Shalmali Joshi, Finale Doshi-Velez, Himabindu Lakkaraju(参考訳) オフ・ポリティ・アセスメント(OPE)手法は、直接配置がしばしば不可能、非倫理的、あるいは高価である医療などの高額な領域でポリシーを評価するための重要なツールである。 デプロイメント環境が変更される(すなわちデータセットシフト)と期待されている場合、OPEメソッドはそのような変更の中でポリシーを堅牢に評価することが重要である。 既存のアプローチでは、環境の観測可能な性質を任意に変更できる大規模なシフトに対して堅牢性を考慮する。 これはしばしば、ユーティリティの非常に悲観的な見積もりをもたらし、配置に有用であったであろうポリシーを無効にする。 本稿では、ドメイン知識がポリシーの効用をより現実的な評価にどのように役立つかを調査することで、上記の問題に対処します。 環境のどの側面が変更可能かという人間の入力を活用し、これらの側面へのシフトのみを考慮に入れたope法を適用する。 具体的には,ユーザの入力に基づいてデータ内の共変量のサブセットへのシフトを考慮し,これらのシフトの下で最悪のユースケースを推定する,新しいフレームワークであるロバスト ope (rope)を提案する。 次に,前述した文脈的バンディットとマルコフ決定過程のシフトに頑健な計算効率の高いアルゴリズムを開発した。 また,これらのアルゴリズムのサンプル複雑性を理論的に解析する。 医療領域からの合成データと実世界のデータセットの広範な実験は、このアプローチが現実的なデータセットのシフトを正確に捉えるだけでなく、悲観的なポリシー評価を低下させることを示している。

Off-policy Evaluation (OPE) methods are crucial tools for evaluating policies in high-stakes domains such as healthcare, where direct deployment is often infeasible, unethical, or expensive. When deployment environments are expected to undergo changes (that is, dataset shifts), it is important for OPE methods to perform robust evaluation of the policies amidst such changes. Existing approaches consider robustness against a large class of shifts that can arbitrarily change any observable property of the environment. This often results in highly pessimistic estimates of the utilities, thereby invalidating policies that might have been useful in deployment. In this work, we address the aforementioned problem by investigating how domain knowledge can help provide more realistic estimates of the utilities of policies. We leverage human inputs on which aspects of the environments may plausibly change, and adapt the OPE methods to only consider shifts on these aspects. Specifically, we propose a novel framework, Robust OPE (ROPE), which considers shifts on a subset of covariates in the data based on user inputs, and estimates worst-case utility under these shifts. We then develop computationally efficient algorithms for OPE that are robust to the aforementioned shifts for contextual bandits and Markov decision processes. We also theoretically analyze the sample complexity of these algorithms. Extensive experimentation with synthetic and real world datasets from the healthcare domain demonstrates that our approach not only captures realistic dataset shifts accurately, but also results in less pessimistic policy evaluations.
翻訳日:2022-09-20 16:32:48 公開日:2022-09-18
# 表面的類似事例の識別による視覚的質問応答における言語優先の克服

Overcoming Language Priors in Visual Question Answering via Distinguishing Superficially Similar Instances ( http://arxiv.org/abs/2209.08529v1 )

ライセンス: Link先を確認
Yike Wu, Yu Zhao, Shiwan Zhao, Ying Zhang, Xiaojie Yuan, Guoqing Zhao, Ning Jiang(参考訳) VQA(Visual Question Answering)の大きな進歩にもかかわらず、現在のVQAモデルは、入力を本当に理解することなく予測を行うために、質問タイプとその対応する頻繁な回答(言語優先)の間の表面的相関に大きく依存している。 本研究では、同じ質問型で異なる回答を持つトレーニングインスタンスを \textit{superficially similar instances} として定義し、そのようなインスタンスでvqaモデルの混乱に先立って言語を属性付けする。 この問題を解決するために,VQAモデルに表面的類似のインスタンスを区別するよう明示的に促す新しいトレーニングフレームワークを提案する。 具体的には、各トレーニングインスタンスに対して、まずその表面的に類似した集合を含む集合を構築します。 次に、提案した区別モジュールを利用して、解空間内のインスタンスとそれとの距離を拡大する。 このようにして、vqaモデルは、質問型を超えて入力の他の部分に集中せざるを得なくなり、言語を優先的に克服するのに役立ちます。 実験の結果,VQA-CP v2の最先端性能が得られた。 コードは \href{https://github.com/wyk-nku/Distinguishing-VQA.git}{Distinguishing-VQA} で公開されている。

Despite the great progress of Visual Question Answering (VQA), current VQA models heavily rely on the superficial correlation between the question type and its corresponding frequent answers (i.e., language priors) to make predictions, without really understanding the input. In this work, we define the training instances with the same question type but different answers as \textit{superficially similar instances}, and attribute the language priors to the confusion of VQA model on such instances. To solve this problem, we propose a novel training framework that explicitly encourages the VQA model to distinguish between the superficially similar instances. Specifically, for each training instance, we first construct a set that contains its superficially similar counterparts. Then we exploit the proposed distinguishing module to increase the distance between the instance and its counterparts in the answer space. In this way, the VQA model is forced to further focus on the other parts of the input beyond the question type, which helps to overcome the language priors. Experimental results show that our method achieves the state-of-the-art performance on VQA-CP v2. Codes are available at \href{https://github.com/wyk-nku/Distinguishing-VQA.git}{Distinguishing-VQA}.
翻訳日:2022-09-20 16:31:29 公開日:2022-09-18
# キングスアリーナの栄誉:競争強化学習の一般化のための環境

Honor of Kings Arena: an Environment for Generalization in Competitive Reinforcement Learning ( http://arxiv.org/abs/2209.08483v1 )

ライセンス: Link先を確認
Hua Wei, Jingxiao Chen, Xiyang Ji, Hongyang Qin, Minwen Deng, Siqin Li, Liang Wang, Weinan Zhang, Yong Yu, Lin Liu, Lanxiao Huang, Deheng Ye, Qiang Fu, Wei Yang(参考訳) 本稿では,現在世界で最も人気のあるゲームの一つであるHonor of Kingsをベースとした強化学習環境であるHonor of Kings Arenaを紹介する。 これまでの研究と比較すると,競争強化学習における新たな一般化課題が提示されている。 1人のエージェントが対戦相手と競い合うマルチエージェント問題であり、制御対象が多様であり、競合相手が多様であることから、一般化能力が必要である。 我々は,Honor of Kingsドメインの観察,行動,報酬の仕様を説明し,ゲームエンジンと通信するためのオープンソースのPythonベースのインターフェースを提供する。 キングス・アリーナにおけるタスクを多用した20の目標ヒーローと、実現可能な計算資源を備えたRL法の初期ベースライン結果を提供する。 最後に,アリーナ国王が課した一般化の課題と課題に対する改善の可能性を紹介する。 環境クラスを含むすべてのソフトウェアはhttps://github.com/tencent-ailab/hok_env で公開されている。 ドキュメントはhttps://aiarena.tencent.com/hok/doc/で入手できる。

This paper introduces Honor of Kings Arena, a reinforcement learning (RL) environment based on Honor of Kings, one of the world's most popular games at present. Compared to other environments studied in most previous work, ours presents new generalization challenges for competitive reinforcement learning. It is a multi-agent problem with one agent competing against its opponent; and it requires the generalization ability as it has diverse targets to control and diverse opponents to compete with. We describe the observation, action, and reward specifications for the Honor of Kings domain and provide an open-source Python-based interface for communicating with the game engine. We provide twenty target heroes with a variety of tasks in Honor of Kings Arena and present initial baseline results for RL-based methods with feasible computing resources. Finally, we showcase the generalization challenges imposed by Honor of Kings Arena and possible remedies to the challenges. All of the software, including the environment-class, are publicly available at https://github.com/tencent-ailab/hok_env . The documentation is available at https://aiarena.tencent.com/hok/doc/ .
翻訳日:2022-09-20 16:24:14 公開日:2022-09-18
# CoresetsとConvex Geometryによるニューラルネットワークのプルーニング:想定外

Pruning Neural Networks via Coresets and Convex Geometry: Towards No Assumptions ( http://arxiv.org/abs/2209.08554v1 )

ライセンス: Link先を確認
Murad Tukan, Loay Mualem, Alaa Maalouf(参考訳) プルーニングはディープニューラルネットワーク(DNN)を圧縮する主要なアプローチの1つである。 近年,圧縮率と近似誤差とのトレードオフに関する理論的保証の利点が加わり,コアセット(データ要約)がpruning dnnに活用されている。 しかし、この領域のコアセットはデータ依存か、モデルの重みと入力の両方に制限的な仮定の下で生成される。 現実のシナリオでは、そのような仮定が満たされることはほとんどなく、コアセットの適用性を制限する。 この目的のために、モデルの重みを軽視し、トレーニングデータに仮定することなく、そのようなコアセットを計算するための、新しくて堅牢なフレームワークを提案する。 その考え方は、以下の層の出力に関して各層における各ニューロンの重要性を計算することである。 これは、L\"{o}wner ellipsoid と Caratheodory の定理の組み合わせによって達成される。 提案手法はデータ独立であり,様々なネットワークやデータセットに適用可能であり,理論的にサポートされている。 実験結果から,提案手法は,既存のコアセットに基づくニューラルプルーニング手法よりも,幅広いネットワークやデータセットにおいて優れていることがわかった。 例えば、imagenet上のresnet50の圧縮レートは6,2\%$で、精度は1.09\%$である。

Pruning is one of the predominant approaches for compressing deep neural networks (DNNs). Lately, coresets (provable data summarizations) were leveraged for pruning DNNs, adding the advantage of theoretical guarantees on the trade-off between the compression rate and the approximation error. However, coresets in this domain were either data-dependent or generated under restrictive assumptions on both the model's weights and inputs. In real-world scenarios, such assumptions are rarely satisfied, limiting the applicability of coresets. To this end, we suggest a novel and robust framework for computing such coresets under mild assumptions on the model's weights and without any assumption on the training data. The idea is to compute the importance of each neuron in each layer with respect to the output of the following layer. This is achieved by a combination of L\"{o}wner ellipsoid and Caratheodory theorem. Our method is simultaneously data-independent, applicable to various networks and datasets (due to the simplified assumptions), and theoretically supported. Experimental results show that our method outperforms existing coreset based neural pruning approaches across a wide range of networks and datasets. For example, our method achieved a $62\%$ compression rate on ResNet50 on ImageNet with $1.09\%$ drop in accuracy.
翻訳日:2022-09-20 16:23:57 公開日:2022-09-18
# DeepTOP:MDPとRMABのためのDeep Threshold-Optimal Policy

DeepTOP: Deep Threshold-Optimal Policy for MDPs and RMABs ( http://arxiv.org/abs/2209.08646v1 )

ライセンス: Link先を確認
Khaled Nakhleh, I-Hong Hou(参考訳) 制御問題に対する最適しきい値ポリシーを学習する問題を考察する。 閾値ポリシーは、システム状態の要素が特定のしきい値を超え、その値がシステム状態の他の要素によって決定されるかどうかを評価することによって制御決定を行う。 しきい値ポリシーの単調性を活用することで、それらの政策勾配が驚くほど単純な表現であることを証明する。 この簡単な表現を用いて,オフ・ポリティカル・アクタ・クリティック・アルゴリズムを構築し,最適なしきい値ポリシーを学習する。 シミュレーションの結果,本手法はモノトーン特性を活用できるため,他の強化学習アルゴリズムよりも優れていた。 さらに, restless multi-armed bandit問題に対する強力なツールであるwhitle indexが, 代替問題に対する最適しきい値ポリシーと等価であることを示す。 この観察は、代替問題における最適しきい値ポリシーを学習することにより、ウィトル指数を求める単純なアルゴリズムにつながる。 シミュレーションの結果,このアルゴリズムは間接的な手法を用いてWhittleインデックスを学習する最近のいくつかの研究よりもはるかに高速であることがわかった。

We consider the problem of learning the optimal threshold policy for control problems. Threshold policies make control decisions by evaluating whether an element of the system state exceeds a certain threshold, whose value is determined by other elements of the system state. By leveraging the monotone property of threshold policies, we prove that their policy gradients have a surprisingly simple expression. We use this simple expression to build an off-policy actor-critic algorithm for learning the optimal threshold policy. Simulation results show that our policy significantly outperforms other reinforcement learning algorithms due to its ability to exploit the monotone property. In addition, we show that the Whittle index, a powerful tool for restless multi-armed bandit problems, is equivalent to the optimal threshold policy for an alternative problem. This observation leads to a simple algorithm that finds the Whittle index by learning the optimal threshold policy in the alternative problem. Simulation results show that our algorithm learns the Whittle index much faster than several recent studies that learn the Whittle index through indirect means.
翻訳日:2022-09-20 16:23:36 公開日:2022-09-18
# 意味セグメンテーションを用いた省エネルギー自動街灯制御システム

Energy Efficient Automatic Streetlight Controlling System using Semantic Segmentation ( http://arxiv.org/abs/2209.08633v1 )

ライセンス: Link先を確認
Md Sakib Ullah Sourav, Huidong Wang(参考訳) 本研究は,映像からのセマンティックイメージセグメンテーションにより,歩行者や車両の存在を認識して街灯を逆に薄めることで,発光ダイオード(LED)の街灯を適切な明るさで自動的に照らすことのできる,コンピュータビジョン(CCTV)カメラを搭載した新しい街灯管理システムを開発することを目的とする。

This study aims to develop a novel streetlight management system powered by computer vision technology mounted with the close circuit television (CCTV) camera that allows the light emitting diode (LED) streetlight to automatically light up with proper brightness by recognizing the presence of pedestrians or vehicles and reversely dimming the streetlight in their absence by semantic image segmentation from video.
翻訳日:2022-09-20 16:15:26 公開日:2022-09-18
# 妖精のメガネを通して--画像データセットの偏見を緩和する

Through a fair looking-glass: mitigating bias in image datasets ( http://arxiv.org/abs/2209.08648v1 )

ライセンス: Link先を確認
Amirarsalan Rajabi, Mehdi Yazdani-Jahromi, Ozlem Ozmen Garibay, Gita Sukthankar(参考訳) 近年のコンピュータビジョンアプリケーションの成長に伴い、それらがどの程度公平で偏りのないものなのかという疑問はまだ解明されていない。 トレーニングデータに存在するバイアスがモデルに反映される、あるいは増幅される、という証拠はたくさんあります。 拡張データセットに基づくモデルを含む、画像データセットのデバイアスに関する多くの従来の方法は、実装するのに計算コストがかかる。 本研究では,画像データセットを復元し,対象変数間の統計的依存性を最小化する高速かつ効果的なモデルを提案する。 本アーキテクチャは,画像再構成のためのu-netと,対象属性と保護属性の統計的依存性をペナライズする事前学習された分類器を組み合わせたものである。 celebaデータセットにおける提案モデルを評価し,その結果を最先端のデバイアス法と比較し,このモデルが有望な公平性・正確性の組み合わせを実現することを示す。

With the recent growth in computer vision applications, the question of how fair and unbiased they are has yet to be explored. There is abundant evidence that the bias present in training data is reflected in the models, or even amplified. Many previous methods for image dataset de-biasing, including models based on augmenting datasets, are computationally expensive to implement. In this study, we present a fast and effective model to de-bias an image dataset through reconstruction and minimizing the statistical dependence between intended variables. Our architecture includes a U-net to reconstruct images, combined with a pre-trained classifier which penalizes the statistical dependence between target attribute and the protected attribute. We evaluate our proposed model on CelebA dataset, compare the results with a state-of-the-art de-biasing method, and show that the model achieves a promising fairness-accuracy combination.
翻訳日:2022-09-20 16:15:16 公開日:2022-09-18
# 物語における文字間の対話の理解と生成のためのベンチマーク

A Benchmark for Understanding and Generating Dialogue between Characters in Stories ( http://arxiv.org/abs/2209.08524v1 )

ライセンス: Link先を確認
Jianzhu Yao, Ziqi Liu, Jian Guan, Minlie Huang(参考訳) 多くの古典的おとぎ話、フィクション、脚本は対話を利用してストーリープロットを前進させ、キャラクターを確立する。 本研究は,物語における対話を機械が理解・生成できるかどうかを検討する最初の研究である。 そこで本研究では,新たな課題としてマスキング対話生成と対話話者認識,すなわち欠落対話のターン生成と,指定された対話のターンに対する話者予測の2つを提案する。 105kの中国の物語からなり、大量の対話がプロットに織り込まれ、評価を支援する新しいデータセットダイヤルストーリーを構築した。 DialStoryの自動評価と手動評価で既存のモデルをテストすることで,提案課題の難しさを示す。 さらに,これらのタスクの性能向上のために,明示的な文字表現の学習を提案する。 広汎な実験とケーススタディにより,本手法はより一貫性のある情報対話を生成でき,強いベースラインよりも高い話者認識精度が得られることが示された。

Many classical fairy tales, fiction, and screenplays leverage dialogue to advance story plots and establish characters. We present the first study to explore whether machines can understand and generate dialogue in stories, which requires capturing traits of different characters and the relationships between them. To this end, we propose two new tasks including Masked Dialogue Generation and Dialogue Speaker Recognition, i.e., generating missing dialogue turns and predicting speakers for specified dialogue turns, respectively. We build a new dataset DialStory, which consists of 105k Chinese stories with a large amount of dialogue weaved into the plots to support the evaluation. We show the difficulty of the proposed tasks by testing existing models with automatic and manual evaluation on DialStory. Furthermore, we propose to learn explicit character representations to improve performance on these tasks. Extensive experiments and case studies show that our approach can generate more coherent and informative dialogue, and achieve higher speaker recognition accuracy than strong baselines.
翻訳日:2022-09-20 16:06:45 公開日:2022-09-18
# 共変量とラベルシフト時のモデル性能の推定と説明

Estimating and Explaining Model Performance When Both Covariates and Labels Shift ( http://arxiv.org/abs/2209.08436v1 )

ライセンス: Link先を確認
Lingjiao Chen and Matei Zaharia and James Zou(参考訳) デプロイされた機械学習(ML)モデルは、トレーニングデータとは異なる新しいユーザデータに遭遇することが多い。 したがって、与えられたモデルが新しいデータでどれだけうまく機能するかを推定することは、信頼できるMLアプリケーションへの重要なステップである。 しかし、データ分散は柔軟に変化する可能性があり、新しいデータにはラベルがない可能性があるため、これは非常に困難です。 本稿では,両ラベルの結合シフトといくつかの特徴を考慮した分散シフトモデルであるスパース・ジョイント・シフト(SJS)を提案する。 これはラベルシフトやスパース共変量シフトを含むいくつかの既存のシフトモデルを統一し、一般化する。 SJSが同定可能な数学的条件について述べる。 さらに,SJS下での分散シフトを特徴付けるアルゴリズムフレームワークSEESを提案し,ラベルなしで新しいデータ上でのモデルの性能を推定する。 各種MLモデルを用いた実世界のデータセットについて広範な実験を行った。 データセットと分散シフトの相違により、SEESは既存のアプローチよりも大きな(桁違いの)シフト推定誤差の改善を実現している。

Deployed machine learning (ML) models often encounter new user data that differs from their training data. Therefore, estimating how well a given model might perform on the new data is an important step toward reliable ML applications. This is very challenging, however, as the data distribution can change in flexible ways, and we may not have any labels on the new data, which is often the case in monitoring settings. In this paper, we propose a new distribution shift model, Sparse Joint Shift (SJS), which considers the joint shift of both labels and a few features. This unifies and generalizes several existing shift models including label shift and sparse covariate shift, where only marginal feature or label distribution shifts are considered. We describe mathematical conditions under which SJS is identifiable. We further propose SEES, an algorithmic framework to characterize the distribution shift under SJS and to estimate a model's performance on new data without any labels. We conduct extensive experiments on several real-world datasets with various ML models. Across different datasets and distribution shifts, SEES achieves significant (up to an order of magnitude) shift estimation error improvements over existing approaches.
翻訳日:2022-09-20 15:49:33 公開日:2022-09-18
# hipart:階層型分割クラスタリングツールボックス

HiPart: Hierarchical Divisive Clustering Toolbox ( http://arxiv.org/abs/2209.08680v1 )

ライセンス: Link先を確認
Panagiotis Anagnostou, Sotiris Tasoulis, Vassilis Plagianakos, Dimitris Tasoulis(参考訳) 本稿では,階層型クラスタリングアルゴリズムの効率的かつ解釈可能な実装を提供する,オープンソースのpythonライブラリであるhipartパッケージを提案する。 HiPartは、クラスタリング結果の直接的介入を可能にする実行ステップの操作のためのインタラクティブな視覚化をサポートする。 このパッケージは、実装されたクラスタリング方法論の計算効率に焦点が当てられているため、ビッグデータアプリケーションに適している。 使用する依存関係はpythonビルドインパッケージか、高度にメンテナンスされた安定した外部パッケージである。 このソフトウェアはMITライセンスで提供されている。 パッケージのソースコードとドキュメントはhttps://github.com/panagiotisanagnostou/hipartにある。

This paper presents the HiPart package, an open-source native python library that provides efficient and interpret-able implementations of divisive hierarchical clustering algorithms. HiPart supports interactive visualizations for the manipulation of the execution steps allowing the direct intervention of the clustering outcome. This package is highly suited for Big Data applications as the focus has been given to the computational efficiency of the implemented clustering methodologies. The dependencies used are either Python build-in packages or highly maintained stable external packages. The software is provided under the MIT license. The package's source code and documentation can be found at https://github.com/panagiotisanagnostou/HiPart.
翻訳日:2022-09-20 15:49:16 公開日:2022-09-18
# RDD2022: 道路被害自動検出のための多国間画像データセット

RDD2022: A multi-national image dataset for automatic Road Damage Detection ( http://arxiv.org/abs/2209.08538v1 )

ライセンス: Link先を確認
Deeksha Arya (1 and 2), Hiroya Maeda (3), Sanjay Kumar Ghosh (1), Durga Toshniwal (1), Yoshihide Sekimoto (2) ((1) Indian Institute of Technology Roorkee, India, (2) The University of Tokyo, Japan, (3) UrbanX Technologies, Inc., Tokyo, Japan)(参考訳) このデータには、日本、インド、チェコ、ノルウェー、米国、中国の6カ国の47,420枚の道路画像が含まれている。 画像には55,000件以上の道路損傷が記録されている。 本データセットでは, 縦断裂, 横断裂, アリゲータ亀裂, ポットホールの4種類の道路損傷を捉えた。 この注釈付きデータセットは、道路損傷を自動的に検出し分類する深層学習に基づく手法を開発することを想定している。 このデータセットは、クラウドセンシングに基づく道路被害検出チャレンジ(CRDDC2022)の一部としてリリースされた。 CRDDC2022の課題は、世界中の研究者を招き、複数の国で道路損傷の自動検出ソリューションを提案することである。 自治体や道路機関は、RDD2022データセットと、RDD2022を用いて訓練された道路条件の自動監視モデルを利用することができる。 さらに、コンピュータビジョンと機械学習の研究者は、データセットを使用して、同じタイプの画像ベースのアプリケーション(分類、オブジェクト検出など)に対して、異なるアルゴリズムのパフォーマンスをベンチマークすることができる。

The data article describes the Road Damage Dataset, RDD2022, which comprises 47,420 road images from six countries, Japan, India, the Czech Republic, Norway, the United States, and China. The images have been annotated with more than 55,000 instances of road damage. Four types of road damage, namely longitudinal cracks, transverse cracks, alligator cracks, and potholes, are captured in the dataset. The annotated dataset is envisioned for developing deep learning-based methods to detect and classify road damage automatically. The dataset has been released as a part of the Crowd sensing-based Road Damage Detection Challenge (CRDDC2022). The challenge CRDDC2022 invites researchers from across the globe to propose solutions for automatic road damage detection in multiple countries. The municipalities and road agencies may utilize the RDD2022 dataset, and the models trained using RDD2022 for low-cost automatic monitoring of road conditions. Further, computer vision and machine learning researchers may use the dataset to benchmark the performance of different algorithms for other image-based applications of the same type (classification, object detection, etc.).
翻訳日:2022-09-20 15:47:35 公開日:2022-09-18
# PIM-QAT:PIMシステムのためのニューラルネットワーク量子化

PIM-QAT: Neural Network Quantization for Processing-In-Memory (PIM) Systems ( http://arxiv.org/abs/2209.08617v1 )

ライセンス: Link先を確認
Qing Jin, Zhiyu Chen, Jian Ren, Yanyu Li, Yanzhi Wang, Kaiyuan Yang(参考訳) ますます研究されているニューロモルフィックハードウェアであるProcessing-in-Memory (PIM)は、ディープラーニング推論のためのエネルギーとスループットの改善を約束している。 PIMは、メモリ内の非常に並列で効率的なアナログコンピューティングを活用し、従来のデジタルハードウェアにおけるデータ移動のボトルネックを回避する。 しかし、通常、ハードウェアの制約により解像度が制限された余分な量子化ステップ(すなわち pim 量子化)は、アナログ計算結果をデジタルドメインに変換するために必要である。 一方、非理想効果は、不完全なアナログ-デジタルインターフェースのため、PIM量子化において広範囲に存在する。 本稿では,すべてのPIMシステムに広く普及しているPIM量子化を取り入れた量子化ネットワークのトレーニング手法を提案する。 具体的には、PIM量子化対応トレーニング(PIM-QAT)アルゴリズムを提案し、トレーニングダイナミクスを分析し、トレーニング収束を容易にすることにより、後方および前方伝播中の再スケーリング手法を提案する。 また,実PIMチップにおける非理想線形性と確率的熱雑音の悪影響を抑制するために,バッチ正規化(BN)キャリブレーションと調整精度トレーニングという2つの手法を提案する。 提案手法は,3つの主流PIM分解方式,およびプロトタイプチップ上での物理的検証を行う。 この余分な量子化ステップを考慮せずにPIMシステムに直接訓練された量子化モデルをデプロイするのに比べ、本手法は大幅な改善をもたらす。 また、PIMシステムでは、CIFAR10とCIFAR100データセットをまたいだデジタルハードウェア上の従来の量子化モデルと同等の推測精度を達成し、最も人気のあるネットワークトポロジに様々なネットワーク深度を使用する。

Processing-in-memory (PIM), an increasingly studied neuromorphic hardware, promises orders of energy and throughput improvements for deep learning inference. Leveraging the massively parallel and efficient analog computing inside memories, PIM circumvents the bottlenecks of data movements in conventional digital hardware. However, an extra quantization step (i.e. PIM quantization), typically with limited resolution due to hardware constraints, is required to convert the analog computing results into digital domain. Meanwhile, non-ideal effects extensively exist in PIM quantization because of the imperfect analog-to-digital interface, which further compromises the inference accuracy. In this paper, we propose a method for training quantized networks to incorporate PIM quantization, which is ubiquitous to all PIM systems. Specifically, we propose a PIM quantization aware training (PIM-QAT) algorithm, and introduce rescaling techniques during backward and forward propagation by analyzing the training dynamics to facilitate training convergence. We also propose two techniques, namely batch normalization (BN) calibration and adjusted precision training, to suppress the adverse effects of non-ideal linearity and stochastic thermal noise involved in real PIM chips. Our method is validated on three mainstream PIM decomposition schemes, and physically on a prototype chip. Comparing with directly deploying conventionally trained quantized model on PIM systems, which does not take into account this extra quantization step and thus fails, our method provides significant improvement. It also achieves comparable inference accuracy on PIM systems as that of conventionally quantized models on digital hardware, across CIFAR10 and CIFAR100 datasets using various network depths for the most popular network topology.
翻訳日:2022-09-20 15:47:18 公開日:2022-09-18
# ERNIE-mmLayout:文書理解のためのマルチモード変換器

ERNIE-mmLayout: Multi-grained MultiModal Transformer for Document Understanding ( http://arxiv.org/abs/2209.08569v1 )

ライセンス: Link先を確認
Wenjin Wang, Zhengjie Huang, Bin Luo, Qianglong Chen, Qiming Peng, Yinxu Pan, Weichong Yin, Shikun Feng, Yu Sun, Dianhai Yu, Yin Zhang(参考訳) マルチモーダルトランスフォーマーの最近の取り組みは、視覚情報とテキスト情報の統合により、視覚リッチドキュメント理解(vrdu)タスクを改善した。 しかし、既存のアプローチは主に、単語や文書画像パッチのようなきめ細かい要素に焦点を当てており、フレーズのような自然な語彙単位や、顕著な画像領域のような健全な視覚領域を含む粗い要素から学ぶことは困難である。 本稿では,文書理解に有用な高密度情報と一貫した意味論を含む粗粒状要素に,より重要視する。 まず,マルチモーダル要素間の複雑な関係をモデル化する文書グラフを提案する。 次に,mmLayout と呼ばれるマルチモーダル変換器を提案し,そのグラフに基づいて,事前学習したマルチモーダル変換器に粗い情報を組み込む。 mmLayoutでは、粗粒度情報を細粒度から集約し、さらに処理した後、最終的な予測のために細粒度に融合する。 さらに、自然語彙単位の意味情報を活用するために、常識強化を導入する。 情報抽出と文書質問応答を含む4つのタスクにおける実験結果から,細粒度要素に基づくマルチモーダルトランスフォーマーの性能を向上でき,少ないパラメータで性能を向上できることがわかった。 定性解析は,粗粒要素の一貫した意味を捉えることができることを示す。

Recent efforts of multimodal Transformers have improved Visually Rich Document Understanding (VrDU) tasks via incorporating visual and textual information. However, existing approaches mainly focus on fine-grained elements such as words and document image patches, making it hard for them to learn from coarse-grained elements, including natural lexical units like phrases and salient visual regions like prominent image regions. In this paper, we attach more importance to coarse-grained elements containing high-density information and consistent semantics, which are valuable for document understanding. At first, a document graph is proposed to model complex relationships among multi-grained multimodal elements, in which salient visual regions are detected by a cluster-based method. Then, a multi-grained multimodal Transformer called mmLayout is proposed to incorporate coarse-grained information into existing pre-trained fine-grained multimodal Transformers based on the graph. In mmLayout, coarse-grained information is aggregated from fine-grained, and then, after further processing, is fused back into fine-grained for final prediction. Furthermore, common sense enhancement is introduced to exploit the semantic information of natural lexical units. Experimental results on four tasks, including information extraction and document question answering, show that our method can improve the performance of multimodal Transformers based on fine-grained elements and achieve better performance with fewer parameters. Qualitative analyses show that our method can capture consistent semantics in coarse-grained elements.
翻訳日:2022-09-20 15:39:17 公開日:2022-09-18
# 2次元視覚トランスフォーマーから3次元視覚タスクを解決できるか?

Can We Solve 3D Vision Tasks Starting from A 2D Vision Transformer? ( http://arxiv.org/abs/2209.07026v2 )

ライセンス: Link先を確認
Yi Wang and Zhiwen Fan and Tianlong Chen and Hehe Fan and Zhangyang Wang(参考訳) 視覚トランスフォーマー(vits)は、大規模な画像データセット上でトレーニングすることで2次元画像理解タスクを解決するのに効果的であることが証明されている。 しかし、トランスフォーマーが異種データのための"ユニバーサル"モデリングツールになり得るという期待が高まっているため、2Dおよび3Dタスク用のViTは、これまでほとんど転送不可能な全く異なるアーキテクチャ設計を採用してきた。 2Dと3D ViTアーキテクチャ間のギャップを埋めることができますか? 本稿では, パイプラインを再設計することなく, 入力レベルと出力レベルの最小限のカスタマイズしか行わず, 標準的な2D ViTアーキテクチャを用いて, 3次元視覚世界を理解するという魅力的な約束を示す。 2dの兄弟から3d vitを構築するために、パッチの埋め込みとトークンシーケンスを「膨らませる」とともに、3dデータ幾何にマッチするように設計された新しい位置符号化機構を伴います。 その結果、simple3d-formerと名付けられたminimalist 3d vitは、高度にカスタマイズされた3d特有のデザインと比較して、オブジェクト分類、ポイントクラウドセグメンテーション、屋内シーン検出といった一般的な3dタスクに対して驚くほど堅牢に動作します。 そのため、新しい3D ViTの強力なベースラインとして機能する。 さらに, 統一型2D-3D ViTの設計は, 科学的好奇心だけでなく, 実用的関連性も指摘する。 具体的には、Simple3D-Formerは、大規模な現実的な2D画像(例えば、ImageNet)からトレーニング済みの重量の富を自然に利用することができ、それによって3Dタスクのパフォーマンスを「無償で」向上させることができることを実証する。

Vision Transformers (ViTs) have proven to be effective, in solving 2D image understanding tasks by training over large-scale image datasets; and meanwhile as a somehow separate track, in modeling the 3D visual world too such as voxels or point clouds. However, with the growing hope that transformers can become the "universal" modeling tool for heterogeneous data, ViTs for 2D and 3D tasks have so far adopted vastly different architecture designs that are hardly transferable. That invites an (over-)ambitious question: can we close the gap between the 2D and 3D ViT architectures? As a piloting study, this paper demonstrates the appealing promise to understand the 3D visual world, using a standard 2D ViT architecture, with only minimal customization at the input and output levels without redesigning the pipeline. To build a 3D ViT from its 2D sibling, we "inflate" the patch embedding and token sequence, accompanied with new positional encoding mechanisms designed to match the 3D data geometry. The resultant "minimalist" 3D ViT, named Simple3D-Former, performs surprisingly robustly on popular 3D tasks such as object classification, point cloud segmentation and indoor scene detection, compared to highly customized 3D-specific designs. It can hence act as a strong baseline for new 3D ViTs. Moreover, we note that pursing a unified 2D-3D ViT design has practical relevance besides just scientific curiosity. Specifically, we demonstrate that Simple3D-Former naturally enables to exploit the wealth of pre-trained weights from large-scale realistic 2D images (e.g., ImageNet), which can be plugged in to enhancing the 3D task performance "for free".
翻訳日:2022-09-20 12:53:31 公開日:2022-09-18
# 超高次元・高関連特徴空間のための特徴選択統合深層学習

Feature Selection integrated Deep Learning for Ultrahigh Dimensional and Highly Correlated Feature Space ( http://arxiv.org/abs/2209.07011v2 )

ライセンス: Link先を確認
Arkaprabha Ganguli, Tapabrata Maiti(参考訳) 近年のディープラーニングは、画像、遺伝学、気候、医療データなどの複雑なデータセットを解析する実験的な成功により、ほぼすべての分野において関心を集めている。 開発のほとんどはブラックボックスマシンとして扱われるが、幅広い種類のアプリケーションに適用可能な解釈可能、信頼性、堅牢なディープラーニングモデルへの関心が高まっている。 機能選択されたディープラーニングはこの点に関して有望であることが証明されている。 しかし,近年の課題は,高騒音レベルに加えて,超高次元・高相関特徴選択の状況に対処していない。 本稿では,高度に相関のある予測器と制御された誤差率をクラスタレベルで発見するための深層学習の支援により,新しいスクリーニング・クリーニング戦略を提案する。 広範囲のシミュレーションシナリオに対する徹底的な実験的な評価は,提案手法の有効性を示すものである。 さらに, このアルゴリズムをリボフラビン生産と遺伝的関連性を理解するために, リボフラビン生産データセット(vitamin $B_2$)に実装した。 提案手法の利得は,他の最先端手法と比較して予測誤差を低くすることで示される。

In recent years, deep learning has been a topic of interest in almost all disciplines due to its impressive empirical success in analyzing complex data sets, such as imaging, genetics, climate, and medical data. While most of the developments are treated as black-box machines, there is an increasing interest in interpretable, reliable, and robust deep learning models applicable to a broad class of applications. Feature-selected deep learning is proven to be promising in this regard. However, the recent developments do not address the situations of ultra-high dimensional and highly correlated feature selection in addition to the high noise level. In this article, we propose a novel screening and cleaning strategy with the aid of deep learning for the cluster-level discovery of highly correlated predictors with a controlled error rate. A thorough empirical evaluation over a wide range of simulated scenarios demonstrates the effectiveness of the proposed method by achieving high power while having a minimal number of false discoveries. Furthermore, we implemented the algorithm in the riboflavin (vitamin $B_2$) production dataset in the context of understanding the possible genetic association with riboflavin production. The gain of the proposed methodology is illustrated by achieving lower prediction error compared to other state-of-the-art methods.
翻訳日:2022-09-20 12:52:56 公開日:2022-09-18
# 未来から学ぶ: セマンティックセグメンテーションのための新しい自己学習フレームワーク

Learning from Future: A Novel Self-Training Framework for Semantic Segmentation ( http://arxiv.org/abs/2209.06993v2 )

ライセンス: Link先を確認
Ye Du, Yujun Shen, Haochen Wang, Jingjing Fei, Wei Li, Liwei Wu, Rui Zhao, Zehua Fu, Qingjie Liu(参考訳) 自己学習は半教師付き学習において大きな可能性を秘めている。 その中核となる考え方は、ラベル付きデータで学んだモデルを使用して、ラベルなしサンプルの擬似ラベルを生成し、自らを教えることである。 有効な監視を得るために、アクティブな試みは、典型的には擬似ラベル予測にモーメント教師を用いるが、誤った予測が間違った監督信号を提供し、トレーニングプロセスに蓄積されるという確証バイアス問題を観察する。 このような欠点の主な原因は、教師が過去の生徒のみで更新されるため、普及している自己学習フレームワークが現在の状態を以前の知識で導く役割を果たすことである。 この問題を軽減するため,我々は,モデルが未来から学ぶことができる新しい自己学習戦略を提案する。 具体的には、各トレーニングステップにおいて、まず、生徒を仮想的に最適化し(すなわち、モデル重み付けに適用せずに勾配をキャッシング)、次に教師に仮想未来生徒を更新させ、最後に、教師に現在の生徒のための擬似ラベルを指導として作成するように依頼する。 このようにして、擬似ラベルの品質が向上し、パフォーマンスが向上する。 また、未来(FST-D)と広く(FST-W)の両方を覗き見することで、未来自己学習(FST)フレームワークの2つのバリエーションを開発する。 非教師なしドメイン適応意味セグメンテーションと半教師なし意味セグメンテーションのタスクをインスタンスとして、幅広い設定下でのアプローチの有効性と優位性を実験的に実証する。 コードは公開される予定だ。

Self-training has shown great potential in semi-supervised learning. Its core idea is to use the model learned on labeled data to generate pseudo-labels for unlabeled samples, and in turn teach itself. To obtain valid supervision, active attempts typically employ a momentum teacher for pseudo-label prediction yet observe the confirmation bias issue, where the incorrect predictions may provide wrong supervision signals and get accumulated in the training process. The primary cause of such a drawback is that the prevailing self-training framework acts as guiding the current state with previous knowledge, because the teacher is updated with the past student only. To alleviate this problem, we propose a novel self-training strategy, which allows the model to learn from the future. Concretely, at each training step, we first virtually optimize the student (i.e., caching the gradients without applying them to the model weights), then update the teacher with the virtual future student, and finally ask the teacher to produce pseudo-labels for the current student as the guidance. In this way, we manage to improve the quality of pseudo-labels and thus boost the performance. We also develop two variants of our future-self-training (FST) framework through peeping at the future both deeply (FST-D) and widely (FST-W). Taking the tasks of unsupervised domain adaptive semantic segmentation and semi-supervised semantic segmentation as the instances, we experimentally demonstrate the effectiveness and superiority of our approach under a wide range of settings. Code will be made publicly available.
翻訳日:2022-09-20 12:51:09 公開日:2022-09-18