このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211202となっている論文です。

PDF登録状況(公開日: 20211202)

TitleAuthorsAbstract論文公表日・翻訳日
# 新型コロナウイルス(covid-19)パンデミックの感染予測 - 教訓

Predicting infections in the Covid-19 pandemic -- lessons learned ( http://arxiv.org/abs/2112.11187v1 )

ライセンス: Link先を確認
Sharare Zehtabian, Siavash Khodadadeh, Damla Turgut, Ladislau B\"ol\"oni(参考訳) 新型コロナウイルス(covid-19)のパンデミックを通じて、公共政策や非薬剤的介入に関する様々な仮定の下で感染数を予測する技術の開発に多大な努力が払われてきた。 利用可能なデータと、aiモデルの洗練度、および利用可能な計算能力は、いずれも前年より優れているが、予測アプローチの全体的な成功は、非常に限られていた。 本稿では,xprizeパンデミック対応課題に対して提案する予測アルゴリズムから始め,その改善を可能にするいくつかの方向性を検討する。 次に,中期的予測に対するその性能を数ヶ月以上にわたって調査する。 従来の区画モデルと最新のディープラーニングアーキテクチャを組み込んだ、モデル化された領域の文化に関する追加情報によるアルゴリズムの強化は、短期予測のパフォーマンスを向上させることが可能であり、中期予測の精度は依然として低く、そのようなモデルがパブリックポリシーツールボックスの信頼性の高いコンポーネントとなるためには、将来の研究が必要となる。

Throughout the Covid-19 pandemic, a significant amount of effort had been put into developing techniques that predict the number of infections under various assumptions about the public policy and non-pharmaceutical interventions. While both the available data and the sophistication of the AI models and available computing power exceed what was available in previous years, the overall success of prediction approaches was very limited. In this paper, we start from prediction algorithms proposed for XPrize Pandemic Response Challenge and consider several directions that might allow their improvement. Then, we investigate their performance over medium-term predictions extending over several months. We find that augmenting the algorithms with additional information about the culture of the modeled region, incorporating traditional compartmental models and up-to-date deep learning architectures can improve the performance for short term predictions, the accuracy of medium-term predictions is still very low and a significant amount of future research is needed to make such models a reliable component of a public policy toolbox.
翻訳日:2021-12-26 13:17:38 公開日:2021-12-02
# RafterNet:マルチレスポンス回帰における確率的予測

RafterNet: Probabilistic predictions in multi-response regression ( http://arxiv.org/abs/2112.03377v1 )

ライセンス: Link先を確認
Marius Hofert, Avinash Prasad, Mu Zhu(参考訳) 多応答回帰問題における確率的予測のための完全に非パラメトリックな手法を提案する。 ランダムフォレストは各応答変数の限界モデルとして使用され、本研究の新たな貢献として、複数の応答変数間の依存を生成ニューラルネットワークによってモデル化する。 このランダム森林のモデリング手法、それに対応する経験的限界残差分布と生成的ニューラルネットワークを組み合わせてRafterNetと呼ぶ。 複数のデータセットは、アプローチの柔軟性とその確率的予測に対する影響を示す例として役立ちます。

A fully nonparametric approach for making probabilistic predictions in multi-response regression problems is introduced. Random forests are used as marginal models for each response variable and, as novel contribution of the present work, the dependence between the multiple response variables is modeled by a generative neural network. This combined modeling approach of random forests, corresponding empirical marginal residual distributions and a generative neural network is referred to as RafterNet. Multiple datasets serve as examples to demonstrate the flexibility of the approach and its impact for making probabilistic forecasts.
翻訳日:2021-12-12 15:19:47 公開日:2021-12-02
# ディープ・エプシロン・グリーディ政策学習のための収束保証

Convergence Guarantees for Deep Epsilon Greedy Policy Learning ( http://arxiv.org/abs/2112.03376v1 )

ライセンス: Link先を確認
Michael Rawson, Radu Balan(参考訳) 政策学習は急速に成長している分野です。 ロボットとコンピュータが日々の生活をコントロールしているので、エラー率を最小限に抑える必要がある。 多くのポリシー学習方法や証明可能なエラー率がある。 本稿では,ニューラルネットワークの予測による動作を選択するディープ・エプシロン・グリーディ法について,誤りや後悔,収束性を示す。 実世界のデータセットMNISTを用いた実験では,非線形強化学習問題を構築した。 高ノイズか低ノイズか、いくつかのメソッドがどう収束するか、いくつかのメソッドは収束せず、収束の証明に同意します。

Policy learning is a quickly growing area. As robotics and computers control day-to-day life, their error rate needs to be minimized and controlled. There are many policy learning methods and provable error rates that accompany them. We show an error or regret bound and convergence of the Deep Epsilon Greedy method which chooses actions with a neural network's prediction. In experiments with the real-world dataset MNIST, we construct a nonlinear reinforcement learning problem. We witness how with either high or low noise, some methods do and some do not converge which agrees with our proof of convergence.
翻訳日:2021-12-12 15:19:38 公開日:2021-12-02
# 均等ビット:均等に分散したバイナリネットワーク重みを強制する

Equal Bits: Enforcing Equally Distributed Binary Network Weights ( http://arxiv.org/abs/2112.03406v1 )

ライセンス: Link先を確認
Yunqiang Li, Silvia L. Pintea and Jan C. van Gemert(参考訳) バイナリネットワークは、ネットワークを定義するために2つのシンボルのみを使用するため、非常に効率的である: $\{+1,-1\}$。 これらのシンボルの事前分布を設計上の選択とすることができる。 Qin et al. の最近の IR-Net は、ベルヌーイ分布を二乗重みに等しい先行(等しいビット比)を与えるとエントロピーが最大になり、情報損失が最小になると主張している。 しかし、事前の作業はトレーニング中の二元重み分布を正確に制御できないため、最大エントロピーを保証できない。 ここでは、最適輸送を用いた量子化は、等比を含む任意のビット比を保証できることを示す。 実験により,等ビット比が実際に望ましいこと,提案手法が最適化の利点をもたらすことを示す。 本手法は,2重プルーニングを用いても,最先端のバイナライズ法と比較して有効であることを示す。

Binary networks are extremely efficient as they use only two symbols to define the network: $\{+1,-1\}$. One can make the prior distribution of these symbols a design choice. The recent IR-Net of Qin et al. argues that imposing a Bernoulli distribution with equal priors (equal bit ratios) over the binary weights leads to maximum entropy and thus minimizes information loss. However, prior work cannot precisely control the binary weight distribution during training, and therefore cannot guarantee maximum entropy. Here, we show that quantizing using optimal transport can guarantee any bit ratio, including equal ratios. We investigate experimentally that equal bit ratios are indeed preferable and show that our method leads to optimization benefits. We show that our quantization method is effective when compared to state-of-the-art binarization methods, even when using binary weight pruning.
翻訳日:2021-12-12 14:54:31 公開日:2021-12-02
# (参考訳) 自然言語処理による9/11のシンプソンへの影響調査 [全文訳有]

Investigating the Impact of 9/11 on The Simpsons through Natural Language Processing ( http://arxiv.org/abs/2112.03025v1 )

ライセンス: CC BY 4.0
Athena Xiourouppa(参考訳) 現実の出来事がフィクションメディアに与える影響は、特にアメリカの漫画シリーズ『ザ・シンプソンズ』で明らかである。 ショーの対話や視覚的なギャグには、しばしば非常に直接的なポップカルチャーの参照があるが、トーンや感情の微妙な変化はそれほど明らかではないかもしれない。 私たちの目標は、ニューヨークで9月11日のテロ攻撃の前後で、単語の頻度、話題、感情の変化を検索するために、自然言語処理を使用することでした。 明確な傾向の変化は見られず、2000年から2002年までの期間に平均的な感情はわずかに減少したが、脚本は全体として肯定的な価値を維持しており、ザ・シンプソンズの喜劇性は特に低下しなかった。 他の社会問題や特定の性格統計の探索は、この発見を後押しするために必要である。

The impact of real world events on fictional media is particularly apparent in the American cartoon series The Simpsons. While there are often very direct pop culture references evident in the dialogue and visual gags of the show, subtle changes in tone or sentiment may not be so obvious. Our aim was to use Natural Language Processing to attempt to search for changes in word frequency, topic, and sentiment before and after the September 11 terrorist attacks in New York. No clear trend change was seen, there was a slight decrease in the average sentiment over time around the relevant period between 2000 and 2002, but the scripts still maintained an overall positive value, indicating that the comedic nature of The Simpsons did not wane particularly significantly. The exploration of other social issues and even specific character statistics is needed to bolster the findings here.
翻訳日:2021-12-11 08:38:50 公開日:2021-12-02
# (参考訳) 事前処理データをスーパーバイザとして再利用した会話分析における伝達学習 [全文訳有]

Transfer Learning in Conversational Analysis through Reusing Preprocessing Data as Supervisors ( http://arxiv.org/abs/2112.03032v1 )

ライセンス: CC BY 4.0
Joshua Yee Kim, Tongliang Liu, Kalina Yacef(参考訳) 会話分析システムは、ノイズの多い人間のラベルを使って訓練され、マルチモーダル特徴抽出の間、しばしば重い前処理を必要とする。 シングルタスク学習でノイズの多いラベルを使用することで、過剰フィッティングのリスクが高まる。 補助的なタスクは、同じトレーニング中に主要なタスク学習のパフォーマンスを改善する。このアプローチは、移行学習とマルチタスク学習(MTL)の交差点に位置する。 本稿では,機能工学に使用する前処理データを補助的タスクとして再利用し,生産的なデータ利用を促進する方法について検討する。 本研究の主な貢献は,(1)有効な16のタスクの識別,(2)初等タスクと補助タスクの学習能力を分配する方法の研究,(3)初等タスクと補助タスクの相対的な監督階層の研究である。 IEMOCAPとSEMAINEのデータによる大規模な実験により、シングルタスクアプローチの改善が検証され、複数の主要なタスクにまたがって一般化されることが示唆された。

Conversational analysis systems are trained using noisy human labels and often require heavy preprocessing during multi-modal feature extraction. Using noisy labels in single-task learning increases the risk of over-fitting. Auxiliary tasks could improve the performance of the primary task learning during the same training -- this approach sits in the intersection of transfer learning and multi-task learning (MTL). In this paper, we explore how the preprocessed data used for feature engineering can be re-used as auxiliary tasks, thereby promoting the productive use of data. Our main contributions are: (1) the identification of sixteen beneficially auxiliary tasks, (2) studying the method of distributing learning capacity between the primary and auxiliary tasks, and (3) studying the relative supervision hierarchy between the primary and auxiliary tasks. Extensive experiments on IEMOCAP and SEMAINE data validate the improvements over single-task approaches, and suggest that it may generalize across multiple primary tasks.
翻訳日:2021-12-11 08:28:26 公開日:2021-12-02
# 携帯型集団通信によるメモリ効率アレー再分配

Memory-efficient array redistribution through portable collective communication ( http://arxiv.org/abs/2112.01075v1 )

ライセンス: Link先を確認
Norman A. Rink, Adam Paszke, Dimitrios Vytiniotis, Georg Stefan Schmid(参考訳) 最近の大規模ディープラーニングワークロードでは、モデルデータをハードウェアアクセラレータメモリに適合させるために、多くのデバイス間で並列実行の必要性を強調している。 これらの設定では、配列の再分配は計算中に必要となるが、効率的に行われなければボトルネックになることもある。 本稿では,ディープラーニングにおける最も一般的な並列処理形式であるspmd計算において,多次元アレイデータを再分配する問題に対処する。 MPIスタイルの集合演算のシーケンスとして配列再分配を合成するためのタイプ指向アプローチを提案する。 我々は,合成再分配がメモリ効率が高く,過剰なデータ転送は行わないことを正式に証明した。 集団演算を用いたspmd計算のための配列再分配も、アクセラレータシステム間でプログラムをパーティショニングするプロダクショングレードのツールであるxla spmd partitionerのコンテキストで実装されている。 我々は、xla実装に対するアプローチを評価し、我々のアプローチが幾何学的な平均スピードアップを1.22\times$とし、最大スピードアップを5.7\times$とし、証明可能なメモリ保証を提供しながら、我々のシステムは特に大規模モデルにアピールする。

Modern large-scale deep learning workloads highlight the need for parallel execution across many devices in order to fit model data into hardware accelerator memories. In these settings, array redistribution may be required during a computation, but can also become a bottleneck if not done efficiently. In this paper we address the problem of redistributing multi-dimensional array data in SPMD computations, the most prevalent form of parallelism in deep learning. We present a type-directed approach to synthesizing array redistributions as sequences of MPI-style collective operations. We prove formally that our synthesized redistributions are memory-efficient and perform no excessive data transfers. Array redistribution for SPMD computations using collective operations has also been implemented in the context of the XLA SPMD partitioner, a production-grade tool for partitioning programs across accelerator systems. We evaluate our approach against the XLA implementation and find that our approach delivers a geometric mean speedup of $1.22\times$, with maximum speedups as a high as $5.7\times$, while offering provable memory guarantees, making our system particularly appealing for large-scale models.
翻訳日:2021-12-07 18:28:13 公開日:2021-12-02
# 収束障壁を破る:固定時間収束流による最適化

Breaking the Convergence Barrier: Optimization via Fixed-Time Convergent Flows ( http://arxiv.org/abs/2112.01363v1 )

ライセンス: Link先を確認
Param Budhraja, Mayank Baranwal, Kunal Garg, Ashish Hota(参考訳) 加速度勾配法は、機械学習やその他のデータ分析の分野で自然に発生する大規模データ駆動最適化問題の基礎である。 最近導入された動的システムの固定時間安定性の概念に基づいて,加速を実現するための勾配に基づく最適化フレームワークを提案する。 この方法は、初期化とは独立に固定時間で最適化器への収束を達成するために適切にスケールされた単純な勾配法を一般化したものである。 まず、固定時間安定な力学系を設計するための連続時間フレームワークを活用し、その後、等価離散時間アルゴリズムが実質的に固定された反復数で最適化者を追跡するような一貫した離散化戦略を提供する。 また,提案する勾配流の収束挙動を理論的に解析し,強凸性,厳密な凸性,非凸性にも従うがポリak-{\l}ojasiewiczの不等式を満たす関数に対する加法外乱に対するロバスト性について考察した。 また, 収束率に拘束される後悔は, 一定時間収束によって一定であることを示す。 ハイパーパラメータは直感的な解釈を持ち、要求を所望の収束率に合わせるように調整することができる。 本研究では,提案手法の収束特性を,最先端最適化アルゴリズムに対する数値例で検証する。 我々の研究は、連続時間フローの離散化による新しい最適化アルゴリズムの開発に関する洞察を提供する。

Accelerated gradient methods are the cornerstones of large-scale, data-driven optimization problems that arise naturally in machine learning and other fields concerning data analysis. We introduce a gradient-based optimization framework for achieving acceleration, based on the recently introduced notion of fixed-time stability of dynamical systems. The method presents itself as a generalization of simple gradient-based methods suitably scaled to achieve convergence to the optimizer in a fixed-time, independent of the initialization. We achieve this by first leveraging a continuous-time framework for designing fixed-time stable dynamical systems, and later providing a consistent discretization strategy, such that the equivalent discrete-time algorithm tracks the optimizer in a practically fixed number of iterations. We also provide a theoretical analysis of the convergence behavior of the proposed gradient flows, and their robustness to additive disturbances for a range of functions obeying strong convexity, strict convexity, and possibly nonconvexity but satisfying the Polyak-{\L}ojasiewicz inequality. We also show that the regret bound on the convergence rate is constant by virtue of the fixed-time convergence. The hyperparameters have intuitive interpretations and can be tuned to fit the requirements on the desired convergence rates. We validate the accelerated convergence properties of the proposed schemes on a range of numerical examples against the state-of-the-art optimization algorithms. Our work provides insights on developing novel optimization algorithms via discretization of continuous-time flows.
翻訳日:2021-12-07 15:31:59 公開日:2021-12-02
# 深層事前学習された言語表現モデルに基づく教師なし法律記事のマイニングとイタリア民法への応用

Unsupervised Law Article Mining based on Deep Pre-Trained Language Representation Models with Application to the Italian Civil Code ( http://arxiv.org/abs/2112.03033v1 )

ライセンス: Link先を確認
Andrea Tagarelli, Andrea Simeri(参考訳) 予測問題としての法検索と検索のモデル化は、近年、法知性において主要なアプローチとして浮上している。 本稿では,法律記事検索タスクに着目し,民法コード用に設計され,特にイタリア民法に基づいて訓練されたlambertaという深層学習フレームワークを提案する。 我々の知る限りでは、BERT(Bidirectional Encoder Representations from Transformers)学習フレームワークに基づくイタリアの法体系に関する法律記事予測への先進的なアプローチを提案する最初の研究であり、近年、深層学習のアプローチに注目が集まっており、いくつかの自然言語処理や学習タスクにおいて顕著な効果を示している。 LamBERTa モデルは,イタリアの民法又はその部分に基づいて事前訓練された BERT を微調整することにより,法律項目の検索を分類タスクとして定義する。 LamBERTaフレームワークの1つの重要な側面は、多数のクラス、数ショットの学習問題、イタリアの法定予測タスクに対するテストクエリベンチマークの欠如を特徴とする、極端な分類シナリオに対処するためにこれを考案したことです。 このような問題を解決するために、法律記事の無監督ラベル付けのための異なる方法を定義し、原則としてあらゆる法律記事コードシステムに適用することができる。 我々は LamBERTa モデルの説明可能性と解釈可能性に関する知見を提供し,複数ラベル評価タスクだけでなく,異なるタイプのクエリセットに対する広範な実験分析を行った。 LamBERTaの有効性や、広く使われているディープラーニングテキスト分類器や属性認識予測タスクのために考案された数発の学習者に対する優位性を示す実証的な証拠がある。

Modeling law search and retrieval as prediction problems has recently emerged as a predominant approach in law intelligence. Focusing on the law article retrieval task, we present a deep learning framework named LamBERTa, which is designed for civil-law codes, and specifically trained on the Italian civil code. To our knowledge, this is the first study proposing an advanced approach to law article prediction for the Italian legal system based on a BERT (Bidirectional Encoder Representations from Transformers) learning framework, which has recently attracted increased attention among deep learning approaches, showing outstanding effectiveness in several natural language processing and learning tasks. We define LamBERTa models by fine-tuning an Italian pre-trained BERT on the Italian civil code or its portions, for law article retrieval as a classification task. One key aspect of our LamBERTa framework is that we conceived it to address an extreme classification scenario, which is characterized by a high number of classes, the few-shot learning problem, and the lack of test query benchmarks for Italian legal prediction tasks. To solve such issues, we define different methods for the unsupervised labeling of the law articles, which can in principle be applied to any law article code system. We provide insights into the explainability and interpretability of our LamBERTa models, and we present an extensive experimental analysis over query sets of different type, for single-label as well as multi-label evaluation tasks. Empirical evidence has shown the effectiveness of LamBERTa, and also its superiority against widely used deep-learning text classifiers and a few-shot learner conceived for an attribute-aware prediction task.
翻訳日:2021-12-07 14:20:48 公開日:2021-12-02
# (参考訳) 深部ニューラルネットワークを用いたスケールド回折計算による位相限定ホログラムの最適化 [全文訳有]

Optimization of phase-only holograms calculated with scaled diffraction calculation through deep neural networks ( http://arxiv.org/abs/2112.01970v1 )

ライセンス: CC BY 4.0
Yoshiyuki Ishii, Tomoyoshi Shimobaba, David Blinder, Tobias Birnbaum, Peter Schelkens, Takashi Kakue, Tomoyoshi Ito(参考訳) コンピュータ生成ホログラム(cghs)はホログラフィックの3次元表示やホログラフィック投影に使用される。 位相のみのCGHを用いた再構成画像の品質は、再構成画像の振幅の制御が難しいため劣化する。 Gerchberg-Saxton (GS) アルゴリズムのような反復最適化手法は、画像品質を改善するための選択肢である。 CGHを反復的に最適化し、より高い画質を得る。 しかし、そのような反復計算は時間がかかり、画像品質の改善はしばしば停滞している。 近年,ディープラーニングに基づくホログラム計算が提案されている。 深層ニューラルネットワークは入力画像データから直接CGHを推論する。 しかし、ホログラムと同じ大きさの画像の再構成に限られている。 本研究では,大規模回折計算とランダム位相自由法を用いて生成した位相のみのCGHをディープラーニングで最適化する。 ランダム位相フリー法とスケールした回折計算を組み合わせることで、ホログラムよりも大きなズーム可能な再構成画像を扱うことができる。 gsアルゴリズムと比較して,提案手法は品質と速度の両方を最適化する。

Computer-generated holograms (CGHs) are used in holographic three-dimensional (3D) displays and holographic projections. The quality of the reconstructed images using phase-only CGHs is degraded because the amplitude of the reconstructed image is difficult to control. Iterative optimization methods such as the Gerchberg-Saxton (GS) algorithm are one option for improving image quality. They optimize CGHs in an iterative fashion to obtain a higher image quality. However, such iterative computation is time consuming, and the improvement in image quality is often stagnant. Recently, deep learning-based hologram computation has been proposed. Deep neural networks directly infer CGHs from input image data. However, it is limited to reconstructing images that are the same size as the hologram. In this study, we use deep learning to optimize phase-only CGHs generated using scaled diffraction computations and the random phase-free method. By combining the random phase-free method with the scaled diffraction computation, it is possible to handle a zoomable reconstructed image larger than the hologram. In comparison to the GS algorithm, the proposed method optimizes both high quality and speed.
翻訳日:2021-12-07 08:27:12 公開日:2021-12-02
# (参考訳) バイオインスパイアされた偏光イベントカメラ [全文訳有]

Bio-inspired Polarization Event Camera ( http://arxiv.org/abs/2112.01933v1 )

ライセンス: CC BY 4.0
Germain Haessig, Damien Joubert, Justin Haque, Yingkai Chen, Moritz Milde, Tobi Delbruck, and Viktor Gruev(参考訳) stomatopod (mantis shrimp) 視覚システムは、最近、パラダイムシフト偏光とマルチスペクトルイメージングセンサーの設計のための青写真を提供し、医療やリモートセンシングの問題への解決策を提供する。 しかし、これらのバイオインスパイアされたセンサーは、高ダイナミックレンジ(hdr)と、ストマトプス視覚システムの非同期偏光視覚能力が欠如しており、時間分解能を12ms、ダイナミックレンジを72dbに制限している。 本稿では,Nyquistの最大フレームレートを超える電力とサンプルデータを節約するために,持続的かつ過渡的な生物学的視覚経路を模倣する新しいストマトポッド型偏光カメラを提案する。 このバイオインスパイアされたセンサは、同期強度フレームと非同期偏光輝度変化情報の両方を100万倍の照明範囲で同時にキャプチャする。 PDAVISカメラは346×260ピクセルで構成され、2-by-2マクロピクセルで構成されており、4つの線形偏光フィルタを45度オフセットして入射光をフィルタリングする。 分極情報は、低コストと遅延イベントベースのアルゴリズムと、より正確だが遅いディープニューラルネットワークを使用して再構成される。 我々のセンサは高速で変化するHDR偏光シーンを撮像し、高速周期負荷下でウシ腱における単一コラーゲン繊維の動的特性を観察するために用いられる。

The stomatopod (mantis shrimp) visual system has recently provided a blueprint for the design of paradigm-shifting polarization and multispectral imaging sensors, enabling solutions to challenging medical and remote sensing problems. However, these bioinspired sensors lack the high dynamic range (HDR) and asynchronous polarization vision capabilities of the stomatopod visual system, limiting temporal resolution to \~12 ms and dynamic range to \~ 72 dB. Here we present a novel stomatopod-inspired polarization camera which mimics the sustained and transient biological visual pathways to save power and sample data beyond the maximum Nyquist frame rate. This bio-inspired sensor simultaneously captures both synchronous intensity frames and asynchronous polarization brightness change information with sub-millisecond latencies over a million-fold range of illumination. Our PDAVIS camera is comprised of 346x260 pixels, organized in 2-by-2 macropixels, which filter the incoming light with four linear polarization filters offset by 45 degrees. Polarization information is reconstructed using both low cost and latency event-based algorithms and more accurate but slower deep neural networks. Our sensor is used to image HDR polarization scenes which vary at high speeds and to observe dynamical properties of single collagen fibers in bovine tendon under rapid cyclical loads
翻訳日:2021-12-07 08:20:51 公開日:2021-12-02
# (参考訳) SparRL: 深層強化学習によるグラフスカラー化 [全文訳有]

SparRL: Graph Sparsification via Deep Reinforcement Learning ( http://arxiv.org/abs/2112.01565v1 )

ライセンス: CC BY 4.0
Ryan Wickman, Xiaofei Zhang, Weizi Li(参考訳) グラフスパーシフィケーションは、同様の構造のエッジ縮小グラフが好ましいデータ削減に関するものだ。 既存の手法は主にサンプリングベースであり、一般に高い計算複雑性と異なる還元目標に対する柔軟性の欠如をもたらす。 グラフスパーシフィケーションのための,最初の汎用的かつ効果的な強化学習ベースフレームワークであるsparrlを提案する。 SparRLは、異なる還元目標に容易に適応でき、グラフサイズに依存しない複雑さを約束できる。 広範な実験により、sparrlは、様々な目的に関する高品質のスパーシフィケーショングラフを作成する際に、一般的なスパーシフィケーション手法をすべて上回っていることが示されている。

Graph sparsification concerns data reduction where an edge-reduced graph of a similar structure is preferred. Existing methods are mostly sampling-based, which introduce high computation complexity in general and lack of flexibility for a different reduction objective. We present SparRL, the first general and effective reinforcement learning-based framework for graph sparsification. SparRL can easily adapt to different reduction goals and promise graph-size-independe nt complexity. Extensive experiments show that SparRL outperforms all prevailing sparsification methods in producing high-quality sparsified graphs concerning a variety of objectives.
翻訳日:2021-12-07 07:56:49 公開日:2021-12-02
# (参考訳) 軌道クラスタリングのパフォーマンス評価: 答えが分かっていればクラスタリングではない [全文訳有]

Trajectory Clustering Performance Evaluation: If we know the answer, it's not clustering ( http://arxiv.org/abs/2112.01570v1 )

ライセンス: CC BY-SA 4.0
Mohsen Rezaie and Nicolas Saunier(参考訳) インテリジェントトラフィックシステム(ITS)の進歩は、自動データ収集を通じて大量のトラフィックデータを利用可能にしてきた。 このデータの大部分は、移動車両と道路利用者の軌跡として保存されている。 人間の監督を最小限にしたデータの自動分析は、コストを削減し、分析の主観性を排除します。 軌道クラスタリングは教師なしのタスクである。 本稿では,7つの交差点の軌跡データを用いた類似度,クラスタリングアルゴリズム,評価尺度の総合比較を行う。 また,ラベルに基づく評価尺度に使用する出発点と目的地に基づいて,軌道参照クラスタを自動的に生成する手法を提案する。 したがって、クラスタリングと評価のレベルでは、手順全体が監視されないままである。 最後に,評価尺度の組み合わせを用いて,各交差点における類似度尺度とクラスタリングアルゴリズムの上位値を求める。 その結果、常に上位10のクラスタリング設定に含まれる距離とクラスタリングアルゴリズムの組み合わせは存在しないことがわかった。

Advancements in Intelligent Traffic Systems (ITS) have made huge amounts of traffic data available through automatic data collection. A big part of this data is stored as trajectories of moving vehicles and road users. Automatic analysis of this data with minimal human supervision would both lower the costs and eliminate subjectivity of the analysis. Trajectory clustering is an unsupervised task. In this paper, we perform a comprehensive comparison of similarity measures, clustering algorithms and evaluation measures using trajectory data from seven intersections. We also propose a method to automatically generate trajectory reference clusters based on their origin and destination points to be used for label-based evaluation measures. Therefore, the entire procedure remains unsupervised both in clustering and evaluation levels. Finally, we use a combination of evaluation measures to find the top performing similarity measures and clustering algorithms for each intersection. The results show that there is no single combination of distance and clustering algorithm that is always among the top ten clustering setups.
翻訳日:2021-12-07 07:39:27 公開日:2021-12-02
# (参考訳) LeapfrogLayers: 効果的なトポロジサンプリングのためのトレーニング可能なフレームワーク [全文訳有]

LeapfrogLayers: A Trainable Framework for Effective Topological Sampling ( http://arxiv.org/abs/2112.01582v1 )

ライセンス: CC BY 4.0
Sam Foreman, Xiao-Yong Jin, James C. Osborn(参考訳) 本稿では,2次元$U(1)$格子ゲージ理論のトポロジを効率的にサンプリングできる,可逆ニューラルネットワークアーキテクチャである LeapfrogLayersを紹介する。 本研究では,従来のhmcと比較して位相電荷の自己相関時間を改善することを示し,モデルをより大きな格子体積にスケールする方法を提案する。 私たちの実装はオープンソースで、https://github.com/s aforem2/l2hmc-qcdで公開されています。

We introduce LeapfrogLayers, an invertible neural network architecture that can be trained to efficiently sample the topology of a 2D $U(1)$ lattice gauge theory. We show an improvement in the integrated autocorrelation time of the topological charge when compared with traditional HMC, and propose methods for scaling our model to larger lattice volumes. Our implementation is open source, and is publicly available on github at https://github.com/s aforem2/l2hmc-qcd
翻訳日:2021-12-07 07:24:47 公開日:2021-12-02
# (参考訳) Jensen-Reny\'i Divergence の表現 [全文訳有]

The Representation Jensen-Reny\'i Divergence ( http://arxiv.org/abs/2112.01583v1 )

ライセンス: CC BY 4.0
Jhoan Keider Hoyos Osorio and Oscar Skean and Austin Brockmeier and Luis Gonzalo Sanchez Giraldo(参考訳) 無限に可分なカーネルによって定義される再生成核ヒルベルト空間において、演算子に基づくデータ分布間の発散測度を導入する。 一対のサンプル上でカーネルを評価することにより得られる正定値行列の固有値を用いて、発散の実証的推定器を算出する。 この新しい尺度はジェンセン=シャノンの発散と同様の性質を持つ。 提案した推定器の収束度は、グラム行列の順序スペクトルと集団量の積分作用素との差に基づく濃度結果から導かれる。 提案手法は,データに基づく確率分布の推定を回避している。 分布の比較と非平衡データサンプリングへの応用に関する数値実験により,提案手法が最先端の成果を得ることができた。

We introduce a divergence measure between data distributions based on operators in reproducing kernel Hilbert spaces defined by infinitely divisible kernels. The empirical estimator of the divergence is computed using the eigenvalues of positive definite matrices that are obtained by evaluating the kernel over pairs of samples. The new measure shares similar properties to Jensen-Shannon divergence. Convergence of the proposed estimators follows from concentration results based on the difference between the ordered spectrum of the Gram matrices and the integral operators associated with the population quantities. The proposed measure of divergence avoids the estimation of the probability distribution underlying the data. Numerical experiments involving comparing distributions and applications to sampling unbalanced data for classification show that the proposed divergence can achieve state of the art results.
翻訳日:2021-12-07 07:14:10 公開日:2021-12-02
# (参考訳) 線形表現を用いた強化学習における個人探索

Differentially Private Exploration in Reinforcement Learning with Linear Representation ( http://arxiv.org/abs/2112.01585v1 )

ライセンス: CC BY 4.0
Paul Luyo and Evrard Garcelon and Alessandro Lazaric and Matteo Pirotta(参考訳) 本稿では,マルコフ決定過程(MDP)における線形表現を用いたプライバシー保護探索について検討する。 まず,線形混合MDP(Ayoub et al., 2020)の設定(モデルベース設定)について検討し,共同・局所微分プライベート(DP)探索を統一的に分析するための枠組みを提供する。 このフレームワークにより、$\widetilde{O}(K^{3/4}/\sqrt{\epsilon})$ regret bound for $(\epsilon,\delta)$- local DP Explor and a $\widetilde{O}(\sqrt{K/\epsilon})$ regret bound for $(\epsilon,\delta)$- joint DP が証明される。 我々はさらに、線形MDP(Jin et al., 2020)におけるプライバシー保護探索(つまりモデルフリー設定)について研究し、低いスイッチングに基づく新しいアルゴリズムにより、$(\epsilon,\delta)$- joint DPに対して$\widetilde{O}(\sqrt{K/\epsilon})$ regret bound for $(\epsilon,\delta)$- joint DPを提供する。 最後に,このモデルフリー環境でローカルDPアルゴリズムを設計する際の問題点について考察する。

This paper studies privacy-preserving exploration in Markov Decision Processes (MDPs) with linear representation. We first consider the setting of linear-mixture MDPs (Ayoub et al., 2020) (a.k.a.\ model-based setting) and provide an unified framework for analyzing joint and local differential private (DP) exploration. Through this framework, we prove a $\widetilde{O}(K^{3/4}/\sqrt{\epsilon})$ regret bound for $(\epsilon,\delta)$- local DP exploration and a $\widetilde{O}(\sqrt{K/\epsilon})$ regret bound for $(\epsilon,\delta)$- joint DP. We further study privacy-preserving exploration in linear MDPs (Jin et al., 2020) (a.k.a.\ model-free setting) where we provide a $\widetilde{O}(\sqrt{K/\epsilon})$ regret bound for $(\epsilon,\delta)$- joint DP, with a novel algorithm based on low-switching. Finally, we provide insights into the issues of designing local DP algorithms in this model-free setting.
翻訳日:2021-12-07 07:04:39 公開日:2021-12-02
# (参考訳) 正規化流れを有するHMC [全文訳有]

HMC with Normalizing Flows ( http://arxiv.org/abs/2112.01586v1 )

ライセンス: CC BY 4.0
Sam Foreman, Taku Izubuchi, Luchang Jin, Xiao-Yong Jin, James C. Osborn, Akio Tomiya(参考訳) 本研究では,ハミルトニアンモンテカルロ(HMC)の分子動力学更新におけるトレーニング可能なカーネルとして正規化フローを提案する。 ダイナミクスを単純化する(逆)変換を学べば、従来の方法よりも独立な構成を生成することができるのです。 慎重に構築されたネットワークアーキテクチャを用いて、我々のアプローチは最小限のトレーニング作業で大規模格子ボリュームに容易に拡張可能であることを示す。 実装のソースコードはhttps://github.com/n ftqcd/fthmc.comで公開されている。

We propose using Normalizing Flows as a trainable kernel within the molecular dynamics update of Hamiltonian Monte Carlo (HMC). By learning (invertible) transformations that simplify our dynamics, we can outperform traditional methods at generating independent configurations. We show that, using a carefully constructed network architecture, our approach can be easily scaled to large lattice volumes with minimal retraining effort. The source code for our implementation is publicly available online at https://github.com/n ftqcd/fthmc.
翻訳日:2021-12-07 07:02:54 公開日:2021-12-02
# (参考訳) ディープラーニングに基づく定量的MRIのためのモンテカルロドロップアウトを用いたニューラルネットワークの不確かさの定量化 [全文訳有]

Quantifying the uncertainty of neural networks using Monte Carlo dropout for deep learning based quantitative MRI ( http://arxiv.org/abs/2112.01587v1 )

ライセンス: CC BY 4.0
Mehmet Yigit Avci, Ziyu Li, Qiuyun Fan, Susie Huang, Berkin Bilgic, Qiyuan Tian(参考訳) ドロップアウトは、通常、トレーニングフェーズで正規化法とディープラーニングの不確かさを定量化するために使用される。 我々は,トレーニング中のドロップアウトと推論ステップ,および平均複数の予測を用いて精度を向上し,不確かさを低減・定量化することを提案する。 その結果, 3方向スキャンで得られた分画異方性 (FA) と平均拡散率 (MD) マップについて検討した。 本手法では,特にトレーニングデータセットが小さい場合,ドロップアウトのないネットワーク出力と比較して精度が大幅に向上する。 さらに、未発見の病理学やアーティファクトの診断に役立つ信頼度マップが生成される。

Dropout is conventionally used during the training phase as regularization method and for quantifying uncertainty in deep learning. We propose to use dropout during training as well as inference steps, and average multiple predictions to improve the accuracy, while reducing and quantifying the uncertainty. The results are evaluated for fractional anisotropy (FA) and mean diffusivity (MD) maps which are obtained from only 3 direction scans. With our method, accuracy can be improved significantly compared to network outputs without dropout, especially when the training dataset is small. Moreover, confidence maps are generated which may aid in diagnosis of unseen pathology or artifacts.
翻訳日:2021-12-07 06:57:16 公開日:2021-12-02
# (参考訳) InfoLM: 要約とData2Text生成を評価するための新しいメトリクス [全文訳有]

InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation ( http://arxiv.org/abs/2112.01589v1 )

ライセンス: CC BY 4.0
Pierre Colombo, Chloe Clave, Pablo Piantanida(参考訳) 人間のアノテーションによる自然言語生成システムの品質評価は非常に高価である。 さらに、人間のアノテーションキャンペーンは時間のかかるものであり、使用不能な人間の労働も含んでいる。 実際には、研究者は品質のプロキシとして自動メトリクスに依存しています。 過去10年間で、多くの文字列ベースのメトリクス(例えばBLEU)が導入された。 しかし、そのような測度は通常正確な一致に依存するため、同義語をしっかりと扱わない。 本稿では,事前学習されたマスキング言語モデルにより,前述の欠陥に対処する文字列ベースのメトリクスと見なすことのできる,未学習のメトリクスのファミリであるinfolmを紹介する。 このメトリクスの族は、InfoLMを様々な評価基準に適応させる情報測度も活用している。 直接評価を用いることで,要約とデータ2テキスト生成の両方において,infolmが統計的に有意な改善と10ドル以上の相関向上を達成できることを実証する。

Assessing the quality of natural language generation systems through human annotation is very expensive. Additionally, human annotation campaigns are time-consuming and include non-reusable human labour. In practice, researchers rely on automatic metrics as a proxy of quality. In the last decade, many string-based metrics (e.g., BLEU) have been introduced. However, such metrics usually rely on exact matches and thus, do not robustly handle synonyms. In this paper, we introduce InfoLM a family of untrained metrics that can be viewed as a string-based metric that addresses the aforementioned flaws thanks to a pre-trained masked language model. This family of metrics also makes use of information measures allowing the adaptation of InfoLM to various evaluation criteria. Using direct assessment, we demonstrate that InfoLM achieves statistically significant improvement and over $10$ points of correlation gains in many configurations on both summarization and data2text generation.
翻訳日:2021-12-07 06:53:14 公開日:2021-12-02
# (参考訳) RobustBench/AutoAtta ckは対向ロバストネスに適したベンチマークか? [全文訳有]

Is RobustBench/AutoAtta ck a suitable Benchmark for Adversarial Robustness? ( http://arxiv.org/abs/2112.01601v1 )

ライセンス: CC BY 4.0
Peter Lorenz, Dominik Strassel, Margret Keuper and Janis Keuper(参考訳) 近年,RobostBench (Croce et al. 2020) は画像分類ネットワークの対角的堅牢性のベンチマークとして広く認知されている。 最も一般的に報告されているサブタスクでは、ロバストベンチは、オートアタック(croce and hein 2020b)の下でcifar10上のトレーニングされたニューラルネットワークの、eps = 8/255に限定されたl-inf摂動を評価し、分類する。 ベースラインの約60%で現在最高のパフォーマンスモデルのトップスコアを掲げているため、このベンチマークを非常に難しいと特徴づけるのは公平である。 最近の文献で広く受け入れられているにもかかわらず、我々はロバストベンチが実用応用に一般化できるロバスト性を示す重要な指標であるかどうかの議論を促進することを目的としている。 i) l-inf、eps = 8/255によるオートアタックによるデータの交替は非現実的に強く、単純な検出アルゴリズムと人間の観察者によってさえ、敵のサンプルの完全な検出率に近いものとなる。 また,同様の成功率を達成しつつ,他の攻撃手法の検出がはるかに困難であることを示す。 II) CIFAR10のような低解像度データセットでは、勾配に基づく攻撃が高解像度化とともにさらに検出されるため、高解像度画像にはあまり一般化されない。

Recently, RobustBench (Croce et al. 2020) has become a widely recognized benchmark for the adversarial robustness of image classification networks. In its most commonly reported sub-task, RobustBench evaluates and ranks the adversarial robustness of trained neural networks on CIFAR10 under AutoAttack (Croce and Hein 2020b) with l-inf perturbations limited to eps = 8/255. With leading scores of the currently best performing models of around 60% of the baseline, it is fair to characterize this benchmark to be quite challenging. Despite its general acceptance in recent literature, we aim to foster discussion about the suitability of RobustBench as a key indicator for robustness which could be generalized to practical applications. Our line of argumentation against this is two-fold and supported by excessive experiments presented in this paper: We argue that I) the alternation of data by AutoAttack with l-inf, eps = 8/255 is unrealistically strong, resulting in close to perfect detection rates of adversarial samples even by simple detection algorithms and human observers. We also show that other attack methods are much harder to detect while achieving similar success rates. II) That results on low-resolution data sets like CIFAR10 do not generalize well to higher resolution images as gradient-based attacks appear to become even more detectable with increasing resolutions.
翻訳日:2021-12-07 06:30:36 公開日:2021-12-02
# (参考訳) 感情調和型チャットボットの評価装置 [全文訳有]

Evaluator for Emotionally Consistent Chatbots ( http://arxiv.org/abs/2112.01616v1 )

ライセンス: CC BY 4.0
Chenxiao Liu, Guanzhi Deng, Tao Ji, Difei Tang, Silai Zheng(参考訳) 共感的オープンドメイン会話モデルのような、現在のシーケンスまたは対話レベルのチャットボットを評価する1つの課題は、チャットボットが感情的に一貫した方法で実行するかどうかを決定することである。 最新の研究は、文脈コヒーレンス、言語流布、応答の多様性、対話間の論理的自己整合性についてのみ評価されている。 本研究は,チャットボットの感情的一貫性を判断するための評価器の訓練を提案する。

One challenge for evaluating current sequence- or dialogue-level chatbots, such as Empathetic Open-domain Conversation Models, is to determine whether the chatbot performs in an emotionally consistent way. The most recent work only evaluates on the aspects of context coherence, language fluency, response diversity, or logical self-consistency between dialogues. This work proposes training an evaluator to determine the emotional consistency of chatbots.
翻訳日:2021-12-07 06:08:52 公開日:2021-12-02
# (参考訳) 流体力学特性を用いたダイナミックラジオグラフィの高精度インバージョン [全文訳有]

High-Precision Inversion of Dynamic Radiography Using Hydrodynamic Features ( http://arxiv.org/abs/2112.01627v1 )

ライセンス: CC BY 4.0
Maliha Hossain, Balasubramanya T. Nadiga, Oleg Korobkin, Marc L. Klasky, Jennifer L. Schei, Joshua W. Burby, Michael T. McCann, Trevor Wilcox, Soumi De, Charles A. Bouman(参考訳) ラジオグラフィは、力学系の複雑な密度場を探究し、基礎となる物理学の洞察を得るためにしばしば用いられる。 この手法は、材料科学、衝撃物理学、慣性閉じ込め融合、その他の国家安全保障の応用など、様々な分野で使用されている。 しかし、これらの応用の多くは、ノイズ、散乱、複雑なビームダイナミクスなどに起因する合併症により、密度の再構成が十分な信頼性を持って基礎となる物理学を特定するのに十分な精度を得られない。 そのため、静的・動的ラジオグラフィーからの密度再構成は、多くの応用において亀裂や空隙のような不連続な特徴を特定することに制限されている。 本研究では,放射線画像の時系列から密度を再構成する基本的な手法を提案する。 ラジオグラフで識別可能なロバストな特徴のみを用いることで、これらを機械学習アプローチ、すなわち条件付き生成逆逆ネットワーク(cgan)を用いて動流体力学方程式と組み合わせ、動画像の動的シーケンスから密度場を決定する。 次に、パラメータ推定および流体力学多様体への投射過程を通じて、MLに基づく密度再構成の流体力学的整合性をさらに向上する。 この文脈では、トレーニングデータから与えられた流体力学多様体からパラメータ空間におけるテストデータまでの距離は、共に予測の頑健さの診断に役立ち、トレーニングデータベースの強化に役立ち、後者は将来の密度再構成エラーを更に低減することを期待する。 最後に, 比較的少量の散乱が存在する場合においても, 許容可能な流体経路を捕捉し, 従来の放射線画像再構成よりも優れていることを示す。

Radiography is often used to probe complex, evolving density fields in dynamic systems and in so doing gain insight into the underlying physics. This technique has been used in numerous fields including materials science, shock physics, inertial confinement fusion, and other national security applications. In many of these applications, however, complications resulting from noise, scatter, complex beam dynamics, etc. prevent the reconstruction of density from being accurate enough to identify the underlying physics with sufficient confidence. As such, density reconstruction from static/dynamic radiography has typically been limited to identifying discontinuous features such as cracks and voids in a number of these applications. In this work, we propose a fundamentally new approach to reconstructing density from a temporal sequence of radiographic images. Using only the robust features identifiable in radiographs, we combine them with the underlying hydrodynamic equations of motion using a machine learning approach, namely, conditional generative adversarial networks (cGAN), to determine the density fields from a dynamic sequence of radiographs. Next, we seek to further enhance the hydrodynamic consistency of the ML-based density reconstruction through a process of parameter estimation and projection onto a hydrodynamic manifold. In this context, we note that the distance from the hydrodynamic manifold given by the training data to the test data in the parameter space considered both serves as a diagnostic of the robustness of the predictions and serves to augment the training database, with the expectation that the latter will further reduce future density reconstruction errors. Finally, we demonstrate the ability of this method to outperform a traditional radiographic reconstruction in capturing allowable hydrodynamic paths even when relatively small amounts of scatter are present.
翻訳日:2021-12-07 06:03:47 公開日:2021-12-02
# (参考訳) 磁気共鳴イメージングにおけるシステム的・スケーラブルな品質評価のためのエンジニアリングAIツール [全文訳有]

Engineering AI Tools for Systematic and Scalable Quality Assessment in Magnetic Resonance Imaging ( http://arxiv.org/abs/2112.01629v1 )

ライセンス: CC BY 4.0
Yukai Zou, Ikbeom Jang(参考訳) 機械学習アルゴリズム、並列コンピューティング、ハードウェア技術の進化に伴い、大規模な医用画像データセットの実現を望む声が高まっている。 そのため、大規模な臨床・翻訳研究を可能にするため、複数の臨床・学術機関からのデータ収集の需要が高まっている。 磁気共鳴イメージング(MRI)は、頻繁に使われる非侵襲的な画像モダリティである。 しかし、大きなMRIデータリポジトリの構築には、プライバシ、データサイズ、DICOMフォーマット、ロジスティクス、非標準化イメージに関する複数の課題がある。 データレポジトリの構築は難しいだけでなく、MRIベンダーやイメージングサイトをまたいだ画像取得、再構築、処理パイプラインの不均一性のため、リポジトリからプールされたデータを使用することも難しい。 本稿では,大規模なMRIデータレポジトリの構築と,それらのデータレポジトリからダウンロードされたデータの利用に関する課題について述べる。 課題に対処するために,本論文では,品質評価パイプラインの導入を提案する。

A desire to achieve large medical imaging datasets keeps increasing as machine learning algorithms, parallel computing, and hardware technology evolve. Accordingly, there is a growing demand in pooling data from multiple clinical and academic institutes to enable large-scale clinical or translational research studies. Magnetic resonance imaging (MRI) is a frequently used, non-invasive imaging modality. However, constructing a big MRI data repository has multiple challenges related to privacy, data size, DICOM format, logistics, and non-standardized images. Not only building the data repository is difficult, but using data pooled from the repository is also challenging, due to heterogeneity in image acquisition, reconstruction, and processing pipelines across MRI vendors and imaging sites. This position paper describes challenges in constructing a large MRI data repository and using data downloaded from such data repositories in various aspects. To help address the challenges, the paper proposes introducing a quality assessment pipeline, with considerations and general design principles.
翻訳日:2021-12-07 05:42:55 公開日:2021-12-02
# (参考訳) adasplit: リソース制約付き分散ディープラーニングのための適応的トレードオフ [全文訳有]

AdaSplit: Adaptive Trade-offs for Resource-constrained Distributed Deep Learning ( http://arxiv.org/abs/2112.01637v1 )

ライセンス: CC BY 4.0
Ayush Chopra, Surya Kant Sahu, Abhishek Singh, Abhinav Java, Praneeth Vepakomma, Vivek Sharma, Ramesh Raskar(参考訳) federated learning(fl)などの分散ディープラーニングフレームワークとその変種は、幅広いwebクライアントとモバイル/iotデバイスでパーソナライズされたエクスペリエンスを実現する。 しかし、flベースのフレームワークはモデルパラメータ(例えば10億のパラメータモデル)が爆発的に増加するため、クライアントの計算資源によって制約されている。 最近のフレームワークであるslit learning(sl)は、モデルトレーニングをクライアントとサーバに分割することで、クライアントの計算負荷を削減する。 この柔軟性は低スループットのセットアップには極めて有用であるが、帯域幅の消費増加のコストでしばしば達成され、特にクライアントデータが不均一である場合、最適以下の収束をもたらす。 本研究では、帯域幅の削減と異種クライアント間の性能向上により、SLを低リソースシナリオに効率よくスケールできるAdaSplitを提案する。 分散ディープラーニングの多次元的な性質を捉え,ベンチマークするために,リソース予算下での性能を評価する指標であるC3-Scoreを導入する。 限られた資源下でのAdaSplitの有効性を、強力なフェデレーションと分割学習ベースラインとの広範な比較実験により検証する。 また,AdaSplitにおける鍵設計選択の感度分析を行い,可変リソース予算間で適応的なトレードオフを提供するAdaSplitの能力を検証する。

Distributed deep learning frameworks like federated learning (FL) and its variants are enabling personalized experiences across a wide range of web clients and mobile/IoT devices. However, FL-based frameworks are constrained by computational resources at clients due to the exploding growth of model parameters (eg. billion parameter model). Split learning (SL), a recent framework, reduces client compute load by splitting the model training between client and server. This flexibility is extremely useful for low-compute setups but is often achieved at cost of increase in bandwidth consumption and may result in sub-optimal convergence, especially when client data is heterogeneous. In this work, we introduce AdaSplit which enables efficiently scaling SL to low resource scenarios by reducing bandwidth consumption and improving performance across heterogeneous clients. To capture and benchmark this multi-dimensional nature of distributed deep learning, we also introduce C3-Score, a metric to evaluate performance under resource budgets. We validate the effectiveness of AdaSplit under limited resources through extensive experimental comparison with strong federated and split learning baselines. We also present a sensitivity analysis of key design choices in AdaSplit which validates the ability of AdaSplit to provide adaptive trade-offs across variable resource budgets.
翻訳日:2021-12-07 05:37:37 公開日:2021-12-02
# (参考訳) longchecker:完全抽象コンテキストモデリングによる科学的クレーム検証の改善 [全文訳有]

LongChecker: Improving scientific claim verification by modeling full-abstract context ( http://arxiv.org/abs/2112.01640v1 )

ライセンス: CC BY 4.0
David Wadden, Kyle Lo, Lucy Lu Wang, Arman Cohan, Iz Beltagy, Hannaneh Hajishirzi(参考訳) 科学的クレーム検証のためのLongCheckerシステムを紹介する。 科学的クレームと証拠を含む研究要約が与えられた後、ロングチェッカーはveracityラベルを予測し、クレームと要約の共有エンコーディングに基づいてマルチタスク方式で合理性をサポートすることを識別する。 SciFactデータセット上で実験を行い、LongCheckerが最先端のパフォーマンスを達成することを確認する。 我々は、この改善の原点を理解するために分析を行い、クレームと科学的発見を報告する根拠との関係を特定するには、しばしばその根拠が現れる文脈を理解する必要があることを見出します。 利用可能なすべてのコンテキストに基づいてラベル決定を行うことで、LongCheckerはこの種の理解を必要とするケースでより良いパフォーマンスを達成する。 さらに,longcheckerは,弱教師付きドメイン内データを活用することで,科学的なクレーム検証のための少数ショットのドメイン適応が容易になることを示す。

We introduce the LongChecker system for scientific claim verification. Given a scientific claim and an evidence-containing research abstract, LongChecker predicts a veracity label and identifies supporting rationales in a multitask fashion based on a shared encoding of the claim and abstract. We perform experiments on the SciFact dataset, and find that LongChecker achieves state-of-the-art performance. We conduct analysis to understand the source of this improvement, and find that identifying the relationship between a claim and a rationale reporting a scientific finding often requires understanding the context in which the rationale appears. By making labeling decisions based on all available context, LongChecker achieves better performance on cases requiring this type of understanding. In addition, we show that LongChecker is able to leverage weakly-supervised in-domain data to facilitate few-shot domain adaptation for scientific claim verification.
翻訳日:2021-12-07 05:14:23 公開日:2021-12-02
# データセット統合によるネットワーク侵入検知システムの信頼性向上

Improving the Reliability of Network Intrusion Detection Systems through Dataset Integration ( http://arxiv.org/abs/2112.02080v1 )

ライセンス: Link先を確認
Roberto Mag\'an-Carri\'on, Daniel Urda, Ignacio D\'iaz-Cano, Bernab\'e Dorronsoro(参考訳) この研究は、機械学習(ML)ベースのネットワーク侵入検出システム(NIDS)のための新しい方法論であるReliable-NIDS(R-NIDS )を提示する。 したがって、R-NIDSはより堅牢なモデルの設計を目標としており、従来のアプローチよりも一般化されている。 また、UNK21と呼ばれる新しいデータセットを提案する。 最もよく知られている3つのネットワークデータセット(UGR'16、USNW-NB15、NLS-KDD)から構築され、それぞれがR-NIDSにあるデータ集約アプローチを使用して、独自のネットワーク環境から収集される。 R-NIDSの後、本研究では、NIDS評価のための文献において最も一般的な3つのデータセットの情報に基づいて、2つのよく知られたMLモデル(線形モデルと非線形モデル)を構築することを提案する。 提案手法が示す結果は、NIDSソリューションとしてトレーニングされたこれらの2つのMLモデルがこのアプローチのメリットを享受し、新たに提案されたUNK21データセットのトレーニングにおいて、より優れた一般化が可能になることを示している。 さらに, これらの結果は, 結論に高い信頼を与える統計ツールを用いて慎重に分析される。

This work presents Reliable-NIDS (R-NIDS), a novel methodology for Machine Learning (ML) based Network Intrusion Detection Systems (NIDSs) that allows ML models to work on integrated datasets, empowering the learning process with diverse information from different datasets. Therefore, R-NIDS targets the design of more robust models, that generalize better than traditional approaches. We also propose a new dataset, called UNK21. It is built from three of the most well-known network datasets (UGR'16, USNW-NB15 and NLS-KDD), each one gathered from its own network environment, with different features and classes, by using a data aggregation approach present in R-NIDS. Following R-NIDS, in this work we propose to build two well-known ML models (a linear and a non-linear one) based on the information of three of the most common datasets in the literature for NIDS evaluation, those integrated in UNK21. The results that the proposed methodology offers show how these two ML models trained as a NIDS solution could benefit from this approach, being able to generalize better when training on the newly proposed UNK21 dataset. Furthermore, these results are carefully analyzed with statistical tools that provide high confidence on our conclusions.
翻訳日:2021-12-06 17:13:44 公開日:2021-12-02
# 深層生成モデルを用いた新規光酸発生分子のサンプル効率生成

Sample-Efficient Generation of Novel Photo-acid Generator Molecules using a Deep Generative Model ( http://arxiv.org/abs/2112.01625v1 )

ライセンス: Link先を確認
Samuel C. Hoffman, Vijil Chenthamarakshan, Dmitry Yu. Zubarev, Daniel P. Sanders, Payel Das(参考訳) 光酸発生器(photo-acid generators、pags)は、光に曝されると酸(h^+$ ions)を放出する化合物である。 これらの化合物は、半導体論理やメモリチップの製造に使用されるフォトリソグラフィプロセスの重要な構成要素である。 半導体需要の指数関数的な増加は、新しい光酸発生器の発見の必要性を強調している。 深層生成モデルを用いたデノボ分子設計は、医薬品の発見と材料設計に広く用いられているが、新規な光酸発生器の開発への応用は、プロパティラベルの欠如など、いくつかのユニークな課題を生んでいる。 本稿では,これらの課題に注目し,事前学習したdeep autoencoderとexpert-in-the-loopによる条件付き生成を利用した生成的モデリング手法を提案する。 提案手法の有効性を対象物質の専門家の助けを借りて評価し, 新規な光酸発生器の開発以上の応用へのアプローチの可能性を示唆した。

Photo-acid generators (PAGs) are compounds that release acids ($H^+$ ions) when exposed to light. These compounds are critical components of the photolithography processes that are used in the manufacture of semiconductor logic and memory chips. The exponential increase in the demand for semiconductors has highlighted the need for discovering novel photo-acid generators. While de novo molecule design using deep generative models has been widely employed for drug discovery and material design, its application to the creation of novel photo-acid generators poses several unique challenges, such as lack of property labels. In this paper, we highlight these challenges and propose a generative modeling approach that utilizes conditional generation from a pre-trained deep autoencoder and expert-in-the-loop techniques. The validity of the proposed approach was evaluated with the help of subject matter experts, indicating the promise of such an approach for applications beyond the creation of novel photo-acid generators.
翻訳日:2021-12-06 16:26:00 公開日:2021-12-02
# モノクラーRGBビデオからのニューラルヘッドアバター

Neural Head Avatars from Monocular RGB Videos ( http://arxiv.org/abs/2112.01554v1 )

ライセンス: Link先を確認
Philip-William Grassal (1), Malte Prinzler (1), Titus Leistner (1), Carsten Rother (1), Matthias Nie{\ss}ner (2), Justus Thies (3) ((1) Heidelberg University, (2) Technical University of Munich, (3) Max Planck Institute for Intelligent Systems)(参考訳) このニューラルヘッドアバターは、デジタル人間に依存する映画やゲーム業界において、AR/VRやその他のアプリケーションでの遠隔会議に使用できる、アニマタブルな人間のアバターの表面形状と外観を明示的にモデル化する新しいニューラルヘッドアバターである。 我々の表現は、様々な表現とビューを特徴とする単眼のRGBポートレートビデオから学べる。 具体的には、顔の粗い形状と表現のための変形可能なモデルと、下層のメッシュの頂点オフセットを予測する2つのフィードフォワードネットワークと、ビューおよび表現に依存したテクスチャからなるハイブリッド表現を提案する。 我々は,この表現が,目立たないポーズや視点に正確に外挿でき,鋭いテクスチャの詳細を提供しながら自然表現を生成できることを実証する。 従来の頭部アバターの著作と比較すると,本手法は標準的なグラフィックパイプラインと互換性のある完全な頭部(毛髪を含む)の形状と外観モデルを提供する。 さらに、再現性や新規ビュー合成の観点から、定量的かつ質的に現在の技術状況を上回っている。

We present Neural Head Avatars, a novel neural representation that explicitly models the surface geometry and appearance of an animatable human avatar that can be used for teleconferencing in AR/VR or other applications in the movie or games industry that rely on a digital human. Our representation can be learned from a monocular RGB portrait video that features a range of different expressions and views. Specifically, we propose a hybrid representation consisting of a morphable model for the coarse shape and expressions of the face, and two feed-forward networks, predicting vertex offsets of the underlying mesh as well as a view- and expression-dependent texture. We demonstrate that this representation is able to accurately extrapolate to unseen poses and view points, and generates natural expressions while providing sharp texture details. Compared to previous works on head avatars, our method provides a disentangled shape and appearance model of the complete human head (including hair) that is compatible with the standard graphics pipeline. Moreover, it quantitatively and qualitatively outperforms current state of the art in terms of reconstruction quality and novel-view synthesis.
翻訳日:2021-12-06 16:18:35 公開日:2021-12-02
# 直接ボリュームレンダリングのための高速ニューラルネットワーク表現

Fast Neural Representations for Direct Volume Rendering ( http://arxiv.org/abs/2112.01579v1 )

ライセンス: Link先を確認
Sebastian Weiss, Philipp Herm\"uller, R\"udiger Westermann(参考訳) 高再生品質で3次元スカラー場を効果的に圧縮するニューラルシーン表現の可能性にもかかわらず、シーン表現ネットワークを用いたトレーニングとデータ再構成ステップの計算複雑性は、実用的な用途での使用を制限する。 本稿では,これらの制約を緩和するためにシーン表現ネットワークを変更できるのか,時間的再構成にも使用できるのかを解析する。 本稿では,gpuテンソルコアを用いたシーン表現ネットワークの新たな設計法を提案する。 さらに,従来のデータ駆動アプローチの代替として画像誘導ネットワークトレーニングの利用について検討し,品質と速度に関して,この代替案の強みと弱みについて検討する。 時変場に対する空間的超解像手法の代替として,任意の粒度でのランダムアクセス再構成を可能にする潜在空間補間法を提案する。 本研究は,科学的可視化タスクにおけるシーン表現ネットワークの強みと限界の評価という形で要約し,将来的な研究の方向性を概説する。

Despite the potential of neural scene representations to effectively compress 3D scalar fields at high reconstruction quality, the computational complexity of the training and data reconstruction step using scene representation networks limits their use in practical applications. In this paper, we analyze whether scene representation networks can be modified to reduce these limitations and whether these architectures can also be used for temporal reconstruction tasks. We propose a novel design of scene representation networks using GPU tensor cores to integrate the reconstruction seamlessly into on-chip raytracing kernels. Furthermore, we investigate the use of image-guided network training as an alternative to classical data-driven approaches, and we explore the potential strengths and weaknesses of this alternative regarding quality and speed. As an alternative to spatial super-resolution approaches for time-varying fields, we propose a solution that builds upon latent-space interpolation to enable random access reconstruction at arbitrary granularity. We summarize our findings in the form of an assessment of the strengths and limitations of scene representation networks for scientific visualization tasks and outline promising future research directions in this field.
翻訳日:2021-12-06 16:18:17 公開日:2021-12-02
# 光リモートセンシング画像における有意物体検出のためのマルチコンテンツ補完ネットワーク

Multi-Content Complementation Network for Salient Object Detection in Optical Remote Sensing Images ( http://arxiv.org/abs/2112.01932v1 )

ライセンス: Link先を確認
Gongyang Li, Zhi Liu, Weisi Lin, Haibin Ling(参考訳) コンピュータビジョンのコミュニティでは、自然シーン画像(NSI-SOD)からの有能な物体検出に大きな進歩が見られ、対照的に、光学リモートセンシング画像(RSI-SOD)における有能な物体検出が課題となっている。 NSI-SODとRSI-SODの間には、スケール、イルミネーション、撮像方位などの光学RSI特有の特徴が大きな違いをもたらす。 本稿では,RSI-SODにおける複数コンテンツの相補性を検討するために,MCCNet(Multi-Conten t Complementation Network)を提案する。 具体的には、MCCNetは一般的なエンコーダ・デコーダアーキテクチャに基づいており、エンコーダとデコーダをブリッジするMulti-Content Complementation Module (MCCM)と呼ばれる新しいキーコンポーネントを含んでいる。 MCCMでは,前景特徴,エッジ特徴,背景特徴,背景特徴,グローバルな画像レベルの特徴を含む,RSI-SODに不可欠な複数の機能について検討し,その内容の相補性を活かして,注目機構を通じてRSI-SODの様々なスケールにおける健全な領域をハイライトする。 さらに,トレーニングフェーズにおいて,画素レベル,マップレベル,メトリックアウェアロスを包括的に導入する。 2つの一般的なデータセットに関する広範な実験により、提案手法はnsi-sod法とrsi-sod法の両方を含む23の最先端法よりも優れていることが示されている。 このメソッドのコードと結果は、https://github.com/m athlee/mccnetで入手できます。

In the computer vision community, great progresses have been achieved in salient object detection from natural scene images (NSI-SOD); by contrast, salient object detection in optical remote sensing images (RSI-SOD) remains to be a challenging emerging topic. The unique characteristics of optical RSIs, such as scales, illuminations and imaging orientations, bring significant differences between NSI-SOD and RSI-SOD. In this paper, we propose a novel Multi-Content Complementation Network (MCCNet) to explore the complementarity of multiple content for RSI-SOD. Specifically, MCCNet is based on the general encoder-decoder architecture, and contains a novel key component named Multi-Content Complementation Module (MCCM), which bridges the encoder and the decoder. In MCCM, we consider multiple types of features that are critical to RSI-SOD, including foreground features, edge features, background features, and global image-level features, and exploit the content complementarity between them to highlight salient regions over various scales in RSI features through the attention mechanism. Besides, we comprehensively introduce pixel-level, map-level and metric-aware losses in the training phase. Extensive experiments on two popular datasets demonstrate that the proposed MCCNet outperforms 23 state-of-the-art methods, including both NSI-SOD and RSI-SOD methods. The code and results of our method are available at https://github.com/M athLee/MCCNet.
翻訳日:2021-12-06 16:15:14 公開日:2021-12-02
# 雑音モジュロ試料からのh\"older smooth functionsの回収

Recovering H\"older smooth functions from noisy modulo samples ( http://arxiv.org/abs/2112.01610v1 )

ライセンス: Link先を確認
Micha\"el Fanuel and Hemant Tyagi(参考訳) 信号処理では、ノイズのあるモジュロサンプルが与えられた関数の回復を含むいくつかの応用がある。 本論文では, 付加ガウス雑音により劣化した試料をモデュロ動作によりラップする設定について検討した。 この問題の典型的な例は、位相アンラッピング問題やデジタルコンバータに対する自己リセットアナログの文脈で生じる。 正規格子上にモジュロサンプルが与えられる固定設計について考察する。 次に,大域的整数シフトまでの基底真理信号を回復するための3段階の回復戦略を提案する。 第1段階は局所多項式推定器を用いてモジュラーサンプルを復調する。 第2段階では、グリッド上の分別モデュロサンプルに対して、未解決のアルゴリズムを適用する。 最後に、スプラインベース準補間演算子を用いて、大域的な整数シフトまでの基底真理関数の推定値を得る。 H\"古いクラスの関数に対しては、高い確率でリカバリ性能に均一なエラー率が与えられる。 これにより、Fanuel と Tyagi がLipschitz の滑らかな関数に対して得た最近の結果が拡張される。

In signal processing, several applications involve the recovery of a function given noisy modulo samples. The setting considered in this paper is that the samples corrupted by an additive Gaussian noise are wrapped due to the modulo operation. Typical examples of this problem arise in phase unwrapping problems or in the context of self-reset analog to digital converters. We consider a fixed design setting where the modulo samples are given on a regular grid. Then, a three stage recovery strategy is proposed to recover the ground truth signal up to a global integer shift. The first stage denoises the modulo samples by using local polynomial estimators. In the second stage, an unwrapping algorithm is applied to the denoised modulo samples on the grid. Finally, a spline based quasi-interpolant operator is used to yield an estimate of the ground truth function up to a global integer shift. For a function in H\"older class, uniform error rates are given for recovery performance with high probability. This extends recent results obtained by Fanuel and Tyagi for Lipschitz smooth functions wherein $k$NN regression was used in the denoising step.
翻訳日:2021-12-06 16:14:30 公開日:2021-12-02
# 自己監督型学習における確率的コントラスト損失

Probabilistic Contrastive Loss for Self-Supervised Learning ( http://arxiv.org/abs/2112.01642v1 )

ライセンス: Link先を確認
Shen Li, Jianqing Xu, Bryan Hooi(参考訳) 本稿では,自己教師付き学習のための確率的コントラスト損失関数を提案する。 よく知られたコントラスト損失は決定論的であり、2つのノルム特徴埋め込みの間の内積をスケールする温度超パラメータを含んでいる。 温度超パラメータを超球半径に関連する量として再解釈することにより、数学的に接地した方法で不確かさを定量化する信頼度測度を含む新しい損失関数を導出する。 提案した損失関数の興味深い性質は実証的に示され、人間のような予測に一致する。 今回の研究は、コントラスト学習の分野に新たな展望をもたらすと信じています。

This paper proposes a probabilistic contrastive loss function for self-supervised learning. The well-known contrastive loss is deterministic and involves a temperature hyperparameter that scales the inner product between two normed feature embeddings. By reinterpreting the temperature hyperparameter as a quantity related to the radius of the hypersphere, we derive a new loss function that involves a confidence measure which quantifies uncertainty in a mathematically grounding manner. Some intriguing properties of the proposed loss function are empirically demonstrated, which agree with human-like predictions. We believe the present work brings up a new prospective to the area of contrastive learning.
翻訳日:2021-12-06 16:02:54 公開日:2021-12-02
# D3Net:RGB-Dスキャンにおける半教師付きDense CaptioningとVisual Groundingのための話者リスナーアーキテクチャ

D3Net: A Speaker-Listener Architecture for Semi-supervised Dense Captioning and Visual Grounding in RGB-D Scans ( http://arxiv.org/abs/2112.01551v1 )

ライセンス: Link先を確認
Dave Zhenyu Chen, Qirui Wu, Matthias Nie{\ss}ner, Angel X. Chang(参考訳) 近年,3次元の高密度キャプションと視覚的グラウンドニングの研究が目覚ましい成果を上げている。 両分野の開発にもかかわらず、利用可能な3d視覚言語データの量が限られているため、3d視覚接地と3d密接なキャプション手法が過剰に適合している。 また、複雑な3d環境でオブジェクトを判別的に記述する方法については、まだ完全には研究されていない。 これらの課題に対処するため,我々は,エンドツーエンドのニューラル・スピーカー・リスナー・アーキテクチャであるd3netを提案する。 我々のD3Netは高密度キャプションと視覚的グラウンドを自己批判的に統合する。 D3Netのこの自己クリティカルな性質は、オブジェクトキャプション生成時の識別性も導入し、一部注釈付き記述によるScanNetデータの半教師付きトレーニングを可能にする。 提案手法は,ScanReferデータセット上の両方のタスクにおいてSOTA法よりも優れており,SOTA 3D高密度キャプション法を23.56%のCiDEr@0.5IoU改善率で上回っている。

Recent studies on dense captioning and visual grounding in 3D have achieved impressive results. Despite developments in both areas, the limited amount of available 3D vision-language data causes overfitting issues for 3D visual grounding and 3D dense captioning methods. Also, how to discriminatively describe objects in complex 3D environments is not fully studied yet. To address these challenges, we present D3Net, an end-to-end neural speaker-listener architecture that can detect, describe and discriminate. Our D3Net unifies dense captioning and visual grounding in 3D in a self-critical manner. This self-critical property of D3Net also introduces discriminability during object caption generation and enables semi-supervised training on ScanNet data with partially annotated descriptions. Our method outperforms SOTA methods in both tasks on the ScanRefer dataset, surpassing the SOTA 3D dense captioning method by a significant margin (23.56% CiDEr@0.5IoU improvement).
翻訳日:2021-12-06 15:55:50 公開日:2021-12-02
# 深い要因による確率的追跡

Probabilistic Tracking with Deep Factors ( http://arxiv.org/abs/2112.01609v1 )

ライセンス: Link先を確認
Fan Jiang, Andrew Marmon, Ildebrando De Courten, Marc Rasi, Frank Dellaert(参考訳) コンピュータビジョンの多くの応用において、2D画像と3D画像が1つしかない複数のソースからのデータを融合することにより、物体の軌跡を時間とともに正確に推定することが重要である。 本稿では,因子グラフに基づく確率的追跡フレームワークにおける特徴量に対する生成密度と組み合わせたディープ・フィーチャー・エンコーディングの使い方を示す。 我々は,学習した特徴エンコーダと生成密度を組み合わせた確率モデルを提案する。 また,画像分類モデルを用いて確率を直接推定する実験を行った。 これらのモデルは、因子グラフに追加される深い要素を実装するために使用され、運動モデルやその他の先行情報のようなドメイン固有の知識を表す他の要素を補完する。 因子は、ガウス前駆を持つ拡張カルマン平滑化の形式をとる非線形最小二乗追跡フレームワークで一緒に最適化される。 我々の可能性モデルの重要な特徴は、追跡対象のポーズのリー群特性を利用して、空間変換器ネットワークにインスパイアされた可変ワープ関数によって抽出された画像パッチに特徴符号化を適用することである。 提案手法を,課題となる社会昆虫行動データセットを用いて評価し,より深い特徴を用いた場合,これらの初期の線形外観モデルよりも優れていることを示す。

In many applications of computer vision it is important to accurately estimate the trajectory of an object over time by fusing data from a number of sources, of which 2D and 3D imagery is only one. In this paper, we show how to use a deep feature encoding in conjunction with generative densities over the features in a factor-graph based, probabilistic tracking framework. We present a likelihood model that combines a learned feature encoder with generative densities over them, both trained in a supervised manner. We also experiment with directly inferring probability through the use of image classification models that feed into the likelihood formulation. These models are used to implement deep factors that are added to the factor graph to complement other factors that represent domain-specific knowledge such as motion models and/or other prior information. Factors are then optimized together in a non-linear least-squares tracking framework that takes the form of an Extended Kalman Smoother with a Gaussian prior. A key feature of our likelihood model is that it leverages the Lie group properties of the tracked target's pose to apply the feature encoding on an image patch, extracted through a differentiable warp function inspired by spatial transformer networks. To illustrate the proposed approach we evaluate it on a challenging social insect behavior dataset, and show that using deep features does outperform these earlier linear appearance models used in this setting.
翻訳日:2021-12-06 15:55:30 公開日:2021-12-02
# 製品共食いのためのxgboostフレームワークの理論的解析

Theoretical Analysis of an XGBoost Framework for Product Cannibalization ( http://arxiv.org/abs/2112.01566v1 )

ライセンス: Link先を確認
Gautham Bekal, Mohammad Bari(参考訳) 本稿では,製品共食いシナリオ下での販売予測のための3段階XGBoostアルゴリズムを提案する。 従来我々は直観に基づいてモデルを開発し,その性能に関する実証的な証拠を提供した。 本研究では,アルゴリズムを手短に検討し,その動作の背後にある数学的推論を提供する。

This paper is an extension of our work where we presented a three-stage XGBoost algorithm for forecasting sales under product cannibalization scenario. Previously we developed the model based on our intuition and provided empirical evidence on its performance. In this study we would briefly go over the algorithm and then provide mathematical reasoning behind its working.
翻訳日:2021-12-06 15:47:59 公開日:2021-12-02
# 教師なしオンラインストリーミングモデルで学ぶためのスケジューリング

Scheduling to Learn In An Unsupervised Online Streaming Model ( http://arxiv.org/abs/2112.01576v1 )

ライセンス: Link先を確認
R. Vaze, Santanu Rathod(参考訳) 教師なしのオンラインストリーミングモデルでは、サンプルがT$スロットを越えてオンライン形式で配信される。 クラス化器には$m$があり、混乱行列は事前に不明である。 各スロットでは、少なくとも1つのサンプルを任意の分類器でラベル付けすることができる。 サンプルの精度は、様々な分類器から得られたラベルの集合の関数である。 サンプルの有用性は、その精度のスカラー倍で、応答時間(出発スロットと到着スロットの差)を減らし、出発スロットもアルゴリズムによって決定される。 各分類器は、スロット毎に少なくとも1つのサンプルをラベル付けできるため、特定のサンプルに対してより大きなラベルセットを取得することで、その精度と応答時間を改善するというトレードオフがある。 混乱行列の学習, サンプル分類器マッチング代入, サンプル出発スロット決定が互いに依存する場合, サンプルの効用を最大化することの問題点を考察する。 提案アルゴリズムは、まず混乱行列を学習し、その後、サンプル分類器マッチングにグリーディアルゴリズムを用いる。 インクリメンタルユーティリティが非陽性になったら、サンプルは離脱する。 提案アルゴリズムの競合比は$\frac{1}{2}-{\mathcal O}\left(\frac{\log T}{T}\right)$であることを示す。

An unsupervised online streaming model is considered where samples arrive in an online fashion over $T$ slots. There are $M$ classifiers, whose confusion matrices are unknown a priori. In each slot, at most one sample can be labeled by any classifier. The accuracy of a sample is a function of the set of labels obtained for it from various classifiers. The utility of a sample is a scalar multiple of its accuracy minus the response time (difference of the departure slot and the arrival slot), where the departure slot is also decided by the algorithm. Since each classifier can label at most one sample per slot, there is a tradeoff between obtaining a larger set of labels for a particular sample to improve its accuracy, and its response time. The problem of maximizing the sum of the utilities of all samples is considered, where learning the confusion matrices, sample-classifier matching assignment, and sample departure slot decisions depend on each other. The proposed algorithm first learns the confusion matrices, and then uses a greedy algorithm for sample-classifier matching. A sample departs once its incremental utility turns non-positive. We show that the competitive ratio of the proposed algorithm is $\frac{1}{2}-{\mathcal O}\left(\frac{\log T}{T}\right)$.
翻訳日:2021-12-06 15:47:54 公開日:2021-12-02
# アンサンブルフィルタを用いたランダムモデルにおける雑音下のラベル雑音検出

Label noise detection under the Noise at Random model with ensemble filters ( http://arxiv.org/abs/2112.01617v1 )

ライセンス: Link先を確認
Kecia G. Moura, Ricardo B. C. Prud\^encio, George D. C. Cavalcanti(参考訳) ラベルノイズ検出は、トレーニングデータ品質向上の重要性から、機械学習で広く研究されている。 ノイズ検出は、分類器のアンサンブルを採用することで実現されている。 このアプローチでは、プール内のメンバの比率が高い場合に、インスタンスが誤ったラベルとして割り当てられる。 以前の著者はこのアプローチを経験的に評価したが、ラベルノイズはデータセット内で完全にランダムに生成されると仮定していた。 これは、他の種類のラベルノイズが実際に実現可能であり、ノイズ検出結果に影響を与える可能性があるため、強い仮定である。 本研究では、2つの異なるノイズモデルにおけるアンサンブルノイズ検出の性能について検討する: ランダムのノイズの確率がインスタンスクラスに依存する雑音(NAR) と、ラベルノイズの確率が完全に独立な雑音(Randomモデル)。 そこで本研究では,NAR仮定に基づくデータセットで観測される全雑音レベルが変化するため,クラス分布がノイズ検出性能に与える影響について検討する。 また、文献における最も一般的なアプローチとは対照的に、アンサンブル投票しきい値の評価を行う。 多くの実験では、クラス不均衡やノイズレベル比といった側面を異なるクラス間で考えると、ノイズ生成モデルが他よりも異なる結果をもたらす可能性がある。

Label noise detection has been widely studied in Machine Learning because of its importance in improving training data quality. Satisfactory noise detection has been achieved by adopting ensembles of classifiers. In this approach, an instance is assigned as mislabeled if a high proportion of members in the pool misclassifies it. Previous authors have empirically evaluated this approach; nevertheless, they mostly assumed that label noise is generated completely at random in a dataset. This is a strong assumption since other types of label noise are feasible in practice and can influence noise detection results. This work investigates the performance of ensemble noise detection under two different noise models: the Noisy at Random (NAR), in which the probability of label noise depends on the instance class, in comparison to the Noisy Completely at Random model, in which the probability of label noise is entirely independent. In this setting, we investigate the effect of class distribution on noise detection performance since it changes the total noise level observed in a dataset under the NAR assumption. Further, an evaluation of the ensemble vote threshold is conducted to contrast with the most common approaches in the literature. In many performed experiments, choosing a noise generation model over another can lead to different results when considering aspects such as class imbalance and noise level ratio among different classes.
翻訳日:2021-12-06 15:47:36 公開日:2021-12-02
# 深層ニューラルネットワークを用いた次元フリー平均治療効果推定

Dimension-Free Average Treatment Effect Inference with Deep Neural Networks ( http://arxiv.org/abs/2112.01574v1 )

ライセンス: Link先を確認
Xinze Du, Yingying Fan, Jinchi Lv, Tianshu Sun and Patrick Vossler(参考訳) 本稿では,Deep Neural Network (DNN) を用いた平均治療効果 (ATE) の推定と推定について検討する。 いくつかの正規性条件の下では、観測された応答は、結合変数と治療指標の両方を独立変数とする平均回帰問題の応答として定式化することができる。 このような定式化を用いて、特定ネットワークアーキテクチャを用いたDNN回帰を用いた推定平均回帰関数に基づくATE推定と推定の2つの方法を検討する。 我々は, ate の dnn 推定値が, 基礎となる真の平均回帰モデルに基づくいくつかの仮定の下で, 次元フリーな一貫性率と一致することを示す。 モデル仮定は, 潜在因子や処理指標と結合変数との非線形相互作用を含む, 観測された共変量に対する応答の潜在的に複雑な依存構造に適合する。 また,標本分割の考え方に基づいて推定器の漸近正規性を確立し,正確な推論と不確実性定量化を確実にする。 シミュレーション研究と実データ応用は,我々の理論的知見を正当化し,dnn推定と推論手法をサポートする。

This paper investigates the estimation and inference of the average treatment effect (ATE) using deep neural networks (DNNs) in the potential outcomes framework. Under some regularity conditions, the observed response can be formulated as the response of a mean regression problem with both the confounding variables and the treatment indicator as the independent variables. Using such formulation, we investigate two methods for ATE estimation and inference based on the estimated mean regression function via DNN regression using a specific network architecture. We show that both DNN estimates of ATE are consistent with dimension-free consistency rates under some assumptions on the underlying true mean regression model. Our model assumptions accommodate the potentially complicated dependence structure of the observed response on the covariates, including latent factors and nonlinear interactions between the treatment indicator and confounding variables. We also establish the asymptotic normality of our estimators based on the idea of sample splitting, ensuring precise inference and uncertainty quantification. Simulation studies and real data application justify our theoretical findings and support our DNN estimation and inference methods.
翻訳日:2021-12-06 15:24:22 公開日:2021-12-02
# 認知と認知のニューロシンボリックシステム--注意の役割

Neurosymbolic Systems of Perception & Cognition: The Role of Attention ( http://arxiv.org/abs/2112.01603v1 )

ライセンス: Link先を確認
Hugo Latapie, Ozkan Kilic, Kristinn R. Thorisson, Pei Wang, Patrick Hammer(参考訳) 累積学習を目的とした認知アーキテクチャは、エージェントが経験から漸進的に自律的に学習できるように、必要な情報と制御構造を提供する必要がある。 これはエージェントの目標を管理したり、知覚情報スタック内のこれらに感覚情報を継続的に関連付けることを含む。 学習エージェントの環境がより多様になるほど、より一般的で柔軟なメカニズムは、より多様なパターン、タスク、目標構造を扱うためのメカニズムでなければならない。 多くの研究者は、異なる抽象化レベルの情報はその構成、構造、処理メカニズムで異なる可能性が高いと認めているが、そのような違いの特質に関する合意は研究コミュニティでは一般に共有されていない。 低レベルの情報に対する認知処理のモデルとして、バイナリ処理アーキテクチャ(しばしば System-1 と System-2 と呼ばれる)が提案されている。 この方法で認知は二項的ではなく、あらゆる抽象レベルでの知識はニューロシンボリック情報(Neurosymbolic information)と呼ばれるもので、ハイレベルとローレベルの両方のデータはシンボル情報とサブシンボリック情報の両方を含まなければならない。 さらに、高レベルのデータ抽象化処理と低レベルのデータ抽象化処理の主な差別化要因は、主に関連する注意機構の性質に起因していると論じる。 本論の背景にある重要な論点を述べるとともに,文献からの証拠をレビューする。

A cognitive architecture aimed at cumulative learning must provide the necessary information and control structures to allow agents to learn incrementally and autonomously from their experience. This involves managing an agent's goals as well as continuously relating sensory information to these in its perception-cognition information stack. The more varied the environment of a learning agent is, the more general and flexible must be these mechanisms to handle a wider variety of relevant patterns, tasks, and goal structures. While many researchers agree that information at different levels of abstraction likely differs in its makeup and structure and processing mechanisms, agreement on the particulars of such differences is not generally shared in the research community. A binary processing architecture (often referred to as System-1 and System-2) has been proposed as a model of cognitive processing for low- and high-level information, respectively. We posit that cognition is not binary in this way and that knowledge at any level of abstraction involves what we refer to as neurosymbolic information, meaning that data at both high and low levels must contain both symbolic and subsymbolic information. Further, we argue that the main differentiating factor between the processing of high and low levels of data abstraction can be largely attributed to the nature of the involved attention mechanisms. We describe the key arguments behind this view and review relevant evidence from the literature.
翻訳日:2021-12-06 15:08:01 公開日:2021-12-02
# ベイズ二次数の不変前駆

Invariant Priors for Bayesian Quadrature ( http://arxiv.org/abs/2112.01578v1 )

ライセンス: Link先を確認
Masha Naslidnyk, Javier Gonzalez, Maren Mahsereci(参考訳) Bayesian quadrature (BQ) はモデルに基づく数値積分法であり、手前の積分タスクの既知の構造を符号化し活用することで、サンプル効率を向上させることができる。 本稿では, 入力領域における単射変換の集合, 特に回転, 軸フリップ, 点対称性などのユニタリ変換の下で, 積分の不変性をエンコードする前処理について検討する。 いくつかの合成および1つの実世界の応用において,標準的なベイズ二次よりも優れた性能を示す。

Bayesian quadrature (BQ) is a model-based numerical integration method that is able to increase sample efficiency by encoding and leveraging known structure of the integration task at hand. In this paper, we explore priors that encode invariance of the integrand under a set of bijective transformations in the input domain, in particular some unitary transformations, such as rotations, axis-flips, or point symmetries. We show initial results on superior performance in comparison to standard Bayesian quadrature on several synthetic and one real world application.
翻訳日:2021-12-06 15:06:56 公開日:2021-12-02
# FuseDream: CLIP+GAN空間最適化を改良した無料テキスト画像生成

FuseDream: Training-Free Text-to-Image Generation with Improved CLIP+GAN Space Optimization ( http://arxiv.org/abs/2112.01573v1 )

ライセンス: Link先を確認
Xingchao Liu, Chengyue Gong, Lemeng Wu, Shujian Zhang, Hao Su, Qiang Liu(参考訳) 自然言語命令から画像を生成することは興味深いが、非常に難しい作業である。 本稿では,リトレーニングされたCLIP表現のパワーとオフザシェルフ画像生成器(GAN)を組み合わせることでテキスト・ツー・イメージ生成にアプローチし,GANの潜時空間を最適化し,与えられた入力テキストで最大CLIPスコアを達成する画像を求める。 テキストから画像への生成モデルをスクラッチからトレーニングする従来の方法と比較して、clip+ganアプローチはトレーニングフリーでゼロショットであり、異なるジェネレータで簡単にカスタマイズできる。 しかし、GAN空間におけるCLIPスコアの最適化は、非常に困難な最適化問題を招き、Adamのような既製のオプティマイザは満足な結果を得ることができない。 本稿では,クリップ+ganアプローチを3つの重要な手法で改善するfusedreamパイプラインを提案する。 1)AugCLIPスコアは、画像にランダムな拡張を導入することでCLIPの目的を確固たるものにする。 2) GAN空間の非凸景観を効率的にナビゲートできる最適化のための新しい初期化および過パラメータ化戦略を提案する。 3)新しい二値最適化定式化を利用することにより、gan空間を拡張しデータバイアスを克服するために複数の画像を構成することができる合成生成技術。 異なる入力テキストでプロモートすると、FuseDreamは、さまざまなオブジェクト、背景、芸術スタイル、さらには、私たちが使用しているGANのトレーニングデータに現れない斬新な偽造概念を含む高品質な画像を生成することができる。 FuseDreamが生成した画像は、アーキテクチャ設計やトレーニングを伴わずに、MS COCOデータセット上でトップレベルのインセプションスコアとFIDスコアを得る。 私たちのコードは \url{https://github.com/g nobitab/fusedream} で公開されている。

Generating images from natural language instructions is an intriguing yet highly challenging task. We approach text-to-image generation by combining the power of the retrained CLIP representation with an off-the-shelf image generator (GANs), optimizing in the latent space of GAN to find images that achieve maximum CLIP score with the given input text. Compared to traditional methods that train generative models from text to image starting from scratch, the CLIP+GAN approach is training-free, zero shot and can be easily customized with different generators. However, optimizing CLIP score in the GAN space casts a highly challenging optimization problem and off-the-shelf optimizers such as Adam fail to yield satisfying results. In this work, we propose a FuseDream pipeline, which improves the CLIP+GAN approach with three key techniques: 1) an AugCLIP score which robustifies the CLIP objective by introducing random augmentation on image. 2) a novel initialization and over-parameterizatio n strategy for optimization which allows us to efficiently navigate the non-convex landscape in GAN space. 3) a composed generation technique which, by leveraging a novel bi-level optimization formulation, can compose multiple images to extend the GAN space and overcome the data-bias. When promoted by different input text, FuseDream can generate high-quality images with varying objects, backgrounds, artistic styles, even novel counterfactual concepts that do not appear in the training data of the GAN we use. Quantitatively, the images generated by FuseDream yield top-level Inception score and FID score on MS COCO dataset, without additional architecture design or training. Our code is publicly available at \url{https://github.com/g nobitab/FuseDream}.
翻訳日:2021-12-06 15:04:29 公開日:2021-12-02
# Unregistered Multiphase Computed Tomography 画像を用いたロバストエンドツーエンド肝病変検出

Robust End-to-End Focal Liver Lesion Detection using Unregistered Multiphase Computed Tomography Images ( http://arxiv.org/abs/2112.01535v1 )

ライセンス: Link先を確認
Sang-gil Lee, Eunji Kim, Jae Seok Bae, Jung Hoon Kim, Sungroh Yoon(参考訳) 局所肝病変(FLL)のコンピュータ診断は、ワークフローを改善し、正しい診断を可能にする。 最近のfll検出におけるディープラーニングアプローチの成功にもかかわらず、現在の手法は不整合多相データの評価に十分頑健ではない。 特徴空間に注意誘導型多相アライメントを導入することにより,多相CT画像からFLLを検出するための完全自動エンドツーエンド学習フレームワークを提案する。 本手法は, 完全学習に基づくアプローチにより, 多相画像の非一致に頑健であり, モデルの性能と登録品質の感度を低下させ, 臨床実践におけるモデルの単独展開を可能にする。 280名の患者を対象とする大規模データセットの評価では, 従来手法よりも優れていたFLLの検出精度が有意に低下した。 提案手法のロバスト性は,深層学習型コンピュータ支援検出システムの臨床適用性を高めることができる。

The computer-aided diagnosis of focal liver lesions (FLLs) can help improve workflow and enable correct diagnoses; FLL detection is the first step in such a computer-aided diagnosis. Despite the recent success of deep-learning-based approaches in detecting FLLs, current methods are not sufficiently robust for assessing misaligned multiphase data. By introducing an attention-guided multiphase alignment in feature space, this study presents a fully automated, end-to-end learning framework for detecting FLLs from multiphase computed tomography (CT) images. Our method is robust to misaligned multiphase images owing to its complete learning-based approach, which reduces the sensitivity of the model's performance to the quality of registration and enables a standalone deployment of the model in clinical practice. Evaluation on a large-scale dataset with 280 patients confirmed that our method outperformed previous state-of-the-art methods and significantly reduced the performance degradation for detecting FLLs using misaligned multiphase CT images. The robustness of the proposed method can enhance the clinical adoption of the deep-learning-based computer-aided detection system.
翻訳日:2021-12-06 15:01:12 公開日:2021-12-02
# 教員養成における数学的質問の改善

Improving mathematical questioning in teacher training ( http://arxiv.org/abs/2112.01537v1 )

ライセンス: Link先を確認
Debajyoti Datta, Maria Phillips, James P Bywater, Jennifer Chiu, Ginger S. Watson, Laura E. Barnes, Donald E Brown(参考訳) 高忠実でAIに基づくシミュレーション教室システムにより、教師は効果的な教育戦略をリハーサルすることができる。 しかし,学生にスケールファクターを教えるなど,対話指向のオープンエンド会話はモデル化が困難である。 本稿では,教師が研究に基づく数学的質問のスキルをリハーサルするのに役立つ,高忠実なAIベースの教室シミュレータを提案する。 我々は,深層学習,不確実性定量化,自然言語処理の進歩に頼りながら,特定の教育ニーズに対する会話エージェントの限界を認めながら,システム設計に人間中心のアプローチを取る。 シミュレーション中に専門家のインプットを直接利用して,会話の成功率とユーザ満足度の向上を実証する。

High-fidelity, AI-based simulated classroom systems enable teachers to rehearse effective teaching strategies. However, dialogue-oriented open-ended conversations such as teaching a student about scale factor can be difficult to model. This paper presents a high-fidelity, AI-based classroom simulator to help teachers rehearse research-based mathematical questioning skills. We take a human centered approach to designing our system, relying advances in deep-learning, uncertainty quantification and natural language processing while acknowledging the limitations of conversational agents for specific pedagogical needs. Using experts' input directly during the simulation, we demonstrate how conversation success rate and high user satisfaction can be achieved.
翻訳日:2021-12-06 15:00:53 公開日:2021-12-02
# 内在的なインタラクティブ強化学習に向けて--調査

Towards Intrinsic Interactive Reinforcement Learning: A Survey ( http://arxiv.org/abs/2112.01575v1 )

ライセンス: Link先を確認
Benjamin Poole and Minwoo Lee(参考訳) 強化学習(RL)と脳-コンピュータインターフェース(BCI)は、過去10年間に成長してきた2つの分野です。 最近まで、これらの分野は独立して運営されてきた。 HITL(Human-in-the-lo op)応用への関心が高まっているため、RLアルゴリズムは人間の指導に適応し、対話型強化学習(IRL)のサブフィールドを生み出している。 近頃、BCIアプリケーションは人間とコンピュータの相互作用の間、神経活動から本質的なフィードバックを抽出することに興味を抱いていた。 これら2つのアイデアは、内在的なフィードバックをエージェントのトレーニングに活用できるirlフレームワークへのbciの統合を通じて、rlとbciを衝突コースに設定している。 この交差点は固有のIRLと表現されている。 さらに,BCIとIRLのより深い接種を促進するため,本研究では,その親領域であるフィードバック駆動IRLに注目し,妥当性,課題,今後の研究方向性について議論する。

Reinforcement learning (RL) and brain-computer interfaces (BCI) are two fields that have been growing over the past decade. Until recently, these fields have operated independently of one another. With the rising interest in human-in-the-loop (HITL) applications, RL algorithms have been adapted to account for human guidance giving rise to the sub-field of interactive reinforcement learning (IRL). Adjacently, BCI applications have been long interested in extracting intrinsic feedback from neural activity during human-computer interactions. These two ideas have set RL and BCI on a collision course for one another through the integration of BCI into the IRL framework where intrinsic feedback can be utilized to help train an agent. This intersection has been denoted as intrinsic IRL. To further help facilitate deeper ingratiation of BCI and IRL, we provide a review of intrinsic IRL with an emphasis on its parent field of feedback-driven IRL while also providing discussions concerning the validity, challenges, and future research directions.
翻訳日:2021-12-06 15:00:40 公開日:2021-12-02
# ベストプライスとクエリベースの予測を備えたオンライン検索

Online Search With Best-Price and Query-Based Predictions ( http://arxiv.org/abs/2112.01592v1 )

ライセンス: Link先を確認
Spyros Angelopoulos and Shahin Kamali and Dehou Zhang(参考訳) オンライン(時系列)検索問題において、プレイヤーは、オンライン形式で明らかにされる一連の価格を提示される。 問題の標準的定義では、プレイヤーは将来の価格(上限値と上限値の低い値を除く)の知識なしに、各明らかにされた価格に対して、プレイヤーがそれを受け入れるか拒否するかを不当に決定し、その目的は、競合比、すなわち、シーケンスの最大価格とプレイヤーが選択した値の最悪のケース比を最小化することである。 この問題は、明らかにされたサンプルの不確実性に直面した意思決定のいくつかの応用を定式化する。 この問題に関する以前の研究は、プレイヤーが入力に関する情報をほとんど持っていない、またはプレイヤーが強力でエラーのないアドバイスを提供するという極端なシナリオを想定していた。 本研究では,入力に関する誤予測が存在する可能性のある学習増強アルゴリズムについて検討する。 具体的には、予測がシーケンス内の最大価格に関連付けられた設定と、複数のバイナリクエリに対する応答として予測が得られた設定の2つの異なる設定について検討する。 いずれの設定においても,予測誤差の関数として,検索アルゴリズムの最悪の性能に対して,厳密な上・下・下限を提供する。 また,提案手法が他の学習強化アプリケーションに適用可能かどうかを論証し,理論分析を裏付ける証券市場から得られたデータに関する実験結果も提示する。

In the online (time-series) search problem, a player is presented with a sequence of prices which are revealed in an online manner. In the standard definition of the problem, for each revealed price, the player must decide irrevocably whether to accept or reject it, without knowledge of future prices (other than an upper and a lower bound on their extreme values), and the objective is to minimize the competitive ratio, namely the worst-case ratio between the maximum price in the sequence and the one selected by the player. The problem formulates several applications of decision-making in the face of uncertainty on the revealed samples. Previous work on this problem has largely assumed extreme scenarios in which either the player has almost no information about the input, or the player is provided with some powerful, and error-free advice. In this work, we study learning-augmented algorithms, in which there is a potentially erroneous prediction concerning the input. Specifically, we consider two different settings: the setting in which the prediction is related to the maximum price in the sequence, as well as the setting in which the prediction is obtained as a response to a number of binary queries. For both settings, we provide tight, or near-tight upper and lower bounds on the worst-case performance of search algorithms as a function of the prediction error. We also provide experimental results on data obtained from stock exchange markets that confirm the theoretical analysis, and explain how our techniques can be applicable to other learning-augmented applications.
翻訳日:2021-12-06 15:00:21 公開日:2021-12-02
# PLSUM: 複数のウェブサイトを要約してPT-BRウィキペディアを生成する

PLSUM: Generating PT-BR Wikipedia by Summarizing Multiple Websites ( http://arxiv.org/abs/2112.01591v1 )

ライセンス: Link先を確認
Andr\'e Seidel Oliveira, Anna Helena Reali Costa(参考訳) ウィキペディアは知的な知識の重要なフリーソースである。 それにもかかわらず、ブラジルポルトガル語のウィキペディアには、多くの主題についての記述がない。 ブラジルのウィキペディアを拡大するために、複数の記述Webサイトからウィキに似た抽象要約を生成するフレームワークPLSumを寄贈する。 フレームワークは抽出段階を持ち、次いで抽象段階である。 特に抽象的な段階では、Transformer Neural Network, PTT5とLongformerの2つの最近のバリエーションを比較する。 モデルを微調整し、評価するために、数千のサンプルからなるデータセットを作成し、参考ウェブサイトをWikipediaにリンクした。 その結果,ブラジルのwebコンテンツから意味のある要約要約を生成できることがわかった。

Wikipedia is an important free source of intelligible knowledge. Despite that, Brazilian Portuguese Wikipedia still lacks descriptions for many subjects. In an effort to expand the Brazilian Wikipedia, we contribute PLSum, a framework for generating wiki-like abstractive summaries from multiple descriptive websites. The framework has an extractive stage followed by an abstractive one. In particular, for the abstractive stage, we fine-tune and compare two recent variations of the Transformer neural network, PTT5, and Longformer. To fine-tune and evaluate the model, we created a dataset with thousands of examples, linking reference websites to Wikipedia. Our results show that it is possible to generate meaningful abstractive summaries from Brazilian Portuguese web content.
翻訳日:2021-12-06 14:30:37 公開日:2021-12-02
# ニューラルネットワークの敵攻撃に対する近似は普遍的に防御されるか?

Is Approximation Universally Defensive Against Adversarial Attacks in Deep Neural Networks? ( http://arxiv.org/abs/2112.01555v1 )

ライセンス: Link先を確認
Ayesha Siddique, Khaza Anuarul Hoque(参考訳) 近似コンピューティングは、深層ニューラルネットワーク(DNN)アクセラレーターのエネルギー効率を少しの精度損失で向上させる効果で知られている。 最近では、近似乗算器のような近似成分の不正確な性質も、DNNモデルに対する敵攻撃の防御に成功していると報告されている。 近似誤差がDNNの層を覆い隠されたり、偽装されたりして横切るため、このことは、DNNの敵攻撃に対して常に防御を提供する重要な研究課題である。 そこで本研究では, 最先端の近似乗算器を用いて, 異なる近似DNN加速器(AxDNN)の対角性解析を行う。 特に,MNISTとCIFAR-10データセットを用いて,異なるAxDNNに対する10の敵攻撃の影響を評価する。 以上の結果から,AxDNNに対する敵対攻撃は53%の精度低下を引き起こすが,同じ攻撃はDNNの精度低下(0.06%以下)をほとんど起こさない可能性が示唆された。 したがって、近似計算は敵の攻撃に対する普遍的防衛戦略とは呼べない。

Approximate computing is known for its effectiveness in improvising the energy efficiency of deep neural network (DNN) accelerators at the cost of slight accuracy loss. Very recently, the inexact nature of approximate components, such as approximate multipliers have also been reported successful in defending adversarial attacks on DNNs models. Since the approximation errors traverse through the DNN layers as masked or unmasked, this raises a key research question-can approximate computing always offer a defense against adversarial attacks in DNNs, i.e., are they universally defensive? Towards this, we present an extensive adversarial robustness analysis of different approximate DNN accelerators (AxDNNs) using the state-of-the-art approximate multipliers. In particular, we evaluate the impact of ten adversarial attacks on different AxDNNs using the MNIST and CIFAR-10 datasets. Our results demonstrate that adversarial attacks on AxDNNs can cause 53% accuracy loss whereas the same attack may lead to almost no accuracy loss (as low as 0.06%) in the accurate DNN. Thus, approximate computing cannot be referred to as a universal defense strategy against adversarial attacks.
翻訳日:2021-12-06 14:29:51 公開日:2021-12-02
# 画像列における不等角形コンテンツと動きに先行するハミルトン

Hamiltonian prior to Disentangle Content and Motion in Image Sequences ( http://arxiv.org/abs/2112.01641v1 )

ライセンス: Link先を確認
Asif Khan, Amos Storkey(参考訳) 本稿では,高次元シーケンシャルデータに対する深い潜伏変数モデルを提案する。 我々のモデルは潜在空間を内容変数と動き変数に分解する。 多様なダイナミクスをモデル化するために、運動空間を部分空間に分割し、各部分空間に対して一意なハミルトニアン作用素を導入する。 ハミルトニアンの定式化は、不変性を保存するために運動経路を制約することを学ぶ可逆力学を提供する。 運動空間の明示的な分割はハミルトニアンを対称群に分解し、ダイナミクスの長期的な分離性を与える。 この分割はまた、解釈や制御が容易な表現を学習できることを意味する。 本研究では,2つの動画の動きを交換し,与えられた画像から様々なアクションのシーケンスを生成し,無条件のシーケンスを生成するモデルの有用性を示す。

We present a deep latent variable model for high dimensional sequential data. Our model factorises the latent space into content and motion variables. To model the diverse dynamics, we split the motion space into subspaces, and introduce a unique Hamiltonian operator for each subspace. The Hamiltonian formulation provides reversible dynamics that learn to constrain the motion path to conserve invariant properties. The explicit split of the motion space decomposes the Hamiltonian into symmetry groups and gives long-term separability of the dynamics. This split also means representations can be learnt that are easy to interpret and control. We demonstrate the utility of our model for swapping the motion of two videos, generating sequences of various actions from a given image and unconditional sequence generation.
翻訳日:2021-12-06 14:17:41 公開日:2021-12-02
# (参考訳) SimpleTron: 注意計算からSoftmaxを取り除く [全文訳有]

SimpleTron: Eliminating Softmax from Attention Computation ( http://arxiv.org/abs/2111.15588v3 )

ライセンス: CC BY 4.0
Uladzislau Yorsh, Pavel Kord\'ik, Alexander Kovalenko(参考訳) 本稿では,変圧器モデルに広く用いられているドット積対対応注意層がモデル性能に冗長であることを示す。 オリジナルの定式化における注意は、シーケンスにおける関連性スコアを探索および/または視覚化するための人間レベルのツールと見なされる必要がある。 代わりに、我々の知る限りでは、Long-Range Arenaベンチマークのいくつかのタスクにおける既存の注意度を上回る、シンプルで高速な代替案を提案する。

In this paper, we propose that the dot product pairwise matching attention layer, which is widely used in transformer-based models, is redundant for the model performance. Attention in its original formulation has to be rather seen as a human-level tool to explore and/or visualize relevancy scores in the sequences. Instead, we present a simple and fast alternative without any approximation that, to the best of our knowledge, outperforms existing attention approximations on several tasks from the Long-Range Arena benchmark.
翻訳日:2021-12-06 02:02:07 公開日:2021-12-02
# (参考訳) 文脈情報を用いた学術論文の構造関数の同定の促進

Enhancing Identification of Structure Function of Academic Articles Using Contextual Information ( http://arxiv.org/abs/2111.14110v2 )

ライセンス: CC BY 4.0
Bowen Ma, Chengzhi Zhang, Yuzhuo Wang, Sanhong Deng(参考訳) 文献資源の充実により、研究者は情報爆発と知識過剰の増大する問題に直面している。 研究者が文学を修得し知識を得るのを助けるため、学術文献の内容の意味構造を明らかにすることが本質的な研究課題となっている。 学術論文における章の構造関数の同定に関する研究において,深層学習モデルを用いて特徴入力の最適化を検討した研究はごくわずかであった。 これにより、研究課題に対するディープラーニングモデルの応用、最適化の可能性を制限する。 本稿ではACLカンファレンスの記事をコーパスとして取り上げる。 従来の機械学習モデルとディープラーニングモデルを用いて、様々な特徴入力に基づいて分類器を構築する。 実験結果から,(1)章の内容と比較すると,章題は学術論文の構造的機能を明らかにするのに有用であることが示唆された。 2) 相対的な位置は、伝統的なモデルを構築する上で価値のある特徴である。 3)(2)に触発され,さらに深層学習モデルに文脈情報を導入し,有意な結果を得た。 一方,200サンプルの非トレーニングサンプルを含むオープンテストでは,良好なマイグレーション能力を示す。 また,過去5年間のaclメイン・カンファレンスの論文にベスト・プラクティス・パフォーマンス・モデルに基づいて注釈を付け,コーパス全体の時系列分析を行った。 本研究は,複数の比較実験を通じて,本課題の実践的特徴とモデルを探索,要約し,関連するテキスト分類タスクへの参照を提供する。 最後に,現在のモデルの限界と欠点,さらなる最適化の方向性を示す。

With the enrichment of literature resources, researchers are facing the growing problem of information explosion and knowledge overload. To help scholars retrieve literature and acquire knowledge successfully, clarifying the semantic structure of the content in academic literature has become the essential research question. In the research on identifying the structure function of chapters in academic articles, only a few studies used the deep learning model and explored the optimization for feature input. This limits the application, optimization potential of deep learning models for the research task. This paper took articles of the ACL conference as the corpus. We employ the traditional machine learning models and deep learning models to construct the classifiers based on various feature input. Experimental results show that (1) Compared with the chapter content, the chapter title is more conducive to identifying the structure function of academic articles. (2) Relative position is a valuable feature for building traditional models. (3) Inspired by (2), this paper further introduces contextual information into the deep learning models and achieved significant results. Meanwhile, our models show good migration ability in the open test containing 200 sampled non-training samples. We also annotated the ACL main conference papers in recent five years based on the best practice performing models and performed a time series analysis of the overall corpus. This work explores and summarizes the practical features and models for this task through multiple comparative experiments and provides a reference for related text classification tasks. Finally, we indicate the limitations and shortcomings of the current model and the direction of further optimization.
翻訳日:2021-12-04 14:32:12 公開日:2021-12-02
# (参考訳) MIST-net:スパークビューCT再構成のためのマルチドメイン統合スウィントランスネットワーク [全文訳有]

MIST-net: Multi-domain Integrative Swin Transformer network for Sparse-View CT Reconstruction ( http://arxiv.org/abs/2111.14831v3 )

ライセンス: CC BY 4.0
Jiayi Pan, Weiwen Wu, Zhifan Gao and Heye Zhang(参考訳) 近年,深層学習に基づく断層画像再構成手法が注目されている。 スパースビューデータ再構成は典型的な逆問題の一つであり、数十の投影から高品質なCT画像を再構成する方法は、実際は難しい課題である。 この課題に対処するため,本稿ではマルチドメイン統合スウィントランスネットワーク(MIST-net)を提案する。 まず,提案するmist-netには,フレキシブルネットワークアーキテクチャを用いたデータ,残差データ,画像,残差画像からの豪華なドメイン特徴が組み込まれている。 ここでは、残差データと残差画像ドメインのネットワークコンポーネントをデータ一貫性モジュールとみなし、残差データと画像ドメインの両方の補間エラーを排除し、さらに画像の詳細を保持する。 第2に、画像特徴を検出し、さらに画像エッジを保護するため、トレーニング可能なsobelフィルタがネットワークに組み込まれ、エンコード復号能力が向上した。 第3に,従来のスウィン変換器を用いて,復元性能を向上させるために,高品質な再構成変換器(Recformer)をさらに設計した。 RecformerはSwin変換器のパワーを継承し、再構成された画像のグローバルな特徴とローカルな特徴を捉えた。 48ビューの数値データセットを用いた実験により,提案するmist-netは,高度な未ロールネットワークを含む他の競合製品に比べて,機能回復とエッジ保護の少ない高い再構成画像品質を提供することを示した。 MIST-netの利点と臨床応用におけるロバスト性を評価するため,訓練されたネットワークを実心CTデータセットに転送した。

The deep learning-based tomographic image reconstruction methods have been attracting much attention among these years. The sparse-view data reconstruction is one of typical underdetermined inverse problems, how to reconstruct high-quality CT images from dozens of projections is still a challenge in practice. To address this challenge, in this article we proposed a Multi-domain Integrative Swin Transformer network (MIST-net). First, the proposed MIST-net incorporated lavish domain features from data, residual-data, image, and residual-image using flexible network architectures. Here, the residual-data and residual-image domains network components can be considered as the data consistency module to eliminate interpolation errors in both residual data and image domains, and then further retain image details. Second, to detect the image features and further protect image edge, the trainable Sobel Filter was incorporated into the network to improve the encode-decode ability. Third, with the classical Swin Transformer, we further designed the high-quality reconstruction transformer (i.e., Recformer) to improve the reconstruction performance. The Recformer inherited the power of Swin transformer to capture the global and local features of the reconstructed image. The experiments on the numerical datasets with 48 views demonstrated our proposed MIST-net provided higher reconstructed image quality with small feature recovery and edge protection than other competitors including the advanced unrolled networks. The trained network was transferred to the real cardiac CT dataset to further validate the advantages of our MIST-net as well as good robustness in clinical applications.
翻訳日:2021-12-04 14:31:04 公開日:2021-12-02
# (参考訳) イベントニューラルネットワーク [全文訳有]

Event Neural Networks ( http://arxiv.org/abs/2112.00891v1 )

ライセンス: CC BY 4.0
Matthew Dutson, Mohit Gupta(参考訳) 例えば、隣接するフレームの内容は通常強く相関している。 このような繰り返しは、低レベルのピクセル値からテクスチャや高レベルのセマンティクスまで、様々なレベルの複雑さで起こる。 我々は,この繰り返しを利用してビデオ推論タスクの大幅な計算節約を実現する,新しいタイプのネットワークであるイベントニューラルネットワーク(evnets)を提案する。 EvNetsの定義上の特徴は、各ニューロンが長期記憶を提供する状態変数を持ち、カメラの動きが著しい場合でも低コストな推論を可能にすることである。 従来のニューラルネットワークをEvNetに変換することは事実上可能であることを示す。 本手法は,ポーズ認識,物体検出,光フロー,画像強調など,高レベルおよび低レベルの視覚処理における最先端ニューラルネットワークの有効性を示す。 従来のネットワークと比較して計算コスト(2~20倍)の桁違いな減少を観測し,モデルの精度を最小に抑えた。

Video data is often repetitive; for example, the content of adjacent frames is usually strongly correlated. Such repetition occurs at multiple levels of complexity, from low-level pixel values to textures and high-level semantics. We propose Event Neural Networks (EvNets), a novel class of networks that leverage this repetition to achieve considerable computation savings for video inference tasks. A defining characteristic of EvNets is that each neuron has state variables that provide it with long-term memory, which allows low-cost inference even in the presence of significant camera motion. We show that it is possible to transform virtually any conventional neural into an EvNet. We demonstrate the effectiveness of our method on several state-of-the-art neural networks for both high- and low-level visual processing, including pose recognition, object detection, optical flow, and image enhancement. We observe up to an order-of-magnitude reduction in computational costs (2-20x) as compared to conventional networks, with minimal reductions in model accuracy.
翻訳日:2021-12-04 06:16:30 公開日:2021-12-02
# (参考訳) 時間関係抽出のための文脈依存意味解析 [全文訳有]

Context-Dependent Semantic Parsing for Temporal Relation Extraction ( http://arxiv.org/abs/2112.00894v1 )

ライセンス: CC BY 4.0
Bo-Ying Su, Shang-Ling Hsu, Kuan-Yin Lai, Jane Yung-jen Hsu(参考訳) 非構造化テキストからイベント間の時間的関係を抽出するには、時間的推論や質問応答など、幅広い応用がある。 難しいが、近年のニューラルシンボリック法の開発は、同様の課題を解く上で有望な結果を示している。 現在の時間関係抽出法は、通常、表現力の制限と一貫性のない関係推論に苦しむ。 例えば、TimeMLアノテーションでは、交差の概念は欠落している。 さらに、現在のメソッドは予測されたアノテーション間の一貫性を保証しません。 本研究では,テキスト中の時間情報を効果的に抽出するニューラルセマンティックパーザSMARTERを提案する。 SMARTERは、カスタム型付きラムダ計算に基づいて、自然言語を実行可能な論理形式表現に解析する。 トレーニングフェーズでは、論理形式に対する弱い監督を提供するために、DPD(denotation)技術に関する動的プログラミングが使用される。 推論フェーズでは、SMARTERは論理形式を実行して時間関係グラフを生成する。 その結果、我々のニューラルセマンティックパーザは、テキストの時間情報を正確にキャプチャする論理形式を生成する。 文脈が与えられた事象の正確な論理形式表現は、抽出された関係の正確性を保証する。

Extracting temporal relations among events from unstructured text has extensive applications, such as temporal reasoning and question answering. While it is difficult, recent development of Neural-symbolic methods has shown promising results on solving similar tasks. Current temporal relation extraction methods usually suffer from limited expressivity and inconsistent relation inference. For example, in TimeML annotations, the concept of intersection is absent. Additionally, current methods do not guarantee the consistency among the predicted annotations. In this work, we propose SMARTER, a neural semantic parser, to extract temporal information in text effectively. SMARTER parses natural language to an executable logical form representation, based on a custom typed lambda calculus. In the training phase, dynamic programming on denotations (DPD) technique is used to provide weak supervision on logical forms. In the inference phase, SMARTER generates a temporal relation graph by executing the logical form. As a result, our neural semantic parser produces logical forms capturing the temporal information of text precisely. The accurate logical form representations of an event given the context ensure the correctness of the extracted relations.
翻訳日:2021-12-04 06:07:11 公開日:2021-12-02
# (参考訳) ProtGNN: 自己説明型グラフニューラルネットワークを目指して [全文訳有]

ProtGNN: Towards Self-Explaining Graph Neural Networks ( http://arxiv.org/abs/2112.00911v1 )

ライセンス: CC BY 4.0
Zaixi Zhang, Qi Liu, Hao Wang, Chengqiang Lu, Cheekong Lee(参考訳) グラフニューラルネットワーク(GNN)の最近の進歩にもかかわらず、GNNによる予測を説明するのは難しい。 既存の説明手法は主に、訓練されたgnnの説明を提供するために別の説明モデルが使用されるポストホックな説明に焦点を当てている。 ポストホックメソッドがGNNの元々の推論プロセスを明らかにしないという事実は、ビルトインの解釈性を備えたGNNを構築する必要性を高める。 本稿では,プロトタイプ学習とGNNを組み合わせたPrototype Graph Neural Network(ProtGNN)を提案する。 ProtGNNでは、説明はケースベースの推論プロセスから自然に導き出され、実際に分類に使われている。 ProtGNNの予測は、入力を潜伏空間におけるいくつかの学習されたプロトタイプと比較することによって得られる。 さらに,解釈性の向上と高効率化のために,入力グラフのどの部分がProtGNN+のプロトタイプと最もよく似ているかを示す条件付きサブグラフサンプリングモジュールが組み込まれている。 最後に,本手法を幅広いデータセット上で評価し,具体的な事例研究を行う。 以上の結果から,ProtGNNとProtGNN+は,非解釈不能のものと同等に精度を保ちながら,本質的に解釈可能であることが示された。

Despite the recent progress in Graph Neural Networks (GNNs), it remains challenging to explain the predictions made by GNNs. Existing explanation methods mainly focus on post-hoc explanations where another explanatory model is employed to provide explanations for a trained GNN. The fact that post-hoc methods fail to reveal the original reasoning process of GNNs raises the need of building GNNs with built-in interpretability. In this work, we propose Prototype Graph Neural Network (ProtGNN), which combines prototype learning with GNNs and provides a new perspective on the explanations of GNNs. In ProtGNN, the explanations are naturally derived from the case-based reasoning process and are actually used during classification. The prediction of ProtGNN is obtained by comparing the inputs to a few learned prototypes in the latent space. Furthermore, for better interpretability and higher efficiency, a novel conditional subgraph sampling module is incorporated to indicate which part of the input graph is most similar to each prototype in ProtGNN+. Finally, we evaluate our method on a wide range of datasets and perform concrete case studies. Extensive results show that ProtGNN and ProtGNN+ can provide inherent interpretability while achieving accuracy on par with the non-interpretable counterparts.
翻訳日:2021-12-04 06:00:01 公開日:2021-12-02
# (参考訳) CDLNet: Blind Denoising and Demosaicingのためのノイズ適応型畳み込み辞書学習ネットワーク [全文訳有]

CDLNet: Noise-Adaptive Convolutional Dictionary Learning Network for Blind Denoising and Demosaicing ( http://arxiv.org/abs/2112.00913v1 )

ライセンス: CC BY-SA 4.0
Nikola Janju\v{s}evi\'c, Amirhossein Kalilian-Gourtani, and Yao Wang(参考訳) 深層学習に基づく手法は、低レベルの画像処理タスクにおいて最先端の結果を保持するが、ブラックボックスの構成のため解釈が困難である。 unrolled optimization networksは、通常のディープラーニングツールボックスからトリックを使わずに、古典的な反復的最適化手法からアーキテクチャを導出することで、ディープニューラルネットワークを構築するための解釈可能な代替手段を提供する。 これまでのところ、そのような手法は、解釈可能な構成を用いて比較可能な低い学習パラメータ数を達成する一方で、最先端モデルに近いパフォーマンスを示している。 本研究では,未発達畳み込み辞書学習ネットワーク (cdlnet) を提案し,低パラメータ数と高パラメータ数の両方において,その競争的デノイジングとジョイント・デノイジング・アンド・デモサイシング (jdd) 性能を実証する。 具体的には,提案モデルが類似パラメータ数にスケールした場合に,完全畳み込みモデルやJDDモデルよりも優れていることを示す。 さらに,本モデルの解釈可能な構成を利用して,ネットワーク内のしきい値の雑音適応パラメータ化を提案し,最先端のブラインドデノイング性能を実現し,トレーニング中に見つからない雑音レベルをほぼ完全に一般化する。 さらに、このような性能は、JDDタスクと教師なし学習にまで及んでいることを示す。

Deep learning based methods hold state-of-the-art results in low-level image processing tasks, but remain difficult to interpret due to their black-box construction. Unrolled optimization networks present an interpretable alternative to constructing deep neural networks by deriving their architecture from classical iterative optimization methods without use of tricks from the standard deep learning tool-box. So far, such methods have demonstrated performance close to that of state-of-the-art models while using their interpretable construction to achieve a comparably low learned parameter count. In this work, we propose an unrolled convolutional dictionary learning network (CDLNet) and demonstrate its competitive denoising and joint denoising and demosaicing (JDD) performance both in low and high parameter count regimes. Specifically, we show that the proposed model outperforms state-of-the-art fully convolutional denoising and JDD models when scaled to a similar parameter count. In addition, we leverage the model's interpretable construction to propose a noise-adaptive parameterization of thresholds in the network that enables state-of-the-art blind denoising performance, and near perfect generalization on noise-levels unseen during training. Furthermore, we show that such performance extends to the JDD task and unsupervised learning.
翻訳日:2021-12-04 05:43:02 公開日:2021-12-02
# (参考訳) エッジにおける深層学習のための離散イベントベースシミュレータ [全文訳有]

A Discrete-event-based Simulator for Deep Learning at Edge ( http://arxiv.org/abs/2112.00952v1 )

ライセンス: CC BY 4.0
Xiaoyan Liu, Zhiwei Xu, Yana Qin, Jie Tian(参考訳) スマートホーム、スマートシティ、インテリジェントトランスポートといった新しいスマート環境は、エッジデバイスにディープニューラルネットワーク(DNN)をデプロイすることへの関心が高まっている。 残念ながら、リソース制約のあるエッジデバイスにDNNをデプロイすることは、大きな課題となる。 シミュレータがディープラーニングフレームワークと対話できるなら、エッジでのディープラーニングの研究を促進することができる。 matlab、ns-3などの既存のシミュレーションフレームワークは、エッジ学習のシミュレーションをサポートするために拡張されていない。 エッジノード上での大規模トレーニングシミュレーションを支援するために,離散イベントベースエッジ学習シミュレータを提案する。 ディープラーニングモジュールとネットワークシミュレーションモジュールが含まれている。 具体的には、ディープラーニングの環境としてシミュレーションを可能にする。 我々のフレームワークは汎用的であり、ディープラーニングモデルがデプロイされる前に様々なディープラーニング問題に使用できる。 本稿では,離散イベントベース学習シミュレータの設計と実装の詳細を述べるとともに,提案シミュレータの具体的利用事例を示す。

Novel smart environments, such as smart home, smart city, and intelligent transportation, are driving increasing interest in deploying deep neural networks (DNN) at edge devices. Unfortunately, deploying DNN on resource-constrained edge devices poses a huge challenge. If a simulator can interact with deep learning frameworks, it can facilitate researches on deep learning at edge. The existing simulation frameworks, such as Matlab, NS-3, etc., haven't been extended to support simulations of edge learning. To support large-scale training simulations on edge nodes, we propose a discrete-event-based edge learning simulator. It includes a deep learning module and a network simulation module. Specifically, it enable simulations as an environment for deep learning. Our framework is generic and can be used in various deep learning problems before the deep learning model is deployed. In this paper, we give the design and implementation details of the discrete-event-based learning simulator and present an illustrative use case of the proposed simulator.
翻訳日:2021-12-04 05:16:14 公開日:2021-12-02
# (参考訳) ソースフリーの教師なしグラフドメイン適応 [全文訳有]

Source Free Unsupervised Graph Domain Adaptation ( http://arxiv.org/abs/2112.00955v1 )

ライセンス: CC BY 4.0
Haitao Mao, Lun Du, Yujia Zheng, Qiang Fu, Zelin Li, Xu Chen, Han Shi, Dongmei Zhang(参考訳) グラフニューラルネットワーク(GNN)は,ノード分類が不可欠であるグラフ構造データを用いたさまざまなタスクにおいて,大きな成功を収めている。 Unsupervised Graph Domain Adaptation (UGDA) はノード分類のラベル付けコストを削減するための実用的価値を示している。 ラベル付きグラフ(すなわち、ソースドメイン)からの知識を活用して、ラベルなしグラフ(すなわち、ターゲットドメイン)上の同じタスクに取り組む。 既存のUGDAメソッドの多くは、ソースドメインのラベル付きグラフに大きく依存している。 これらはソースドメインのラベルを監督信号として使用し、ソースグラフとターゲットグラフの両方で共同でトレーニングされる。 しかし、現実のシナリオでは、ソースグラフは利用不可能またはプライバシの問題のためにアクセス不能である。 そこで我々は,Source Free Unsupervised Graph Domain Adaptation (SFUGDA) という新しいシナリオを提案する。 このシナリオでは、ソースドメインから活用できる唯一の情報は、ソースグラフとそのラベルに触れることなく、十分に訓練されたソースモデルです。 その結果、既存のUGDAメソッドはもはや実現不可能となった。 この実践シナリオにおける非自明な適応問題に対処するために、ターゲットグラフ上の構造的近接性の一貫性を保ちながら、ソースモデルの識別能力を完全に活用する、ドメイン適応のためのモデル非依存アルゴリズムを提案する。 提案手法の有効性を理論的および実証的に証明する。 4つのクロスドメインタスクの実験結果は、マクロf1スコアが0.17まで一貫した改善を示した。

Graph Neural Networks (GNNs) have achieved great success on a variety of tasks with graph-structural data, among which node classification is an essential one. Unsupervised Graph Domain Adaptation (UGDA) shows its practical value of reducing the labeling cost for node classification. It leverages knowledge from a labeled graph (i.e., source domain) to tackle the same task on another unlabeled graph (i.e., target domain). Most existing UGDA methods heavily rely on the labeled graph in the source domain. They utilize labels from the source domain as the supervision signal and are jointly trained on both the source graph and the target graph. However, in some real-world scenarios, the source graph is inaccessible because of either unavailability or privacy issues. Therefore, we propose a novel scenario named Source Free Unsupervised Graph Domain Adaptation (SFUGDA). In this scenario, the only information we can leverage from the source domain is the well-trained source model, without any exposure to the source graph and its labels. As a result, existing UGDA methods are not feasible anymore. To address the non-trivial adaptation challenges in this practical scenario, we propose a model-agnostic algorithm for domain adaptation to fully exploit the discriminative ability of the source model while preserving the consistency of structural proximity on the target graph. We prove the effectiveness of the proposed algorithm both theoretically and empirically. The experimental results on four cross-domain tasks show consistent improvements of the Macro-F1 score up to 0.17.
翻訳日:2021-12-04 05:08:06 公開日:2021-12-02
# (参考訳) htmlおよびpdf文書からの迅速残差検出データの大規模データマイニング:獣医のためのデータアクセスと可視化の改善 [全文訳有]

Large-Scale Data Mining of Rapid Residue Detection Assay Data From HTML and PDF Documents: Improving Data Access and Visualization for Veterinarians ( http://arxiv.org/abs/2112.00962v1 )

ライセンス: CC BY 4.0
Majid Jaberi-Douraki, Soudabeh Taghian Dinani, Nuwan Indika Millagaha Gedara, Xuan Xu, Emily Richards, Fiona Maunsell, Nader Zad, Lisa Ann Tell(参考訳) 食品動物医学におけるエクストララベル薬物の使用は、米国動物医薬品使用明確化法(AMDUCA)によって認可され、推定離脱間隔は、公表された科学薬理学データに基づいて決定される。 時々、離脱期間や治療中の多数の動物を基盤とする科学的なデータがあるため、薬物残基のテストが必要となる。 市販のファームサイド試験は、ヒトの健康を守るために動物製品の薬物残基を監視するのに不可欠である。 市販の迅速検査試験で評価された有効成分、感度、マトリックス、種は、一般的にメーカーのウェブサイトやpdf文書で報告され、消費者は利用できるが特別なアクセス要求を必要とする。 さらに、この情報はFDAが承認した寛容と常に相関しているわけではない。 さらに、これらのテストのパラメータの変更は、定期的に識別するのが非常に難しく、特にwebサイトや公開されていないドキュメントにリストアップされる。 したがって、人工知能はデータを効率的に抽出し、現在の情報を確保する上で重要な役割を果たす。 PDFとHTMLドキュメントからテーブルを抽出することは、学術と商用ツールビルダーの両方で研究されている。 このような文書のテキストマイニングの研究は、自然言語プログラミングの実装において広く、そして困難な領域となっている。 しかし、テーブルの抽出技術はまだ初期段階にあり、研究者によって調査・改良されている。 本研究では,電子文書から迅速アッセイデータを自動抽出するデータマイニング手法を開発し,評価した。 自動電子データ抽出法は,ソフトウェアパッケージモジュール,パターン認識ツール,データマイニングエンジンを備える。 アッセイの詳細は、これらの急速な薬物残基アッセイを生産するいくつかの商業団体によって提供された。

Extra-label drug use in food animal medicine is authorized by the US Animal Medicinal Drug Use Clarification Act (AMDUCA), and estimated withdrawal intervals are based on published scientific pharmacokinetic data. Occasionally there is a paucity of scientific data on which to base a withdrawal interval or a large number of animals being treated, driving the need to test for drug residues. Rapid assay commercial farm-side tests are essential for monitoring drug residues in animal products to protect human health. Active ingredients, sensitivity, matrices, and species that have been evaluated for commercial rapid assay tests are typically reported on manufacturers' websites or in PDF documents that are available to consumers but may require a special access request. Additionally, this information is not always correlated with FDA-approved tolerances. Furthermore, parameter changes for these tests can be very challenging to regularly identify, especially those listed on websites or in documents that are not publicly available. Therefore, artificial intelligence plays a critical role in efficiently extracting the data and ensure current information. Extracting tables from PDF and HTML documents has been investigated both by academia and commercial tool builders. Research in text mining of such documents has become a widespread yet challenging arena in implementing natural language programming. However, techniques of extracting tables are still in their infancy and being investigated and improved by researchers. In this study, we developed and evaluated a data-mining method for automatically extracting rapid assay data from electronic documents. Our automatic electronic data extraction method includes a software package module, a developed pattern recognition tool, and a data mining engine. Assay details were provided by several commercial entities that produce these rapid drug residue assay
翻訳日:2021-12-04 04:55:38 公開日:2021-12-02
# (参考訳) 視覚ペア学習 : 画像分類のための効率的な学習フレームワーク [全文訳有]

Vision Pair Learning: An Efficient Training Framework for Image Classification ( http://arxiv.org/abs/2112.00965v1 )

ライセンス: CC BY 4.0
Bei Tong and Xiaoyuan Yu(参考訳) Transformerは視覚タスクのための強力なアーキテクチャである。 より多くのパラメータとアテンション機構を備えているが、その性能は現在のCNNほど優位ではない。 CNNは通常計算コストが低く、様々な視覚タスクにおける主要な競合相手である。 研究の方向性の1つは、CNNの成功とトランスフォーマーの改善であるが、しばしば精巧でヒューリスティックなネットワーク設計に依存している。 変換器とCNNは表現学習と収束速度において相補的であることから,画像分類タスクのための視覚ペア学習(VPL)と呼ばれる効率的なトレーニングフレームワークを提案する。 VPLはトランスフォーマーブランチ、CNNブランチ、ペア学習モジュールで構成されるネットワークを構築する。 多段階のトレーニング戦略により、vplはトレーニングプロセスの適切な段階でパートナーから学ぶことができ、より少ない時間コストでより良いパフォーマンスを達成することができる。 外部データなしでは、VPLはImageNet-1k検証セットのViT-BaseとResNet-50のトップ1の精度をそれぞれ83.47%と79.61%に向上させる。 様々な領域の他のデータセットの実験は、VPLの有効性を証明し、VPLの異なる構造を持つCNNとペアリングした場合、トランスフォーマーはより良い性能を示すことを示唆している。 アブレーション研究を通して 成分の重要性を分析します

Transformer is a potentially powerful architecture for vision tasks. Although equipped with more parameters and attention mechanism, its performance is not as dominant as CNN currently. CNN is usually computationally cheaper and still the leading competitor in various vision tasks. One research direction is to adopt the successful ideas of CNN and improve transformer, but it often relies on elaborated and heuristic network design. Observing that transformer and CNN are complementary in representation learning and convergence speed, we propose an efficient training framework called Vision Pair Learning (VPL) for image classification task. VPL builds up a network composed of a transformer branch, a CNN branch and pair learning module. With multi-stage training strategy, VPL enables the branches to learn from their partners during the appropriate stage of the training process, and makes them both achieve better performance with less time cost. Without external data, VPL promotes the top-1 accuracy of ViT-Base and ResNet-50 on the ImageNet-1k validation set to 83.47% and 79.61% respectively. Experiments on other datasets of various domains prove the efficacy of VPL and suggest that transformer performs better when paired with the differently structured CNN in VPL. we also analyze the importance of components through ablation study.
翻訳日:2021-12-04 04:40:46 公開日:2021-12-02
# (参考訳) ナラティブカルトグラフィーと知識グラフ

Narrative Cartography with Knowledge Graphs ( http://arxiv.org/abs/2112.00970v1 )

ライセンス: CC0 1.0
Gengchen Mai, Weiming Huang, Ling Cai, Rui Zhu, Ni Lao(参考訳) 物語地図学は物語と地図の織り込みの性質を研究する学問である。 しかしながら、ナラティブの従来のジオビジュアライゼーション技術は、データ獲得・統合チャレンジやセマンティックチャレンジなど、いくつかの顕著な課題に直面することが多い。 本稿では,これらの課題に対処するために,知識グラフを用いた物語地図作成(KG)を提案する。 まず,データ取得と統合の課題に対処するため,GISystem内のナラティブマッピング用に統合されたクロスドメイン知識グラフから関連データを検索・取得するKGベースのGeoEnrichmentツールボックスを開発した。 このツールの助けを借りて、KGから取得したデータは、空間解析とマッピングの準備ができているGISフォーマットで直接実体化される。 このアプローチの有効性を示すために、マゼランの遠征と第二次世界大戦の2つのユースケースが提示されている。 その間、データ不完全性、意味的不整合性、地理化における意味的課題など、このアプローチからいくつかの制限が特定される。 後者の2つの制限について,地図コンテンツ(Map Content Module)と地理化プロセス(Cartography Module)の両方を形式化した,物語地図のためのモジュールオントロジーを提案する。 地図内容と地理可視化過程の両方をkgs(オントロジー)で表現することで,データ再利用性と地図再現性の両方を実現することができることを実証する。

Narrative cartography is a discipline which studies the interwoven nature of stories and maps. However, conventional geovisualization techniques of narratives often encounter several prominent challenges, including the data acquisition & integration challenge and the semantic challenge. To tackle these challenges, in this paper, we propose the idea of narrative cartography with knowledge graphs (KGs). Firstly, to tackle the data acquisition & integration challenge, we develop a set of KG-based GeoEnrichment toolboxes to allow users to search and retrieve relevant data from integrated cross-domain knowledge graphs for narrative mapping from within a GISystem. With the help of this tool, the retrieved data from KGs are directly materialized in a GIS format which is ready for spatial analysis and mapping. Two use cases - Magellan's expedition and World War II - are presented to show the effectiveness of this approach. In the meantime, several limitations are identified from this approach, such as data incompleteness, semantic incompatibility, and the semantic challenge in geovisualization. For the later two limitations, we propose a modular ontology for narrative cartography, which formalizes both the map content (Map Content Module) and the geovisualization process (Cartography Module). We demonstrate that, by representing both the map content and the geovisualization process in KGs (an ontology), we can realize both data reusability and map reproducibility for narrative cartography.
翻訳日:2021-12-04 04:28:04 公開日:2021-12-02
# (参考訳) 強化学習を用いた部分観測可能環境の快適性評価 [全文訳有]

Personal Comfort Estimation in Partial Observable Environment using Reinforcement Learning ( http://arxiv.org/abs/2112.00971v1 )

ライセンス: CC BY 4.0
Shashi Suman, Ali Etemad, Francois Rivest(参考訳) スマートホームで使用される技術は、家庭環境でユーザに利便性を提供するために、フィードバックからユーザの好みを学習するために改善されている。 ほとんどのスマートホームは、年齢、性別、場所の異なる人々を含む住民のプールが一般的に失敗するユーザーの熱的嗜好を表す均一なモデルを学ぶ。 ユーザがそれぞれ異なる熱感を持つことは、スマートホームにとって、他の人のポリシーを忘れずに、各居住者のパーソナライズされた好みを学ぶための課題となる。 単一の最適なポリシーを持つスマートホームは、異なる好みのユーザーが家庭に統合された場合、快適性を提供しない可能性がある。 本稿では,ベイズ強化学習アルゴリズムであるPOSHSを提案する。このアルゴリズムは,その熱的嗜好を利用して,その部分観測可能な環境における現在の占有状態を近似し,新しい占有者か,あるいは以前に観測された利用者のプールに属するかを決定する。 次に, POSHSアルゴリズムとLSTMに基づくアルゴリズムを比較し, 利用者の現在の状態を学習し, 推定するとともに, 選好設定に必要な時間ステップを削減するために最適な行動を取る。 これらの実験は,階層的強化学習に基づいて,最大5個のシミュレーション人体モデルを用いて実施する。 その結果, POSHSは温度と湿度の嗜好から現在のユーザ状態を近似することができ, スマートホームの存在下での人体モデルによる最適な温度と湿度の設定に必要な時間ステップを削減できることがわかった。

The technology used in smart homes have improved to learn the user preferences from feedbacks in order to provide convenience to the user in the home environment. Most smart homes learn a uniform model to represent the thermal preference of user which generally fails when the pool of occupants includes people having different age, gender, and location. Having different thermal sensation for each user poses a challenge for the smart homes to learn a personalized preference for each occupant without forgetting the policy of others. A smart home with single optimal policy may fail to provide comfort when a new user with different preference is integrated in the home. In this paper, we propose POSHS, a Bayesian Reinforcement learning algorithm that can approximate the current occupant state in a partial observable environment using its thermal preference and then decide if its a new occupant or belongs to the pool of previously observed users. We then compare POSHS algorithm with an LSTM based algorithm to learn and estimate the current state of the occupant while also taking optimal actions to reduce the timesteps required to set the preferences. We perform these experiments with upto 5 simulated human models each based on hierarchical reinforcement learning. The results show that POSHS can approximate the current user state just from its temperature and humidity preference and also reduce the number of time-steps required to set optimal temperature and humidity by the human model in the presence of the smart home.
翻訳日:2021-12-04 04:26:01 公開日:2021-12-02
# (参考訳) より良い接地画像キャプションのためのコンセンサスグラフ表現学習 [全文訳有]

Consensus Graph Representation Learning for Better Grounded Image Captioning ( http://arxiv.org/abs/2112.00974v1 )

ライセンス: CC BY 4.0
Wenqiao Zhang, Haochen Shi, Siliang Tang, Jun Xiao, Qiang Yu, Yueting Zhuang(参考訳) 現代の視覚キャプションモデルは、視覚情報と対象語彙語の間の意味的不一致をもたらす先行語に対する視覚的誤分類や過度な信頼のために、実際にシーンにない物体をしばしば幻視する。 最も一般的な方法は、生成されたオブジェクトワードやフレーズを画像の適切な領域、すなわち接地画像キャプション(GIC)に動的にリンクさせることである。 しかし、GICは、オブジェクト幻覚の重要な問題、すなわち意味的矛盾を解決していない補助的なタスク(接地オブジェクト)を利用する。 本稿では,視覚と言語間の意味的一貫性について,上記の課題に新たな視点をあてる。 具体的には,GICのためのコンセンサス・ラルフ表現学習フレームワーク(CGRL)を提案する。 コンセンサスは、視覚グラフ(シーングラフなど)を、グラフ内のノードとエッジの両方を考慮する言語グラフに整列させることで学習される。 一致したコンセンサスにより、キャプションモデルは正しい言語的特徴と視覚的な関連性の両方を捉え、適切な画像領域をさらに接地することができる。 Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。 また, cgrlは自動計測と人的評価によっても評価され, 提案手法が画像キャプション(+2.9cider)と接地(+2.3f1loc)の性能を同時に向上できることが示唆された。

The contemporary visual captioning models frequently hallucinate objects that are not actually in a scene, due to the visual misclassification or over-reliance on priors that resulting in the semantic inconsistency between the visual information and the target lexical words. The most common way is to encourage the captioning model to dynamically link generated object words or phrases to appropriate regions of the image, i.e., the grounded image captioning (GIC). However, GIC utilizes an auxiliary task (grounding objects) that has not solved the key issue of object hallucination, i.e., the semantic inconsistency. In this paper, we take a novel perspective on the issue above - exploiting the semantic coherency between the visual and language modalities. Specifically, we propose the Consensus Rraph Representation Learning framework (CGRL) for GIC that incorporates a consensus representation into the grounded captioning pipeline. The consensus is learned by aligning the visual graph (e.g., scene graph) to the language graph that consider both the nodes and edges in a graph. With the aligned consensus, the captioning model can capture both the correct linguistic characteristics and visual relevance, and then grounding appropriate image regions further. We validate the effectiveness of our model, with a significant decline in object hallucination (-9% CHAIRi) on the Flickr30k Entities dataset. Besides, our CGRL also evaluated by several automatic metrics and human evaluation, the results indicate that the proposed approach can simultaneously improve the performance of image captioning (+2.9 Cider) and grounding (+2.3 F1LOC).
翻訳日:2021-12-04 04:06:46 公開日:2021-12-02
# (参考訳) SEAL:探索と3次元一貫性を用いた自己教師型身体活動学習 [全文訳有]

SEAL: Self-supervised Embodied Active Learning using Exploration and 3D Consistency ( http://arxiv.org/abs/2112.01001v1 )

ライセンス: CC BY 4.0
Devendra Singh Chaplot, Murtaza Dalal, Saurabh Gupta, Jitendra Malik, Ruslan Salakhutdinov(参考訳) 本稿では,インターネット画像のデータとモデルを構築し,ラベルを余分に必要とせずにロボットビジョンに適応させる方法について検討する。 本稿では,SEAL(Self-supervise d Embodied Active Learning)というフレームワークを提案する。 インターネットイメージでトレーニングされた知覚モデルを使用して、積極的な探索ポリシーを学習する。 この探索政策によって収集された観測は、3次元の一貫性を用いてラベル付けされ、知覚モデルを改善するために使用される。 我々は3Dセマンティックマップを構築し、完全に自己管理された方法で行動と知覚の両方を学習する。 セマンティックマップは、探索政策の訓練や、時空間の3D一貫性とラベル伝搬を用いたエージェント観察のラベル付けのための本質的なモチベーション報酬を計算するために使用される。 学習環境内を移動するだけで、事前学習された知覚モデルのオブジェクト検出とインスタンスセグメンテーション性能が向上し、対象目標のナビゲーションを改善するために改良された知覚モデルが使用できる。

In this paper, we explore how we can build upon the data and models of Internet images and use them to adapt to robot vision without requiring any extra labels. We present a framework called Self-supervised Embodied Active Learning (SEAL). It utilizes perception models trained on internet images to learn an active exploration policy. The observations gathered by this exploration policy are labelled using 3D consistency and used to improve the perception model. We build and utilize 3D semantic maps to learn both action and perception in a completely self-supervised manner. The semantic map is used to compute an intrinsic motivation reward for training the exploration policy and for labelling the agent observations using spatio-temporal 3D consistency and label propagation. We demonstrate that the SEAL framework can be used to close the action-perception loop: it improves object detection and instance segmentation performance of a pretrained perception model by just moving around in training environments and the improved perception model can be used to improve Object Goal Navigation.
翻訳日:2021-12-04 03:50:46 公開日:2021-12-02
# (参考訳) 変圧器を用いた微分可能空間計画 [全文訳有]

Differentiable Spatial Planning using Transformers ( http://arxiv.org/abs/2112.01010v1 )

ライセンス: CC BY 4.0
Devendra Singh Chaplot, Deepak Pathak, Jitendra Malik(参考訳) 我々は空間経路計画の問題を考える。 ゼロから新しいプランを最適化し、地上の真理障害のあるフルマップへのアクセスを前提とする古典的なソリューションとは対照的に、過去のデータから統計正則性を活用できるような異なる方法で、データからプランナーを学習する。 本研究では,従来のデータ駆動型プランナが,畳み込み構造を介して情報を反復的に伝達するのとは異なり,長距離空間依存を計画して行動を生成する障害マップを作成した空間計画変換器(SPT)を提案する。 エージェントが根拠の真理マップを知らない設定では、マッパーとプランナーの構造を組み込んだエンドツーエンドフレームワークで事前訓練されたsptを活用して、分散マップと目標へのシームレスな一般化を可能にします。 SPTは、操作およびナビゲーションタスクのすべてのセットアップにおいて、最先端の差別化プランナーよりも優れており、絶対的な改善は7-19%である。

We consider the problem of spatial path planning. In contrast to the classical solutions which optimize a new plan from scratch and assume access to the full map with ground truth obstacle locations, we learn a planner from the data in a differentiable manner that allows us to leverage statistical regularities from past data. We propose Spatial Planning Transformers (SPT), which given an obstacle map learns to generate actions by planning over long-range spatial dependencies, unlike prior data-driven planners that propagate information locally via convolutional structure in an iterative manner. In the setting where the ground truth map is not known to the agent, we leverage pre-trained SPTs in an end-to-end framework that has the structure of mapper and planner built into it which allows seamless generalization to out-of-distribution maps and goals. SPTs outperform prior state-of-the-art differentiable planners across all the setups for both manipulation and navigation tasks, leading to an absolute improvement of 7-19%.
翻訳日:2021-12-04 03:33:04 公開日:2021-12-02
# (参考訳) Graph4Rec:レコメンダシステムのためのグラフニューラルネットワークを備えたユニバーサルツールキット [全文訳有]

Graph4Rec: A Universal Toolkit with Graph Neural Networks for Recommender Systems ( http://arxiv.org/abs/2112.01035v1 )

ライセンス: CC BY 4.0
Weibin Li, Mingkai He, Zhengjie Huang, Xianming Wang, Shikun Feng, Weiyue Su, Yu Sun(参考訳) 近年、グラフ表現学習の卓越した性能により、グラフニューラルネットワーク(gnn)技術は、レコメンダシステムやソーシャルネットワークなど、多くの現実世界のシナリオでかなりの関心を集めている。 推薦システムでは、対話から効果的なユーザ/イテム表現を学ぶことが主な課題である。 しかしながら,gnnをレコメンダシステムに用いる最近の出版物の多くは,データセットや評価指標の違いから直接比較することはできない。 さらに、それらの多くは、実世界のレコメンデーションシステムでの使用には程遠い、小さなデータセットで実験を行うためのデモのみを提供する。 この問題に対処するために,グラフ入力,ランダムウォーク生成,エゴグラフ生成,ペア生成,GNN選択という,GNNモデルをトレーニングするためのパラダイムを統一した汎用ツールキットであるGraph4Recを導入する。 このトレーニングパイプラインから、いくつかの設定で独自のGNNモデルを簡単に構築できる。 さらに,大規模グラフエンジンとパラメータサーバを開発し,分散GNN学習を支援する。 我々は,複数のシナリオで異なるGNNモデルの性能を比較するために,系統的かつ包括的な実験を行う。 広範に実験を行い、GNNの鍵となる構成要素を同定した。 また,スパースパラメータと密度パラメータがGNNの性能に与える影響についても検討する。 最後に,レコメンダシステムにおけるgnnの実践をより効果的かつ効率的なものにするために,負サンプリング,エゴグラフ構築順序,ウォームスタート戦略などの手法を検討する。 私たちのツールキットはPGL https://github.com/P addlePaddle/PGLをベースにしています。

In recent years, owing to the outstanding performance in graph representation learning, graph neural network (GNN) techniques have gained considerable interests in many real-world scenarios, such as recommender systems and social networks. In recommender systems, the main challenge is to learn the effective user/item representations from their interactions. However, many recent publications using GNNs for recommender systems cannot be directly compared, due to their difference on datasets and evaluation metrics. Furthermore, many of them only provide a demo to conduct experiments on small datasets, which is far away to be applied in real-world recommender systems. To address this problem, we introduce Graph4Rec, a universal toolkit that unifies the paradigm to train GNN models into the following parts: graphs input, random walk generation, ego graphs generation, pairs generation and GNNs selection. From this training pipeline, one can easily establish his own GNN model with a few configurations. Besides, we develop a large-scale graph engine and a parameter server to support distributed GNN training. We conduct a systematic and comprehensive experiment to compare the performance of different GNN models on several scenarios in different scale. Extensive experiments are demonstrated to identify the key components of GNNs. We also try to figure out how the sparse and dense parameters affect the performance of GNNs. Finally, we investigate methods including negative sampling, ego graph construction order, and warm start strategy to find a more effective and efficient GNNs practice on recommender systems. Our toolkit is based on PGL https://github.com/P addlePaddle/PGL and the code is opened source in https://github.com/P addlePaddle/PGL/tree /main/apps/Graph4Rec .
翻訳日:2021-12-04 03:12:59 公開日:2021-12-02
# (参考訳) n-imagenet:イベントカメラによるロバストできめ細かい物体認識に向けて [全文訳有]

N-ImageNet: Towards Robust, Fine-Grained Object Recognition with Event Cameras ( http://arxiv.org/abs/2112.01041v1 )

ライセンス: CC BY-SA 4.0
Junho Kim, Jaehyeok Bae, Gangin Park, and Young Min Kim(参考訳) 我々は,イベントカメラを用いた堅牢できめ細かい物体認識を目的とした大規模データセットであるN-ImageNetを紹介する。 データセットは、イベントカメラがimagenetから画像を表示するモニタの周りを一貫して動き回るプログラマブルなハードウェアを用いて収集される。 N-ImageNetは、多数のクラスとサンプルのために、イベントベースのオブジェクト認識の難しいベンチマークとして機能する。 我々は,N-ImageNetの事前学習がイベントベース分類器の性能を改善し,ラベル付きデータの少ない学習を支援することを実証的に示す。 さらに,様々なカメラトラジェクトリと厳しい照明条件下でのイベントベース分類器の堅牢性をテストするために,N-ImageNetのいくつかのバリエーションを提案し,性能劣化を軽減するための新しいイベント表現を提案する。 我々の知る限りでは、イベントベース物体認識アルゴリズムにおいて、様々な環境条件による影響を定量的に研究するのは初めてである。 N-ImageNetとその変種は、実世界でイベントベースのオブジェクト認識アルゴリズムをデプロイするための実践的な実装を導くことが期待されている。

We introduce N-ImageNet, a large-scale dataset targeted for robust, fine-grained object recognition with event cameras. The dataset is collected using programmable hardware in which an event camera consistently moves around a monitor displaying images from ImageNet. N-ImageNet serves as a challenging benchmark for event-based object recognition, due to its large number of classes and samples. We empirically show that pretraining on N-ImageNet improves the performance of event-based classifiers and helps them learn with few labeled data. In addition, we present several variants of N-ImageNet to test the robustness of event-based classifiers under diverse camera trajectories and severe lighting conditions, and propose a novel event representation to alleviate the performance degradation. To the best of our knowledge, we are the first to quantitatively investigate the consequences caused by various environmental conditions on event-based object recognition algorithms. N-ImageNet and its variants are expected to guide practical implementations for deploying event-based object recognition algorithms in the real world.
翻訳日:2021-12-04 02:58:40 公開日:2021-12-02
# (参考訳) shuttlenet:バドミントンの脳卒中予報におけるラリー進行とプレーヤスタイルの位置認識融合 [全文訳有]

ShuttleNet: Position-aware Fusion of Rally Progress and Player Styles for Stroke Forecasting in Badminton ( http://arxiv.org/abs/2112.01044v1 )

ライセンス: CC BY 4.0
Wei-Yao Wang, Hong-Han Shuai, Kai-Shiang Chang, Wen-Chih Peng(参考訳) スポーツにおける洞察の分析に対する需要の増加は、健康状態のモニタリング、結果の予測など、様々な観点から生産的な研究を刺激している。 本稿では,ターンベーススポーツにおいてまだ探索されていない脳卒中を客観的に判断することに焦点を当てる。 シーケンス予測タスクとしてストローク予測を定式化することにより、既存の作業では問題に取り組むことができるが、バドミントンの特性に基づいて情報をモデル化できない。 これらの制限に対処するために,2つの修正エンコーダ・デコーダ抽出器による,ラリー進行とプレーヤスタイルフレームワーク(shuttlenet)の新たな位置認識融合を提案する。 さらに,情報依存と異なる位置を条件にすることで,プレイヤーの集合コンテキストとコンテキストを統合する融合ネットワークを設計する。 badmintonデータセットに関する広範囲な実験は、shuttlenetが最先端の方法を大幅に上回っており、shuttlenetの各コンポーネントの実行可能性も実証的に検証していることを示している。 さらに,脳卒中予測問題の解析シナリオを提案する。

The increasing demand for analyzing the insights in sports has stimulated a line of productive studies from a variety of perspectives, e.g., health state monitoring, outcome prediction. In this paper, we focus on objectively judging what and where to return strokes, which is still unexplored in turn-based sports. By formulating stroke forecasting as a sequence prediction task, existing works can tackle the problem but fail to model information based on the characteristics of badminton. To address these limitations, we propose a novel Position-aware Fusion of Rally Progress and Player Styles framework (ShuttleNet) that incorporates rally progress and information of the players by two modified encoder-decoder extractors. Moreover, we design a fusion network to integrate rally contexts and contexts of the players by conditioning on information dependency and different positions. Extensive experiments on the badminton dataset demonstrate that ShuttleNet significantly outperforms the state-of-the-art methods and also empirically validates the feasibility of each component in ShuttleNet. On top of that, we provide an analysis scenario for the stroke forecasting problem.
翻訳日:2021-12-04 02:41:32 公開日:2021-12-02
# (参考訳) DKPLM:自然言語理解のための知識強化型事前学習言語モデル [全文訳有]

DKPLM: Decomposable Knowledge-enhanced Pre-trained Language Model for Natural Language Understanding ( http://arxiv.org/abs/2112.01047v1 )

ライセンス: CC BY 4.0
Taolin Zhang, Chengyu Wang, Nan Hu, Minghui Qiu, Chengguang Tang, Xiaofeng He, Jun Huang(参考訳) 知識強化事前学習言語モデル(英: Knowledge-Enhanced Pre-trained Language Models, KEPLM)は、知識グラフから3重関係を注入して言語理解能力を向上させる事前学習モデルである。 効果的な知識注入を保証するため,従来の研究は知識グラフから得られた知識を表現するための知識エンコーダとモデルを統合する。 知識検索とエンコーディングの操作は、高い推論速度を必要とする現実世界のアプリケーションにおいて、そのようなモデルの使用を制限する重要な計算負荷をもたらす。 本稿では,事前学習・微調整・推論段階における事前学習言語モデルの知識注入プロセスを分解し,実世界のシナリオにおけるKEPLMの活用を容易にする,DKPLMという新しいKEPLMを提案する。 具体的には,まず知識注入対象として知識認識型ロングテールエンティティを検出し,keplmsの意味理解能力を高め,冗長な情報の注入を回避した。 ロングテールエンティティの埋め込みは、関連する知識トリプルによって形成される"pseudoトークン表現"に置き換えられる。 さらに、事前学習のための関係知識復号化タスクを設計し、関係3重再構成によってモデルに注入知識を真に理解させる。 実験の結果,本モデルは,ゼロショット知識探索タスクや複数の知識認識言語理解タスクよりも,他のKEPLMよりも優れていた。 さらに、DKPLMは分解機構のため、他の競合モデルよりも推論速度が高いことを示す。

Knowledge-Enhanced Pre-trained Language Models (KEPLMs) are pre-trained models with relation triples injecting from knowledge graphs to improve language understanding abilities. To guarantee effective knowledge injection, previous studies integrate models with knowledge encoders for representing knowledge retrieved from knowledge graphs. The operations for knowledge retrieval and encoding bring significant computational burdens, restricting the usage of such models in real-world applications that require high inference speed. In this paper, we propose a novel KEPLM named DKPLM that Decomposes Knowledge injection process of the Pre-trained Language Models in pre-training, fine-tuning and inference stages, which facilitates the applications of KEPLMs in real-world scenarios. Specifically, we first detect knowledge-aware long-tail entities as the target for knowledge injection, enhancing the KEPLMs' semantic understanding abilities and avoiding injecting redundant information. The embeddings of long-tail entities are replaced by "pseudo token representations" ; formed by relevant knowledge triples. We further design the relational knowledge decoding task for pre-training to force the models to truly understand the injected knowledge by relation triple reconstruction. Experiments show that our model outperforms other KEPLMs significantly over zero-shot knowledge probing tasks and multiple knowledge-aware language understanding tasks. We further show that DKPLM has a higher inference speed than other competing models due to the decomposing mechanism.
翻訳日:2021-12-04 02:26:14 公開日:2021-12-02
# (参考訳) 置換空間上のベイズ最適化 [全文訳有]

Bayesian Optimization over Permutation Spaces ( http://arxiv.org/abs/2112.01049v1 )

ライセンス: CC BY 4.0
Aryan Deshwal, Syrine Belakaria, Janardhan Rao Doppa, Dae Hyun Kim(参考訳) dオブジェクトのすべての置換からなる入力空間上のブラックボックス関数を評価するためのコストを最適化することは、多くの実世界のアプリケーションにとって重要な問題である。 例えば、ハードウェア設計における機能ブロックの配置は、シミュレーションによるパフォーマンスを最適化する。 全体的な目標は、機能評価の数を最小化し、高いパフォーマンスの順列を見つけることである。 ベイズ最適化(BO)フレームワークを用いてこの問題を解決する上で重要な課題は、統計モデルの複雑さと取得関数最適化のトラクタビリティをトレードオフすることである。 本稿では,BOPS(Permutation Spaces)の2つのアルゴリズムを提案し,評価する。 まず、BOPS-Tは、Kendallカーネルを用いたガウス過程(GP)サロゲートモデルと、トンプソンサンプリングに基づくTractable取得関数最適化手法を用いて、評価のための順列を選択する。 第2に,BOPS-Hは,Mallowカーネルを用いたGPサロゲートモデルとヒューリスティック検索を用いて,期待される改善獲得関数を最適化する。 BOPS-Tの性能を理論的に解析し,その後悔がサブリニアに増加することを示す。 複数の合成および実世界のベンチマーク実験により、BOPS-TとBOPS-Hは組合せ空間に対する最先端BOアルゴリズムよりも優れた性能を示した。 この重要な問題に関する今後の研究を進めるために、新しいリソースと実世界のベンチマークをコミュニティに提供します。

Optimizing expensive to evaluate black-box functions over an input space consisting of all permutations of d objects is an important problem with many real-world applications. For example, placement of functional blocks in hardware design to optimize performance via simulations. The overall goal is to minimize the number of function evaluations to find high-performing permutations. The key challenge in solving this problem using the Bayesian optimization (BO) framework is to trade-off the complexity of statistical model and tractability of acquisition function optimization. In this paper, we propose and evaluate two algorithms for BO over Permutation Spaces (BOPS). First, BOPS-T employs Gaussian process (GP) surrogate model with Kendall kernels and a Tractable acquisition function optimization approach based on Thompson sampling to select the sequence of permutations for evaluation. Second, BOPS-H employs GP surrogate model with Mallow kernels and a Heuristic search approach to optimize expected improvement acquisition function. We theoretically analyze the performance of BOPS-T to show that their regret grows sub-linearly. Our experiments on multiple synthetic and real-world benchmarks show that both BOPS-T and BOPS-H perform better than the state-of-the-art BO algorithm for combinatorial spaces. To drive future research on this important problem, we make new resources and real-world benchmarks available to the community.
翻訳日:2021-12-04 02:07:26 公開日:2021-12-02
# (参考訳) CloudWalker: 形状解析のためのランダムウォークによる3Dポイントクラウド学習 [全文訳有]

CloudWalker: 3D Point Cloud Learning by Random Walks for Shape Analysis ( http://arxiv.org/abs/2112.01050v1 )

ライセンス: CC BY 4.0
Adi Mesika, Yizhak Ben-Shabat and Ayellet Tal(参考訳) 点雲は3次元形状を表す方法として注目されているが、その不規則な構造は深層学習法に挑戦している。 本稿では,ランダムウォークを用いた3次元形状学習手法であるCloudWalkerを提案する。 以前の作業では、畳み込みニューラルネットワーク(CNNS)を適応させたり、グリッドやメッシュ構造を3Dポイントクラウドに配置する試みがあった。 この研究は、与えられた点集合から形状を表現および学習するための異なるアプローチを示す。 鍵となるアイデアは、3Dオブジェクトの異なる領域を探索するために、複数のランダムウォークによって設定された点に構造を加えることである。 そして、各点とウォークの表現を学習し、推論時に複数のウォーク予測を集約する。 本手法は,2つの3次元形状解析タスク,分類と検索において最先端の結果を得る。 さらに,横断歩道と横断歩道の分散度を用いて形状空間を分割する形状複雑性指標関数を提案する。

Point clouds are gaining prominence as a method for representing 3D shapes, but its irregular structure poses a challenge for deep learning methods. In this paper we propose CloudWalker, a novel method for learning 3D shapes using random walks. Previous works attempt to adapt Convolutional Neural Networks (CNNS) or impose a grid or mesh structure to 3D point clouds. This work presents a different approach to represent and learn the shape from a given point set. The key idea is to impose structure on the point set by multiple random walks through the cloud for exploring different regions of the 3D object. Then we learn a per-point and per-walk representation and aggregate multiple walk predictions at inference. Our approach achieves state-of-the-art results for two 3D shape analysis tasks: classification and retrieval. Furthermore, we propose a shape complexity indicator function that uses cross-walk and inter-walk variance measures to subdivide the shape space.
翻訳日:2021-12-04 01:52:05 公開日:2021-12-02
# (参考訳) 感情は微妙:コントラスト学習を用いた感情に基づくテキスト表現の学習 [全文訳有]

Emotions are Subtle: Learning Sentiment Based Text Representations Using Contrastive Learning ( http://arxiv.org/abs/2112.01054v1 )

ライセンス: CC BY 4.0
Ipsita Mohanty, Ankit Goyal, Alex Dotterweich(参考訳) コントラスト学習技術は、データセットを増強する手段としてコンピュータビジョンの分野で広く用いられている。 本稿では,これらの対比学習組込みを感情分析タスクに拡張し,これらの組込みの微調整がbertに基づく組込みの微調整よりも改善し,dynasentデータセット上で評価した場合の感情分析タスクの高水準化を実現することを実証する。 また、クロスドメインベンチマークデータセット上での微調整モデルのパフォーマンスについても検討します。 さらに、よりバランスの取れたクラス分散を実現し、ベンチマークタスクをさらに改善するためのアップサンプリング手法も検討します。

Contrastive learning techniques have been widely used in the field of computer vision as a means of augmenting datasets. In this paper, we extend the use of these contrastive learning embeddings to sentiment analysis tasks and demonstrate that fine-tuning on these embeddings provides an improvement over fine-tuning on BERT-based embeddings to achieve higher benchmarks on the task of sentiment analysis when evaluated on the DynaSent dataset. We also explore how our fine-tuned models perform on cross-domain benchmark datasets. Additionally, we explore upsampling techniques to achieve a more balanced class distribution to make further improvements on our benchmark tasks.
翻訳日:2021-12-04 01:39:37 公開日:2021-12-02
# (参考訳) 例文を模倣した構文カスタマイズビデオキャプション [全文訳有]

Syntax Customized Video Captioning by Imitating Exemplar Sentences ( http://arxiv.org/abs/2112.01062v1 )

ライセンス: CC BY 4.0
Yitian Yuan, Lin Ma, Wenwu Zhu(参考訳) 近年のビデオキャプション研究において,映像内容記述のための文の多様性向上が問題となっている。 本稿では,映像の字幕を模倣して字幕をカスタマイズする新しい視点からこの問題を考察する。 具体的には,映像の内容が意味的に記述されるだけでなく,その文章を構文的に模倣する一つのキャプションを生成するために,構文カスタマイズビデオキャプション(scvc)という新しいタスクを導入する。 scvcタスクに取り組むために,まず,階層的文構文エンコーダを,例文の構文構造を抽出するように設計し,その後,構文条件付き字幕デコーダを考案し,映像意味を表現した構文的構造化字幕を生成する,新しいビデオキャプションモデルを提案する。 構文をカスタマイズした基礎的なビデオキャプションが存在しないため,従来の一対の動画キャプションデータと収集した模範文を活用して,モデル学習を実現する新たなトレーニング戦略を提案する。 セマンティクス,構文,フラレンシー,多様性評価の面での広範な実験により,多種多様な類似文を模倣した構文変化とセマンティクスコヒーレントなビデオキャプションを生成するモデル能力が明らかに示された。

Enhancing the diversity of sentences to describe video contents is an important problem arising in recent video captioning research. In this paper, we explore this problem from a novel perspective of customizing video captions by imitating exemplar sentence syntaxes. Specifically, given a video and any syntax-valid exemplar sentence, we introduce a new task of Syntax Customized Video Captioning (SCVC) aiming to generate one caption which not only semantically describes the video contents but also syntactically imitates the given exemplar sentence. To tackle the SCVC task, we propose a novel video captioning model, where a hierarchical sentence syntax encoder is firstly designed to extract the syntactic structure of the exemplar sentence, then a syntax conditioned caption decoder is devised to generate the syntactically structured caption expressing video semantics. As there is no available syntax customized groundtruth video captions, we tackle such a challenge by proposing a new training strategy, which leverages the traditional pairwise video captioning data and our collected exemplar sentences to accomplish the model learning. Extensive experiments, in terms of semantic, syntactic, fluency, and diversity evaluations, clearly demonstrate our model capability to generate syntax-varied and semantics-coherent video captions that well imitate different exemplar sentences with enriched diversities.
翻訳日:2021-12-04 01:30:24 公開日:2021-12-02
# (参考訳) 高速自動森林破壊検出器と他の空間物体への拡張 [全文訳有]

Fast automatic deforestation detectors and their extensions for other spatial objects ( http://arxiv.org/abs/2112.01063v1 )

ライセンス: CC BY 4.0
Jesper Muren, Vilhelm Niklasson, Dmitry Otryakhin, Maxim Romashin(参考訳) 本稿では,地球画像上の森林・非森林領域の検出問題に焦点をあてる。 そこで本研究では,パラメトリック分布族を用いた複数仮説テストと非パラメトリックテストの2つの統計的手法を提案する。 パラメトリックなアプローチは文献では新しく、自然物の検出や異常検出といった、より大きな種類の問題に関係している。 各手法の数学的背景を開発し,それを用いた自己充足検出アルゴリズムを構築し,実装の数値的側面を考察した。 また、衛星データを用いた標準的な機械学習のアルゴリズムと比較する。

This paper is devoted to the problem of detection of forest and non-forest areas on Earth images. We propose two statistical methods to tackle this problem: one based on multiple hypothesis testing with parametric distribution families, another one -- on non-parametric tests. The parametric approach is novel in the literature and relevant to a larger class of problems -- detection of natural objects, as well as anomaly detection. We develop mathematical background for each of the two methods, build self-sufficient detection algorithms using them and discuss numerical aspects of their implementation. We also compare our algorithms with those from standard machine learning using satellite data.
翻訳日:2021-12-04 01:04:54 公開日:2021-12-02
# (参考訳) 例文による制御可能なビデオキャプション [全文訳有]

Controllable Video Captioning with an Exemplar Sentence ( http://arxiv.org/abs/2112.01073v1 )

ライセンス: CC BY 4.0
Yitian Yuan, Lin Ma, Jingwen Wang, Wenwu Zhu(参考訳) 本稿では,映像キャプションを模範文で制御可能な,新規で困難な課題について検討する。 正式には、ビデオと構文上有効な例文が与えられた場合、このタスクは、ビデオの意味的内容を記述するだけでなく、与えられた例文の構文形式に従う1つのキャプションを生成することを目的としている。 そこで本研究では,エンコーダ-デコーダ-リコンストラクタアーキテクチャに組み込まれた新しい構文変調キャプション生成器(smcg)を提案する。 提案したSMCGは、映像意味表現を入力として取り、与えられた先行文の符号化構文情報に対して、長い短期記憶ネットワークのゲートとセルを条件的に変調する。 そのため、SMCGは単語予測の状態を制御し、構文カスタマイズキャプション生成を実現することができる。 2つの公開ビデオキャプションデータセットに対して補助的な例文を収集して実験を行う。 広範な実験結果から,構文制御および意味保存ビデオキャプション生成における提案手法の有効性が示された。 異なる例文を提供することにより,様々な構文構造を持つ異なるキャプションを生成できるため,ビデオキャプションの多様性を高めるための有望な方法を示す。

In this paper, we investigate a novel and challenging task, namely controllable video captioning with an exemplar sentence. Formally, given a video and a syntactically valid exemplar sentence, the task aims to generate one caption which not only describes the semantic contents of the video, but also follows the syntactic form of the given exemplar sentence. In order to tackle such an exemplar-based video captioning task, we propose a novel Syntax Modulated Caption Generator (SMCG) incorporated in an encoder-decoder-reco nstructor architecture. The proposed SMCG takes video semantic representation as an input, and conditionally modulates the gates and cells of long short-term memory network with respect to the encoded syntactic information of the given exemplar sentence. Therefore, SMCG is able to control the states for word prediction and achieve the syntax customized caption generation. We conduct experiments by collecting auxiliary exemplar sentences for two public video captioning datasets. Extensive experimental results demonstrate the effectiveness of our approach on generating syntax controllable and semantic preserved video captions. By providing different exemplar sentences, our approach is capable of producing different captions with various syntactic structures, thus indicating a promising way to strengthen the diversity of video captioning.
翻訳日:2021-12-04 00:45:52 公開日:2021-12-02
# (参考訳) CO2Sum:Factual-Consi stent Abstractive Summarizationのためのコントラスト学習 [全文訳有]

CO2Sum:Contrastive Learning for Factual-Consistent Abstractive Summarization ( http://arxiv.org/abs/2112.01147v1 )

ライセンス: CC BY 4.0
Wei Liu, Huanqin Wu, Wenjing Mu, Zhen Li, Tao Chen, Dan Nie(参考訳) 事実一貫性の要約を生成することは抽象的な要約にとって難しい課題である。 以前の作品は、主に事実情報をエンコードするか、デコード後に後訂正/ランク付けを行う。 本稿では,先行研究の自然な拡張であるコントラスト学習の観点から,事実一貫性のある解を提案する。 そこで本研究では,事実一貫性のある抽象要約のためのシーケンス-シーケンスモデルに容易に適用可能な比較学習手法であるco2sum(contrastive for consistency)を提案する。 co2sumは、エンコーダにコントラスト学習を適用することで、モデルが入力記事に含まれる事実情報を認識するのを手助けしたり、デコーダ上でコントラスト学習を行うことができる。 さらに、これらの2つのスキームは直交的であり、さらに忠実性を改善するために組み合わせることができる。 公的なベンチマークに関する総合的な実験により、CO2Sumは大きな事前訓練された言語モデルの忠実さを改善し、他の強い事実一貫性の要約ベースラインと比較して競争力に達することを示した。

Generating factual-consistent summaries is a challenging task for abstractive summarization. Previous works mainly encode factual information or perform post-correct/rank after decoding. In this paper, we provide a factual-consistent solution from the perspective of contrastive learning, which is a natural extension of previous works. We propose CO2Sum (Contrastive for Consistency), a contrastive learning scheme that can be easily applied on sequence-to-sequence models for factual-consistent abstractive summarization, proving that the model can be fact-aware without modifying the architecture. CO2Sum applies contrastive learning on the encoder, which can help the model be aware of the factual information contained in the input article, or performs contrastive learning on the decoder, which makes the model to generate factual-correct output summary. What's more, these two schemes are orthogonal and can be combined to further improve faithfulness. Comprehensive experiments on public benchmarks demonstrate that CO2Sum improves the faithfulness on large pre-trained language models and reaches competitive results compared to other strong factual-consistent summarization baselines.
翻訳日:2021-12-04 00:11:54 公開日:2021-12-02
# (参考訳) 制約された特徴空間における敵攻撃と防御のための統一フレームワーク [全文訳有]

A Unified Framework for Adversarial Attack and Defense in Constrained Feature Space ( http://arxiv.org/abs/2112.01156v1 )

ライセンス: CC BY 4.0
Thibault Simonetto, Salijona Dyrmishi, Salah Ghamizi, Maxime Cordy, Yves Le Traon(参考訳) 制約のある特徴空間に作用するモデルを適切に評価するには、実現可能な逆例の生成が必要である。 しかし、コンピュータビジョンのために設計された攻撃に制約を課すことは依然として難しい課題である。 与えられたドメイン制約を満たす、実行可能な逆行例を生成するための統一フレームワークを提案する。 我々のフレームワークは文献で報告されているユースケースをサポートし、線形制約と非線形制約の両方を扱える。 フレームワークを2つのアルゴリズムにインスタンス化する: 損失関数の制約を最大化するための勾配に基づく攻撃と、誤分類、摂動最小化、制約満足度を目的とした多目的探索アルゴリズムである。 我々のアプローチは、異なるドメインの2つのデータセットに対して有効であり、成功率は最大100%であり、最先端の攻撃が単一の可能な例を生成できないことを示す。 対向的再訓練に加えて, モデル対向的ロバスト性を改善するために, 工学的非凸制約を導入することを提案する。 我々は、この新しい防御が敵の再訓練と同じくらい効果的であることを実証する。 我々のフレームワークは、制約付き敵攻撃の研究の出発点となり、将来の研究が活用できる関連するベースラインとデータセットを提供します。

The generation of feasible adversarial examples is necessary for properly assessing models that work on constrained feature space. However, it remains a challenging task to enforce constraints into attacks that were designed for computer vision. We propose a unified framework to generate feasible adversarial examples that satisfy given domain constraints. Our framework supports the use cases reported in the literature and can handle both linear and non-linear constraints. We instantiate our framework into two algorithms: a gradient-based attack that introduces constraints in the loss function to maximize, and a multi-objective search algorithm that aims for misclassification, perturbation minimization, and constraint satisfaction. We show that our approach is effective on two datasets from different domains, with a success rate of up to 100%, where state-of-the-art attacks fail to generate a single feasible example. In addition to adversarial retraining, we propose to introduce engineered non-convex constraints to improve model adversarial robustness. We demonstrate that this new defense is as effective as adversarial retraining. Our framework forms the starting point for research on constrained adversarial attacks and provides relevant baselines and datasets that future research can exploit.
翻訳日:2021-12-04 00:00:10 公開日:2021-12-02
# (参考訳) ニューラルネットワークモデルを用いたforex取引変動予測 [全文訳有]

Forex Trading Volatility Prediction using NeuralNetwork Models ( http://arxiv.org/abs/2112.01166v1 )

ライセンス: CC BY 4.0
Shujian Liao, Jian Chen and Hao Ni(参考訳) 本稿では,深層学習技術を用いたForex通貨対の将来変動予測の問題について検討する。 日内ボラティリティの実証的パターンの指導により,深層学習ネットワークの構築方法を段階的に示す。 計算結果から,多値ペアの入力によるマルチスケールLong-Term Memory(LSTM)モデルは,従来のベースライン,すなわち自己回帰モデルとGARCHモデルと,その他のディープラーニングモデルと比較して一貫して最先端の精度を達成していることがわかった。

In this paper, we investigate the problem of predicting the future volatility of Forex currency pairs using the deep learning techniques. We show step-by-step how to construct the deep-learning network by the guidance of the empirical patterns of the intra-day volatility. The numerical results show that the multiscale Long Short-Term Memory (LSTM) model with the input of multi-currency pairs consistently achieves the state-of-the-art accuracy compared with both the conventional baselines, i.e. autoregressive and GARCH model, and the other deep learning models.
翻訳日:2021-12-03 23:46:16 公開日:2021-12-02
# (参考訳) AST変換器:コード要約に効率的な抽象構文木を符号化する [全文訳有]

AST-Transformer: Encoding Abstract Syntax Trees Efficiently for Code Summarization ( http://arxiv.org/abs/2112.01184v1 )

ライセンス: CC BY 4.0
Ze Tang, Chuanyi Li, Jidong Ge, Xiaoyu Shen, Zheling Zhu and Bin Luo(参考訳) コード要約は、ソースコードのための短い自然言語記述を生成することを目的としている。 ソースコードは高度に構造化されており、厳密なプログラミング言語文法に従っているため、その抽象構文木(AST)はエンコーダに構造情報を伝えるためにしばしば利用される。 しかし、ASTは通常、ソースコードよりもずっと長い。 現在のアプローチでは、サイズ制限を無視し、線形化されたAST全体をエンコーダに入力する。 この問題に対処するため,木構造ASTを効率的にエンコードするAST-Transformerを提案する。 実験により、AST-Transformerは、エンコーディングプロセスにおける計算複雑性の90\sim95\%を削減しながら、最先端のマージンをかなり上回ります。

Code summarization aims to generate brief natural language descriptions for source code. As source code is highly structured and follows strict programming language grammars, its Abstract Syntax Tree (AST) is often leveraged to inform the encoder about the structural information. However, ASTs are usually much longer than the source code. Current approaches ignore the size limit and simply feed the whole linearized AST into the encoder. To address this problem, we propose AST-Transformer to efficiently encode tree-structured ASTs. Experiments show that AST-Transformer outperforms the state-of-arts by a substantial margin while being able to reduce $90\sim95\%$ of the computational complexity in the encoding process.
翻訳日:2021-12-03 23:33:01 公開日:2021-12-02
# (参考訳) 分類器からのクラス階層の計算 [全文訳有]

Computing Class Hierarchies from Classifiers ( http://arxiv.org/abs/2112.01187v1 )

ライセンス: CC BY 4.0
Kai Kang and Fangzhen Lin(参考訳) 階級や分類階層は、しばしば手作業で構築され、世界に関する知識の一部となる。 本稿では,近年,大規模なニューラルネットワークである分類器からクラス階層を自動的に取得する新しいアルゴリズムを提案する。 分類器から必要な情報は、その混乱行列であり、それぞれの基底クラスに対して、分類器が別の分類器を間違えて犯すエラーの数を含む。 このアルゴリズムは、cifar-10データセットでトレーニングされた有名なディープニューラルネットワークモデル、非ネイティブ英語話者のネイティブ言語を予測するニューラルネットワークモデル、書かれたテキストの言語を検出するニューラルネットワークモデル、音楽ジャンルを識別するための分類器に対して驚くほど優れた階層を生成する。 文献では、そのような階層はニューラルネットワークの解釈可能性を提供するために使われてきた。 また、取得した階層の他の用途についても論じる。

A class or taxonomic hierarchy is often manually constructed, and part of our knowledge about the world. In this paper, we propose a novel algorithm for automatically acquiring a class hierarchy from a classifier which is often a large neural network these days. The information that we need from a classifier is its confusion matrix which contains, for each pair of base classes, the number of errors the classifier makes by mistaking one for another. Our algorithm produces surprisingly good hierarchies for some well-known deep neural network models trained on the CIFAR-10 dataset, a neural network model for predicting the native language of a non-native English speaker, a neural network model for detecting the language of a written text, and a classifier for identifying music genre. In the literature, such class hierarchies have been used to provide interpretability to the neural networks. We also discuss some other potential uses of the acquired hierarchies.
翻訳日:2021-12-03 23:25:27 公開日:2021-12-02
# (参考訳) 最大エントロピーモデルに基づく強化学習 [全文訳有]

Maximum Entropy Model-based Reinforcement Learning ( http://arxiv.org/abs/2112.01195v1 )

ライセンス: CC BY 4.0
Oleg Svidchenko, Aleksei Shpilman(参考訳) 強化学習の最近の進歩は、超人レベルでのハードエージェント-環境相互作用タスクを解く能力を示している。 しかし、ほとんどのRLアルゴリズムのサンプル非効率性、すなわち膨大な数のトレーニングエピソードの必要性のため、現実的および現実的なタスクへの強化学習手法の適用は制限されている。 例えば、Dota 2の人間プレイヤーを倒したOpenAI Fiveアルゴリズムは、何千年ものゲームタイムをトレーニングしてきた。 サンプル非効率の問題に取り組むいくつかのアプローチがあり、既に収集した経験をより効率的に利用したり、より優れた環境探索を通じてより関連性があり多様な経験を得ることを目的としている。 しかし, モデルに基づくアルゴリズムでは, 高次元状態空間でのハードコントロール課題の解法において, 高いサンプル効率を示すような手法は存在しなかった。 この研究は探索技術とモデルに基づく強化学習を結びつけている。 我々は,モデルに基づくアプローチの特徴を考慮した新しい探索手法を考案した。 また,本手法がモデルベースアルゴリズムDreamerの性能を大幅に向上させることを示す。

Recent advances in reinforcement learning have demonstrated its ability to solve hard agent-environment interaction tasks on a super-human level. However, the application of reinforcement learning methods to practical and real-world tasks is currently limited due to most RL state-of-art algorithms' sample inefficiency, i.e., the need for a vast number of training episodes. For example, OpenAI Five algorithm that has beaten human players in Dota 2 has trained for thousands of years of game time. Several approaches exist that tackle the issue of sample inefficiency, that either offers a more efficient usage of already gathered experience or aim to gain a more relevant and diverse experience via a better exploration of an environment. However, to our knowledge, no such approach exists for model-based algorithms, that showed their high sample efficiency in solving hard control tasks with high-dimensional state space. This work connects exploration techniques and model-based reinforcement learning. We have designed a novel exploration method that takes into account features of the model-based approach. We also demonstrate through experiments that our method significantly improves the performance of the model-based algorithm Dreamer.
翻訳日:2021-12-03 23:11:32 公開日:2021-12-02
# (参考訳) 心の共鳴 --階層的アクティブ推論による創発的コラボレーション [全文訳有]

Resonating Minds -- Emergent Collaboration Through Hierarchical Active Inference ( http://arxiv.org/abs/2112.01210v1 )

ライセンス: CC BY 4.0
Jan P\"oppel and Sebastian Kahl and Stefan Kopp(参考訳) 複雑な協調作業に協力するには、エージェントが行動を調整する必要がある。 実際のインタラクションの前に明示的に、あるいは完全にこれを行うことは、常に可能でも十分でもない。 エージェントは、他の人の現在の行動を継続的に理解し、自身の行動を迅速に適応する必要がある。 本稿では,私たちが信念共振と呼ぶ精神状態(意図,目標)のレベルにおける効率的かつ自動的な協調プロセスが,協調的な問題解決につながるかを検討する。 本稿では,協調エージェント(HAICA)の階層的アクティブ推論モデルを提案する。 効率的なベイズ的マインド理論と予測処理と能動推論に基づく知覚行動システムを組み合わせる。 信念の共鳴は、あるエージェントの推論された精神状態が他のエージェントの目標や意図に対する予測的信念に影響を与えることによって実現される。 このように、推測された精神状態は、明示的な協調的推論なしにエージェントのタスク行動に影響を与える。 我々は,このモデルを実装し,信頼性の異なる2つのエージェントが食事の注文を満たすために協力する過調理領域において評価する。 以上の結果から,HAICAをベースとしたエージェントは,最近の技術動向に匹敵するチームパフォーマンスを達成でき,計算コストもはるかに低いことがわかった。 また, エージェントが環境に関する非対称な知識を持っているため, 信念共鳴が特に有用であることを示す。 その結果, 信念共鳴と能動推論は, 迅速かつ効率的なエージェント協調を可能にし, 協調的認知エージェントの構成要素として機能することが示唆された。

Working together on complex collaborative tasks requires agents to coordinate their actions. Doing this explicitly or completely prior to the actual interaction is not always possible nor sufficient. Agents also need to continuously understand the current actions of others and quickly adapt their own behavior appropriately. Here we investigate how efficient, automatic coordination processes at the level of mental states (intentions, goals), which we call belief resonance, can lead to collaborative situated problem-solving. We present a model of hierarchical active inference for collaborative agents (HAICA). It combines efficient Bayesian Theory of Mind processes with a perception-action system based on predictive processing and active inference. Belief resonance is realized by letting the inferred mental states of one agent influence another agent's predictive beliefs about its own goals and intentions. This way, the inferred mental states influence the agent's own task behavior without explicit collaborative reasoning. We implement and evaluate this model in the Overcooked domain, in which two agents with varying degrees of belief resonance team up to fulfill meal orders. Our results demonstrate that agents based on HAICA achieve a team performance comparable to recent state of the art approaches, while incurring much lower computational costs. We also show that belief resonance is especially beneficial in settings were the agents have asymmetric knowledge about the environment. The results indicate that belief resonance and active inference allow for quick and efficient agent coordination, and thus can serve as a building block for collaborative cognitive agents.
翻訳日:2021-12-03 23:01:14 公開日:2021-12-02
# (参考訳) Youla-REN:ロバスト安定性保証による非線形フィードバックポリシの学習 [全文訳有]

Youla-REN: Learning Nonlinear Feedback Policies with Robust Stability Guarantees ( http://arxiv.org/abs/2112.01253v1 )

ライセンス: CC BY 4.0
Ruigang Wang and Ian R. Manchester(参考訳) 本稿では,最近のニューラルネットワークアーキテクチャであるrecurrent equilibrium network (ren) と,youlaパラメータ化の非線形バージョンに基づく不確定システムの非線形制御のパラメータ化について述べる。 提案したフレームワークは、安定性の保証、すなわち、検索空間のすべてのポリシーが契約(グローバルに指数関数的に安定した)閉ループシステムをもたらすことを保証する。 したがって、コスト関数の選択に関する非常に穏やかな仮定が必要であり、安定性特性は見当たらないデータに一般化することができる。 このアプローチのもう1つの有用な特徴は、ポリシーは制約なしで直接パラメータ化され、制約のない最適化(確率勾配降下など)に基づいて、幅広いポリシー学習手法で学習を単純化することである。 提案手法を様々なシミュレーション例で説明する。

This paper presents a parameterization of nonlinear controllers for uncertain systems building on a recently developed neural network architecture, called the recurrent equilibrium network (REN), and a nonlinear version of the Youla parameterization. The proposed framework has "built-in" guarantees of stability, i.e., all policies in the search space result in a contracting (globally exponentially stable) closed-loop system. Thus, it requires very mild assumptions on the choice of cost function and the stability property can be generalized to unseen data. Another useful feature of this approach is that policies are parameterized directly without any constraints, which simplifies learning by a broad range of policy-learning methods based on unconstrained optimization (e.g. stochastic gradient descent). We illustrate the proposed approach with a variety of simulation examples.
翻訳日:2021-12-03 22:30:33 公開日:2021-12-02
# (参考訳) ダイエットに空間的にスパースな3dネットワークを配置する [全文訳有]

Putting 3D Spatially Sparse Networks on a Diet ( http://arxiv.org/abs/2112.01316v1 )

ライセンス: CC BY-SA 4.0
Junha Lee, Christopher Choy, Jaesik Park(参考訳) 3Dニューラルネットワークは、オブジェクト検出、セグメンテーション、登録、そして3D入力のための様々な知覚タスクを含む多くの3D視覚タスクで普及している。 しかし、3Dデータの空間性と不規則性のため、カスタム3D演算子やネットワーク設計は3D研究の主要な焦点であり、ネットワークのサイズやパラメータの有効性は見過ごされている。 本研究では,空間的にスパースな3D畳み込みネットワークの重み空間を包括的に検討し,セマンティックセグメンテーションとインスタンスセグメンテーションのためのコンパクトで空間的にスパースな3Dコンブネット(WS^3-ConvNet)を提案する。 我々は、コンパクトネットワークを見つけるために、様々なネットワークプルーニング戦略を採用し、WS^3-ConvNetが、桁違いのパラメータ(1/100圧縮率)で性能の最小損失(2.15%低下)を達成することを示す。 最後に、WS^3-ConvNetの圧縮パターンを体系的に解析し、圧縮ネットワークに共通する興味深い空間パターンを示し、推論をさらに高速化する。

3D neural networks have become prevalent for many 3D vision tasks including object detection, segmentation, registration, and various perception tasks for 3D inputs. However, due to the sparsity and irregularity of 3D data, custom 3D operators or network designs have been the primary focus of 3D research, while the size of networks or efficacy of parameters has been overlooked. In this work, we perform the first comprehensive study on the weight sparsity of spatially sparse 3D convolutional networks and propose a compact weight-sparse and spatially sparse 3D convnet (WS^3-ConvNet) for semantic segmentation and instance segmentation. We employ various network pruning strategies to find compact networks and show our WS^3-ConvNet achieves minimal loss in performance (2.15% drop) with orders-of-magnitude smaller number of parameters (1/100 compression rate). Finally, we systematically analyze the compression patterns of WS^3-ConvNet and show interesting emerging sparsity patterns common in our compressed networks to further speed up inference.
翻訳日:2021-12-03 22:15:16 公開日:2021-12-02
# (参考訳) ベンチマークで嘘をつかない方法: nlp リーダーボードの再配置 [全文訳有]

How not to Lie with a Benchmark: Rearranging NLP Leaderboards ( http://arxiv.org/abs/2112.01342v1 )

ライセンス: CC BY 4.0
Shavrina Tatiana and Malykh Valentin(参考訳) 人間との比較は、モデル能力の信頼性を計測するためには、ベンチマークに必須の要件である。 別々のメトリクスの算術平均は、異なる複雑性、異なるサイズ、テストとトレーニングセットのすべてのタスクに使用される。 本稿では,人気のあるnlpベンチマークの総合得点法を調査し,その平均化率に適合する幾何学的・調和的平均値を用いてモデルを再構成する。 我々は、GLUE、SuperGLUE、XGLUE、XTREMEなどの人気のあるベンチマークを分析した。 この分析は、例えば、SuperGLUE上の人間レベルはまだ到達されておらず、現在のモデルにはまだ改善の余地があることを示している。

Comparison with a human is an essential requirement for a benchmark for it to be a reliable measurement of model capabilities. Nevertheless, the methods for model comparison could have a fundamental flaw - the arithmetic mean of separate metrics is used for all tasks of different complexity, different size of test and training sets. In this paper, we examine popular NLP benchmarks' overall scoring methods and rearrange the models by geometric and harmonic mean (appropriate for averaging rates) according to their reported results. We analyze several popular benchmarks including GLUE, SuperGLUE, XGLUE, and XTREME. The analysis shows that e.g. human level on SuperGLUE is still not reached, and there is still room for improvement for the current models.
翻訳日:2021-12-03 21:54:10 公開日:2021-12-02
# (参考訳) NeurIPS 2021 シフトチャレンジの第3位:自動車の運動予測 [全文訳有]

3rd Place Solution for NeurIPS 2021 Shifts Challenge: Vehicle Motion Prediction ( http://arxiv.org/abs/2112.01348v1 )

ライセンス: CC BY 4.0
Ching-Yu Tseng, Po-Shao Lin, Yu-Jia Liou, Kuan-Chih Huang and Winston H. Hsu(参考訳) shifts challenge: robustness and uncertainty under real-world distributional shiftは、neurips 2021が主催するコンペティションである。 この競争の目的は、クロスドメインにおける動き予測問題を解決する方法を探すことである。 実世界のデータセットでは、入力データ分布と地上データ分布の差異が存在し、これはドメインシフト問題と呼ばれる。 本稿では,最先端の美術論文にインスパイアされた新しい建築を提案する。 主な貢献は、自己注意機構と主な損失関数を備えたバックボーンアーキテクチャである。 その後、リーダーボードで3位となった。

Shifts Challenge: Robustness and Uncertainty under Real-World Distributional Shift is a competition held by NeurIPS 2021. The objective of this competition is to search for methods to solve the motion prediction problem in cross-domain. In the real world dataset, It exists variance between input data distribution and ground-true data distribution, which is called the domain shift problem. In this report, we propose a new architecture inspired by state of the art papers. The main contribution is the backbone architecture with self-attention mechanism and predominant loss function. Subsequently, we won 3rd place as shown on the leaderboard.
翻訳日:2021-12-03 21:46:23 公開日:2021-12-02
# (参考訳) MegBA: 大規模バンドル調整のための高性能で分散ライブラリ [全文訳有]

MegBA: A High-Performance and Distributed Library for Large-Scale Bundle Adjustment ( http://arxiv.org/abs/2112.01349v1 )

ライセンス: CC BY 4.0
Jie Ren, Wenteng Liang, Ran Yan, Luo Mai, Shiwen Liu, Xiao Liu(参考訳) 大規模なバンドル調整(BA)は多くの3D視覚アプリケーション(Structure-from-Moti onやSLAMなど)の鍵となる。 重要なことではあるが、大規模な BA は既存の BA ライブラリ (例えば Ceres や g2o) ではまだサポートされていない。 これらのライブラリはアクセラレーター(GPU)をアンダーユースし、単一のデバイス上でメモリによって制限されたBA計算を分散するアルゴリズムを欠いている。 本稿では,大規模BAのための高性能分散ライブラリであるMegBAを提案する。 MegBAには、GPU上の巨大な並列コアを完全に活用し、BA計算全体を高速化する、新しいエンドツーエンドベクトル化BAアルゴリズムがある。 また、BA問題を自動的に分割し、分散GPUを用いてBAサブプロブレムを解決する、新しい分散BAアルゴリズムも備えている。 GPUは、ネットワーク効率のよい集団通信を用いて中間解決状態を同期させ、通信コストを最小限に抑えるように設計されている。 MegBAはメモリ効率のよいGPUランタイムを持ち、g2o互換APIを公開する。 実験により、MegBAは、パブリックな大規模BAベンチマークにおいて、最先端のBAライブラリ(すなわち、CeresとDeepLM)を最大33倍、そして3.3倍の性能で上回ることができることが示された。 MegBAのコードは: \url{https://github.com/M egviiRobot/MegBA}.comで公開されている。

Large-scale Bundle Adjustment (BA) is the key for many 3D vision applications (e.g., Structure-from-Motio n and SLAM). Though important, large-scale BA is still poorly supported by existing BA libraries (e.g., Ceres and g2o). These libraries under-utilise accelerators (i.e., GPUs), and they lack algorithms to distribute BA computation constrained by the memory on a single device. In this paper, we propose MegBA, a high-performance and distributed library for large-scale BA. MegBA has a novel end-to-end vectorised BA algorithm that can fully exploit the massive parallel cores on GPUs, thus speeding up the entire BA computation. It also has a novel distributed BA algorithm that can automatically partition BA problems, and solve BA sub-problems using distributed GPUs. The GPUs synchronise intermediate solving state using network-efficient collective communication, and the synchronisation is designed to minimise communication cost. MegBA has a memory-efficient GPU runtime and exposes g2o-compatible APIs. Experiments show that MegBA can out-perform state-of-the-art BA libraries (i.e., Ceres and DeepLM) by up to 33x and 3.3x respectively, in public large-scale BA benchmarks. The code of MegBA is available at: \url{https://github.com/M egviiRobot/MegBA}.
翻訳日:2021-12-03 21:41:41 公開日:2021-12-02
# (参考訳) ディープラーニングと多重基準最適化の混合:複数データセットによる分散学習への応用

Mixing Deep Learning and Multiple Criteria Optimization: An Application to Distributed Learning with Multiple Datasets ( http://arxiv.org/abs/2112.01358v1 )

ライセンス: CC BY-SA 4.0
Davide La Torre, Danilo Liuzzi, Marco Repetto, Matteo Rocca(参考訳) トレーニングフェーズは、機械学習プロセスにおいて最も重要なステージです。 ラベル付きデータと教師付き学習の場合、機械訓練は、異なる制約を受ける損失関数を最小化する。 抽象的な設定では、各基準が特定の入力とそのラベルに関連する出力間の距離を測定する多重基準最適化モデルとして定式化することができる。 したがって、嵌合項はベクトル関数であり、その最小化はパレートの意味で意図される。 入力および出力データの摂動に対する効率的な解の安定性結果を提供する。 そして、同じアプローチを複数のデータセットで学習する場合にも拡張します。 特定のトレーニングセットの選択によるバイアスを減らす場合には、複数のデータセット環境が関係します。 MNISTデータを用いた数値分類において,このモデルと数値実験を実現するためのスカラー化手法を提案する。

The training phase is the most important stage during the machine learning process. In the case of labeled data and supervised learning, machine training consists in minimizing the loss function subject to different constraints. In an abstract setting, it can be formulated as a multiple criteria optimization model in which each criterion measures the distance between the output associated with a specific input and its label. Therefore, the fitting term is a vector function and its minimization is intended in the Pareto sense. We provide stability results of the efficient solutions with respect to perturbations of input and output data. We then extend the same approach to the case of learning with multiple datasets. The multiple dataset environment is relevant when reducing the bias due to the choice of a specific training set. We propose a scalarization approach to implement this model and numerical experiments in digit classification using MNIST data.
翻訳日:2021-12-03 21:22:01 公開日:2021-12-02
# (参考訳) 半教師付き時間行動セグメンテーションのための反復的フレームレベル表現学習と分類 [全文訳有]

Iterative Frame-Level Representation Learning And Classification For Semi-Supervised Temporal Action Segmentation ( http://arxiv.org/abs/2112.01402v1 )

ライセンス: CC BY 4.0
Dipika Singhania, Rahul Rahaman, Angela Yao(参考訳) 時間的アクションセグメンテーションは、各フレームのアクションを(長い)ビデオシーケンスで分類する。 フレーム毎のラベリングのコストが高いため,時間的動作セグメント化のための最初の半教師あり方式を提案する。 本手法は,時間的行動セグメンテーションのために,教師なし表現学習に頼っている。 非トリミングビデオのアクションは長さが異なり、未知のラベルと開始/終了時刻がある。 ビデオ間でのアクションの順序も様々である。 時系列畳み込みネットワーク (tcns) から, 時間-公理条件とマルチレゾリューション類似度を付加した入力特徴をクラスタリングすることで, フレーム指向表現を学習する新しい手法を提案する。 表現学習と従来の教師付き学習を融合することにより,半教師付き学習方式「イテレーティブ・コントラストクラス化(icc)」を開発した。 ICCの半教師付き学習は、40%のラベル付きビデオを持つが、完全に教師付き学習と同じようなパフォーマンスを発揮する。 ICCはBreakfast, 50Salads, GTEAで, 100%ラベル付きビデオでは {+1.8, +5.6, +2.5}% でMoFを改善する。

Temporal action segmentation classifies the action of each frame in (long) video sequences. Due to the high cost of frame-wise labeling, we propose the first semi-supervised method for temporal action segmentation. Our method hinges on unsupervised representation learning, which, for temporal action segmentation, poses unique challenges. Actions in untrimmed videos vary in length and have unknown labels and start/end times. Ordering of actions across videos may also vary. We propose a novel way to learn frame-wise representations from temporal convolutional networks (TCNs) by clustering input features with added time-proximity condition and multi-resolution similarity. By merging representation learning with conventional supervised learning, we develop an "Iterative-Contrast-C lassify (ICC)" semi-supervised learning scheme. With more labelled data, ICC progressively improves in performance; ICC semi-supervised learning, with 40% labelled videos, performs similar to fully-supervised counterparts. Our ICC improves MoF by {+1.8, +5.6, +2.5}% on Breakfast, 50Salads and GTEA respectively for 100% labelled videos.
翻訳日:2021-12-03 21:21:08 公開日:2021-12-02
# (参考訳) FedRAD: フェデレートロバスト適応蒸留 [全文訳有]

FedRAD: Federated Robust Adaptive Distillation ( http://arxiv.org/abs/2112.01405v1 )

ライセンス: CC BY 4.0
Stef\'an P\'all Sturluson, Samuel Trew, Luis Mu\~noz-Gonz\'alez, Matei Grama, Jonathan Passerat-Palmbach, Daniel Rueckert, Amir Alansary(参考訳) 多数のクライアント間で共有される正確なグローバルモデルの分散トレーニングには,連合学習(federated learning, fl)の堅牢性が不可欠である。 モデル更新を集約するコラボレーティブな学習フレームワークは、敵のクライアントからの毒殺攻撃のモデルに脆弱である。 グローバルサーバと参加者間の共有情報はモデルパラメータに限定されているため、悪いモデル更新を検出することは困難である。 さらに、現実世界のデータセットは通常異種であり、独立したものではなく、参加者間で均等に分散している(Non-IID)。 本研究では, 中央統計値の特性に基づいて, 対向性を検出し, 局所モデルを強固に集約し, アンサンブル知識蒸留の適応版を実行するための, 新たなロバスト適応蒸留法であるフェデレートロバスト適応蒸留法を提案する。 提案手法を最近公表した作品に対して評価するために,広範囲な実験を行った。 その結果,FedRADは敵の存在や異種データ分布において,他のアグリゲータよりも優れていた。

The robustness of federated learning (FL) is vital for the distributed training of an accurate global model that is shared among large number of clients. The collaborative learning framework by typically aggregating model updates is vulnerable to model poisoning attacks from adversarial clients. Since the shared information between the global server and participants are only limited to model parameters, it is challenging to detect bad model updates. Moreover, real-world datasets are usually heterogeneous and not independent and identically distributed (Non-IID) among participants, which makes the design of such robust FL pipeline more difficult. In this work, we propose a novel robust aggregation method, Federated Robust Adaptive Distillation (FedRAD), to detect adversaries and robustly aggregate local models based on properties of the median statistic, and then performing an adapted version of ensemble Knowledge Distillation. We run extensive experiments to evaluate the proposed method against recently published works. The results show that FedRAD outperforms all other aggregators in the presence of adversaries, as well as in heterogeneous data distributions.
翻訳日:2021-12-03 20:57:10 公開日:2021-12-02
# (参考訳) 人間の合成のための3次元意味誘導型生成モデル [全文訳有]

3D-Aware Semantic-Guided Generative Model for Human Synthesis ( http://arxiv.org/abs/2112.01422v1 )

ライセンス: CC BY 4.0
Jichao Zhang, Enver Sangineto, Hao Tang, Aliaksandr Siarohin, Zhun Zhong, Nicu Sebe, Wei Wang(参考訳) 2d画像から暗黙の3d表現を抽出するgnerf(generative neural radiance field)モデルは最近、人間の顔や車といった剛体を表現する現実的な画像を生成することが示されている。 しかし、彼らは通常、人体のような厳密でない物体を表す高品質な画像を生成するのに苦労し、多くのコンピュータグラフィックスアプリケーションにとって大きな関心を持つ。 本稿では,GNeRFとテクスチャジェネレータを統合した画像合成のための3D対応セマンティックガイド生成モデル(3D-SGAN)を提案する。 前者は人体の暗黙の3D表現を学び、一連の2Dセマンティックセグメンテーションマスクを出力する。 後者は、これらのセマンティックマスクを実際のイメージに変換し、人間の外観に現実的なテクスチャを加える。 追加の3d情報を必要とせずに、3d表現をフォトリアリスティックな生成で学習することができる。 DeepFashionデータセットに関する我々の実験は、3D-SGANが最新のベースラインを大きく上回っていることを示している。

Generative Neural Radiance Field (GNeRF) models, which extract implicit 3D representations from 2D images, have recently been shown to produce realistic images representing rigid objects, such as human faces or cars. However, they usually struggle to generate high-quality images representing non-rigid objects, such as the human body, which is of a great interest for many computer graphics applications. This paper proposes a 3D-aware Semantic-Guided Generative Model (3D-SGAN) for human image synthesis, which integrates a GNeRF and a texture generator. The former learns an implicit 3D representation of the human body and outputs a set of 2D semantic segmentation masks. The latter transforms these semantic masks into a real image, adding a realistic texture to the human appearance. Without requiring additional 3D information, our model can learn 3D human representations with a photo-realistic controllable generation. Our experiments on the DeepFashion dataset show that 3D-SGAN significantly outperforms the most recent baselines.
翻訳日:2021-12-03 20:46:12 公開日:2021-12-02
# (参考訳) 分散確率勾配勾配におけるロスランドスケープ依存型自己調整学習率 [全文訳有]

Loss Landscape Dependent Self-Adjusting Learning Rates in Decentralized Stochastic Gradient Descent ( http://arxiv.org/abs/2112.01433v1 )

ライセンス: CC BY 4.0
Wei Zhang, Mingrui Liu, Yu Feng, Xiaodong Cui, Brian Kingsbury, Yuhai Tu(参考訳) 大規模ディープラーニング(DL)トレーニングには分散ディープラーニング(DDL)が不可欠である。 同期確率勾配 Descent (SSGD) 1 は事実上の DDL 最適化法である。 DDLランタイムのスピードアップを達成するには、十分に大きなバッチサイズを使用することが重要です。 大規模なバッチ設定では、パラメータ更新数の削減を補うために、学習率を向上しなければならない。 しかし、大きな学習率はSSGDの収束を損なう可能性があり、訓練は容易に分岐する可能性がある。 近年,分散トレーニング速度を改善するために分散並列SGD(DPSGD)が提案されている。 本稿では,DPSGDがシステム的に実行時のメリットを持つだけでなく,大規模なバッチ設定においてSSGDよりも優れた収束性を持つことを示す。 dpsgd学習ダイナミクスの詳細な解析結果から,dpsgdでは,効率的な学習率を自動的に調整して収束性を向上させる,ランドスケープ依存ノイズが新たに導入されている。 さらに,理論上,このノイズが損失の景観を滑らかにし,学習率を増大させることを示した。 我々は18の最先端DLモデル/タスクについて広範な研究を行い、大規模なバッチ環境でSSGDが大きな学習率のために分岐する場合にDPSGDが収束することを示した。 我々の発見は、コンピュータビジョン(CIFAR10とImageNet-1K)と自動音声認識(SWB300とSWB2000)と、畳み込みニューラルネットワークとLong Short-Term Memory Recurrent Neural Networksという2つの異なるタイプのニューラルネットワークモデルで一致している。

Distributed Deep Learning (DDL) is essential for large-scale Deep Learning (DL) training. Synchronous Stochastic Gradient Descent (SSGD) 1 is the de facto DDL optimization method. Using a sufficiently large batch size is critical to achieving DDL runtime speedup. In a large batch setting, the learning rate must be increased to compensate for the reduced number of parameter updates. However, a large learning rate may harm convergence in SSGD and training could easily diverge. Recently, Decentralized Parallel SGD (DPSGD) has been proposed to improve distributed training speed. In this paper, we find that DPSGD not only has a system-wise run-time benefit but also a significant convergence benefit over SSGD in the large batch setting. Based on a detailed analysis of the DPSGD learning dynamics, we find that DPSGD introduces additional landscape-dependent noise that automatically adjusts the effective learning rate to improve convergence. In addition, we theoretically show that this noise smoothes the loss landscape, hence allowing a larger learning rate. We conduct extensive studies over 18 state-of-the-art DL models/tasks and demonstrate that DPSGD often converges in cases where SSGD diverges for large learning rates in the large batch setting. Our findings are consistent across two different application domains: Computer Vision (CIFAR10 and ImageNet-1K) and Automatic Speech Recognition (SWB300 and SWB2000), and two different types of neural network models: Convolutional Neural Networks and Long Short-Term Memory Recurrent Neural Networks.
翻訳日:2021-12-03 20:30:12 公開日:2021-12-02
# (参考訳) SHACLの概要:RDFグラフのデータ検証からスキーマ推論へ [全文訳有]

A Review of SHACL: From Data Validation to Schema Reasoning for RDF Graphs ( http://arxiv.org/abs/2112.01441v1 )

ライセンス: CC BY 4.0
Paolo Pareti and George Konstantinidis(参考訳) 本稿では,RDFデータ検証のためのW3Cレコメンデーション言語であるShapes Constraint Language (SHACL)の紹介とレビューを行う。 SHACL文書はRDFノード上の一連の制約を記述しており、ノードがこれらの制約を満たす場合、グラフは文書に対して有効である。 我々は、言語の基本概念、構造とコンポーネント、それらの相互作用を再考する。 我々は、この言語の研究に使用される様々な形式的フレームワークと、提案された異なる意味論についてレビューする。 本研究では,SHACLと推論規則の相互作用に対する包含性や満足度など,関連する諸問題について検討し,異なる問題に対して言語モデルの違いがいかに有用かを示す。 我々はまた、SHACLの実践的側面を取り上げ、その実装と導入状況について議論し、実践者や理論家にも有用な総合的なレビューを提示する。

We present an introduction and a review of the Shapes Constraint Language (SHACL), the W3C recommendation language for validating RDF data. A SHACL document describes a set of constraints on RDF nodes, and a graph is valid with respect to the document if its nodes satisfy these constraints. We revisit the basic concepts of the language, its constructs and components and their interaction. We review the different formal frameworks used to study this language and the different semantics proposed. We examine a number of related problems, from containment and satisfiability to the interaction of SHACL with inference rules, and exhibit how different modellings of the language are useful for different problems. We also cover practical aspects of SHACL, discussing its implementations and state of adoption, to present a holistic review useful to practitioners and theoreticians alike.
翻訳日:2021-12-03 19:59:50 公開日:2021-12-02
# (参考訳) 代表文からの大規模ネットワーク埋め込みの学習 [全文訳有]

Learning Large-scale Network Embedding from Representative Subgraph ( http://arxiv.org/abs/2112.01442v1 )

ライセンス: CC BY 4.0
Junsheng Kong, Weizhao Li, Ben Liao, Jiezhong Qiu, Chang-Yu (Kim) Hsieh, Yi Cai, Jinhui Zhu, and Shengyu Zhang(参考訳) ネットワークマイニングにおける低次元潜在表現の学習を目的とした大規模ネットワーク埋め込みの課題について検討する。 ネットワーク埋め込みの分野での最近の研究は、DeepWalk、LINE、NetMF、NetSMFといった大きな進歩をもたらした。 しかし、多くの実世界のネットワークの巨大なサイズは、ネットワーク全体からネットワーク埋め込みを学ぶのに計算コストがかかる。 そこで本研究では,小さな代表グラフからネットワーク埋め込みを学習する「NES」と呼ばれる新しいネットワーク埋め込み手法を提案する。 nesは、グラフサンプリングの理論を活用して、より小さなサイズで代表サブグラフを効率的に構築し、ネットワーク全体の推論に使用することで、組み込み学習の効率を大幅に向上させる。 そして、NESは、この代表サブグラフからのネットワーク埋め込みを効率的に計算する。 良く知られた手法と比較して、様々なスケールとタイプのネットワークに関する広範な実験は、NESが同等のパフォーマンスと大幅な効率性を達成することを示した。

We study the problem of large-scale network embedding, which aims to learn low-dimensional latent representations for network mining applications. Recent research in the field of network embedding has led to significant progress such as DeepWalk, LINE, NetMF, NetSMF. However, the huge size of many real-world networks makes it computationally expensive to learn network embedding from the entire network. In this work, we present a novel network embedding method called "NES", which learns network embedding from a small representative subgraph. NES leverages theories from graph sampling to efficiently construct representative subgraph with smaller size which can be used to make inferences about the full network, enabling significantly improved efficiency in embedding learning. Then, NES computes the network embedding from this representative subgraph, efficiently. Compared with well-known methods, extensive experiments on networks of various scales and types demonstrate that NES achieves comparable performance and significant efficiency superiority.
翻訳日:2021-12-03 19:31:37 公開日:2021-12-02
# (参考訳) 複数の時間スケールにおける水温時系列の特徴

Hydroclimatic time series features at multiple time scales ( http://arxiv.org/abs/2112.01447v1 )

ライセンス: CC BY 4.0
Georgia Papacharalampous, Hristos Tyralis, Yannis Markonis, Martin Hanel(参考訳) 様々な物理過程の挙動を包括的に理解するには、特に、時間的スケールにわたる詳細な調査が必要である。 本研究では,水温環境下での調査を進展させ,強化するための時系列特徴コンパイルを提案する。 この特定のコンパイルは、時間的依存、時間的変動、"予測可能性"、ルンピー性、安定性、非線形性(および線形性)、トレンド、スパイク性、曲率、季節性の観点から、大きく解釈可能な特徴の調査と比較を容易にする。 ここでは,9つの時間分解(1日,2日,3日,7日,0.5ヶ月,1ヶ月,2ヶ月,3ヶ月,6ヶ月)と3つの温暖化時系列型(気温,降水量,流水量)で,34年間の大陸511の地理的位置から得られた時系列記録について,詳細な定量化と多面的特徴付けを行った。 得られた情報と知識に基づいて、時間分解能の増加(または減少)とともに特徴値の特徴を特徴付ける進化パターンに関して、検討された時系列タイプ間の類似性と相違を識別する。 私たちの見解では、これらのパターンの類似性はかなり驚きます。 また,特徴量に基づく時系列クラスタリングから出現する空間パターンは,時間スケールでほぼ類似しており,様々な時間分解能で時系列をクラスタリングする上での有用性について比較した。 ほとんどの特徴において、この有用性は時間分解能と時系列タイプで顕著な程度に変化し、水文気候の類似性を研究するために多面的な時系列特徴付けを行う必要性を指摘する。

A comprehensive understanding of the behaviours of the various geophysical processes requires, among others, detailed investigations across temporal scales. In this work, we propose a new time series feature compilation for advancing and enriching such investigations in a hydroclimatic context. This specific compilation can facilitate largely interpretable feature investigations and comparisons in terms of temporal dependence, temporal variation, "forecastability" ;, lumpiness, stability, nonlinearity (and linearity), trends, spikiness, curvature and seasonality. Detailed quantifications and multifaceted characterizations are herein obtained by computing the values of the proposed feature compilation across nine temporal resolutions (i.e., the 1-day, 2-day, 3-day, 7-day, 0.5-month, 1-month, 2-month, 3-month and 6-month ones) and three hydroclimatic time series types (i.e., temperature, precipitation and streamflow) for 34-year-long time series records originating from 511 geographical locations across the continental United States. Based on the acquired information and knowledge, similarities and differences between the examined time series types with respect to the evolution patterns characterizing their feature values with increasing (or decreasing) temporal resolution are identified. To our view, the similarities in these patterns are rather surprising. We also find that the spatial patterns emerging from feature-based time series clustering are largely analogous across temporal scales, and compare the features with respect to their usefulness in clustering the time series at the various temporal resolutions. For most of the features, this usefulness can vary to a notable degree across temporal resolutions and time series types, thereby pointing out the need for conducting multifaceted time series characterizations for the study of hydroclimatic similarity.
翻訳日:2021-12-03 19:18:37 公開日:2021-12-02
# (参考訳) 深層強化学習モデルの構築と可視化 [全文訳有]

Architecting and Visualizing Deep Reinforcement Learning Models ( http://arxiv.org/abs/2112.01451v1 )

ライセンス: CC BY 4.0
Alexander Neuwirth and Derek Riley(参考訳) 深層強化学習(Dep Reinforcement Learning, DRL)への関心の高まりに応えるため, DRL駆動のAtari Pongエージェントとそれに伴う可視化ツールの構築を試みた。 既存のアプローチは、容易に構成可能な物理と人間制御されたプレイヤーを備えたインタラクティブな展示を作成するのに必要な柔軟性をサポートしない。 そこで我々は,新しいPongゲーム環境を構築し,DRLを新しい環境に適用する際に生じる,多くのユニークなデータ不足に対処し,ポリシー勾配に基づくDRLモデルを設計・調整し,リアルタイムネットワークの可視化を開発し,これらの要素をインタラクティブなディスプレイに組み合わせることで,DRL推論の直観と認識を構築する。

To meet the growing interest in Deep Reinforcement Learning (DRL), we sought to construct a DRL-driven Atari Pong agent and accompanying visualization tool. Existing approaches do not support the flexibility required to create an interactive exhibit with easily-configurable physics and a human-controlled player. Therefore, we constructed a new Pong game environment, discovered and addressed a number of unique data deficiencies that arise when applying DRL to a new environment, architected and tuned a policy gradient based DRL model, developed a real-time network visualization, and combined these elements into an interactive display to help build intuition and awareness of the mechanics of DRL inference.
翻訳日:2021-12-03 19:17:21 公開日:2021-12-02
# (参考訳) テキスト感情に基づく顔表情の変化 [全文訳有]

Altering Facial Expression Based on Textual Emotion ( http://arxiv.org/abs/2112.01454v1 )

ライセンス: CC BY 4.0
Mohammad Imrul Jubair, Md. Masud Rana, Md. Amir Hamza, Mohsena Ashraf, Fahim Ahsan Khan, Ahnaf Tahseen Prince(参考訳) 顔とその表現はデジタル画像の強力な主題の1つである。 画像から感情を検出することは、コンピュータビジョンの分野では古くからあるタスクだが、その逆の -- 画像から表情を合成する -- ことは、非常に新しい。 表情の異なる画像の再生や画像内の既存の表現の変更を行うには、GAN(Generative Adversarial Network)が必要である。 本稿では,同一人物に対して初期表現(ハッピー)を有する入力画像が異なる表現(嫌悪感)に変化する場合,ganを用いて画像中の表情を変化させることを目的とする。 この目的を達成するために、MUGデータセットの修正版にStarGAN技術を使用した。 さらに,与えられたテキストから感情によって示される画像の表情をモデル化することで,作業をさらに拡張した。 その結果,Long Short-Term Memory (LSTM) 法を用いてテキストから感情を抽出し,表現変換モジュールに転送した。 作業パイプラインのデモンストレーションとして、ユーザのテキスト感情に基づいて、プロファイル画像を異なる表現で再生成する、ブログのアプリケーションプロトタイプを作成しました。

Faces and their expressions are one of the potent subjects for digital images. Detecting emotions from images is an ancient task in the field of computer vision; however, performing its reverse -- synthesizing facial expressions from images -- is quite new. Such operations of regenerating images with different facial expressions, or altering an existing expression in an image require the Generative Adversarial Network (GAN). In this paper, we aim to change the facial expression in an image using GAN, where the input image with an initial expression (i.e., happy) is altered to a different expression (i.e., disgusted) for the same person. We used StarGAN techniques on a modified version of the MUG dataset to accomplish this objective. Moreover, we extended our work further by remodeling facial expressions in an image indicated by the emotion from a given text. As a result, we applied a Long Short-Term Memory (LSTM) method to extract emotion from the text and forwarded it to our expression-altering module. As a demonstration of our working pipeline, we also create an application prototype of a blog that regenerates the profile picture with different expressions based on the user's textual emotion.
翻訳日:2021-12-03 19:08:51 公開日:2021-12-02
# (参考訳) ドリームフィールドを用いたゼロショットテキストガイドオブジェクト生成 [全文訳有]

Zero-Shot Text-Guided Object Generation with Dream Fields ( http://arxiv.org/abs/2112.01455v1 )

ライセンス: CC BY 4.0
Ajay Jain, Ben Mildenhall, Jonathan T. Barron, Pieter Abbeel, Ben Poole(参考訳) ニューラルレンダリングとマルチモーダル画像とテキスト表現を組み合わせることで,自然言語表現のみから多様な3dオブジェクトを合成する。 提案手法であるドリームフィールドは,3次元の監督なしに広範囲の物体の形状と色を生成できる。 多様なキャプション付き3Dデータの不足のため、以前のメソッドはShapeNetのようないくつかのカテゴリからオブジェクトのみを生成する。 代わりに、ウェブからキャプションされた画像の大きなデータセットで事前訓練された画像テキストモデルを用いて生成をガイドする。 提案手法は,多くのカメラビューからニューラルレージアンスフィールドを最適化し,事前学習したCLIPモデルに従って,画像のレンダリングをターゲットキャプションで高いスコアで評価する。 忠実度と視覚的品質を改善するために,空間性誘導透過率正則化,シーン境界,新しいMLPアーキテクチャなど,単純な幾何学的先行手法を導入する。 実験において、ドリームフィールドは様々な自然言語キャプションから写実的で多視点の一貫したオブジェクト幾何学と色を作り出す。

We combine neural rendering with multi-modal image and text representations to synthesize diverse 3D objects solely from natural language descriptions. Our method, Dream Fields, can generate the geometry and color of a wide range of objects without 3D supervision. Due to the scarcity of diverse, captioned 3D data, prior methods only generate objects from a handful of categories, such as ShapeNet. Instead, we guide generation with image-text models pre-trained on large datasets of captioned images from the web. Our method optimizes a Neural Radiance Field from many camera views so that rendered images score highly with a target caption according to a pre-trained CLIP model. To improve fidelity and visual quality, we introduce simple geometric priors, including sparsity-inducing transmittance regularization, scene bounds, and new MLP architectures. In experiments, Dream Fields produce realistic, multi-view consistent object geometry and color from a variety of natural language captions.
翻訳日:2021-12-03 18:58:03 公開日:2021-12-02
# (参考訳) ニューラルポイント光電場 [全文訳有]

Neural Point Light Fields ( http://arxiv.org/abs/2112.01473v1 )

ライセンス: CC BY 4.0
Julian Ost, Issam Laradji, Alejandro Newell, Yuval Bahat, Felix Heide(参考訳) 暗黙的にシーンを表現するニューラルポイントライトフィールドを導入し,スパースポイントクラウド上にライトフィールドを配置する。 異なるボリュームレンダリングと学習された暗黙の密度表現を組み合わせることで、小さなシーンの新たなビューのためのフォトリアリスティック画像の合成が可能になった。 ニューラルボリュームレンダリング法は、基礎となる機能的なシーンの詳細なサンプリングを必要とするため、数百のトレーニングビューに投影された同じオブジェクトを持つ小さなシーンに基本的に制限されている。 スパース点雲をニューラル暗示光場に促進することにより、1光あたり1つの暗示サンプリング操作で、大きなシーンを効果的に表現することができる。 これらの点光場は、光線方向と局所点特徴近傍の関数として機能し、光場条件付きトレーニングイメージを高密度物体のカバレッジやパララックスなしで補間することができる。 提案手法は,既存の暗黙的アプローチが表現できない現実的未認識の視点を合成する大規模運転シナリオにおいて,新たな視点合成手法である。 我々は、Neural Point Light Fieldsによって、これまでシーンを明示的にモデル化して生成可能な、未確認の軌跡に沿った映像を予測できることを検証する。

We introduce Neural Point Light Fields that represent scenes implicitly with a light field living on a sparse point cloud. Combining differentiable volume rendering with learned implicit density representations has made it possible to synthesize photo-realistic images for novel views of small scenes. As neural volumetric rendering methods require dense sampling of the underlying functional scene representation, at hundreds of samples along a ray cast through the volume, they are fundamentally limited to small scenes with the same objects projected to hundreds of training views. Promoting sparse point clouds to neural implicit light fields allows us to represent large scenes effectively with only a single implicit sampling operation per ray. These point light fields are as a function of the ray direction, and local point feature neighborhood, allowing us to interpolate the light field conditioned training images without dense object coverage and parallax. We assess the proposed method for novel view synthesis on large driving scenarios, where we synthesize realistic unseen views that existing implicit approaches fail to represent. We validate that Neural Point Light Fields make it possible to predict videos along unseen trajectories previously only feasible to generate by explicitly modeling the scene.
翻訳日:2021-12-03 18:39:16 公開日:2021-12-02
# (参考訳) 化学プロセスのモデリングと最適化のためのハイブリッド科学誘導機械学習アプローチ [全文訳有]

A Hybrid Science-Guided Machine Learning Approach for Modeling and Optimizing Chemical Processes ( http://arxiv.org/abs/2112.01475v1 )

ライセンス: CC BY 4.0
Niket Sharma, Y. A. Liu(参考訳) 本研究では,バイオプロセッシングとケミカルエンジニアリングにおける科学知識とデータ分析を,SGML(Science-Guided Machine Learning)アプローチと組み合わせたハイブリッドプロセスモデリングと最適化の幅広い視点を示す。 アプローチを2つの主要なカテゴリに分けます。 第一は、データベースのMLモデルを補完し、第一原理の科学ベースのモデルを予測においてより正確にするケースを指し、第二は科学的知識がMLモデルを科学的に一貫性を増すケースに対応する。 本稿では,ハイブリッドSGML手法に関する科学・工学文献の詳細なレビューを行い,ハイブリッドSGMLモデルの体系的分類を提案する。 MLを科学モデルの改良に適用するために,直列および並列ハイブリッドモデリングのサブカテゴリとその組み合わせ,逆モデリング,低次モデリング,プロセスの不確かさの定量化,プロセスモデルの支配方程式の発見などを紹介する。 MLモデルの改善に科学的原則を適用するために、我々は、科学誘導設計、学習、洗練のサブカテゴリについて論じる。 各サブカテゴリに対して、その要件、利点、限界、およびバイオプロセッシングおよび化学工学におけるそれらの出版および潜在的な応用分野を識別する。

This study presents a broad perspective of hybrid process modeling and optimization combining the scientific knowledge and data analytics in bioprocessing and chemical engineering with a science-guided machine learning (SGML) approach. We divide the approach into two major categories. The first refers to the case where a data-based ML model compliments and makes the first-principle science-based model more accurate in prediction, and the second corresponds to the case where scientific knowledge helps make the ML model more scientifically consistent. We present a detailed review of scientific and engineering literature relating to the hybrid SGML approach, and propose a systematic classification of hybrid SGML models. For applying ML to improve science-based models, we present expositions of the sub-categories of direct serial and parallel hybrid modeling and their combinations, inverse modeling, reduced-order modeling, quantifying uncertainty in the process and even discovering governing equations of the process model. For applying scientific principles to improve ML models, we discuss the sub-categories of science-guided design, learning and refinement. For each sub-category, we identify its requirements, advantages and limitations, together with their published and potential areas of applications in bioprocessing and chemical engineering.
翻訳日:2021-12-03 18:21:08 公開日:2021-12-02
# (参考訳) ColBERTv2:軽量遅延相互作用による効率的かつ効率的な検索 [全文訳有]

ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction ( http://arxiv.org/abs/2112.01488v1 )

ライセンス: CC BY 4.0
Keshav Santhanam, Omar Khattab, Jon Saad-Falcon, Christopher Potts, Matei Zaharia(参考訳) ニューラル・インフォメーション・検索(IR)は、検索やその他の知識集約型言語タスクを大きく進歩させた。 多くのニューラルIR手法はクエリとドキュメントを単一ベクトル表現にエンコードするが、遅延相互作用モデルは各トークンの粒度でマルチベクトル表現を生成し、関連モデリングをスケーラブルなトークンレベルの計算に分解する。 この分解は後期相互作用をより効果的にすることが示されているが、これらのモデルの空間フットプリントを桁違いに膨らませる。 そこで本研究では,攻撃的残留圧縮機構と復号化監視戦略を結合したレトリバーColBERTv2を導入し,遅延相互作用の品質と空間フットプリントを同時に改善する。 我々は、colbertv2を幅広いベンチマークで評価し、トレーニング領域内外における最先端の品質を確立し、後期相互作用モデルの空間フットプリントを5-8$\times$で削減した。

Neural information retrieval (IR) has greatly advanced search and other knowledge-intensive language tasks. While many neural IR methods encode queries and documents into single-vector representations, late interaction models produce multi-vector representations at the granularity of each token and decompose relevance modeling into scalable token-level computations. This decomposition has been shown to make late interaction more effective, but it inflates the space footprint of these models by an order of magnitude. In this work, we introduce ColBERTv2, a retriever that couples an aggressive residual compression mechanism with a denoised supervision strategy to simultaneously improve the quality and space footprint of late interaction. We evaluate ColBERTv2 across a wide range of benchmarks, establishing state-of-the-art quality within and outside the training domain while reducing the space footprint of late interaction models by 5--8$\times$.
翻訳日:2021-12-03 18:01:11 公開日:2021-12-02
# (参考訳) ニューラルウェイトステップビデオ圧縮 [全文訳有]

Neural Weight Step Video Compression ( http://arxiv.org/abs/2112.01504v1 )

ライセンス: CC BY 4.0
Mikolaj Czerkawski, Javier Cardona, Robert Atkinson, Craig Michie, Ivan Andonovic, Carmine Clemente, Christos Tachtatzis(参考訳) 近年,ニューラルネットワークの重みとして画像の符号化に基づく様々な圧縮手法が提案されている。 しかし、ビデオ圧縮に対する同様のアプローチの可能性はまだ検討されていない。 本研究では,CbMLPと畳み込みネットワークという2つのアーキテクチャパラダイムを用いて,ビデオ圧縮の実現可能性をテストするための一連の実験を提案する。 さらに,ビデオの後続フレームを低エントロピーパラメータ更新として符号化するニューラルウェイトステッピング手法を提案する。 検討した手法の実現可能性を評価するため,複数の高分解能映像データセットでビデオ圧縮性能をテストし,従来型およびニューラル圧縮法と比較する。

A variety of compression methods based on encoding images as weights of a neural network have been recently proposed. Yet, the potential of similar approaches for video compression remains unexplored. In this work, we suggest a set of experiments for testing the feasibility of compressing video using two architectural paradigms, coordinate-based MLP (CbMLP) and convolutional network. Furthermore, we propose a novel technique of neural weight stepping, where subsequent frames of a video are encoded as low-entropy parameter updates. To assess the feasibility of the considered approaches, we will test the video compression performance on several high-resolution video datasets and compare against existing conventional and neural compression techniques.
翻訳日:2021-12-03 17:45:39 公開日:2021-12-02
# 類似コードからの借用: ログステートメント自動化のためのディープラーニングNLPベースのアプローチ

Borrowing from Similar Code: A Deep Learning NLP-Based Approach for Log Statement Automation ( http://arxiv.org/abs/2112.01259v1 )

ライセンス: Link先を確認
Sina Gholamian and Paul A. S. Ward(参考訳) ソフトウェア開発者は、実行時のシステムの問題を追跡し、システム管理タスクをトラブルシューティングするためにログファイルが必要となるため、現代のソフトウェア開発において必須任務として、ソースコード内にロギングステートメントを埋め込む。 しかし、現在のロギングプロセスはほとんど手動で行われており、ログステートメントの適切な配置と内容が課題として残っている。 これらの課題を克服するために、ログ配置を自動化し、その内容、すなわち「ログする場所と場所」を予測する手法が注目されている。 そこで我々は,これらの手法がログ予測に新たな文脈と利点をもたらすため,ソースコードクローンと自然言語処理(nlp)を利用して,ログ文の位置(すなわち場所)と記述(すなわち何)の予測に重点を置いている。 具体的には、3つの調査質問(rqs): (rq1) 同じようなコードスニペット、すなわちコードクローンがログステートメントの予測にどのように活用できるか? (RQ2) ログステートメントの記述を自動化するためにどのようにアプローチを拡張することができるのか? そして(RQ3) 提案手法はログの位置と記述予測にどの程度有効か? rqsを追求するために、7つのオープンソースjavaプロジェクトに関する実験研究を行いました。 ロギングステートメント(RQ1)の位置を予測するために,更新および改良されたログ対応コードクローン検出手法を提案する。 次に,自然言語処理(NLP)と深層学習を取り入れ,ログステートメントの記述予測(RQ2)を自動化する。 我々のハイブリッドNLPおよびコードクローン検出手法(NLP CC'd)は,ログステートメント位置を平均15.60%,BLEUおよびROUGEスコアで40.86%向上し,ログステートメントの記述を先行研究(RQ3)と比較して予測する。

Software developers embed logging statements inside the source code as an imperative duty in modern software development as log files are necessary for tracking down runtime system issues and troubleshooting system management tasks. However, the current logging process is mostly manual, and thus, proper placement and content of logging statements remain as challenges. To overcome these challenges, methods that aim to automate log placement and predict its content, i.e., 'where and what to log', are of high interest. Thus, we focus on predicting the location (i.e., where) and description (i.e., what) for log statements by utilizing source code clones and natural language processing (NLP), as these approaches provide additional context and advantage for log prediction. Specifically, we guide our research with three research questions (RQs): (RQ1) how similar code snippets, i.e., code clones, can be leveraged for log statements prediction? (RQ2) how the approach can be extended to automate log statements' descriptions? and (RQ3) how effective the proposed methods are for log location and description prediction? To pursue our RQs, we perform an experimental study on seven open-source Java projects. We introduce an updated and improved log-aware code-clone detection method to predict the location of logging statements (RQ1). Then, we incorporate natural language processing (NLP) and deep learning methods to automate the log statements' description prediction (RQ2). Our analysis shows that our hybrid NLP and code-clone detection approach (NLP CC'd) outperforms conventional clone detectors in finding log statement locations on average by 15.60% and achieves 40.86% higher performance on BLEU and ROUGE scores for predicting the description of logging statements when compared to prior research (RQ3).
翻訳日:2021-12-03 17:34:44 公開日:2021-12-02
# 確率的グラフィカルモデルを用いたデータ生成のための最適正規化

Optimal regularizations for data generation with probabilistic graphical models ( http://arxiv.org/abs/2112.01292v1 )

ライセンス: Link先を確認
Arnaud Fanthomme (ENS Paris), F Rizzato, S Cocco, R Monasson(参考訳) 正規化の役割を理解することは統計的推論における中心的な問題である。 経験的に、よくできた正規化スキームは、トレーニングデータの過度な適合を避けることで、推論されたモデルの品質を劇的に改善する。 ここでは、生成的ペアワイズグラフモデルの最大A Posteriori(MAP)推論におけるL2およびL1正規化の特別な場合を考える。 ガウス多変量分布の解析計算とガウスモデルとポッツモデルに関する数値実験に基づいて、正規化強度の関数としてトレーニング、テスト、および(推定されたモデルによる)「生成データ」セットの可能性を研究する。 特に, 最大値において, 生成した試料の品質を定量化する「生成」確率は, 極めて近い値であることが示されている。 正則化強度の最適値は、基礎となる相互作用のネットワーク上の部位に現れる二乗結合の逆和とほぼ等しいことが判明した。 以上の結果は,データ生成する真の基礎的相互作用の構造,考慮された正規化スキームの構造とほぼ独立にみられ,地図推定器周辺の後方分布の小さなゆらぎが考慮された場合に有効である。 相同配列から得られたタンパク質モデルに関する経験的研究との関係について論じる。

Understanding the role of regularization is a central question in Statistical Inference. Empirically, well-chosen regularization schemes often dramatically improve the quality of the inferred models by avoiding overfitting of the training data. We consider here the particular case of L 2 and L 1 regularizations in the Maximum A Posteriori (MAP) inference of generative pairwise graphical models. Based on analytical calculations on Gaussian multivariate distributions and numerical experiments on Gaussian and Potts models we study the likelihoods of the training, test, and 'generated data' (with the inferred models) sets as functions of the regularization strengths. We show in particular that, at its maximum, the test likelihood and the 'generated' likelihood, which quantifies the quality of the generated samples, have remarkably close values. The optimal value for the regularization strength is found to be approximately equal to the inverse sum of the squared couplings incoming on sites on the underlying network of interactions. Our results seem largely independent of the structure of the true underlying interactions that generated the data, of the regularization scheme considered, and are valid when small fluctuations of the posterior distribution around the MAP estimator are taken into account. Connections with empirical works on protein models learned from homologous sequences are discussed.
翻訳日:2021-12-03 17:33:50 公開日:2021-12-02
# 自律運転のための運転予測モデルの個人化フェデレーション学習

Personalized Federated Learning of Driver Prediction Models for Autonomous Driving ( http://arxiv.org/abs/2112.00956v1 )

ライセンス: Link先を確認
Manabu Nakanoya, Junha Im, Hang Qiu, Sachin Katti, Marco Pavone, Sandeep Chinchali(参考訳) 自動運転車(AV)は、異種地域における多様な人間のドライバーと相互作用する必要がある。 理想的には、avの群れは、クラウドベースの分散学習を使用して集合的経験から軌道予測モデルを継続的に再訓練し改善するために軌道データを共有すべきである。 同時に、これらのロボットは、プロプライエタリなポリシー(他社と洞察を共有する場合)や、保険会社からのドライバープライバシを保護するために、生のドライバーのインタラクションデータをアップロードするのを理想的に避けるべきである。 フェデレートラーニング(FL)は、プライベートローカルデータを拡散することなく、多様なユーザからクラウドサーバでモデルを学習するための一般的なメカニズムである。 しかしflは、しばしばロバストではない。人間とロボットの相互作用の重要な特徴である高度に異質な分散からユーザーデータが来たときに、最適以下のモデルを学ぶ。 本稿では,ロバストなロボット学習モデルを多様なユーザ分布に特殊化する,パーソナライズされたflの新たな変種を提案する。 提案手法は,標準carlaおよびcarlo avシミュレータにおいて,車線とシミュレーションされたavを優雅にマージしなければならない実ユーザ調査において,flベンチマークを最大2倍向上させる。

Autonomous vehicles (AVs) must interact with a diverse set of human drivers in heterogeneous geographic areas. Ideally, fleets of AVs should share trajectory data to continually re-train and improve trajectory forecasting models from collective experience using cloud-based distributed learning. At the same time, these robots should ideally avoid uploading raw driver interaction data in order to protect proprietary policies (when sharing insights with other companies) or protect driver privacy from insurance companies. Federated learning (FL) is a popular mechanism to learn models in cloud servers from diverse users without divulging private local data. However, FL is often not robust -- it learns sub-optimal models when user data comes from highly heterogeneous distributions, which is a key hallmark of human-robot interactions. In this paper, we present a novel variant of personalized FL to specialize robust robot learning models to diverse user distributions. Our algorithm outperforms standard FL benchmarks by up to 2x in real user studies that we conducted where human-operated vehicles must gracefully merge lanes with simulated AVs in the standard CARLA and CARLO AV simulators.
翻訳日:2021-12-03 17:31:42 公開日:2021-12-02
# 大バッチトレーニングとシャープミニマ:フォッカー・プランクの視点から

On Large Batch Training and Sharp Minima: A Fokker-Planck Perspective ( http://arxiv.org/abs/2112.00987v1 )

ライセンス: Link先を確認
Xiaowu Dai and Yuhua Zhu(参考訳) 確率勾配勾配(SGD)の動的軌道の統計的性質について検討した。 ミニバッチSGDと運動量SGDを確率微分方程式(SDE)として近似する。 本研究では, sde の連続定式化とフォッカー・プランク方程式の理論を用いて, 脱出現象と大型バッチおよびシャープミニマとの関係についての新しい結果を得る。 特に, 確率過程解は漸近的状態のバッチサイズに関係なく, より平坦な最小値に収束する傾向がある。 しかし、収束率はバッチサイズに依存することが厳密に証明されている。 これらの結果は、様々なデータセットやモデルで実証的に検証される。

We study the statistical properties of the dynamic trajectory of stochastic gradient descent (SGD). We approximate the mini-batch SGD and the momentum SGD as stochastic differential equations (SDEs). We exploit the continuous formulation of SDE and the theory of Fokker-Planck equations to develop new results on the escaping phenomenon and the relationship with large batch and sharp minima. In particular, we find that the stochastic process solution tends to converge to flatter minima regardless of the batch size in the asymptotic regime. However, the convergence rate is rigorously proven to depend on the batch size. These results are validated empirically with various datasets and models.
翻訳日:2021-12-03 17:31:18 公開日:2021-12-02
# FNR:ソーシャルメディアにおけるマルチモーダルフェイクニュースの類似性とトランスフォーマーに基づく検出手法

FNR: A Similarity and Transformer-Based Approachto Detect Multi-Modal FakeNews in Social Media ( http://arxiv.org/abs/2112.01131v1 )

ライセンス: Link先を確認
Faeze Ghorbanpour, Maryam Ramezani, Mohammad A. Fazli and Hamid R. Rabiee(参考訳) ソーシャルメディアの可用性とインタラクティブ性は、世界中のニュースの主要な情報源となっている。 ソーシャルメディアの人気は、誘惑的なテキストと誤解を招く画像を使って偽ニュースを制作し、広めることによって、犯罪者が不道徳な意図を追求することを誘惑する。 したがって、ソーシャルメディアのニュースの検証や偽物の発見が不可欠である。 本研究の目的は、ソーシャルメディアのテキストや画像から複数モーダルな特徴を分析し、偽ニュースを検出することである。 本稿では,画像とテキストの類似性を決定するために,文脈的特徴と意味的特徴の抽出に変換学習を利用する偽ニュース露見器(fnr)手法を提案する。 2つの実ソーシャルメディアデータセットにFNRを適用した。 その結果,提案手法は先行手法に比べて偽ニュースの検出精度が高いことがわかった。

The availability and interactive nature of social media have made them the primary source of news around the globe. The popularity of social media tempts criminals to pursue their immoral intentions by producing and disseminating fake news using seductive text and misleading images. Therefore, verifying social media news and spotting fakes is crucial. This work aims to analyze multi-modal features from texts and images in social media for detecting fake news. We propose a Fake News Revealer (FNR) method that utilizes transform learning to extract contextual and semantic features and contrastive loss to determine the similarity between image and text. We applied FNR on two real social media datasets. The results show the proposed method achieves higher accuracies in detecting fake news compared to the previous works.
翻訳日:2021-12-03 17:31:07 公開日:2021-12-02
# 疑似可逆ニューラルネットワークを用いた関数近似における非線形次元低減のためのレベルセット学習

Level set learning with pseudo-reversible neural networks for nonlinear dimension reduction in function approximation ( http://arxiv.org/abs/2112.01438v1 )

ライセンス: Link先を確認
Yuankai Teng, Zhu Wang, Lili Ju, Anthony Gruber, Guannan Zhang(参考訳) 次元性の呪いとトレーニングデータの制限のため、強力なディープニューラルネットワークでさえ、高次元関数の近似は非常に難しい作業である。 本稿では,可逆残差ネットワーク(RevNet)を用いた非線形レベルセット学習(NLL)法に着想を得て,関数近似のための学習レベルセット(DRiLLS)を用いた次元削減法を提案する。 提案手法は,高次元入力変数を低次元アクティブ変数に効果的に変換する疑似可逆ニューラルネットワーク(prnn)モジュールと,低次元空間における変換データに基づく関数値近似のための合成回帰モジュールの2つの主成分を含む。 PRNNは、RevNetの使用によりNLL法に存在する非線形変換の可逆性制約を緩和するだけでなく、各サンプルの影響を適応的に重み付けし、学習された能動変数に対する関数の感度を制御する。 合成回帰は入力空間内のユークリッド距離を使って隣接するサンプルを選び、アクティブ変数の空間上の射影を用いて局所最小二乗多項式のフィッティングを行う。 これは、従来の局所回帰や大域回帰における数値振動問題の解決に役立つ。 我々のDRiLLS法はNLL法とActive Subspace法の両方より優れており、特にターゲット関数が入力領域の内部に臨界点を持つ場合である。

Due to the curse of dimensionality and the limitation on training data, approximating high-dimensional functions is a very challenging task even for powerful deep neural networks. Inspired by the Nonlinear Level set Learning (NLL) method that uses the reversible residual network (RevNet), in this paper we propose a new method of Dimension Reduction via Learning Level Sets (DRiLLS) for function approximation. Our method contains two major components: one is the pseudo-reversible neural network (PRNN) module that effectively transforms high-dimensional input variables to low-dimensional active variables, and the other is the synthesized regression module for approximating function values based on the transformed data in the low-dimensional space. The PRNN not only relaxes the invertibility constraint of the nonlinear transformation present in the NLL method due to the use of RevNet, but also adaptively weights the influence of each sample and controls the sensitivity of the function to the learned active variables. The synthesized regression uses Euclidean distance in the input space to select neighboring samples, whose projections on the space of active variables are used to perform local least-squares polynomial fitting. This helps to resolve numerical oscillation issues present in traditional local and global regressions. Extensive experimental results demonstrate that our DRiLLS method outperforms both the NLL and Active Subspace methods, especially when the target function possesses critical points in the interior of its input domain.
翻訳日:2021-12-03 17:28:44 公開日:2021-12-02
# グリッド電圧制御のための安全強化学習

Safe Reinforcement Learning for Grid Voltage Control ( http://arxiv.org/abs/2112.01484v1 )

ライセンス: Link先を確認
Thanh Long Vu, Sayak Mukherjee, Renke Huang, Qiuhua Huang(参考訳) 電力系統の電圧安定度を緊急時に回復するための標準的手法として電圧負荷緩和法が検討されているが、この方式は通常、大量の負荷を非効率に処理する。 強化学習(RL)は、この問題を回避するための有望なアプローチとして採用されているが、RLアプローチは通常、制御中のシステムの安全性を保証することはできない。 本稿では,緊急時の電圧を安全に回復する,制約付き最適化アプローチとバリア関数に基づくアプローチの2つの新しい安全RL手法について論じる。 この方法は一般的であり、他の安全性-クリティカルな制御問題にも適用できる。 39-bus IEEEベンチマークの数値シミュレーションを行い、提案した安全RL緊急制御の有効性を実証した。

Under voltage load shedding has been considered as a standard approach to recover the voltage stability of the electric power grid under emergency conditions, yet this scheme usually trips a massive amount of load inefficiently. Reinforcement learning (RL) has been adopted as a promising approach to circumvent the issues; however, RL approach usually cannot guarantee the safety of the systems under control. In this paper, we discuss a couple of novel safe RL approaches, namely constrained optimization approach and Barrier function-based approach, that can safely recover voltage under emergency events. This method is general and can be applied to other safety-critical control problems. Numerical simulations on the 39-bus IEEE benchmark are performed to demonstrate the effectiveness of the proposed safe RL emergency control.
翻訳日:2021-12-03 17:28:18 公開日:2021-12-02
# (参考訳) レイスペース埋め込みネットワークを用いたニューラルネットワークの学習 [全文訳有]

Learning Neural Light Fields with Ray-Space Embedding Networks ( http://arxiv.org/abs/2112.01523v1 )

ライセンス: CC BY 4.0
Benjamin Attal, Jia-Bin Huang, Michael Zollhoefer, Johannes Kopf, Changil Kim(参考訳) neural radiance fields (nerfs) は最先端のビュー合成結果を生成する。 しかしレンダリングは遅く、ボリュームレンダリングの積分を近似するために1ピクセルあたり数百のネットワーク評価が必要となる。 NeRFを明示的なデータ構造にバッキングすることで、効率的なレンダリングが可能になるが、メモリフットプリントが大幅に増加し、多くの場合、品質が低下する。 そこで本研究では,光線に沿う放射光を直接予測し,よりコンパクトなニューラル光場表現を提案する。 本手法は,小さなベースライン光フィールドデータセットに対して,1ピクセル当たりの1つのネットワーク評価によるレンダリングをサポートし,また,より大規模なベースラインにも適用可能である。 我々のアプローチの核心は、4次元のレイ空間多様体を中間の補間可能な潜在空間にマッピングするレイ空間埋め込みネットワークである。 本手法は,stanford light field datasetなどの高密度前方データセットにおいて,最先端の品質を実現する。 さらに、スペーサー入力を備えた前方のシーンでは、品質の観点からNeRFベースのアプローチと競合する結果を得ると同時に、ネットワーク評価をはるかに少なくして、より高速/品質/メモリトレードオフを提供する。

Neural radiance fields (NeRFs) produce state-of-the-art view synthesis results. However, they are slow to render, requiring hundreds of network evaluations per pixel to approximate a volume rendering integral. Baking NeRFs into explicit data structures enables efficient rendering, but results in a large increase in memory footprint and, in many cases, a quality reduction. In this paper, we propose a novel neural light field representation that, in contrast, is compact and directly predicts integrated radiance along rays. Our method supports rendering with a single network evaluation per pixel for small baseline light field datasets and can also be applied to larger baselines with only a few evaluations per pixel. At the core of our approach is a ray-space embedding network that maps the 4D ray-space manifold into an intermediate, interpolable latent space. Our method achieves state-of-the-art quality on dense forward-facing datasets such as the Stanford Light Field dataset. In addition, for forward-facing scenes with sparser inputs we achieve results that are competitive with NeRF-based approaches in terms of quality while providing a better speed/quality/memory trade-off with far fewer network evaluations.
翻訳日:2021-12-03 17:27:21 公開日:2021-12-02
# mtfnet: rgb-dサルエント物体検出のための相互変換型融合ネットワーク

MTFNet: Mutual-Transformer Fusion Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2112.01177v1 )

ライセンス: Link先を確認
Xixi Wang, Bo Jiang, Xiao Wang, Bin Luo(参考訳) RGB-D画像上の正対象検出(SOD)はコンピュータビジョンにおいて活発な問題である。 RGB-D SOD問題の主な課題は 1)RGBおよび深度画像データの粗い背景や画質の悪い特徴を抽出し,その特徴を抽出する。 2)RGBと深度画像データの相補的な情報を探る。 これらの課題に対処するために,RGB-D SODのためのMTFNet(Mutual-Transf ormer Fusion Network)を提案する。 MTFNetには$i.e.$, Focal Feature Extractor (FFE) と Mutual-Transformer Fusion (MTF) という2つの主要なモジュールが含まれている。 FFEは,CNN特徴抽出器を誘導する新たな画素レベルの焦点正規化を導入することにより,RGBおよびDepth画像のより正確なCNN特徴抽出を目指している。 mtfはrgbと深度画像のマルチモーダルな相互作用を粗いスケールと細かいスケールの両方で深く活用するように設計されている。 MTFの主な利点は、モダリティ内とモダリティ間を同時に学習することで、より直接かつ十分に異なるモダリティ間のコミュニケーションを実現することである。 6つの公開ベンチマークの総合的な実験結果から,提案したMTFNetの優位性を示す。

Salient object detection (SOD) on RGB-D images is an active problem in computer vision. The main challenges for RGB-D SOD problem are how to 1) extract the accurate features for RGB and Depth image data with clutter background or poor image quality and 2) explore the complementary information between RGB and Depth image data. To address these challenges, we propose a novel Mutual-Transformer Fusion Network (MTFNet) for RGB-D SOD. MTFNet contains two main modules, $i.e.$, Focal Feature Extractor (FFE) and Mutual-Transformer Fusion (MTF). FFE aims to extract the more accurate CNN features for RGB and Depth images by introducing a novel pixel-level focal regularization to guide CNN feature extractor. MTF is designed to deeply exploit the multi-modal interaction between RGB and Depth images on both coarse and fine scales. The main benefit of MTF is that it conducts the learning of intra-modality and inter-modality simultaneously and thus can achieve communication across different modalities more directly and sufficiently. Comprehensive experimental results on six public benchmarks demonstrate the superiority of our proposed MTFNet.
翻訳日:2021-12-03 17:06:21 公開日:2021-12-02
# NeSF:イメージ調和のためのニューラルシェーディングフィールド

NeSF: Neural Shading Field for Image Harmonization ( http://arxiv.org/abs/2112.01314v1 )

ライセンス: Link先を確認
Zhongyun Hu, Ntumba Elie Nsampi, Xue Wang and Qing Wang(参考訳) 画像調和は、背景との互換性を高めるために前景の外観を調整することを目的としている。 背景照明方向の理解が不十分なため、既存の作品では現実的な前景の陰影を生成できない。 本稿では,画像の調和を2つの部分問題に分解する。 1)背景画像と照明推定 2)フォアグラウンドオブジェクトのレンダリング。 これら2つのサブ問題を解く前に,まず,方向認識型照明ディスクリプタをニューラルネットワークフレームワークで学習し,そのキーはシェーディングフィールドを深度情報を得た複数のシェーディングコンポーネントに分解するシェーディングモジュールである。 そして,背景からの方向対応照明記述子を抽出する背景照明推定モジュールを設計する。 最後に、この照明ディスクリプタをニューラルネットワークレンダリングフレームワークと併用して、新しい調和したシェーディングを含む調和した前景画像を生成する。 さらに,画像ベース照明による多数のシェーディング変動を含むフォトリアリスティック合成画像調和データセットを構築した。 本データセットの大規模な実験により,提案手法の有効性が示された。 私たちのデータセットとコードは公開される予定だ。

Image harmonization aims at adjusting the appearance of the foreground to make it more compatible with the background. Due to a lack of understanding of the background illumination direction, existing works are incapable of generating a realistic foreground shading. In this paper, we decompose the image harmonization into two sub-problems: 1) illumination estimation of background images and 2) rendering of foreground objects. Before solving these two sub-problems, we first learn a direction-aware illumination descriptor via a neural rendering framework, of which the key is a Shading Module that decomposes the shading field into multiple shading components given depth information. Then we design a Background Illumination Estimation Module to extract the direction-aware illumination descriptor from the background. Finally, the illumination descriptor is used in conjunction with the neural rendering framework to generate the harmonized foreground image containing a novel harmonized shading. Moreover, we construct a photo-realistic synthetic image harmonization dataset that contains numerous shading variations by image-based lighting. Extensive experiments on this dataset demonstrate the effectiveness of the proposed method. Our dataset and code will be made publicly available.
翻訳日:2021-12-03 17:06:03 公開日:2021-12-02
# 深部経験的着色のためのセマンティックスパースカラー化ネットワーク

Semantic-Sparse Colorization Network for Deep Exemplar-based Colorization ( http://arxiv.org/abs/2112.01335v1 )

ライセンス: Link先を確認
Yunpeng Bai, Chao Dong, Zenghao Chai, Andong Wang, Zhengzhuo Xu, Chun Yuan(参考訳) exemplarベースのカラー化アプローチは、参照画像に依存して、ターゲットグレースケールの画像に妥当な色を提供する。 例示ベースのカラー化の鍵と難しさは、これら2つの画像間の正確な対応を確立することである。 従来のアプローチはそのような対応を構築しようとしたが、2つの障害に直面した。 第一に、対応の計算に輝度チャネルを用いることは不正確である。 第二に、彼らが構築した密接な対応は間違ったマッチング結果をもたらし、計算負荷を増加させる。 そこで本研究では,この2つの問題に対処するために,グローバル画像スタイルと詳細な意味関連色の両方をグレースケール画像に粗い細粒度で転送する意味疎化ネットワーク(sscn)を提案する。 我々のネットワークは、あいまいなマッチング問題を緩和しつつ、グローバルカラーとローカルカラーのバランスを完全にとることができる。 実験により,本手法は定量評価と定性評価の両方において既存手法よりも優れ,最先端性能を実現していることが示された。

Exemplar-based colorization approaches rely on reference image to provide plausible colors for target gray-scale image. The key and difficulty of exemplar-based colorization is to establish an accurate correspondence between these two images. Previous approaches have attempted to construct such a correspondence but are faced with two obstacles. First, using luminance channels for the calculation of correspondence is inaccurate. Second, the dense correspondence they built introduces wrong matching results and increases the computation burden. To address these two problems, we propose Semantic-Sparse Colorization Network (SSCN) to transfer both the global image style and detailed semantic-related colors to the gray-scale image in a coarse-to-fine manner. Our network can perfectly balance the global and local colors while alleviating the ambiguous matching problem. Experiments show that our method outperforms existing methods in both quantitative and qualitative evaluation and achieves state-of-the-art performance.
翻訳日:2021-12-03 17:05:46 公開日:2021-12-02
# insclr: 自己スーパービジョンによるインスタンス検索の改善

InsCLR: Improving Instance Retrieval with Self-Supervision ( http://arxiv.org/abs/2112.01390v1 )

ライセンス: Link先を確認
Zelu Deng, Yujie Zhong, Sheng Guo, Weilin Huang(参考訳) 本研究の目的は,自己スーパービジョンによるインスタンス検索を改善することである。 最近開発されたSimCLRやMoCoのような自己教師付き(SSL)学習手法を用いた微調整では,インスタンス検索の性能が向上しないことがわかった。 本研究では,既存のSSL法で適用されている自己拡張正の手法は,強靭なインスタンスレベルの表現を学習するのに十分な信号を提供しられないのに対して,学習したインスタンス検索の表現は視点や背景などにおいて大きなバリエーションに不変であることを示す。 この問題を解決するために、トレーニング中にミニバッチとメモリバンクの両方から有意義な擬陽性サンプルを動的にマイニングすることでクラス内の不変性を学習するために、textit{instance-level}コントラストに基づく新しいSSLメソッドであるInsCLRを提案する。 大規模な実験では、InsCLRは、インスタンス検索における最先端のSSLメソッドと同じような、あるいはそれ以上のパフォーマンスを実現している。 コードはhttps://github.com/z eludeng/insclrで入手できる。

This work aims at improving instance retrieval with self-supervision. We find that fine-tuning using the recently developed self-supervised (SSL) learning methods, such as SimCLR and MoCo, fails to improve the performance of instance retrieval. In this work, we identify that the learnt representations for instance retrieval should be invariant to large variations in viewpoint and background etc., whereas self-augmented positives applied by the current SSL methods can not provide strong enough signals for learning robust instance-level representations. To overcome this problem, we propose InsCLR, a new SSL method that builds on the \textit{instance-level} contrast, to learn the intra-class invariance by dynamically mining meaningful pseudo positive samples from both mini-batches and a memory bank during training. Extensive experiments demonstrate that InsCLR achieves similar or even better performance than the state-of-the-art SSL methods on instance retrieval. Code is available at https://github.com/z eludeng/insclr.
翻訳日:2021-12-03 17:05:28 公開日:2021-12-02
# TISE:テキスト・画像合成評価ツールボックス

TISE: A Toolbox for Text-to-Image Synthesis Evaluation ( http://arxiv.org/abs/2112.01398v1 )

ライセンス: Link先を確認
Tan M. Dinh, Rang Nguyen, Binh-Son Hua(参考訳) 本稿では,単一および多目的テキスト対画像合成のための最先端手法の検討を行い,それらの評価のための共通フレームワークを提案する。 まず、テキストから画像へのモデルの現在の評価における一般的な問題をいくつか挙げる。 (i)画像品質評価に一般的に用いられる指標、例えば、インセプションスコア(is)は、しばしば、単一対象の場合で誤用されるか、多目的の場合で誤用される。 (ii) 既存のR精度(RP)とSOAメトリクスにオーバーフィッティング現象が現れ、それぞれテキストの関連性およびオブジェクトの正確性を評価するのに使用される。 (iii) マルチオブジェクトケースの評価において重要な要素の多くは、主に対象の忠実性、位置の調整、アライメントの数え上げ等によって取り消される。 (4)現在の計測値に基づく手法のランク付けは,実画像と非常に矛盾する。 そして,これらの制約を克服するために,既存のメトリクスと新しいメトリクスの組み合わせを提案し,その手法を体系的に評価する。 既存のメトリクスに対して、温度スケーリングを用いてISが使用する分類器の信頼性を調整し、IS*と呼ばれるISの改良版を開発し、RPとSOAの過度な問題を軽減するソリューションを提案する。 マルチオブジェクトの場合において重要な評価因子の欠如を補う新しい指標のセットについて,位置アライメントのためのCA,位置アライメントのためのPA,オブジェクト中心IS(O-IS),オブジェクト中心FID(O-FID)を開発した。 したがって、我々のベンチマークは既存の手法の間で非常に一貫したランキングとなり、人間の評価に適合している。 また、よく知られたAttnGANからの簡単な修正により、ベンチマーク用の強力なベースラインモデル(AttnGAN++)を作成します。 テキストから画像への合成モデルの評価を標準化するために、このツールボックス、いわゆるtiseをリリースします。

In this paper, we conduct a study on state-of-the-art methods for single- and multi-object text-to-image synthesis and propose a common framework for evaluating these methods. We first identify several common issues in the current evaluation of text-to-image models, which are: (i) a commonly used metric for image quality assessment, e.g., Inception Score (IS), is often either miscalibrated for the single-object case or misused for the multi-object case; (ii) the overfitting phenomenon appears in the existing R-precision (RP) and SOA metrics, which are used to assess text relevance and object accuracy aspects, respectively; (iii) many vital factors in the evaluation of the multi-object case are primarily dismissed, e.g., object fidelity, positional alignment, counting alignment; (iv) the ranking of the methods based on current metrics is highly inconsistent with real images. Then, to overcome these limitations, we propose a combined set of existing and new metrics to systematically evaluate the methods. For existing metrics, we develop an improved version of IS named IS* by using temperature scaling to calibrate the confidence of the classifier used by IS; we also propose a solution to mitigate the overfitting issues of RP and SOA. Regarding a set of new metrics compensating for the lacking of vital evaluating factors in the multi-object case, we develop CA for counting alignment, PA for positional alignment, object-centric IS (O-IS), object-centric FID (O-FID) for object fidelity. Our benchmark, therefore, results in a highly consistent ranking among existing methods, being well-aligned to human evaluation. We also create a strong baseline model (AttnGAN++) for the benchmark by a simple modification from the well-known AttnGAN. We will release this toolbox for unified evaluation, so-called TISE, to standardize the evaluation of the text-to-image synthesis models.
翻訳日:2021-12-03 17:05:11 公開日:2021-12-02
# scnet:亀裂断層分割のための一般化注意モデル

SCNet: A Generalized Attention-based Model for Crack Fault Segmentation ( http://arxiv.org/abs/2112.01426v1 )

ライセンス: Link先を確認
Hrishikesh Sharma, Prakhar Pradhan, Balamuralidhar P(参考訳) 異常検出と局所化は、複数のアプリケーションを持つ重要な視覚問題である。 ほとんどの異常領域が本質的に明確なパターンを持っていない様々な異なる表面上の異常領域の有効かつ汎用的なセマンティクスセグメンテーションは、現在も活発に研究されている。 安全に関する重要な課題である巨大なインフラにおける定期的な健康モニタリングと障害(異常)検出は、視覚に基づく異常セグメンテーションの応用分野である。 しかし, 表面欠陥, テクスチャのない建設資材・裏地, 照明条件など多岐にわたるため, 非常に困難な作業である。 き裂は臨界かつ頻繁な表面断層であり、極端にジグザグ型の細長い領域として現れる。 深層学習においても、検出するのが最も難しい障害のひとつです。 そこで本研究では,様々なシナリオにまたがるセグメンテーション性能の一般化と改善という,自動クラックセグメンテーション問題のオープンな側面を,異なるモデル化により解決する。 我々は、関連するサブプロブレムを慎重に研究し、抽象化し、より広い文脈で解決し、ソリューションを汎用化する。 異なるインフラストラクチャの監視に関連するさまざまなデータセットについて,さまざまな条件下では,我々のモデルは,最先端のアルゴリズムを,ベル・アンド・ホイストを伴わずに,一貫してかなりのマージンで上回っています。 この性能上の優位性は、業界が提供するデータセットに対してテストされたモデルの2つのデプロイメントで容易に実現できます。 さらには、欠陥タイプがクラック等価であるだけでなく、はるかに異なる2つの製造品質検査シナリオにおいて、モデルのパフォーマンスを確立することも可能です。 したがって、私たちのモデルが本当にジェネリックな欠陥セグメンテーションモデルであることを願っています。

Anomaly detection and localization is an important vision problem, having multiple applications. Effective and generic semantic segmentation of anomalous regions on various different surfaces, where most anomalous regions inherently do not have any obvious pattern, is still under active research. Periodic health monitoring and fault (anomaly) detection in vast infrastructures, which is an important safety-related task, is one such application area of vision-based anomaly segmentation. However, the task is quite challenging due to large variations in surface faults, texture-less construction material/background, lighting conditions etc. Cracks are critical and frequent surface faults that manifest as extreme zigzag-shaped thin, elongated regions. They are among the hardest faults to detect, even with deep learning. In this work, we address an open aspect of automatic crack segmentation problem, that of generalizing and improving the performance of segmentation across a variety of scenarios, by modeling the problem differently. We carefully study and abstract the sub-problems involved and solve them in a broader context, making our solution generic. On a variety of datasets related to surveillance of different infrastructures, under varying conditions, our model consistently outperforms the state-of-the-art algorithms by a significant margin, without any bells-and-whistles. This performance advantage easily carried over in two deployments of our model, tested against industry-provided datasets. Even further, we could establish our model's performance for two manufacturing quality inspection scenarios as well, where the defect types are not just crack equivalents, but much more and different. Hence we hope that our model is indeed a truly generic defect segmentation model.
翻訳日:2021-12-03 17:02:57 公開日:2021-12-02
# アクティブ話者検出のための空間時間グラフの学習

Learning Spatial-Temporal Graphs for Active Speaker Detection ( http://arxiv.org/abs/2112.01479v1 )

ライセンス: Link先を確認
Sourya Roy, Kyle Min, Subarna Tripathi, Tanaya Guha and Somdeb Majumdar(参考訳) 音声と視覚データ間のモーダル関係を符号化するために、長距離マルチモーダルグラフを学習するSPELLと呼ばれる新しいフレームワークによるアクティブ話者検出の問題に対処する。 我々は,長期依存を認識したノード分類タスクとしてアクティブな話者検出を行った。 まず、各ノードが1人に対応するように、ビデオからグラフを構築する。 同じアイデンティティを表すノードは、定義された時間ウィンドウ内でエッジを共有する。 同じビデオフレーム内のノードも、対人インタラクションをエンコードするために接続される。 ava-activespeakerデータセットに関する広範な実験を通じて、明示的な空間的および時間的構造によるグラフベースの表現の学習が、全体的なパフォーマンスを大幅に改善することを示す。 SPELLはいくつかの関連するベースラインを上回り、計算コストを桁違いに抑えながら、最先端のモデルと同等に動作します。

We address the problem of active speaker detection through a new framework, called SPELL, that learns long-range multimodal graphs to encode the inter-modal relationship between audio and visual data. We cast active speaker detection as a node classification task that is aware of longer-term dependencies. We first construct a graph from a video so that each node corresponds to one person. Nodes representing the same identity share edges between them within a defined temporal window. Nodes within the same video frame are also connected to encode inter-person interactions. Through extensive experiments on the Ava-ActiveSpeaker dataset, we demonstrate that learning graph-based representation, owing to its explicit spatial and temporal structure, significantly improves the overall performance. SPELL outperforms several relevant baselines and performs at par with state of the art models while requiring an order of magnitude lower computation cost.
翻訳日:2021-12-03 17:02:29 公開日:2021-12-02
# 運動の次元:単一の画像から光の流れのサブスペースを予測するための学習

Dimensions of Motion: Learning to Predict a Subspace of Optical Flow from a Single Image ( http://arxiv.org/abs/2112.01502v1 )

ライセンス: Link先を確認
Richard Strong Bowen, Richard Tucker, Ramin Zabih, Noah Snavely(参考訳) 本稿では,単一映像フレームから,実際の瞬時光流を含む光流れの低次元部分空間を予測する問題を紹介する。 本稿では,不一致とオブジェクトインスタンスの表現によってパラメータ化された基底フローフィールドの集合を通して,適切なフローサブスペースを識別できる自然シーンの仮定をいくつか示す。 フロー部分空間は、新しい損失関数とともに、単分子深さの予測や深さの予測とオブジェクトインスタンスの埋め込みのタスクに使用することができる。 これは、カメラの内在やポーズを必要とせずに、単眼入力ビデオを使用して教師なしの方法でこれらのタスクを学習する新しいアプローチを提供する。

We introduce the problem of predicting, from a single video frame, a low-dimensional subspace of optical flow which includes the actual instantaneous optical flow. We show how several natural scene assumptions allow us to identify an appropriate flow subspace via a set of basis flow fields parameterized by disparity and a representation of object instances. The flow subspace, together with a novel loss function, can be used for the tasks of predicting monocular depth or predicting depth plus an object instance embedding. This provides a new approach to learning these tasks in an unsupervised fashion using monocular input video without requiring camera intrinsics or poses.
翻訳日:2021-12-03 17:02:17 公開日:2021-12-02
# OW-DETR:オープンワールド検出変換器

OW-DETR: Open-world Detection Transformer ( http://arxiv.org/abs/2112.01513v1 )

ライセンス: Link先を確認
Akshita Gupta, Sanath Narayan, K J Joseph, Salman Khan, Fahad Shahbaz Khan, Mubarak Shah(参考訳) オープンワールドオブジェクト検出(owod)は、未知のオブジェクトを同時に識別しながら既知のオブジェクトカテゴリのセットを検出するという、コンピュータビジョンの問題である。 さらに、モデルは次のトレーニングエピソードで明らかになった新しいクラスを段階的に学習する必要があります。 標準的なオブジェクト検出とは別として、OWOD設定は、潜在的に未知のオブジェクトに対する品質候補の提案を生成し、未知のオブジェクトを背景から分離し、未知のオブジェクトを検出するための重要な課題となる。 本稿では、オープンワールドオブジェクト検出のための新しいエンドツーエンドトランスフォーマーベースのフレームワークOW-DETRを紹介する。 提案するow-detrは,注意駆動擬似ラベル,ノベルティ分類,オブジェクト性スコアリングという3つの専用コンポーネントから成り,上記のowod課題を明示的に解決する。 ow-detrはマルチスケールな文脈情報を明示的にエンコードし、帰納的バイアスが少なく、既知のクラスから未知のクラスへの知識転送を可能にし、未知のオブジェクトと背景を識別する。 総合的な実験はMS-COCOとPASCAL VOCの2つのベンチマークで実施された。 広範なアブレーションの結果,提案する貢献のメリットが明らかになった。 さらに、本モデルは、最近導入されたowodアプローチであるoreを上回り、ms-cocoベンチマークにおける未知のリコールの観点から、絶対値が1.8%から3.3%に上昇した。 インクリメンタルなオブジェクト検出の場合、OW-DETRはPASCAL VOCベンチマークのすべての設定において最先端よりも優れている。 私たちのコードとモデルは公開されます。

Open-world object detection (OWOD) is a challenging computer vision problem, where the task is to detect a known set of object categories while simultaneously identifying unknown objects. Additionally, the model must incrementally learn new classes that become known in the next training episodes. Distinct from standard object detection, the OWOD setting poses significant challenges for generating quality candidate proposals on potentially unknown objects, separating the unknown objects from the background and detecting diverse unknown objects. Here, we introduce a novel end-to-end transformer-based framework, OW-DETR, for open-world object detection. The proposed OW-DETR comprises three dedicated components namely, attention-driven pseudo-labeling, novelty classification and objectness scoring to explicitly address the aforementioned OWOD challenges. Our OW-DETR explicitly encodes multi-scale contextual information, possesses less inductive bias, enables knowledge transfer from known classes to the unknown class and can better discriminate between unknown objects and background. Comprehensive experiments are performed on two benchmarks: MS-COCO and PASCAL VOC. The extensive ablations reveal the merits of our proposed contributions. Further, our model outperforms the recently introduced OWOD approach, ORE, with absolute gains ranging from 1.8% to 3.3% in terms of unknown recall on the MS-COCO benchmark. In the case of incremental object detection, OW-DETR outperforms the state-of-the-art for all settings on the PASCAL VOC benchmark. Our codes and models will be publicly released.
翻訳日:2021-12-03 17:02:05 公開日:2021-12-02
# 自己監督型ビデオトランス

Self-supervised Video Transformer ( http://arxiv.org/abs/2112.01514v1 )

ライセンス: Link先を確認
Kanchana Ranasinghe, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan, Michael Ryoo(参考訳) 本稿では,非ラベル映像データを用いたビデオトランスフォーマの自己教師あり学習を提案する。 あるビデオから、空間サイズやフレームレートの異なる局所的およびグローバルな時空間ビューを作成する。 私たちの監視対象は、アクションの時空間的変動に不変な、同じビデオを表現するこれらの異なるビューの特徴を一致させることです。 我々の知る限り、提案手法は、自己監督ビデオ変換器(SVT)における負のサンプルや専用メモリバンクへの依存を緩和する最初の方法である。 さらに,トランスフォーマーモデルの柔軟性により,動的に調整された位置エンコーディングを用いて,単一のアーキテクチャ内でスローファストビデオ処理をサポートし,時空間次元に沿った長期関係モデリングをサポートする。 提案手法は,4つの動作認識ベンチマーク(Kinetics-400, UCF-101, HMDB-51, SSv2)で良好に動作し,バッチサイズでより高速に収束する。 コード: https://git.io/j1juj

In this paper, we propose self-supervised training for video transformers using unlabelled video data. From a given video, we create local and global spatiotemporal views with varying spatial sizes and frame rates. Our self-supervised objective seeks to match the features of these different views representing the same video, to be invariant to spatiotemporal variations in actions. To the best of our knowledge, the proposed approach is the first to alleviate the dependency on negative samples or dedicated memory banks in Self-supervised Video Transformer (SVT). Further, owing to the flexibility of Transformer models, SVT supports slow-fast video processing within a single architecture using dynamically adjusted positional encodings and supports long-term relationship modeling along spatiotemporal dimensions. Our approach performs well on four action recognition benchmarks (Kinetics-400, UCF-101, HMDB-51, and SSv2) and converges faster with small batch sizes. Code: https://git.io/J1juJ
翻訳日:2021-12-03 17:01:42 公開日:2021-12-02
# 学習深度誘導サンプリングによる高能率神経放射場

Efficient Neural Radiance Fields with Learned Depth-Guided Sampling ( http://arxiv.org/abs/2112.01517v1 )

ライセンス: Link先を確認
Haotong Lin, Sida Peng, Zhen Xu, Hujun Bao, Xiaowei Zhou(参考訳) 本稿では,汎用ラミアンスフィールドのレンダリング時間を短縮することを目的とする。 最近の研究では、画像エンコーダとニューラルネットワークのラミアンスフィールドを実装し、シーンをまたいで一般化することができるため、シーン毎の最適化は避けられている。 しかし、そのレンダリングプロセスは一般的に非常に遅い。 主な要因は、放射場を推定する際に空空間の多くの点をサンプリングすることである。 本稿では,暗黙の輝度場と明示的な奥行きマップを組み合わせ,効率的なレンダリングを実現するハイブリッドシーン表現を提案する。 具体的には,シーンの粗い形状を効率的に予測するために,まずカスケードコストボリュームを構築する。 粗い幾何学により,シーン表面近傍の点数点をサンプリングし,レンダリング速度を大幅に向上させることができる。 このプロセスは完全に微分可能であり、RGB画像のみから深度予測と放射界ネットワークを共同で学習することができる。 実験の結果,提案手法はDTU, Real Forward- facing および NeRF Synthetic データセットに対して,従来の一般化可能な放射場法よりも50倍高速であることがわかった。 また,動的な演奏者の自由視点映像をリアルタイムに合成する手法の有用性を示す。 コードはhttps://zju3dv.githu b.io/enerf/で入手できる。

This paper aims to reduce the rendering time of generalizable radiance fields. Some recent works equip neural radiance fields with image encoders and are able to generalize across scenes, which avoids the per-scene optimization. However, their rendering process is generally very slow. A major factor is that they sample lots of points in empty space when inferring radiance fields. In this paper, we present a hybrid scene representation which combines the best of implicit radiance fields and explicit depth maps for efficient rendering. Specifically, we first build the cascade cost volume to efficiently predict the coarse geometry of the scene. The coarse geometry allows us to sample few points near the scene surface and significantly improves the rendering speed. This process is fully differentiable, enabling us to jointly learn the depth prediction and radiance field networks from only RGB images. Experiments show that the proposed approach exhibits state-of-the-art performance on the DTU, Real Forward-facing and NeRF Synthetic datasets, while being at least 50 times faster than previous generalizable radiance field methods. We also demonstrate the capability of our method to synthesize free-viewpoint videos of dynamic human performers in real-time. The code will be available at https://zju3dv.githu b.io/enerf/.
翻訳日:2021-12-03 17:01:24 公開日:2021-12-02
# 斬新な視点から場面を認識する

Recognizing Scenes from Novel Viewpoints ( http://arxiv.org/abs/2112.01520v1 )

ライセンス: Link先を確認
Shengyi Qian, Alexander Kirillov, Nikhila Ravi, Devendra Singh Chaplot, Justin Johnson, David F. Fouhey, Georgia Gkioxari(参考訳) 人間は、いくつかの2dビューから3dでシーンを認識できる。 AIエージェントでは、少数の画像のみを与えられた任意の視点からシーンを認識することで、シーンとそのオブジェクトと効率的に対話することができる。 本研究では,この能力で機械を授けようとする。 本稿では,新しいシーンのrgb画像をいくつか入力し,そのシーンを意味カテゴリーに分割して新たな視点から認識するモデルを提案する。 これらのビューからRGB画像にアクセスできない。 暗黙的な3D表現と2Dシーン認識を組み合わせて、カメラポーズ以外の3D監督なしに、何百ものシーンのマルチビュー2Dアノテーションから学習する。 我々はデータセットに挑戦する実験を行い、様々なレイアウト、オブジェクトタイプ、形状を持つ新しいシーンのセマンティクスと幾何を一緒にキャプチャする能力を実証する。

Humans can perceive scenes in 3D from a handful of 2D views. For AI agents, the ability to recognize a scene from any viewpoint given only a few images enables them to efficiently interact with the scene and its objects. In this work, we attempt to endow machines with this ability. We propose a model which takes as input a few RGB images of a new scene and recognizes the scene from novel viewpoints by segmenting it into semantic categories. All this without access to the RGB images from those views. We pair 2D scene recognition with an implicit 3D representation and learn from multi-view 2D annotations of hundreds of scenes without any 3D supervision beyond camera poses. We experiment on challenging datasets and demonstrate our model's ability to jointly capture semantics and geometry of novel scenes with diverse layouts, object types and shapes.
翻訳日:2021-12-03 17:01:01 公開日:2021-12-02
# Uni-Perceiver:zero-s hotタスクとFew-shotタスクのためのジェネリックパーセプションのための事前学習型統一アーキテクチャ

Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks ( http://arxiv.org/abs/2112.01522v1 )

ライセンス: Link先を確認
Xizhou Zhu, Jinguo Zhu, Hao Li, Xiaoshi Wu, Xiaogang Wang, Hongsheng Li, Xiaohua Wang, Jifeng Dai(参考訳) 動物の生物学的インテリジェンスシステムは、様々なモダリティに情報を統合し、様々なタスクを同時に処理することで世界を理解する。 対照的に、現在の機械学習研究はタスク固有のパラダイムに従い、タスク間の非効率な協調と、新しいタスクに対する知覚モデルを開発するための高い限界コストをもたらす。 本稿では,統一的なモデリングと共有パラメータを用いて様々なモダリティやタスクを処理する,uni-perceiverという汎用的な知覚アーキテクチャを提案する。 具体的には、uni-perceiverは任意のモダリティから異なるタスク入力とターゲットをモダリティ非依存トランスフォーマーエンコーダと軽量モダリティ固有のトークンライザを備えた統一表現空間に符号化する。 異なる知覚タスクは、その表現の類似性を通じて各入力の最大確率目標を見つけるという同じ定式化としてモデル化される。 このモデルは、いくつかのユニモーダルおよびマルチモーダルタスクで事前トレーニングされ、事前トレーニングステージに現れない新しいタスクを含む、さまざまな下流タスクで評価される。 その結果、チューニングなしの事前学習モデルでは、新しいタスクでも妥当なパフォーマンスが得られます。 ダウンストリームタスクデータの1%をプロンプトチューニングすることにより、パフォーマンスを最先端メソッドに近いレベルまで向上させることができる。 フルデータの微調整はさらに、最先端の結果と同等かそれ以上の結果を提供する。 コードは解放される。

Biological intelligence systems of animals perceive the world by integrating information in different modalities and processing simultaneously for various tasks. In contrast, current machine learning research follows a task-specific paradigm, leading to inefficient collaboration between tasks and high marginal costs of developing perception models for new tasks. In this paper, we present a generic perception architecture named Uni-Perceiver, which processes a variety of modalities and tasks with unified modeling and shared parameters. Specifically, Uni-Perceiver encodes different task inputs and targets from arbitrary modalities into a unified representation space with a modality-agnostic Transformer encoder and lightweight modality-specific tokenizers. Different perception tasks are modeled as the same formulation, that is, finding the maximum likelihood target for each input through the similarity of their representations. The model is pre-trained on several uni-modal and multi-modal tasks, and evaluated on a variety of downstream tasks, including novel tasks that did not appear in the pre-training stage. Results show that our pre-trained model without any tuning can achieve reasonable performance even on novel tasks. The performance can be improved to a level close to state-of-the-art methods by conducting prompt tuning on 1% of downstream task data. Full-data fine-tuning further delivers results on par with or better than state-of-the-art results. Code shall be released.
翻訳日:2021-12-03 17:00:48 公開日:2021-12-02
# 分類・検出のためのマルチスケール視覚変換器の改良

Improved Multiscale Vision Transformers for Classification and Detection ( http://arxiv.org/abs/2112.01526v1 )

ライセンス: Link先を確認
Yanghao Li, Chao-Yuan Wu, Haoqi Fan, Karttikeya Mangalam, Bo Xiong, Jitendra Malik, Christoph Feichtenhofer(参考訳) 本稿では,MViT(Multiscale Vision Transformers)を画像と映像の分類とオブジェクト検出の統一アーキテクチャとして検討する。 分割された相対的な位置埋め込みと残留プール接続を組み込んだMViTの改良版を提案する。 我々は、このアーキテクチャを5つのサイズでインスタンス化し、ImageNet分類、COCO検出およびKineeticsビデオ認識のために評価する。 さらに、MViTsのプールアテンションとウィンドウアテンション機構を比較し、後者の精度/計算性能を向上する。 MViTは3つの領域で最先端のパフォーマンスを持つ: ImageNet分類の88.8%、COCOオブジェクト検出の56.1ボックスAP、Kinetics-400ビデオ分類の86.1%。 コードとモデルは公開される予定だ。

In this paper, we study Multiscale Vision Transformers (MViT) as a unified architecture for image and video classification, as well as object detection. We present an improved version of MViT that incorporates decomposed relative positional embeddings and residual pooling connections. We instantiate this architecture in five sizes and evaluate it for ImageNet classification, COCO detection and Kinetics video recognition where it outperforms prior work. We further compare MViTs' pooling attention to window attention mechanisms where it outperforms the latter in accuracy/compute. Without bells-and-whistles, MViT has state-of-the-art performance in 3 domains: 88.8% accuracy on ImageNet classification, 56.1 box AP on COCO object detection as well as 86.1% on Kinetics-400 video classification. Code and models will be made publicly available.
翻訳日:2021-12-03 17:00:24 公開日:2021-12-02
# stylemesh:屋内3dシーン復元のためのスタイル転送

StyleMesh: Style Transfer for Indoor 3D Scene Reconstructions ( http://arxiv.org/abs/2112.01530v1 )

ライセンス: Link先を確認
Lukas H\"ollein, Justin Johnson, Matthias Nie{\ss}ner(参考訳) 屋内シーンのメッシュ再構成にスタイル転送を適用する。 これにより、お気に入りのアーティストのスタイルで描かれた3D環境を体験するといったVRアプリケーションが可能になる。 スタイル転送は通常2Dイメージで動作するため、メッシュのスタイル化は難しい。 様々なポーズに最適化されると、スタイライゼーションパターンは伸縮し、サイズが矛盾する。 一方,画像のスパース集合からのスタイリングが可能なモデルベースの3Dスタイル転送手法は存在するが,推論時にネットワークを必要とする。 この目的のために、シーンの再構成メッシュに対して明示的なテクスチャを最適化し、利用可能なすべての入力画像から協調的にスタイリングする。 奥行き・角度認識最適化は、基盤となるメッシュの表面正規データと奥行きデータを利用して、シーン全体の統一的かつ一貫したスタイライゼーションを作成する。 実験の結果,ビュー依存のアーティファクトを使わずに,全シーンのシャープで詳細な結果が得られた。 広範なアブレーション研究を通じて,提案する3次元認識により,メッシュの3次元領域にスタイルトランスファーを適用することができることを示した。 本手法は,従来のレンダリングパイプラインを用いて,スタイライズされたメッシュをリアルタイムにレンダリングするために使用できる。

We apply style transfer on mesh reconstructions of indoor scenes. This enables VR applications like experiencing 3D environments painted in the style of a favorite artist. Style transfer typically operates on 2D images, making stylization of a mesh challenging. When optimized over a variety of poses, stylization patterns become stretched out and inconsistent in size. On the other hand, model-based 3D style transfer methods exist that allow stylization from a sparse set of images, but they require a network at inference time. To this end, we optimize an explicit texture for the reconstructed mesh of a scene and stylize it jointly from all available input images. Our depth- and angle-aware optimization leverages surface normal and depth data of the underlying mesh to create a uniform and consistent stylization for the whole scene. Our experiments show that our method creates sharp and detailed results for the complete scene without view-dependent artifacts. Through extensive ablation studies, we show that the proposed 3D awareness enables style transfer to be applied to the 3D domain of a mesh. Our method can be used to render a stylized mesh in real-time with traditional rendering pipelines.
翻訳日:2021-12-03 16:59:48 公開日:2021-12-02
# 潜在空間投影と補間による反事実説明

Counterfactual Explanations via Latent Space Projection and Interpolation ( http://arxiv.org/abs/2112.00890v1 )

ライセンス: Link先を確認
Brian Barr (1), Matthew R. Harrington (2), Samuel Sharpe (1), C. Bayan Bruss (1) ((1) Center for Machine Learning, Capital One, (2) Columbia University)(参考訳) 対実的説明は、予測された分類を変更するデータサンプルへの最小限の変更を表し、通常は好ましくない初期クラスから望ましいターゲットクラスへ変更する。 counterfactualsは、“このアプリケーションがローンを受理するためには、何を変更する必要があるのか? 反事実生成に対する最近提案された多くのアプローチは、 "plausible" 反事実とそれらを生成する方法の様々な定義を与える。 しかし、これらの手法の多くは計算集約的であり、説得力のない説明を提供する。 これは、ターゲットクラスとして分類される入力の投影バージョンを作成することから開始されるバイナリ分類のメソッドである。 反事実候補は入力と射影の間の補間線上の潜在空間で生成される。 次に,本フレームワークがサンプルのコア特性を,学習表現を用いて反事実に翻訳することを示す。 さらに、SharpShooterは2つの同等の手法よりも桁違いに高速であり、リアル性の測定に優れており、タイムリーな説明を必要とする高速機械学習アプリケーションに適していることを示す。

Counterfactual explanations represent the minimal change to a data sample that alters its predicted classification, typically from an unfavorable initial class to a desired target class. Counterfactuals help answer questions such as "what needs to change for this application to get accepted for a loan?". A number of recently proposed approaches to counterfactual generation give varying definitions of "plausible" counterfactuals and methods to generate them. However, many of these methods are computationally intensive and provide unconvincing explanations. Here we introduce SharpShooter, a method for binary classification that starts by creating a projected version of the input that classifies as the target class. Counterfactual candidates are then generated in latent space on the interpolation line between the input and its projection. We then demonstrate that our framework translates core characteristics of a sample to its counterfactual through the use of learned representations. Furthermore, we show that SharpShooter is competitive across common quality metrics on tabular and image datasets while being orders of magnitude faster than two comparable methods and excels at measures of realism, making it well-suited for high velocity machine learning applications which require timely explanations.
翻訳日:2021-12-03 16:59:04 公開日:2021-12-02
# DPVI:動的重粒子に基づく変分推論フレームワーク

DPVI: A Dynamic-Weight Particle-Based Variational Inference Framework ( http://arxiv.org/abs/2112.00945v1 )

ライセンス: Link先を確認
Chao Zhang, Zhijian Li, Hui Qian, Xin Du(参考訳) 最近開発された particle-based variational inference (parvi) 法は, 粒子の位置を反復的に更新することによって, 与えられた対象分布に対して, \emph{fixed-weight} 粒子の集合を経験的分布に導く。 しかし、固定重量制限は、特に粒子数が制限された場合、経験的分布の近似能力を大幅に制限する。 本稿では,Fisher-Rao反応の流れに応じて粒子の重量を動的に調整することを提案する。 本研究では, 粒子の位置と重みを同時に進化させる新しい連続複合流れに基づき, 動的粒子に基づく変分推論(DPVI)フレームワークを開発した。 合成フローの平均場限界は、ある相似性関数 $\mathcal{F}$ の Wasserstein-Fisher-R ao 勾配流であり、既存の固定重パーVIs の基盤となる Wasserstein 勾配流よりもより早く $\mathcal{F}$ が減少することを示す。 一般のフレームワークで異なる有限粒子近似を用いることで、いくつかの効率的なDPVIアルゴリズムを導出する。 実験結果から得られたDPVIアルゴリズムは固定ウェイトアルゴリズムよりも優れていることが示された。

The recently developed Particle-based Variational Inference (ParVI) methods drive the empirical distribution of a set of \emph{fixed-weight} particles towards a given target distribution $\pi$ by iteratively updating particles' positions. However, the fixed weight restriction greatly confines the empirical distribution's approximation ability, especially when the particle number is limited. In this paper, we propose to dynamically adjust particles' weights according to a Fisher-Rao reaction flow. We develop a general Dynamic-weight Particle-based Variational Inference (DPVI) framework according to a novel continuous composite flow, which evolves the positions and weights of particles simultaneously. We show that the mean-field limit of our composite flow is actually a Wasserstein-Fisher-R ao gradient flow of certain dissimilarity functional $\mathcal{F}$, which leads to a faster decrease of $\mathcal{F}$ than the Wasserstein gradient flow underlying existing fixed-weight ParVIs. By using different finite-particle approximations in our general framework, we derive several efficient DPVI algorithms. The empirical results demonstrate the superiority of our derived DPVI algorithms over their fixed-weight counterparts.
翻訳日:2021-12-03 16:58:46 公開日:2021-12-02
# マルチラベル分類のためのコントラスト学習を用いたガウス混合変分オートエンコーダ

Gaussian Mixture Variational Autoencoder with Contrastive Learning for Multi-Label Classification ( http://arxiv.org/abs/2112.00976v1 )

ライセンス: Link先を確認
Junwen Bai, Shufeng Kong, Carla P. Gomes(参考訳) マルチラベル分類(MLC)は、各サンプルが複数のラベルを持つことができる予測タスクである。 本稿では,マルチモーダル事前空間を学習し,コントラスト損失を用いたガウス混合変分オートエンコーダ(c-gmvae)に基づく,新しいコントラスト学習促進マルチラベル予測モデルを提案する。 多くの既存の手法では、予測モジュールに加えてラベル相関を捉えるために、さらに複雑な神経モジュールを導入している。 教師付き環境でのコントラスト学習を用いることで、ラベル情報を効果的に活用し、ラベルの相関関係と予測力の両方を捉える意味のある特徴とラベル埋め込みを、余分な神経モジュールなしで学習できることがわかった。 提案手法では,特徴空間とラベル空間の両方を学習・調整するという考え方も取り入れている。 C-GMVAE は後続の崩壊と過正規化の問題を緩和するため、潜在空間上にガウス混合構造を課す。 C-GMVAEは、複数の公開データセット上の既存のメソッドよりも優れており、トレーニングデータのわずか50%で、他のモデルのフルパフォーマンスにマッチすることが多い。 さらに,学習した埋め込みがラベルとラベルの相互作用の解釈に洞察を与えることを示す。

Multi-label classification (MLC) is a prediction task where each sample can have more than one label. We propose a novel contrastive learning boosted multi-label prediction model based on a Gaussian mixture variational autoencoder (C-GMVAE), which learns a multimodal prior space and employs a contrastive loss. Many existing methods introduce extra complex neural modules to capture the label correlations, in addition to the prediction modules. We found that by using contrastive learning in the supervised setting, we can exploit label information effectively, and learn meaningful feature and label embeddings capturing both the label correlations and predictive power, without extra neural modules. Our method also adopts the idea of learning and aligning latent spaces for both features and labels. C-GMVAE imposes a Gaussian mixture structure on the latent space, to alleviate posterior collapse and over-regularization issues, in contrast to previous works based on a unimodal prior. C-GMVAE outperforms existing methods on multiple public datasets and can often match other models' full performance with only 50% of the training data. Furthermore, we show that the learnt embeddings provide insights into the interpretation of label-label interactions.
翻訳日:2021-12-03 16:56:58 公開日:2021-12-02
# ディープトランスファー学習:IoTネットワークにおけるサイバー攻撃検出システムのための新しい協調学習モデル

Deep Transfer Learning: A Novel Collaborative Learning Model for Cyberattack Detection Systems in IoT Networks ( http://arxiv.org/abs/2112.00988v1 )

ライセンス: Link先を確認
Tran Viet Khoa, Dinh Thai Hoang, Nguyen Linh Trung, Cong T. Nguyen, Tran Thi Thuy Quynh, Diep N. Nguyen, Nguyen Viet Ha and Eryk Dutkiewicz(参考訳) フェデレートラーニング(FL)は近年,特にIoT(Internet-of-Thin gs)ネットワークにおいて,サイバー攻撃検出システムにおいて有効なアプローチとなっている。 IoTゲートウェイに学習プロセスを分散することにより、FLは学習効率を改善し、通信オーバーヘッドを低減し、サイバー攻撃検出システムのプライバシを高めることができる。 このようなシステムにおけるFLの実装上の課題は、ラベル付きデータの可用性の欠如と、異なるIoTネットワークにおけるデータ機能の相違である。 本稿では,これらの課題を克服するためにトランスファーラーニング(TL)を活用した新しい協調学習フレームワークを提案する。 特に,ラベルのないデータを持つターゲットネットワークが,ラベル付きデータを豊富に有するソースネットワークから知識を効果的かつ迅速に学習できる,新たな協調学習手法を開発した。 最先端の研究では、参加するネットワークのデータセットが同じ特徴を持つ必要があるため、効率、柔軟性、侵入検知システムのスケーラビリティが制限される。 しかし,提案するフレームワークは,データセットに異なる特徴がある場合でも,ディープラーニングモデル間の学習知識を交換することで,これらの問題に対処できる。 最近の現実世界のサイバーセキュリティデータセットに関する広範な実験は、最先端のディープラーニングベースのアプローチと比較して、提案フレームワークが40%以上改善可能であることを示している。

Federated Learning (FL) has recently become an effective approach for cyberattack detection systems, especially in Internet-of-Things (IoT) networks. By distributing the learning process across IoT gateways, FL can improve learning efficiency, reduce communication overheads and enhance privacy for cyberattack detection systems. Challenges in implementation of FL in such systems include unavailability of labeled data and dissimilarity of data features in different IoT networks. In this paper, we propose a novel collaborative learning framework that leverages Transfer Learning (TL) to overcome these challenges. Particularly, we develop a novel collaborative learning approach that enables a target network with unlabeled data to effectively and quickly learn knowledge from a source network that possesses abundant labeled data. It is important that the state-of-the-art studies require the participated datasets of networks to have the same features, thus limiting the efficiency, flexibility as well as scalability of intrusion detection systems. However, our proposed framework can address these problems by exchanging the learning knowledge among various deep learning models, even when their datasets have different features. Extensive experiments on recent real-world cybersecurity datasets show that the proposed framework can improve more than 40% as compared to the state-of-the-art deep learning based approaches.
翻訳日:2021-12-03 16:56:34 公開日:2021-12-02
# 最適予測チェックリストの学習

Learning Optimal Predictive Checklists ( http://arxiv.org/abs/2112.01020v1 )

ライセンス: Link先を確認
Haoran Zhang, Quaid Morris, Berk Ustun, Marzyeh Ghassemi(参考訳) チェックリストは単純な意思決定支援であり、臨床応用における安全性と信頼性を促進するためにしばしば使用される。 本稿では,臨床判断支援のためのチェックリストを学習する手法を提案する。 予測チェックリストを2値特徴と単位重みを持つ離散線形分類器として表現する。 次に整数計画問題を解くことで,データからグローバルに最適な予測チェックリストを学習する。 本手法では,ユーザが複雑な制約に従うためにチェックリストをカスタマイズし,グループフェア性を強制する制約や,トレーニング時に実価値を二元化することができる。 さらに、モデル開発に通知し、与えられたデータセット上で十分な正確なチェックリストを学習する可能性を決定する最適なギャップをモデルと組み合わせます。 我々は,予測チェックリストの学習能力を向上し,性能が良く,最適性のギャップが小さい特殊な手法と組み合わせる。 本手法の性能を7つの臨床分類問題で評価し,ptsdスクリーニングのための短形態チェックリストを訓練することにより,その実用性を示す。 以上の結果から,提案手法はシンプルな予測チェックリストに適合し,よりリッチなカスタム制約に従うように容易にカスタマイズできることがわかった。

Checklists are simple decision aids that are often used to promote safety and reliability in clinical applications. In this paper, we present a method to learn checklists for clinical decision support. We represent predictive checklists as discrete linear classifiers with binary features and unit weights. We then learn globally optimal predictive checklists from data by solving an integer programming problem. Our method allows users to customize checklists to obey complex constraints, including constraints to enforce group fairness and to binarize real-valued features at training time. In addition, it pairs models with an optimality gap that can inform model development and determine the feasibility of learning sufficiently accurate checklists on a given dataset. We pair our method with specialized techniques that speed up its ability to train a predictive checklist that performs well and has a small optimality gap. We benchmark the performance of our method on seven clinical classification problems, and demonstrate its practical benefits by training a short-form checklist for PTSD screening. Our results show that our method can fit simple predictive checklists that perform well and that can easily be customized to obey a rich class of custom constraints.
翻訳日:2021-12-03 16:56:15 公開日:2021-12-02
# 火災と闘う: 生成バイアス変換によるバイアスフリーデータなしの対比的デバイアス

Fighting Fire with Fire: Contrastive Debiasing without Bias-free Data via Generative Bias-transformation ( http://arxiv.org/abs/2112.01021v1 )

ライセンス: Link先を確認
Yeonsung Jung, Hajin Shim, June Yong Yang, Eunho Yang(参考訳) 能力過大なネットワークで一般化する能力は目覚ましいが、ディープニューラルネットワークは、実際のタスク関連の情報を使うのではなく、データ内の散在するバイアスを悪用することを学ぶことが多い。 このようなショートカットは収集されたデータセット内でのみ有効であるため、結果として生じるバイアス付きモデルは現実世界の入力を弱め、性別差別のような意図しない社会的影響を引き起こす。 バイアスの影響に対処するため、既存の手法では、実際にはほとんど入手できない補助的な情報を利用するか、トレーニングデータにバイアスのないサンプルを盗むか、クリーンサンプルの十分な存在を期待する。 しかし、データに関するそのような推定は必ずしも保証されない。 本稿では, バイアスのないサンプルの不足など, 既存の手法が不適切な推定値によって故障する環境において, より汎用的な操作が可能なコントラスト型バイアス変換(CDvG)を提案する。 これまでに知られていた識別モデルだけでなく、生成モデルも可能な限りバイアスに注目する傾向にあるという我々の観察に動機づけられたCDvGは、タスク関連情報を保存しながらサンプル内のバイアスを別のバイアスモードに変換するために翻訳モデルを使用している。 対照的な学習を通じて、バイアス付きビューを他のビューに変換し、バイアス不変表現を学習する。 合成および実世界のデータセットに対する実験結果から、我々のフレームワークは現在の最先端よりも優れており、バイアスのないサンプルが極めて少ない場合でも、モデルがバイアスを受けるのを効果的に防いでいることが示された。

Despite their remarkable ability to generalize with over-capacity networks, deep neural networks often learn to abuse spurious biases in the data instead of using the actual task-related information. Since such shortcuts are only effective within the collected dataset, the resulting biased model underperforms on real-world inputs, or cause unintended social repercussions such as gender discrimination. To counteract the influence of bias, existing methods either exploit auxiliary information which is rarely obtainable in practice, or sift for bias-free samples in the training data, hoping for the sufficient existence of clean samples. However, such presumptions about the data are not always guaranteed. In this paper, we propose Contrastive Debiasing via Generative Bias-transformation~ (CDvG) which is capable of operating in more general environments where existing methods break down due to unmet presumptions such as insufficient bias-free samples. Motivated by our observation that not only discriminative models, as previously known, but also generative models tend to focus on the bias when possible, CDvG uses a translation model to transform the bias in the sample to another mode of bias while preserving task-relevant information. Through contrastive learning, we set transformed biased views against another, learning bias-invariant representations. Experimental results on synthetic and real-world datasets demonstrate that our framework outperforms the current state-of-the-arts, and effectively prevents the models from being biased even when bias-free samples are extremely scarce.
翻訳日:2021-12-03 16:55:57 公開日:2021-12-02
# グラフに基づく半教師付き学習のためのマルチタスク自己蒸留

Multi-task Self-distillation for Graph-based Semi-Supervised Learning ( http://arxiv.org/abs/2112.01174v1 )

ライセンス: Link先を確認
Yating Ren and Junzhong Ji and Lingfeng Niu and Minglong Lei(参考訳) グラフ畳み込みネットワークは、グラフに基づく半教師付き学習において大きな進歩を遂げた。 既存の手法では、グラフエッジで接続されたノードは類似した属性やラベルを持つ傾向があるため、局所グラフ構造によって滑らかな特徴がクラス類似性を明らかにすることができる。 しかし、多くの実世界のシナリオでは、グラフ構造とラベルの間にミスマッチが存在し、そこでは構造が最終的にモデルのパフォーマンスに影響を与える誤解を招く特徴やラベルを伝播する。 本稿では,グラフ畳み込みネットワークに自己教師あり学習と自己蒸留を注入し,構造側とラベル側とのミスマッチ問題に別々に対処できるマルチタスク自己蒸留フレームワークを提案する。 まず,前文タスクに基づく自己スーパービジョンパイプラインを定式化し,グラフの類似度の異なるレベルをキャプチャする。 特徴抽出プロセスは、プリテキストタスクとターゲットタスクを協調的に最適化することにより、より複雑な近接を捉えることを奨励する。 これにより、構造側から局所的な特徴集約が改善される。 第二に、自己蒸留はモデル自体のソフトラベルを追加監督として使用し、ラベルの平滑化と同様の効果を持つ。 分類パイプラインと自己超越パイプラインからの知識を総合的に蒸留し、ラベル側からモデルの一般化能力を向上させる。 実験の結果,提案手法はいくつかの古典的グラフ畳み込みアーキテクチャにおいて顕著な性能向上が得られることがわかった。

Graph convolutional networks have made great progress in graph-based semi-supervised learning. Existing methods mainly assume that nodes connected by graph edges are prone to have similar attributes and labels, so that the features smoothed by local graph structures can reveal the class similarities. However, there often exist mismatches between graph structures and labels in many real-world scenarios, where the structures may propagate misleading features or labels that eventually affect the model performance. In this paper, we propose a multi-task self-distillation framework that injects self-supervised learning and self-distillation into graph convolutional networks to separately address the mismatch problem from the structure side and the label side. First, we formulate a self-supervision pipeline based on pre-text tasks to capture different levels of similarities in graphs. The feature extraction process is encouraged to capture more complex proximity by jointly optimizing the pre-text task and the target task. Consequently, the local feature aggregations are improved from the structure side. Second, self-distillation uses soft labels of the model itself as additional supervision, which has similar effects as label smoothing. The knowledge from the classification pipeline and the self-supervision pipeline is collectively distilled to improve the generalization ability of the model from the label side. Experiment results show that the proposed method obtains remarkable performance gains under several classic graph convolutional architectures.
翻訳日:2021-12-03 16:55:30 公開日:2021-12-02
# 物理インフォームドニューラルネットワークを用いた部分微分方程式の階層学習

Hierarchical Learning to Solve Partial Differential Equations Using Physics-Informed Neural Networks ( http://arxiv.org/abs/2112.01254v1 )

ライセンス: Link先を確認
Jihun Han and Yoonsang Lee(参考訳) 偏微分方程式を解くニューラルネットワークベースのアプローチは、偏微分方程式の解を表すための単純さと柔軟性のために、かなりの注目を集めている。 ニューラルネットワークのトレーニングにおいて、ネットワークは低周波成分に対応するグローバル特徴を学習する傾向にあり、高周波成分はより遅い速度(f原理)で近似される。 解が幅広いスケールを含むような方程式のクラスでは、ネットワークトレーニングプロセスは、高周波成分をキャプチャできないため、収束が遅く、精度が低くなる。 本研究では,ニューラルネットワーク解の偏微分方程式への収束率と精度を改善するための階層的手法を提案する。 提案手法は、新たに導入されたニューラルネットワークを誘導し、前のレベル近似の残差を学習するマルチトレーニングレベルを含む。 ニューラルネットワークのトレーニングプロセスの性質により、高レベルの補正は高周波コンポーネントをキャプチャする傾向にある。 線形偏微分方程式と非線形偏微分方程式の組を通して,提案手法の有効性とロバスト性を検証する。

The Neural network-based approach to solving partial differential equations has attracted considerable attention due to its simplicity and flexibility to represent the solution of the partial differential equation. In training a neural network, the network tends to learn global features corresponding to low-frequency components while high-frequency components are approximated at a much slower rate (F-principle). For a class of equations in which the solution contains a wide range of scales, the network training process can suffer from slow convergence and low accuracy due to its inability to capture the high-frequency components. In this work, we propose a hierarchical approach to improve the convergence rate and accuracy of the neural network solution to partial differential equations. The proposed method comprises multi-training levels in which a newly introduced neural network is guided to learn the residual of the previous level approximation. By the nature of neural networks' training process, the high-level correction is inclined to capture the high-frequency components. We validate the efficiency and robustness of the proposed hierarchical approach through a suite of linear and nonlinear partial differential equations.
翻訳日:2021-12-03 16:55:07 公開日:2021-12-02
# 多視点クラスタリングのための定常拡散状態ニューラル推定

Stationary Diffusion State Neural Estimation for Multiview Clustering ( http://arxiv.org/abs/2112.01334v1 )

ライセンス: Link先を確認
Chenghua Liu, Zhuolin Liao, Yixuan Ma, Kun Zhan(参考訳) 多くのグラフベースのクラスタリング手法は、目的の定常拡散状態をモデル化しようとするが、その性能は予め定義されたグラフを使用することに制限される。 ニューラルネットワーク上での勾配降下により定常拡散状態の推定が可能であることを論じる。 本研究では,SDSNE(Stationary Diffusion State Neural Estimation)を設計し,多視点構造グラフ情報を利用して協調学習を行う。 本稿では,教師なしマルチビュー学習のためのグラフニューラルネットワークの設計法と,共有自己着眼モジュールによる統一コンセンサスグラフへの複数のグラフの統合について検討する。 ビュー共有自己アテンショナルモジュールは、ビュー一貫性のグローバルグラフを学習するためにグラフ構造を利用する。 一方、ほとんどの教師なし学習グラフニューラルネットワークでオートエンコーダを使用する代わりに、SDSNEは構造情報を備えた協調教師付き戦略を使用してモデル学習を監督する。 損失関数がsdsneを導いて定常状態を達成するための戦略を監督する。 損失と自己結合モジュールの助けを借りて、連結された各コンポーネントのノードが同じ重みで完全に接続するグラフを得ることを学ぶ。 複数のマルチビューデータセットの実験では、6つのクラスタリング評価指標によるSDSNEの有効性が示されている。

Although many graph-based clustering methods attempt to model the stationary diffusion state in their objectives, their performance limits to using a predefined graph. We argue that the estimation of the stationary diffusion state can be achieved by gradient descent over neural networks. We specifically design the Stationary Diffusion State Neural Estimation (SDSNE) to exploit multiview structural graph information for co-supervised learning. We explore how to design a graph neural network specially for unsupervised multiview learning and integrate multiple graphs into a unified consensus graph by a shared self-attentional module. The view-shared self-attentional module utilizes the graph structure to learn a view-consistent global graph. Meanwhile, instead of using auto-encoder in most unsupervised learning graph neural networks, SDSNE uses a co-supervised strategy with structure information to supervise the model learning. The co-supervised strategy as the loss function guides SDSNE in achieving the stationary state. With the help of the loss and the self-attentional module, we learn to obtain a graph in which nodes in each connected component fully connect by the same weight. Experiments on several multiview datasets demonstrate effectiveness of SDSNE in terms of six clustering evaluation metrics.
翻訳日:2021-12-03 16:54:51 公開日:2021-12-02
# 正規化反転による目標伝播

Target Propagation via Regularized Inversion ( http://arxiv.org/abs/2112.01453v1 )

ライセンス: Link先を確認
Vincent Roulet and Zaid Harchaoui(参考訳) Target Propagation (TP)アルゴリズムは、ニューラルネットワークに沿った勾配ではなくターゲットを計算し、勾配バックプロパゲーション(BP)と似ている方法で後方に伝播する。 このアイデアは、最初はバックプロパゲーションの摂動的な代替として提示され、多層ニューラルネットワークを訓練する際の勾配評価の精度を高めることができた(LeCun et al., 1989)。 しかし、TPはよく同定されたアルゴリズムよりも多くのバリエーションを持つテンプレートアルゴリズムのままである。 revisiting insights of lecun et al., (1989) and more recent of lee et al. (2015)では、ネットワーク層の正規化反転に基づくターゲット伝搬の単純なバージョンを紹介し、微分可能プログラミングフレームワークで容易に実装できる。 計算複雑性をBPのそれと比較し,TPがBPと比較して魅力的なレギュレーションを導出する。 我々のTPは、様々なシーケンスモデリング問題において、長いシーケンスでリカレントニューラルネットワークのトレーニングにどのように使用できるかを示す。 実験結果から,TPの正則化の重要性が示唆された。

Target Propagation (TP) algorithms compute targets instead of gradients along neural networks and propagate them backward in a way that is similar yet different than gradient back-propagation (BP). The idea was first presented as a perturbative alternative to back-propagation that may achieve greater accuracy in gradient evaluation when training multi-layer neural networks (LeCun et al., 1989). However, TP has remained more of a template algorithm with many variations than a well-identified algorithm. Revisiting insights of LeCun et al., (1989) and more recently of Lee et al. (2015), we present a simple version of target propagation based on regularized inversion of network layers, easily implementable in a differentiable programming framework. We compare its computational complexity to the one of BP and delineate the regimes in which TP can be attractive compared to BP. We show how our TP can be used to train recurrent neural networks with long sequences on various sequence modeling problems. The experimental results underscore the importance of regularization in TP in practice.
翻訳日:2021-12-03 16:53:17 公開日:2021-12-02
# 逆計画と身体運動学による連続3次元領域における人間の意図推論のモデル化

Modeling human intention inference in continuous 3D domains by inverse planning and body kinematics ( http://arxiv.org/abs/2112.00903v1 )

ライセンス: Link先を確認
Yingdong Qian, Marta Kryven, Tao Gao, Hanbyul Joo, Josh Tenenbaum(参考訳) 人間の意図を理解し、この知識を使って人と協力するAIを構築するには? 本稿では,エージェントの身体の3d座標入力として受け取られる3次元運動動作の領域において,目標推定のモデルを評価するための計算フレームワークについて述べる。 我々は,新たな目標到達タスクを用いて3つの行動実験において,人間の観察者が注意をそそる対象に到達する俳優の意図を推測する枠組みを評価する。 本稿では,ベイズ逆計画法と逆ボディーキネマティクスを用いて,この領域における人間の意図推論を予測する生成ボディーキネマティクスモデルについて述べる。 モデルと3つのヒューリスティックを比較し,逆計画を用いることなく,アクターの制約に関する単純な仮定を用いて最小努力の原理を定式化する。 より計算コストがかかるにもかかわらず、生成体キネマティクスモデルは、障害のある環境や、アクターが意図した目標から比較的離れている間にアクションに到達する開始時に、特定のシナリオにおいてヒューリスティックよりも優れる。 ヒューリスティックスは、意図された目標が近い場合など、行動の後半の段階でより正確な予測を行い、手首の軌道を外挿することで推測することができる。 本研究は,逆体運動学が意図推論に有用である文脈を同定する。 このようなシナリオでは,人間の観察者は逆体キネマティクスに依存しており,身体キネマティクスをモデル化することで推論アルゴリズムの性能を向上させることが示唆されている。

How to build AI that understands human intentions, and uses this knowledge to collaborate with people? We describe a computational framework for evaluating models of goal inference in the domain of 3D motor actions, which receives as input the 3D coordinates of an agent's body, and of possible targets, to produce a continuously updated inference of the intended target. We evaluate our framework in three behavioural experiments using a novel Target Reaching Task, in which human observers infer intentions of actors reaching for targets among distracts. We describe Generative Body Kinematics model, which predicts human intention inference in this domain using Bayesian inverse planning and inverse body kinematics. We compare our model to three heuristics, which formalize the principle of least effort using simple assumptions about the actor's constraints, without the use of inverse planning. Despite being more computationally costly, the Generative Body Kinematics model outperforms the heuristics in certain scenarios, such as environments with obstacles, and at the beginning of reaching actions while the actor is relatively far from the intended target. The heuristics make increasingly accurate predictions during later stages of reaching actions, such as, when the intended target is close, and can be inferred by extrapolating the wrist trajectory. Our results identify contexts in which inverse body kinematics is useful for intention inference. We show that human observers indeed rely on inverse body kinematics in such scenarios, suggesting that modeling body kinematic can improve performance of inference algorithms.
翻訳日:2021-12-03 16:53:00 公開日:2021-12-02
# 暗黙のフィードバックから学習するロバストな推薦者

Learning Robust Recommender from Noisy Implicit Feedback ( http://arxiv.org/abs/2112.01160v1 )

ライセンス: Link先を確認
Wenjie Wang, Fuli Feng, Xiangnan He, Liqiang Nie, Tat-Seng Chua(参考訳) 暗黙的なフィードバックの普遍性は、レコメンダシステムの構築に不可欠である。 しかし、実際にはユーザーの満足度を反映していない。 例えば、eコマースでは、クリックの大部分は購入に翻訳されず、多くの購入は否定的なレビューになる。 そのため、暗黙のフィードバックにおいて避けられないノイズを考慮することが重要である。 しかしながら、暗黙的なフィードバックの騒がしい性質を考慮して、推奨に関する作業はほとんど行われていない。 本研究では,暗黙的なフィードバックを指導や推論を含む推薦学習に用いた中心的テーマについて検討する。 通常のレコメンデータートレーニングの過程を観察した結果,ノイズフィードバックは一般的に早期に大きな損失値を持つことがわかった。 そこで本研究では,2つのパラダイム(Trncated LossとReweighted Loss)によるノイズ相互作用を適応的に引き起こすAdaptive Denoising Training(ADT)という新たなトレーニング戦略を提案する。 さらに,追加フィードバック(レーティングなど)を補助信号として,微調整,ウォームアップトレーニング,衝突推論の3つの手法を提案する。 広く使われている2進クロスエントロピー損失の2つのパラダイムをインスタンス化し、3つの代表的な推奨モデルで検証する。 3つのベンチマークによる大規模な実験により、ADTは追加のフィードバックを使わずに、通常のトレーニングよりも推奨品質を大幅に改善することが示された。 さらに、追加フィードバックを使用するための3つの戦略は、ADTの認知能力を大幅に向上させる。

The ubiquity of implicit feedback makes it indispensable for building recommender systems. However, it does not actually reflect the actual satisfaction of users. For example, in E-commerce, a large portion of clicks do not translate to purchases, and many purchases end up with negative reviews. As such, it is of importance to account for the inevitable noises in implicit feedback. However, little work on recommendation has taken the noisy nature of implicit feedback into consideration. In this work, we explore the central theme of denoising implicit feedback for recommender learning, including training and inference. By observing the process of normal recommender training, we find that noisy feedback typically has large loss values in the early stages. Inspired by this observation, we propose a new training strategy named Adaptive Denoising Training (ADT), which adaptively prunes the noisy interactions by two paradigms (i.e., Truncated Loss and Reweighted Loss). Furthermore, we consider extra feedback (e.g., rating) as auxiliary signal and propose three strategies to incorporate extra feedback into ADT: finetuning, warm-up training, and colliding inference. We instantiate the two paradigms on the widely used binary cross-entropy loss and test them on three representative recommender models. Extensive experiments on three benchmarks demonstrate that ADT significantly improves the quality of recommendation over normal training without using extra feedback. Besides, the proposed three strategies for using extra feedback largely enhance the denoising ability of ADT.
翻訳日:2021-12-03 16:52:33 公開日:2021-12-02
# ViF-SD2E:ニューラルデコードのためのロバストな弱修正手法

ViF-SD2E: A Robust Weakly-Supervised Method for Neural Decoding ( http://arxiv.org/abs/2112.01261v1 )

ライセンス: Link先を確認
Jingyi Feng, Yong Luo, Shuang Song(参考訳) 神経デコーディングは、脳と外界との相互作用において重要な役割を果たす。 本稿では,マカクの神経信号に基づいて,指の動きトラックを直接デコードする。 教師あり回帰法はノイズを含むラベルに過剰に適合し、高いラベルコストを必要とするが、教師なしのアプローチはしばしば不十分な精度を持つ。 また、時間的・時間的情報は、しばしば無視されるか、これらの作品でうまく活用されない。 これにより、ニューラルネットワークのための弱い制御手法ViF-SD2Eを提案する。 特に、ViF-SD2Eは、空間分割(SD)モジュールと探索探索(2E)戦略で構成され、外界の空間情報と神経活動の時間情報の両方を効果的に利用し、SD2E出力を弱い0/1視覚フィードバック(ViF)ラベルと比較する。 広範な実験により,監視対象の手法に匹敵する効果が示された。

Neural decoding plays a vital role in the interaction between the brain and outside world. In this paper, we directly decode the movement track of the finger based on the neural signals of a macaque. The supervised regression methods may over-fit to actual labels contained with noise and require high labeling cost, while unsupervised approaches often have unsatisfactory accuracy. Besides, the spatial and temporal information are often ignored or not well exploited in these works. This motivates us to propose a robust weakly-supervised method termed ViF-SD2E for neural decoding. In particular, ViF-SD2E consists of a space-division (SD) module and a exploration-exploita tion (2E) strategy, to effectively exploit both the spatial information of the outside world and temporal information of neural activity, where the SD2E output is compared with the weak 0/1 vision-feedback (ViF) label for training. Extensive experiments demonstrate the effectiveness of our method, which can be sometimes comparable to the supervised counterparts.
翻訳日:2021-12-03 16:52:08 公開日:2021-12-02
# 適応群協調型人工蜂コロニーアルゴリズム

Adaptive Group Collaborative Artificial Bee Colony Algorithm ( http://arxiv.org/abs/2112.01215v1 )

ライセンス: Link先を確認
Haiquan Wang, Hans-DietrichHaasis, Panpan Du, Xiaobin Xu, Menghao Su, Shengjun Wen, Wenxuan Yue, and Shanshan Zhang(参考訳) 複雑な最適化問題を解決する効果的なアルゴリズムとして、人工蜂コロニー (abc) アルゴリズムは競争的であることが示されているが、他の集団ベースのアルゴリズムと同様に、全解空間(探索と呼ばれる)におけるグローバル探索の能力と、搾取として定義される局所解空間におけるクイック探索のバランスが不十分である。 abcの性能を向上させるために、異なる段階の集団を特定のグループに分け、異なる能力を持つ異なる探索戦略をグループ内のメンバーに割り当てる適応型グループ協調abc(agabc)アルゴリズムを導入し、最適な解決策を得るメンバーまたは戦略をさらなる探索に採用する。 ベンチマーク関数を用いた実験の結果,提案手法は他のアルゴリズムよりも精度と安定性が優れていることがわかった。 さらに,提案手法は複雑なスケジューリング問題に対する最適解を生成することができることを示す。

As an effective algorithm for solving complex optimization problems, artificial bee colony (ABC) algorithm has shown to be competitive, but the same as other population-based algorithms, it is poor at balancing the abilities of global searching in the whole solution space (named as exploration) and quick searching in local solution space which is defined as exploitation. For improving the performance of ABC, an adaptive group collaborative ABC (AgABC) algorithm is introduced where the population in different phases is divided to specific groups and different search strategies with different abilities are assigned to the members in groups, and the member or strategy which obtains the best solution will be employed for further searching. Experimental results on benchmark functions show that the proposed algorithm with dynamic mechanism is superior to other algorithms in searching accuracy and stability. Furthermore, numerical experiments show that the proposed method can generate the optimal solution for the complex scheduling problem.
翻訳日:2021-12-03 16:49:49 公開日:2021-12-02
# 核圏スペクトル特徴空間の合同的特徴付け

Joint Characterization of the Cryospheric Spectral Feature Space ( http://arxiv.org/abs/2112.01416v1 )

ライセンス: Link先を確認
Christopher Small, Daniel Sousa(参考訳) 超スペクトル特徴空間は、スペクトル混合モデリングから離散的主題分類まで、多くのリモートセンシングアプリケーションで有用である。 そのような場合、特徴空間次元、幾何学、トポロジーの特徴付けは、効果的なモデル設計のためのガイダンスを提供することができる。 本研究の目的は,次元還元による特徴空間基底ベクトルの同定における2つのアプローチを比較し,対比することである。 これらのアプローチを組み合わせることで、どちらのアプローチだけでも明らかでないスペクトル特性を明らかにするジョイントキャラクタリゼーションを作成することができる。 雪氷連続体におけるAVIRIS-NG反射スペクトルの多種多様なコレクションを用いて、共同評価の有用性を示し、スペクトルから推定される物性を同定する。 主成分(PC)とt分散確率近傍埋め込み(t-SNE)を組み合わせたスペクトル特徴空間は、球面反射特性のグローバル(PC)構造と局所(t-SNE)多様体構造を表す物理的に解釈可能な次元を提供する。 共同的な特徴は、グリーンランド氷床の異なる部分の雪氷勾配と、異なる場所の氷河と海氷の両方に共通する複数の氷反射特性の連続性を明らかにする。 t-SNEの特徴空間で示されるクラスタリングは, 積雪帯内におけるスペクトル曲率の差と, ビュージオメトリに関連するBRDF効果を区別する。 pc+t-sneジョイントキャラクタリゼーションが局所多様体構造を保ちながら大域トポロジーを顕示する物理的に解釈可能なスペクトル特徴空間を生成する能力は、このキャラクタリゼーションを全ての陸地被覆のより高次元の超スペクトル特徴空間にまで拡張できることを示唆している。

Hyperspectral feature spaces are useful for many remote sensing applications ranging from spectral mixture modeling to discrete thematic classification. In such cases, characterization of the feature space dimensionality, geometry and topology can provide guidance for effective model design. The objective of this study is to compare and contrast two approaches for identifying feature space basis vectors via dimensionality reduction. These approaches can be combined to render a joint characterization that reveals spectral properties not apparent using either approach alone. We use a diverse collection of AVIRIS-NG reflectance spectra of the snow-firn-ice continuum to illustrate the utility of joint characterization and identify physical properties inferred from the spectra. Spectral feature spaces combining principal components (PCs) and t-distributed Stochastic Neighbor Embeddings (t-SNEs) provide physically interpretable dimensions representing the global (PC) structure of cryospheric reflectance properties and local (t-SNE) manifold structures revealing clustering not resolved in the global continuum. Joint characterization reveals distinct continua for snow-firn gradients on different parts of the Greenland Ice Sheet and multiple clusters of ice reflectance properties common to both glacier and sea ice in different locations. Clustering revealed in t-SNE feature spaces, and extended to the joint characterization, distinguishes differences in spectral curvature specific to location within the snow accumulation zone, and BRDF effects related to view geometry. The ability of PC+t-SNE joint characterization to produce a physically interpretable spectral feature spaces revealing global topology while preserving local manifold structures suggests that this characterization might be extended to the much higher dimensional hyperspectral feature space of all terrestrial land cover.
翻訳日:2021-12-03 16:49:32 公開日:2021-12-02
# 改良型ASRのためのエキスパートベースディープニューラルネットワークの混合

A Mixture of Expert Based Deep Neural Network for Improved ASR ( http://arxiv.org/abs/2112.01025v1 )

ライセンス: Link先を確認
Vishwanath Pratap Singh, Shakti P. Rath, Abhishek Pandey(参考訳) 本論文では,MixNetと呼ばれる音声認識(ASR)における音響モデルのための新しいディープラーニングアーキテクチャを提案する。 DNN-HMMの完全接続層やLSTM-HMMのメモリセルのような従来のレイヤに加えて、モデルではMixture of Experts (MoE)に基づく2つの追加レイヤを使用する。 入力で動作する第1moe層は予め定義された広音素クラスに基づいており、ペナルティメート層で動作する第2層は自動学習された音響クラスに基づいている。 自然言語では、異なる音響クラス間の分布の重複は避けられないため、クラス間の誤分類につながる。 ASRの精度は、従来の音響モデルのアーキテクチャを修正して、そのような重複を考慮するのにより適したものにすれば改善されると予想される。 MixNetは、これを念頭に置いて開発されている。 散乱図による解析により、MoEが真のASR精度に変換するクラス間の分離を改善することが確かめられる。 提案手法は,smbrの基準で学習した従来のモデル,dnn,lstmと比較して,13.6%,10.0%の単語誤り率を低減できることを示す大語彙asrタスクを用いて実験を行った。 Eigenらによる)電話分類のための既存手法と比較して,提案手法は大幅な改善をもたらす。

This paper presents a novel deep learning architecture for acoustic model in the context of Automatic Speech Recognition (ASR), termed as MixNet. Besides the conventional layers, such as fully connected layers in DNN-HMM and memory cells in LSTM-HMM, the model uses two additional layers based on Mixture of Experts (MoE). The first MoE layer operating at the input is based on pre-defined broad phonetic classes and the second layer operating at the penultimate layer is based on automatically learned acoustic classes. In natural speech, overlap in distribution across different acoustic classes is inevitable, which leads to inter-class mis-classification. The ASR accuracy is expected to improve if the conventional architecture of acoustic model is modified to make them more suitable to account for such overlaps. MixNet is developed keeping this in mind. Analysis conducted by means of scatter diagram verifies that MoE indeed improves the separation between classes that translates to better ASR accuracy. Experiments are conducted on a large vocabulary ASR task which show that the proposed architecture provides 13.6% and 10.0% relative reduction in word error rates compared to the conventional models, namely, DNN and LSTM respectively, trained using sMBR criteria. In comparison to an existing method developed for phone-classification (by Eigen et al), our proposed method yields a significant improvement.
翻訳日:2021-12-03 16:48:58 公開日:2021-12-02
# 自律走行経路計画におけるサリエンス・感度符号の分類について:新しいデータを用いた実験的検討

On Salience-Sensitive Sign Classification in Autonomous Vehicle Path Planning: Experimental Explorations with a Novel Dataset ( http://arxiv.org/abs/2112.00942v1 )

ライセンス: Link先を確認
Ross Greer, Jason Isa, Nachiket Deo, Akshay Rangesh, Mohan M. Trivedi(参考訳) 自動運転における安全な経路計画は、静的なシーン要素と不確実な周辺エージェントの相互作用のために複雑な作業である。 すべての静的シーン要素は情報ソースであるが、ego車両で利用可能な情報には非対称な重要性がある。 交通規制に関して,標識がエゴ車両の目標に対して明確な情報であるか否かを示すために,新しい特徴であるサインサリエンスを持つデータセットを提案する。 クロッピングサインの畳み込みネットワークを用いて, 道路タイプ, 画像座標, および計画的操作による実験的な拡張と組み合わせて, 76%の精度でサインサルエンス特性を予測し, 車両操作に関する情報と手話画像を用いた最良の改善を見出した。

Safe path planning in autonomous driving is a complex task due to the interplay of static scene elements and uncertain surrounding agents. While all static scene elements are a source of information, there is asymmetric importance to the information available to the ego vehicle. We present a dataset with a novel feature, sign salience, defined to indicate whether a sign is distinctly informative to the goals of the ego vehicle with regards to traffic regulations. Using convolutional networks on cropped signs, in tandem with experimental augmentation by road type, image coordinates, and planned maneuver, we predict the sign salience property with 76% accuracy, finding the best improvement using information on vehicle maneuver with sign images.
翻訳日:2021-12-03 16:48:35 公開日:2021-12-02
# 限られたトレーニングデータを用いた医用画像解析のための人間選択注意の活用

Leveraging Human Selective Attention for Medical Image Analysis with Limited Training Data ( http://arxiv.org/abs/2112.01034v1 )

ライセンス: Link先を確認
Yifei Huang and Xiaoxiao Li and Lijin Yang and Lin Gu and Yingying Zhu and Hirofumi Seo and Qiuming Meng and Tatsuya Harada and Yoichi Sato(参考訳) 人間の視線は、人間の注意のパターンを明らかにする、費用対効果の高い生理学的データである。 選択的注意機構は、注意の注意をそらすことで、認知システムがタスクに関連する視覚的な手がかりに集中するのに役立つ。 この能力のおかげで、人間は限られた数のトレーニングサンプルから効率的に学習することができる。 このメカニズムに着想を得て,小さなトレーニングデータを用いた医療画像解析タスクの視線利用を目指す。 提案するフレームワークには,バックボーンエンコーダと,基礎となる注意をシミュレートする選択的注意ネットワーク(san)が含まれている。 SANは、実際の人間の視線を推定することにより、医療診断タスクに関連する疑わしい領域などの情報を暗黙的に符号化する。 次に、SANからの情報をバックボーンエンコーダによって利用し、選択領域にフォーカスできるように、新しい補助注意ブロック(AAB)を設計する。 具体的には、このブロックは人間の視覚探索手順をシミュレートするためにマルチヘッドアテンション層の修正版を使用する。 SANとABは異なるバックボーンに差し込むことができ、このフレームワークはタスク固有のヘッドを備える際に複数の医療画像解析タスクに使用できる。 本手法は腫瘍の3次元分割と2次元胸部X線分類において優れた性能を示す。 また,SANの視線確率マップは,検診医によって得られた実際の視線固定マップと一致していることを示す。

The human gaze is a cost-efficient physiological data that reveals human underlying attentional patterns. The selective attention mechanism helps the cognition system focus on task-relevant visual clues by ignoring the presence of distractors. Thanks to this ability, human beings can efficiently learn from a very limited number of training samples. Inspired by this mechanism, we aim to leverage gaze for medical image analysis tasks with small training data. Our proposed framework includes a backbone encoder and a Selective Attention Network (SAN) that simulates the underlying attention. The SAN implicitly encodes information such as suspicious regions that is relevant to the medical diagnose tasks by estimating the actual human gaze. Then we design a novel Auxiliary Attention Block (AAB) to allow information from SAN to be utilized by the backbone encoder to focus on selective areas. Specifically, this block uses a modified version of a multi-head attention layer to simulate the human visual search procedure. Note that the SAN and AAB can be plugged into different backbones, and the framework can be used for multiple medical image analysis tasks when equipped with task-specific heads. Our method is demonstrated to achieve superior performance on both 3D tumor segmentation and 2D chest X-ray classification tasks. We also show that the estimated gaze probability map of the SAN is consistent with an actual gaze fixation map obtained by board-certified doctors.
翻訳日:2021-12-03 16:48:19 公開日:2021-12-02
# TCTN:時空間予測学習のための3次元畳み込み変圧器ネットワーク

TCTN: A 3D-Temporal Convolutional Transformer Network for Spatiotemporal Predictive Learning ( http://arxiv.org/abs/2112.01085v1 )

ライセンス: Link先を確認
Ziao Yang, Xiangrui Yang and Qifeng Lin(参考訳) 時空間予測学習は、歴史的フレームのシーケンスが与えられた将来のフレームを生成することである。 従来のアルゴリズムは主にリカレントニューラルネットワーク(RNN)に基づいている。 しかし、RNNは繰り返し構造が連続しているため、時間や長いバックプロパゲーションプロセスなどの計算負荷に悩まされる。 近年、トランスフォーマベースの手法もエンコーダ・デコーダやプレーンエンコーダという形で研究されているが、エンコーダ・デコーダの形式には深いネットワークが必要であり、プレーンエンコーダには短期的な依存関係が欠けている。 そこで本研究では, 時間的畳み込み層を有するトランスコーダを用いて, 短期的および長期的依存性を捉える3d-temporal convolutional transformer (tctn) というアルゴリズムを提案する。 提案アルゴリズムは,Transformerの並列機構により,RNNベースの手法に比べて,実装や訓練が容易である。 提案アルゴリズムを検証するため,移動MNISTとKTHデータセットを用いて実験を行い,TCTNが動作速度とトレーニング速度の両方で最先端(SOTA)手法より優れていることを示す。

Spatiotemporal predictive learning is to generate future frames given a sequence of historical frames. Conventional algorithms are mostly based on recurrent neural networks (RNNs). However, RNN suffers from heavy computational burden such as time and long back-propagation process due to the seriality of recurrent structure. Recently, Transformer-based methods have also been investigated in the form of encoder-decoder or plain encoder, but the encoder-decoder form requires too deep networks and the plain encoder is lack of short-term dependencies. To tackle these problems, we propose an algorithm named 3D-temporal convolutional transformer (TCTN), where a transformer-based encoder with temporal convolutional layers is employed to capture short-term and long-term dependencies. Our proposed algorithm can be easy to implement and trained much faster compared with RNN-based methods thanks to the parallel mechanism of Transformer. To validate our algorithm, we conduct experiments on the MovingMNIST and KTH dataset, and show that TCTN outperforms state-of-the-art (SOTA) methods in both performance and training speed.
翻訳日:2021-12-03 16:46:10 公開日:2021-12-02
# 学習領域を用いたビデオテキスト事前学習

Video-Text Pre-training with Learned Regions ( http://arxiv.org/abs/2112.01194v1 )

ライセンス: Link先を確認
Rui Yan, Mike Zheng Shou, Yixiao Ge, Alex Jinpeng Wang, Xudong Lin, Guanyu Cai, Jinhui Tang(参考訳) ビデオテキスト事前学習は、視覚情報とテキスト情報のセマンティクスを整合させることにより、大規模なビデオテキストペアから転送可能な表現を学習することを目的としている。 最先端のアプローチは、エンドツーエンドで生のピクセルから視覚的特徴を抽出する。 しかし、これらの手法はフレームレベルで直接動作し、ビデオ内のオブジェクトの時空間構造を見落としている。 本研究では,大規模ビデオテキストペアの事前学習において,オブジェクトの構造を考慮に入れた,ビデオテキスト表現学習のための簡易かつ効果的なモジュールを提案する。 ビデオでは,(1)視覚的特徴をセマンティッククラスタに量子化し,(2)学習可能なマスクを生成し,それらを用いて同じセマンティック領域に属する特徴を集約し,(3)異なる集約領域間の相互作用をモデル化する。 市販の物体検出器を使うのとは対照的に、提案するモジュールは明示的な監督を必要としないし、計算効率もはるかに高い。 提案手法をWebVid2MおよびCC3Mデータセット上で事前学習する。 4つのダウンストリームビデオテキスト検索ベンチマークにおける広範囲な評価結果から,本手法の有効性が明らかとなった。 コードはhttps://github.com/r uiyan1995/region_lea rnerで入手できる。

Video-Text pre-training aims at learning transferable representations from large-scale video-text pairs via aligning the semantics between visual and textual information. State-of-the-art approaches extract visual features from raw pixels in an end-to-end fashion. However, these methods operate at frame-level directly and thus overlook the spatio-temporal structure of objects in video, which yet has a strong synergy with nouns in textual descriptions. In this work, we propose a simple yet effective module for video-text representation learning, namely RegionLearner, which can take into account the structure of objects during pre-training on large-scale video-text pairs. Given a video, our module (1) first quantizes visual features into semantic clusters, then (2) generates learnable masks and uses them to aggregate the features belonging to the same semantic region, and finally (3) models the interactions between different aggregated regions. In contrast to using off-the-shelf object detectors, our proposed module does not require explicit supervision and is much more computationally efficient. We pre-train the proposed approach on the public WebVid2M and CC3M datasets. Extensive evaluations on four downstream video-text retrieval benchmarks clearly demonstrate the effectiveness of our RegionLearner. The code will be available at https://github.com/r uiyan1995/Region_Lea rner.
翻訳日:2021-12-03 16:45:50 公開日:2021-12-02
# 2つのXAI文化について:デプロイAIシステムにおける非技術的説明を事例として

On Two XAI Cultures: A Case Study of Non-technical Explanations in Deployed AI System ( http://arxiv.org/abs/2112.01016v1 )

ライセンス: Link先を確認
Helen Jiang, Erwen Senge(参考訳) 説明可能なAI(XAI)の研究は盛んに行われているが、"$\textbf{To who}$ are we make AI explainsable?"という疑問はまだ十分に注目されていない。XAIの大部分が、実際にデプロイされたAIシステムの主要なオーディエンスであり、主要な利害関係者である非AI専門家には理解できない。このギャップは、AI専門家と非専門家との"説明"として、現実的なシナリオでは極めて異なる。 そのため、このギャップは、現実のAIデプロイメントにおける期待、目標、XAIの形態の2つの異なる文化を生み出しました。 我々は,非技術者を対象としたXAI手法の開発が重要であることを主張する。 次に、aiの専門家が非技術的なai決定の説明を非技術利害関係者に提供し、高度に規制された業界での展開を成功させた実際のケーススタディを提示します。 そして、このケースから学んだ教訓を合成し、AIの専門家が非技術ステークホルダーにAIの決定を説明する際に考慮すべき提案のリストを共有します。

Explainable AI (XAI) research has been booming, but the question "$\textbf{To whom}$ are we making AI explainable?" is yet to gain sufficient attention. Not much of XAI is comprehensible to non-AI experts, who nonetheless, are the primary audience and major stakeholders of deployed AI systems in practice. The gap is glaring: what is considered "explained" to AI-experts versus non-experts are very different in practical scenarios. Hence, this gap produced two distinct cultures of expectations, goals, and forms of XAI in real-life AI deployments. We advocate that it is critical to develop XAI methods for non-technical audiences. We then present a real-life case study, where AI experts provided non-technical explanations of AI decisions to non-technical stakeholders, and completed a successful deployment in a highly regulated industry. We then synthesize lessons learned from the case, and share a list of suggestions for AI experts to consider when explaining AI decisions to non-technical stakeholders.
翻訳日:2021-12-03 16:44:38 公開日:2021-12-02
# 動的レコメンダシステムを用いた深層強化学習の逆ロバスト性

Adversarial Robustness of Deep Reinforcement Learning based Dynamic Recommender Systems ( http://arxiv.org/abs/2112.00973v1 )

ライセンス: Link先を確認
Siyu Wang, Yuanjiang Cao, Xiaocong Chen, Lina Yao, Xianzhi Wang and Quan Z. Sheng(参考訳) 敵の攻撃(例えば、入力と敵のサンプルの敵意の摂動)は、インタラクティブなレコメンデーションシステムを含む機械学習とディープラーニング技術に重大な課題をもたらす。 これらの手法の潜在埋め込み空間は、敵の攻撃を早期に検出することが困難になる。 近年の因果関係の進展は, 異なる分布から抽出された対向サンプルをトレーニングサンプルとして生成する方法の1つとして, 反事実が考えられることを示している。 本稿では,強化学習に基づく対話型レコメンデーションシステムにおいて,敵対的事例を探索し,攻撃不可知性を検出することを提案する。 まず、入力に摂動を加え、カジュアルな要因に介入することで、異なる種類の逆例を作成する。 そこで本研究では,人工データに基づく深層学習に基づく分類器を用いて,潜在的な攻撃を検出することで推薦システムを強化する。 最後に,敵対例の攻撃強度と頻度について検討し,複数の工法を用いて標準的なデータセット上でモデルを評価する。 広範な実験により,ほとんどの敵の攻撃は効果的であり,攻撃強度と攻撃頻度は攻撃性能に影響を及ぼすことが示された。 戦略的に時間的攻撃は、1/3から1/2の攻撃周波数で比較攻撃性能を達成する。 さらに,1つの工法で訓練したブラックボックス検出器は,他の工法よりも一般化能力が高い。

Adversarial attacks, e.g., adversarial perturbations of the input and adversarial samples, pose significant challenges to machine learning and deep learning techniques, including interactive recommendation systems. The latent embedding space of those techniques makes adversarial attacks difficult to detect at an early stage. Recent advance in causality shows that counterfactual can also be considered one of ways to generate the adversarial samples drawn from different distribution as the training samples. We propose to explore adversarial examples and attack agnostic detection on reinforcement learning-based interactive recommendation systems. We first craft different types of adversarial examples by adding perturbations to the input and intervening on the casual factors. Then, we augment recommendation systems by detecting potential attacks with a deep learning-based classifier based on the crafted data. Finally, we study the attack strength and frequency of adversarial examples and evaluate our model on standard datasets with multiple crafting methods. Our extensive experiments show that most adversarial attacks are effective, and both attack strength and attack frequency impact the attack performance. The strategically-timed attack achieves comparative attack performance with only 1/3 to 1/2 attack frequency. Besides, our black-box detector trained with one crafting method has the generalization ability over several other crafting methods.
翻訳日:2021-12-03 16:42:38 公開日:2021-12-02
# 脳波信号におけるアーティファクト除去のための埋め込み分解

Embedding Decomposition for Artifacts Removal in EEG Signals ( http://arxiv.org/abs/2112.00989v1 )

ライセンス: Link先を確認
Junjie Yu, Chenyi Li, Kexin Lou, Chen Wei, Quanying Liu(参考訳) 脳波(eeg)記録は、しばしば人工物で汚染される。 人工物の影響を排除または弱める様々な方法が開発されている。 しかし、そのほとんどは分析に事前の経験に依存している。 本稿では,埋め込み空間における神経信号とアーチファクトを分離し,分断信号(deepseparator)を再構成する深層学習フレームワークを提案する。 DeepSeparatorはエンコーダを使用して生の脳波の特徴を抽出し増幅し、デコンポザと呼ばれるモジュールでトレンドを抽出し、アーティファクトを検出して抑制する。 さらに、deepseparatorはアーティファクトを抽出できるため、モデル解釈性が大幅に向上する。 提案手法は半合成EEGデータセットと実タスク関連EEGデータセットを用いてテストし,EOGとEMGのアーティファクト除去においてDeepSeparatorが従来のモデルより優れていることを示唆した。 deepseparatorはマルチチャネルeegと任意の長さのデータに拡張できる。 深層学習に基づく脳波分析の今後の発展と応用を動機付けるかもしれない。 deepseparatorのコードはhttps://github.com/n cclabsustech/deepsep aratorで入手できる。

Electroencephalogram (EEG) recordings are often contaminated with artifacts. Various methods have been developed to eliminate or weaken the influence of artifacts. However, most of them rely on prior experience for analysis. Here, we propose an deep learning framework to separate neural signal and artifacts in the embedding space and reconstruct the denoised signal, which is called DeepSeparator. DeepSeparator employs an encoder to extract and amplify the features in the raw EEG, a module called decomposer to extract the trend, detect and suppress artifact and a decoder to reconstruct the denoised signal. Besides, DeepSeparator can extract the artifact, which largely increases the model interpretability. The proposed method is tested with a semi-synthetic EEG dataset and a real task-related EEG dataset, suggesting that DeepSeparator outperforms the conventional models in both EOG and EMG artifact removal. DeepSeparator can be extended to multi-channel EEG and data of any length. It may motivate future developments and application of deep learning-based EEG denoising. The code for DeepSeparator is available at https://github.com/n cclabsustech/DeepSep arator.
翻訳日:2021-12-03 16:42:19 公開日:2021-12-02
# 電力グリッドネットワークにおけるライン故障カスケードのデータ駆動相互作用解析

Data-Driven Interaction Analysis of Line Failure Cascading in Power Grid Networks ( http://arxiv.org/abs/2112.01061v1 )

ライセンス: Link先を確認
Abdorasoul Ghasemi (1,2) and Holger Kantz (2) ((1) K. N. Toosi University of Technology, Tehran, Iran, (2) Max Planck Institute for Physics of Complex Systems, Dresden, Germany)(参考訳) パワーグリッドネットワークにおける障害カスケードのラインインタラクションをモデル化するために、機械学習ツールを使用します。 まず,初期ランダム故障後の連行障害のシミュレーショントラジェクタのデータセットを収集し,システムが定常状態になるまでモデル電力ネットワーク内の実際の制約を検討する。 重み付き$l_1$-regularized logistic regression-based modelを使用して、ペアワイズおよび潜在高次ラインの障害相互作用をペアワイズ統計データを用いてキャプチャする静的および動的モデルを見つける。 静的モデルはネットワークの定常状態に近い障害の相互作用をキャプチャし、動的モデルは連続したネットワーク状態の時系列で展開する障害をキャプチャする。 ネットワークに展開する障害の独立した軌道上でモデルをテストし、その障害予測能力を評価する。 ネットワーク内の異なる線の状態間の非対称、強正、負の相互作用を観察する。 静的相互作用モデルを用いてカスケードサイズの分布を推定し、一緒に失敗する傾向にあるライン群を特定し、データと比較する。 動的相互作用モデルは、初期故障後の長寿命故障伝播軌道のネットワーク状態をうまく予測する。

We use machine learning tools to model the line interaction of failure cascading in power grid networks. We first collect data sets of simulated trajectories of possible consecutive line failure following an initial random failure and considering actual constraints in a model power network until the system settles at a steady state. We use weighted $l_1$-regularized logistic regression-based models to find static and dynamic models that capture pairwise and latent higher-order lines' failure interactions using pairwise statistical data. The static model captures the failures' interactions near the steady states of the network, and the dynamic model captures the failure unfolding in a time series of consecutive network states. We test models over independent trajectories of failure unfolding in the network to evaluate their failure predictive power. We observe asymmetric, strongly positive, and negative interactions between different lines' states in the network. We use the static interaction model to estimate the distribution of cascade size and identify groups of lines that tend to fail together, and compare against the data. The dynamic interaction model successfully predicts the network state for long-lasting failure propagation trajectories after an initial failure.
翻訳日:2021-12-03 16:42:00 公開日:2021-12-02
# 効率的なグラフ学習のためのコントラスト適応伝播グラフニューラルネットワーク

Contrastive Adaptive Propagation Graph Neural Networks for Efficient Graph Learning ( http://arxiv.org/abs/2112.01110v1 )

ライセンス: Link先を確認
Jun Hu, Shengsheng Qian, Quan Fang, Changsheng Xu(参考訳) グラフニューラルネットワーク(GNN)は,構造認識特徴の抽出と伝播によって,グラフデータ処理において大きな成功を収めている。 既存のGNN研究は、近隣情報の集約を導く様々な伝搬スキームを設計している。 近年,地域と高階の双方からなる拡張された隣人を直接扱えるように,近隣住民に焦点を絞った局所的伝播計画から拡張的伝播計画へと発展してきた。 優れた性能にもかかわらず、既存のアプローチは、局所的および高次隣人の影響を適応的に調整できる効率的で学習可能な拡張伝搬スキームを構築するには不十分である。 本稿では,パーソナライズされたページランクとアテンション技術を組み合わせることで,この問題に対処できる効率的なエンドツーエンドフレームワーク,すなわちコントラスト型適応伝播グラフニューラルネットワーク(capgnn)を提案する。 CAPGNNは、学習可能な拡張伝搬スキームを、パーソナライズされたPageRankに依存して、より優れた初期係数を提供するスパース局所親和行列の多項式でモデル化する。 局所および高次近傍の影響を適応的に調整するために,多項式の係数を調整するための係数アテンションモデルを導入する。 さらに, 自己教師付き学習技術を活用し, 負のフリーエントロピーを意識したコントラスト損失を設計し, ラベルのないデータをトレーニングに活用する。 静的な局所親和性行列と動的親和性行列を用いるCAPGCNとCAPGATの2つの異なるバージョンとしてCAPGNNを実装した。 グラフベンチマークデータセットの実験から、CAPGNNは一貫して、最先端のベースラインを達成または適合させることができることが示唆されている。 ソースコードはhttps://github.com/h ujunxianligong/CAPGN Nで公開されている。

Graph Neural Networks (GNNs) have achieved great success in processing graph data by extracting and propagating structure-aware features. Existing GNN research designs various propagation schemes to guide the aggregation of neighbor information. Recently the field has advanced from local propagation schemes that focus on local neighbors towards extended propagation schemes that can directly deal with extended neighbors consisting of both local and high-order neighbors. Despite the impressive performance, existing approaches are still insufficient to build an efficient and learnable extended propagation scheme that can adaptively adjust the influence of local and high-order neighbors. This paper proposes an efficient yet effective end-to-end framework, namely Contrastive Adaptive Propagation Graph Neural Networks (CAPGNN), to address these issues by combining Personalized PageRank and attention techniques. CAPGNN models the learnable extended propagation scheme with a polynomial of a sparse local affinity matrix, where the polynomial relies on Personalized PageRank to provide superior initial coefficients. In order to adaptively adjust the influence of both local and high-order neighbors, a coefficient-attentio n model is introduced to learn to adjust the coefficients of the polynomial. In addition, we leverage self-supervised learning techniques and design a negative-free entropy-aware contrastive loss to explicitly take advantage of unlabeled data for training. We implement CAPGNN as two different versions named CAPGCN and CAPGAT, which use static and dynamic sparse local affinity matrices, respectively. Experiments on graph benchmark datasets suggest that CAPGNN can consistently outperform or match state-of-the-art baselines. The source code is publicly available at https://github.com/h ujunxianligong/CAPGN N.
翻訳日:2021-12-03 16:41:41 公開日:2021-12-02
# 滑らかな全順序に対する凸最適化のための近似最適下限

Near-Optimal Lower Bounds For Convex Optimization For All Orders of Smoothness ( http://arxiv.org/abs/2112.01118v1 )

ライセンス: Link先を確認
Ankit Garg, Robin Kothari, Praneeth Netrapalli and Suhail Sherif(参考訳) 非常に滑らかな凸関数を最適化する複雑性について検討する。 正の整数 $p$ に対して、oracle が関数と最初の $p$ デリバティブにアクセスし、$f$ の$p$ がリプシッツであると仮定して、凸関数 $f$ の最低値 $\epsilon$-approxima te を求める。 最近、3つの独立した研究グループ (Jiang et al., PLMR 2019, Gasnikov et al., PLMR 2019, Bubeck et al., PLMR 2019) が$\tilde{O}(1/\epsilon^{\frac{2}{3p+1}})$ Oracle call for constant $p$でこの問題を解決する新しいアルゴリズムを開発した。 これは決定論的アルゴリズムの最適(対数因子まで)であることが知られているが、ランダム化アルゴリズムの既知の下限はこの境界に一致しない。 我々は、この境界(ログ係数まで)にマッチする新しい下限を証明し、ランダム化アルゴリズムだけでなく、量子アルゴリズムに対しても保持する。

We study the complexity of optimizing highly smooth convex functions. For a positive integer $p$, we want to find an $\epsilon$-approxima te minimum of a convex function $f$, given oracle access to the function and its first $p$ derivatives, assuming that the $p$th derivative of $f$ is Lipschitz. Recently, three independent research groups (Jiang et al., PLMR 2019; Gasnikov et al., PLMR 2019; Bubeck et al., PLMR 2019) developed a new algorithm that solves this problem with $\tilde{O}(1/\epsilon^{\frac{2}{3p+1}})$ oracle calls for constant $p$. This is known to be optimal (up to log factors) for deterministic algorithms, but known lower bounds for randomized algorithms do not match this bound. We prove a new lower bound that matches this bound (up to log factors), and holds not only for randomized algorithms, but also for quantum algorithms.
翻訳日:2021-12-03 16:41:10 公開日:2021-12-02
# (参考訳) 生成モデルを用いたロバスト強化学習のサンプル複雑性 [全文訳有]

Sample Complexity of Robust Reinforcement Learning with a Generative Model ( http://arxiv.org/abs/2112.01506v1 )

ライセンス: CC BY-SA 4.0
Kishan Panaganti and Dileep Kalathil(参考訳) Robust Markov Decision Process (RMDP)フレームワークは、シミュレータモデルと現実世界の設定のミスマッチによるパラメータの不確実性に対して堅牢な制御ポリシーの設計に焦点を当てている。 RMDP問題は通常、最大ミン問題として定式化され、その目的は、名目モデルの周りにある不確実性にある最悪のモデルに対する値関数を最大化するポリシーを見つけることである。 標準ロバストな動的プログラミングアプローチは、最適ロバストポリシーを計算するために名目モデルに関する知識を必要とする。 本研究では,モデルに基づく強化学習(RL)アルゴリズムを提案し,その名目モデルが不明な場合に,$\epsilon$-optimal robust policyを学習する。 我々は3つの異なる不確実性集合を考察し, 全変動距離, チ平方発散, kl発散を特徴とする。 これらの不確実性集合のそれぞれに対して、提案アルゴリズムのサンプルの複雑さを正確に評価する。 サンプルの複雑さの結果に加えて、ロバストなポリシーを使うことの利点に関する形式的な分析的な議論も提示する。 最後に,2つのベンチマーク問題に対するアルゴリズムの性能を示す。

The Robust Markov Decision Process (RMDP) framework focuses on designing control policies that are robust against the parameter uncertainties due to the mismatches between the simulator model and real-world settings. An RMDP problem is typically formulated as a max-min problem, where the objective is to find the policy that maximizes the value function for the worst possible model that lies in an uncertainty set around a nominal model. The standard robust dynamic programming approach requires the knowledge of the nominal model for computing the optimal robust policy. In this work, we propose a model-based reinforcement learning (RL) algorithm for learning an $\epsilon$-optimal robust policy when the nominal model is unknown. We consider three different forms of uncertainty sets, characterized by the total variation distance, chi-square divergence, and KL divergence. For each of these uncertainty sets, we give a precise characterization of the sample complexity of our proposed algorithm. In addition to the sample complexity results, we also present a formal analytical argument on the benefit of using robust policies. Finally, we demonstrate the performance of our algorithm on two benchmark problems.
翻訳日:2021-12-03 16:39:31 公開日:2021-12-02
# KPDrop: Absent Keyphrase生成の改善へのアプローチ

KPDrop: An Approach to Improving Absent Keyphrase Generation ( http://arxiv.org/abs/2112.01476v1 )

ライセンス: Link先を確認
Seoyeon Park, Jishnu Ray Chowdhury, Tuhin Kundu, Cornelia Caragea(参考訳) キーワード生成は、ある文書の主要なトピックを要約するフレーズ(キーワード)を生成するタスクである。 生成されたキーフレーズは、所定の文書のテキストから存在または欠落することができる。 キーフレーズの抽出は過去にも注目されてきたが、近年では欠失キーフレーズの生成に重点が置かれている。 しかし、キーフレーズの欠如は極めて困難であり、最良の方法でさえもわずかな成功の程度しか示していない。 本稿では,キーフレーズ生成の欠如を改善するために,キーフレーズドロップアウト(kpdrop)と呼ばれる手法を提案する。 文書から現在あるキーフレーズをランダムに落とし、トレーニング中に人工欠落キーフレーズに変換する。 我々はこのアプローチを広範囲にテストし,キーフレーズ生成における強力なベースラインの欠如性能を一貫して向上させることを示す。

Keyphrase generation is the task of generating phrases (keyphrases) that summarize the main topics of a given document. The generated keyphrases can be either present or absent from the text of the given document. While the extraction of present keyphrases has received much attention in the past, only recently a stronger focus has been placed on the generation of absent keyphrases. However, generating absent keyphrases is very challenging; even the best methods show only a modest degree of success. In this paper, we propose an approach, called keyphrase dropout (or KPDrop), to improve absent keyphrase generation. We randomly drop present keyphrases from the document and turn them into artificial absent keyphrases during training. We test our approach extensively and show that it consistently improves the absent performance of strong baselines in keyphrase generation.
翻訳日:2021-12-03 15:38:02 公開日:2021-12-02
# PartImageNet: 大規模で高品質なパーツデータセット

PartImageNet: A Large, High-Quality Dataset of Parts ( http://arxiv.org/abs/2112.00933v1 )

ライセンス: Link先を確認
Ju He, Shuo Yang, Shaokang Yang, Adam Kortylewski, Xiaoding Yuan, Jie-Neng Chen, Shuai Liu, Cheng Yang, Alan Yuille(参考訳) 部分的オブジェクト理解は、効率的な構成学習と知識伝達を促進し、閉塞に対する堅牢性を高め、一般認識および局所化タスクのパフォーマンスを高める可能性がある。 しかし、パートベースモデルの研究は、画像中のオブジェクト部分の注釈付けが極端に困難でコストが高いために、部分アノテーション付きデータセットが不足しているために妨げられている。 本稿では,パートセグメンテーションアノテーションを備えた大規模で高品質なデータセットであるPartImageNetを提案する。 ImageNetの158のクラスと約24,000のイメージで構成されている。 partimagenetは、既存のデータセットよりも桁違いに大きなサイズを持ちながら、非リグシッドなarticulatedオブジェクトを持つ一般的なクラスセットにパートレベルのアノテーションを提供するため、ユニークなものです。 これは、Part Discovery、Semantic Segmentation、Few-shot Learningなど、複数の視覚タスクで利用することができる。 PartImageNet上に一連のベースラインを設定するための総合的な実験を行い、複雑な変動の間、部分発見に関する既存の研究が必ずしも満足できる結果を生み出すとは限らないことを発見した。 下流タスクでの部品の活用も不十分である。 当社のPartImageNetは,パートベースモデルとそのアプリケーションの研究を大いに促進すると思います。 データセットとスクリプトは近くhttps://github.com/t acju/partimagenetでリリースされる。

A part-based object understanding facilitates efficient compositional learning and knowledge transfer, robustness to occlusion, and has the potential to increase the performance on general recognition and localization tasks. However, research on part-based models is hindered due to the lack of datasets with part annotations, which is caused by the extreme difficulty and high cost of annotating object parts in images. In this paper, we propose PartImageNet, a large, high-quality dataset with part segmentation annotations. It consists of 158 classes from ImageNet with approximately 24000 images. PartImageNet is unique because it offers part-level annotations on a general set of classes with non-rigid, articulated objects, while having an order of magnitude larger size compared to existing datasets. It can be utilized in multiple vision tasks including but not limited to: Part Discovery, Semantic Segmentation, Few-shot Learning. Comprehensive experiments are conducted to set up a set of baselines on PartImageNet and we find that existing works on part discovery can not always produce satisfactory results during complex variations. The exploit of parts on downstream tasks also remains insufficient. We believe that our PartImageNet will greatly facilitate the research on part-based models and their applications. The dataset and scripts will soon be released at https://github.com/T ACJu/PartImageNet.
翻訳日:2021-12-03 15:34:40 公開日:2021-12-02
# パッチベースマッチングにおける特徴量に基づくサブピクセルアライメントの一般化閉形式式

Generalized Closed-form Formulae for Feature-based Subpixel Alignment in Patch-based Matching ( http://arxiv.org/abs/2112.00941v1 )

ライセンス: Link先を確認
Laurent Valentin Jospin and Farid Boussaid and Hamid Laga and Mohammed Bennamoun(参考訳) コストベースのイメージパッチマッチングは、コンピュータビジョン、フォトグラメトリー、リモートセンシングにおける様々な技術の中核である。 ソースの参照パッチとターゲット画像のサブピクセル不一致が必要な場合、コスト関数またはターゲット画像のいずれかを補間する必要がある。 コストベースの補間は最も実装が容易であるが、複数の研究により、画像ベースの補間はサブピクセルマッチングの精度を高めるが、通常高価な探索手順のコストがかかることを示した。 しかし、特にステレオマッチングやオプティカルフロー計算のような非常に計算集約的なアプリケーションでは問題となる。 本稿では,一次元マッチングの場合,例えば,探索空間が一次元である正定形ステレオ画像の場合,標準のNCC,SSD,SADのコスト関数を使用する場合に,サブピクセル不均一性計算の閉形式式が存在することを示す。 そこで我々は,提案式を高次元探索空間に一般化する方法を実証する。これは不整合ステレオマッチングと光フロー抽出に必要である。 また, 従来のコスト容積補間式と, 最先端のコストベース精錬法を比較し, 提案式は, 1次元探索空間の場合の最先端のコストベース手法よりも若干改善され, 探索空間が2次元の場合の大幅な改善をもたらすことを示した。

Cost-based image patch matching is at the core of various techniques in computer vision, photogrammetry and remote sensing. When the subpixel disparity between the reference patch in the source and target images is required, either the cost function or the target image have to be interpolated. While cost-based interpolation is the easiest to implement, multiple works have shown that image based interpolation can increase the accuracy of the subpixel matching, but usually at the cost of expensive search procedures. This, however, is problematic, especially for very computation intensive applications such as stereo matching or optical flow computation. In this paper, we show that closed form formulae for subpixel disparity computation for the case of one dimensional matching, e.g., in the case of rectified stereo images where the search space is of one dimension, exists when using the standard NCC, SSD and SAD cost functions. We then demonstrate how to generalize the proposed formulae to the case of high dimensional search spaces, which is required for unrectified stereo matching and optical flow extraction. We also compare our results with traditional cost volume interpolation formulae as well as with state-of-the-art cost-based refinement methods, and show that the proposed formulae bring a small improvement over the state-of-the-art cost-based methods in the case of one dimensional search spaces, and a significant improvement when the search space is two dimensional.
翻訳日:2021-12-03 15:34:19 公開日:2021-12-02
# シーンテキスト認識のための視覚意味変換器

Visual-Semantic Transformer for Scene Text Recognition ( http://arxiv.org/abs/2112.00948v1 )

ライセンス: Link先を確認
Xin Tang and Yongquan Lai and Ying Liu and Yuanyuan Fu and Rui Fang(参考訳) 意味情報のモデル化はシーンテキスト認識に有用である。 本研究では,VST(Visual-Semantic Transformer)と協調して意味情報と視覚情報をモデル化することを提案する。 VSTは、まず、トランスフォーマーモジュールと一次視覚意味アライメントモジュールで視覚特徴マップから一次意味情報を明示的に抽出する。 意味情報は、視覚特徴マップ(シーケンスとして表示)と結合され、視覚情報と意味情報を組み合わせた疑似多領域シーケンスを形成し、その後、視覚特徴と意味特徴の間の相互作用の学習を可能にするトランスフォーマティブベースのインタラクションモジュールに供給される。 このように、視覚的特徴は意味情報によって強化され、その逆も可能である。 視覚的特徴の強化バージョンは、プライマリと重みを共有する二次的な視覚的意味アライメントモジュールによってさらにデコードされる。 最後に、デコードされた視覚特徴と拡張された意味特徴を第3変圧器モジュールで共同処理して最終テキスト予測を行う。 正規/不規則なテキスト認識データセットを含む7つの公開ベンチマークの実験は、提案したモデルの有効性を検証する。

Modeling semantic information is helpful for scene text recognition. In this work, we propose to model semantic and visual information jointly with a Visual-Semantic Transformer (VST). The VST first explicitly extracts primary semantic information from visual feature maps with a transformer module and a primary visual-semantic alignment module. The semantic information is then joined with the visual feature maps (viewed as a sequence) to form a pseudo multi-domain sequence combining visual and semantic information, which is subsequently fed into an transformer-based interaction module to enable learning of interactions between visual and semantic features. In this way, the visual features can be enhanced by the semantic information and vice versus. The enhanced version of visual features are further decoded by a secondary visual-semantic alignment module which shares weights with the primary one. Finally, the decoded visual features and the enhanced semantic features are jointly processed by the third transformer module obtaining the final text prediction. Experiments on seven public benchmarks including regular/ irregular text recognition datasets verifies the effectiveness our proposed model, reaching state of the art on four of the seven benchmarks.
翻訳日:2021-12-03 15:33:54 公開日:2021-12-02
# 時間分解能低下 : 形状整合性を利用した計算効率の向上

Temporally Resolution Decrement: Utilizing the Shape Consistency for Higher Computational Efficiency ( http://arxiv.org/abs/2112.00954v1 )

ライセンス: Link先を確認
Tianshu Xie, Xuan Cheng, Minghui Liu, Jiali Deng, Xiaomin Wang, Ming Liu(参考訳) 精度と計算コストの密接な関係を持つ画像解像度は、ネットワークトレーニングにおいて重要な役割を果たす。 本稿では,縮小画像が比較的完全な形状セマンティクスを保ちながら,広範なテクスチャ情報を失うことを観察する。 形状セマンティクスの一貫性とテクスチャ情報の柔軟性に着想を得て,時間分解デクリメントと呼ばれる新しいトレーニング戦略を提案する。 そこで、トレーニング画像をランダムに、時間領域のより小さな解像度に削減します。 縮小画像と原画像との交互な訓練の間、画像内の不安定なテクスチャ情報は、テクスチャ関連パターンと正しいラベルとの相関が弱くなり、自然に、人間の決定規則に準拠した頑健な形状特性に依存するようにモデルを強制する。 驚くべきことに、我々のアプローチは畳み込みニューラルネットワークの計算効率を大幅に改善する。 imagenetの分類では、resnet-50は33%の計算量(90%のエポックで約112ドル)で76.32%から77.71%に改善でき、63%の計算量(50%のエポックで約112 x 1112に縮小する)でresnet-50を78.18%に改善できる。

Image resolution that has close relations with accuracy and computational cost plays a pivotal role in network training. In this paper, we observe that the reduced image retains relatively complete shape semantics but loses extensive texture information. Inspired by the consistency of the shape semantics as well as the fragility of the texture information, we propose a novel training strategy named Temporally Resolution Decrement. Wherein, we randomly reduce the training images to a smaller resolution in the time domain. During the alternate training with the reduced images and the original images, the unstable texture information in the images results in a weaker correlation between the texture-related patterns and the correct label, naturally enforcing the model to rely more on shape properties that are robust and conform to the human decision rule. Surprisingly, our approach greatly improves the computational efficiency of convolutional neural networks. On ImageNet classification, using only 33% calculation quantity (randomly reducing the training image to 112$\times$112 within 90% epochs) can still improve ResNet-50 from 76.32% to 77.71%, and using 63% calculation quantity (randomly reducing the training image to 112 x 112 within 50% epochs) can improve ResNet-50 to 78.18%.
翻訳日:2021-12-03 15:33:34 公開日:2021-12-02
# SwinTrack: トランスフォーマートラッキングのためのシンプルで強力なベースライン

SwinTrack: A Simple and Strong Baseline for Transformer Tracking ( http://arxiv.org/abs/2112.00995v1 )

ライセンス: Link先を確認
Liting Lin, Heng Fan, Yong Xu, Haibin Ling(参考訳) Transformerは最近、視覚追跡アルゴリズムの改善の可能性を明らかにしている。 それでも、既存のトランスフォーマーベースのトラッカーは主にTransformerを使用して、畳み込みニューラルネットワーク(CNN)によって生成された機能を融合し、拡張している。 そこで本研究では,完全注意に基づく変圧器追跡アルゴリズム swin-transformer tracker (swintrack)を提案する。 SwinTrackは、機能抽出と機能融合の両方にTransformerを使用し、ターゲットオブジェクトと検索領域の間の完全なインタラクションを可能にする。 性能向上のために,機能融合,位置符号化,トレーニング損失に関する総合的な戦略を検討した。 これらの取り組みにより、swaintrackはシンプルで確固たるベースラインとなる。 我々の徹底的な実験で、SwinTrackはLaSOT上で0.717 SUCで新しい記録を樹立し、45 FPSで走りながらSTARKを4.6 %上回った。 さらに、LaSOT$_{ext}$, TrackingNet, GOT-10kで0.483 SUC, 0.832 SUC, 0.694 AOの最先端パフォーマンスを実現している。 私たちの実装とトレーニングされたモデルはhttps://github.com/L itingLin/SwinTrack.c omで利用可能です。

Transformer has recently demonstrated clear potential in improving visual tracking algorithms. Nevertheless, existing transformer-based trackers mostly use Transformer to fuse and enhance the features generated by convolutional neural networks (CNNs). By contrast, in this paper, we propose a fully attentional-based Transformer tracking algorithm, Swin-Transformer Tracker (SwinTrack). SwinTrack uses Transformer for both feature extraction and feature fusion, allowing full interactions between the target object and the search region for tracking. To further improve performance, we investigate comprehensively different strategies for feature fusion, position encoding, and training loss. All these efforts make SwinTrack a simple yet solid baseline. In our thorough experiments, SwinTrack sets a new record with 0.717 SUC on LaSOT, surpassing STARK by 4.6\% while still running at 45 FPS. Besides, it achieves state-of-the-art performances with 0.483 SUC, 0.832 SUC and 0.694 AO on other challenging LaSOT$_{ext}$, TrackingNet, and GOT-10k. Our implementation and trained models are available at https://github.com/L itingLin/SwinTrack.
翻訳日:2021-12-03 15:33:07 公開日:2021-12-02
# 深部ステレオマッチングネットワークにおける局所類似パターンとコスト自己再構成

Local Similarity Pattern and Cost Self-Reassembling for Deep Stereo Matching Networks ( http://arxiv.org/abs/2112.01011v1 )

ライセンス: Link先を確認
Biyang Liu, Huimin Yu, Yangqi Long(参考訳) 畳み込みニューラルネットワークに基づくステレオマッチングアーキテクチャは素晴らしい成果を上げているが、まだいくつかの制限がある。 1)進化的特徴 (CF) は出現情報を捉える傾向があり, 正確なマッチングには不十分である。 2) 静的フィルタにより, 電流畳み込みに基づく不均質化モジュールはしばしば過度に滑らかな結果をもたらす。 本稿では,これらの問題に対処するための2つのスキームについて述べる。 まず,LSP(Local similarity Pattern)と呼ばれる,深層ステレオマッチングネットワークのためのペア機能を提案する。 隣接する関係を明確に明らかにすることで、LSPはリッチな構造情報を含み、CFをより識別的な特徴記述に役立てることができる。 第2に,動的自己組み換え改良戦略を設計し,コスト分布と分散マップにそれぞれ適用する。 前者は平滑な問題を緩和するために一様分布制約を備えることができ、後者はより実用的なものである。 提案手法の有効性は,gwcnetとganet-deepの2つの基本アーキテクチャに組み込むことにより実証された。 SceneFlow と KITTI のベンチマークによる実験結果から,我々のモジュールはモデルの性能を大幅に向上することがわかった。

Although convolution neural network based stereo matching architectures have made impressive achievements, there are still some limitations: 1) Convolutional Feature (CF) tends to capture appearance information, which is inadequate for accurate matching. 2) Due to the static filters, current convolution based disparity refinement modules often produce over-smooth results. In this paper, we present two schemes to address these issues, where some traditional wisdoms are integrated. Firstly, we introduce a pairwise feature for deep stereo matching networks, named LSP (Local Similarity Pattern). Through explicitly revealing the neighbor relationships, LSP contains rich structural information, which can be leveraged to aid CF for more discriminative feature description. Secondly, we design a dynamic self-reassembling refinement strategy and apply it to the cost distribution and the disparity map respectively. The former could be equipped with the unimodal distribution constraint to alleviate the over-smoothing problem, and the latter is more practical. The effectiveness of the proposed methods is demonstrated via incorporating them into two well-known basic architectures, GwcNet and GANet-deep. Experimental results on the SceneFlow and KITTI benchmarks show that our modules significantly improve the performance of the model.
翻訳日:2021-12-03 15:32:45 公開日:2021-12-02
# TransMEF: 自己監督型マルチタスク学習を用いたトランスフォーマーに基づくマルチ露光画像融合フレームワーク

TransMEF: A Transformer-Based Multi-Exposure Image Fusion Framework using Self-Supervised Multi-Task Learning ( http://arxiv.org/abs/2112.01030v1 )

ライセンス: Link先を確認
Linhao Qu, Shaolei Liu, Manning Wang, Zhijian Song(参考訳) 本稿では,自己教師付きマルチタスク学習を用いたトランスフォーマティブベースのマルチエクスポージャー画像融合フレームワークであるtransmefを提案する。 このフレームワークはエンコーダ・デコーダネットワークに基づいており、大きな自然画像データセットでトレーニングでき、地上の真理融合画像を必要としない。 本研究では,マルチタスク学習を用いて,マルチエクスプロイア画像の特性に応じた3つの自己教師あり再構築タスクを設計,同時に実行し,ネットワークがマルチエクスプロイア画像の特性を学習し,より汎用的な特徴を抽出する。 さらに、CNNアーキテクチャにおける長距離依存性の確立の欠陥を補うために、CNNモジュールとトランスフォーマーモジュールを組み合わせたエンコーダを設計する。 この組み合わせにより、ネットワークはローカル情報とグローバル情報の両方に集中することができる。 提案手法を,最新のマルチ露画像融合ベンチマークデータセットを用いて評価し,従来型およびディープラーニングベースの11種類の手法と比較し,主観評価と客観的評価の両面で最高の性能を得た。

In this paper, we propose TransMEF, a transformer-based multi-exposure image fusion framework that uses self-supervised multi-task learning. The framework is based on an encoder-decoder network, which can be trained on large natural image datasets and does not require ground truth fusion images. We design three self-supervised reconstruction tasks according to the characteristics of multi-exposure images and conduct these tasks simultaneously using multi-task learning; through this process, the network can learn the characteristics of multi-exposure images and extract more generalized features. In addition, to compensate for the defect in establishing long-range dependencies in CNN-based architectures, we design an encoder that combines a CNN module with a transformer module. This combination enables the network to focus on both local and global information. We evaluated our method and compared it to 11 competitive traditional and deep learning-based methods on the latest released multi-exposure image fusion benchmark dataset, and our method achieved the best performance in both subjective and objective evaluations.
翻訳日:2021-12-03 15:32:23 公開日:2021-12-02
# TBN-ViT:ビデオシーン解析のための視覚変換器付きテンポラルバイラテラルネットワーク

TBN-ViT: Temporal Bilateral Network with Vision Transformer for Video Scene Parsing ( http://arxiv.org/abs/2112.01033v1 )

ライセンス: Link先を確認
Bo Yan, Leilei Cao, Hongbin Wang(参考訳) 様々なシナリオの動画シーン解析は、特に自動走行技術の急速な開発において、挑戦的で非常に重要な課題である。 データセットのビデオシーン解析 in the wild(vspw)には、長時性、密集したアノテーション、高解像度のクリップが含まれている。 VSPWに基づいて視覚変換器を用いた時間的バイラテラルネットワークを設計する。 まず,空間情報を保存できる低レベル特徴を生成する畳み込みを伴う空間経路を設計する。 一方、視覚トランスフォーマを備えたコンテキストパスを用いて十分なコンテキスト情報を得る。 さらに、フレーム間コンテキスト情報を活用するためのテンポラリコンテキストモジュールも設計されている。 最後に,提案手法は, VSPW2021 Challengeテストデータセットに対して, 49.85\%の結合(mIoU)の平均交叉を達成できる。

Video scene parsing in the wild with diverse scenarios is a challenging and great significance task, especially with the rapid development of automatic driving technique. The dataset Video Scene Parsing in the Wild(VSPW) contains well-trimmed long-temporal, dense annotation and high resolution clips. Based on VSPW, we design a Temporal Bilateral Network with Vision Transformer. We first design a spatial path with convolutions to generate low level features which can preserve the spatial information. Meanwhile, a context path with vision transformer is employed to obtain sufficient context information. Furthermore, a temporal context module is designed to harness the inter-frames contextual information. Finally, the proposed method can achieve the mean intersection over union(mIoU) of 49.85\% for the VSPW2021 Challenge test dataset.
翻訳日:2021-12-03 15:32:06 公開日:2021-12-02
# GANSeg:教師なし階層画像生成によるセグメント学習

GANSeg: Learning to Segment by Unsupervised Hierarchical Image Generation ( http://arxiv.org/abs/2112.01036v1 )

ライセンス: Link先を確認
Xingzhe He, Bastian Wandt, Helge Rhodin(参考訳) 画像をその部分に分割することは、画像編集などのハイレベルなビジョンタスクの事前処理を頻繁に行う。 しかし、指導訓練用のマスクは高価である。 弱い教師と教師なしの手法は存在するが、それらはマルチビュー、ビデオのフレーム、単一の画像の画像変換などの対の比較に依存するため、適用性が制限される。 そこで本稿では,遅延マスクに条件付き画像を生成するGANベースのアプローチを提案する。 このようなマスク条件の画像生成は、部品の位置を明確に定義した潜在キーポイントに階層的にマスクを条件付ける際に、忠実に学習できることを示す。 マスクやポイントの監督を必要とせずに、この戦略は視点や物体の位置の変化に対する堅牢性を高める。 また、セグメンテーションネットワークをトレーニングするためのイメージマスクペアを生成することもでき、確立されたベンチマークで最先端の教師なしセグメンテーションメソッドよりも優れています。

Segmenting an image into its parts is a frequent preprocess for high-level vision tasks such as image editing. However, annotating masks for supervised training is expensive. Weakly-supervised and unsupervised methods exist, but they depend on the comparison of pairs of images, such as from multi-views, frames of videos, and image transformations of single images, which limits their applicability. To address this, we propose a GAN-based approach that generates images conditioned on latent masks, thereby alleviating full or weak annotations required in previous approaches. We show that such mask-conditioned image generation can be learned faithfully when conditioning the masks in a hierarchical manner on latent keypoints that define the position of parts explicitly. Without requiring supervision of masks or points, this strategy increases robustness to viewpoint and object positions changes. It also lets us generate image-mask pairs for training a segmentation network, which outperforms the state-of-the-art unsupervised segmentation methods on established benchmarks.
翻訳日:2021-12-03 15:31:55 公開日:2021-12-02
# 時空間的注意の積み重ね:識別クリップ強調による一人称行動認識の改善

Stacked Temporal Attention: Improving First-person Action Recognition by Emphasizing Discriminative Clips ( http://arxiv.org/abs/2112.01038v1 )

ライセンス: Link先を確認
Lijin Yang, Yifei Huang, Yusuke Sugano, Yoichi Sato(参考訳) 一人称行動認識はビデオ理解において難しい課題である。 強いエゴモーションと視野の限られたため、一人称ビデオの背景やノイズの多いフレームは、学習プロセス中にアクション認識モデルを邪魔する可能性がある。 より識別的な特徴をエンコードするために、モデルはアクション認識のためにビデオの最重要部分に焦点を当てる能力を持つ必要がある。 従来の研究は、時間的注意を払ってこの問題に対処しようとしたが、ビデオ全体のグローバルな文脈を考えることができず、これは比較的重要な部分を決定するのに重要である。 本稿では,クリップ全体の知識に基づいて時間的注意度を計算し,最も識別的な特徴を強調する,単純かつ効果的なスタック型時間的注意度モジュール(stam)を提案する。 我々は複数のセルフアテンション層を積み重ねることでこれを達成する。 実験的に非効率であることが証明されたナイーブ・スタッキングの代わりに、各自己注意層への入力を慎重に設計し、時間的注意重みを生成する際に、ビデオの局所的・グローバル的文脈の両方を考慮する。 実験により、提案したSTAMは既存のバックボーン上に構築でき、様々なデータセットのパフォーマンスを向上できることが示された。

First-person action recognition is a challenging task in video understanding. Because of strong ego-motion and a limited field of view, many backgrounds or noisy frames in a first-person video can distract an action recognition model during its learning process. To encode more discriminative features, the model needs to have the ability to focus on the most relevant part of the video for action recognition. Previous works explored to address this problem by applying temporal attention but failed to consider the global context of the full video, which is critical for determining the relatively significant parts. In this work, we propose a simple yet effective Stacked Temporal Attention Module (STAM) to compute temporal attention based on the global knowledge across clips for emphasizing the most discriminative features. We achieve this by stacking multiple self-attention layers. Instead of naive stacking, which is experimentally proven to be ineffective, we carefully design the input to each self-attention layer so that both the local and global context of the video is considered during generating the temporal attention weights. Experiments demonstrate that our proposed STAM can be built on top of most existing backbones and boost the performance in various datasets.
翻訳日:2021-12-03 15:31:17 公開日:2021-12-02
# 人物再同定のための強力なベースライン

Stronger Baseline for Person Re-Identification ( http://arxiv.org/abs/2112.01059v1 )

ライセンス: Link先を確認
Fengliang Qi, Bo Yan, Leilei Cao and Hongbin Wang(参考訳) 人物再識別(re-ID)は、重複しない撮影カメラ間で同じ人物を識別することを目的としており、視覚監視アプリケーションやコンピュータビジョン研究領域において重要な役割を果たしている。 非ラベルデータの同一性に注釈を付けることによる人物再識別には,ロバストな外観ベース表現抽出器を限定的な収集訓練データに適合させることが重要である。 そこで本研究では,現在普及している手法であるStrong Baselineの強化版であるStronger Baseline for person re-IDを提案する。 また、Stronger Baselineの助けを借りて、ImageNetベースの事前学習パラメータ初期化と追加補足データセットの補助なしに、2021年のVIPriors再識別チャレンジで3位(mAP0.94 in mAP)を得た。

Person re-identification (re-ID) aims to identify the same person of interest across non-overlapping capturing cameras, which plays an important role in visual surveillance applications and computer vision research areas. Fitting a robust appearance-based representation extractor with limited collected training data is crucial for person re-ID due to the high expanse of annotating the identity of unlabeled data. In this work, we propose a Stronger Baseline for person re-ID, an enhancement version of the current prevailing method, namely, Strong Baseline, with tiny modifications but a faster convergence rate and higher recognition performance. With the aid of Stronger Baseline, we obtained the third place (i.e., 0.94 in mAP) in 2021 VIPriors Re-identification Challenge without the auxiliary of ImageNet-based pre-trained parameter initialization and any extra supplemental dataset.
翻訳日:2021-12-03 15:30:56 公開日:2021-12-02
# ICCV2021 VIPriors Instance Segmentation Challengeの第2位

The Second Place Solution for ICCV2021 VIPriors Instance Segmentation Challenge ( http://arxiv.org/abs/2112.01072v1 )

ライセンス: Link先を確認
Bo Yan, Fengliang Qi, Leilei Cao and Hongbin Wang(参考訳) データ効率の良いコンピュータビジョンの課題に対するヴィジュアルインダクティブ・プリミティブ(vipriors)は、データ不足の環境でモデルをスクラッチからトレーニングすることを要求する。 本稿では,ICCV2021 VIPriorsインスタンスセグメンテーションチャレンジの技術的詳細を紹介する。 まず,データ不足問題を改善するための効果的なデータ拡張手法を考案した。 第2に,適切なモデルを選択するための実験を行い,この課題に対していくつかの改善を行った。 第3に,性能向上のための効果的なトレーニング戦略を提案する。 実験結果から,本手法はテストセット上での競合結果が得られることが示された。 競争ルールでは、外部画像やビデオデータや事前訓練された重みは使用しない。 上記実装の詳細は、第2条及び第3節に記載する。 最後に、ICCV2021 VIPriorsインスタンスセグメンテーションの試験セットで40.2\%AP@0.50:0.95を達成する。

The Visual Inductive Priors(VIPriors) for Data-Efficient Computer Vision challenges ask competitors to train models from scratch in a data-deficient setting. In this paper, we introduce the technical details of our submission to the ICCV2021 VIPriors instance segmentation challenge. Firstly, we designed an effective data augmentation method to improve the problem of data-deficient. Secondly, we conducted some experiments to select a proper model and made some improvements for this task. Thirdly, we proposed an effective training strategy which can improve the performance. Experimental results demonstrate that our approach can achieve a competitive result on the test set. According to the competition rules, we do not use any external image or video data and pre-trained weights. The implementation details above are described in section 2 and section 3. Finally, our approach can achieve 40.2\%AP@0.50:0.95 on the test set of ICCV2021 VIPriors instance segmentation challenge.
翻訳日:2021-12-03 15:30:41 公開日:2021-12-02
# ハイブリッドテレプレゼンスシステムにおける注意に基づく咬合除去

Attention based Occlusion Removal for Hybrid Telepresence Systems ( http://arxiv.org/abs/2112.01098v1 )

ライセンス: Link先を確認
Surabhi Gupta, Ashwath Shetty, Avinash Sharma(参考訳) 伝統的に、ビデオ会議は広く採用されているテレコミュニケーションのソリューションであるが、没入性の欠如は本質的に顔の表現の2次元性に起因する。 ヘッドマウントディスプレイ(hmds)によるコミュニケーション/テレプレゼンスシステムへの仮想現実(vr)の統合は、より没入的な体験を提供する。 しかし、HMDは、ユーザの顔の外観や表情をブロックすることで障害を引き起こす。 これらの問題を解決するために,HMDデクルージョンのための新しいアテンション対応エンコーダデコーダアーキテクチャを提案する。 また,ユーザの短いビデオ(1~2分)を使って,さまざまな外観で捉えた個人別モデルを訓練し,ユーザの見当たらないポーズや外観への一般化を実演する。 我々は,最先端手法よりも質的,定量的な結果が優れていることを報告した。 また,既存のアニメーションと3次元顔再構成パイプラインを用いたハイブリッドビデオ会議への応用を提案する。

Traditionally, video conferencing is a widely adopted solution for telecommunication, but a lack of immersiveness comes inherently due to the 2D nature of facial representation. The integration of Virtual Reality (VR) in a communication/telepr esence system through Head Mounted Displays (HMDs) promises to provide users a much better immersive experience. However, HMDs cause hindrance by blocking the facial appearance and expressions of the user. To overcome these issues, we propose a novel attention-enabled encoder-decoder architecture for HMD de-occlusion. We also propose to train our person-specific model using short videos (1-2 minutes) of the user, captured in varying appearances, and demonstrated generalization to unseen poses and appearances of the user. We report superior qualitative and quantitative results over state-of-the-art methods. We also present applications of this approach to hybrid video teleconferencing using existing animation and 3D face reconstruction pipelines.
翻訳日:2021-12-03 15:30:26 公開日:2021-12-02
# ジャストドライブ」:都市運転の文脈におけるセマンティックセグメンテーションのためのカラーバイアス緩和

"Just Drive": Colour Bias Mitigation for Semantic Segmentation in the Context of Urban Driving ( http://arxiv.org/abs/2112.01121v1 )

ライセンス: Link先を確認
Jack Stelling and Amir Atapour-Abarghouei(参考訳) バイアスは私たちの知識なしにAI技術にフィルターできる。 多くの場合、精巧なディープラーニングネットワークは、他の何よりも精度を高めます。 本稿では,都市走行場面における意味セグメンテーションモデルに遭遇するバイアスを,反復学習アンラーニングアルゴリズムを用いて軽減する。 畳み込みニューラルネットワークは、幾何学よりも色とテクスチャに依存することが示されている。 これは、自動運転車のような安全クリティカルなアプリケーションにおいて、テスト時に共変量シフトを伴う画像に遭遇した場合に問題を引き起こす。 バイアスアンラーニングの概念的証明は、MNISTのような単純なデータセットで示されている。 しかし、この戦略は、都市シーンのような高度に可変なトレーニングデータの画素単位の意味セマンティックセグメンテーションの安全クリティカル領域に適用されることはなかった。 ベースラインとバイアスアンラーニング・スキームの訓練されたモデルは、元のrgb画像とmiouの85.50%の差を示す色操作検証セットのパフォーマンスをテストされ、セグメンテーションネットワークは、トレーニングデータの色情報に強く依存して分類されている。 バイアス・アンラーニング・スキームは、最も観察されたケースでは最大61%の共変量シフトを扱うことの改善を示し、ベースラインモデルと比較して「人間」と「獣」のクラスを一貫して分類する。

Biases can filter into AI technology without our knowledge. Oftentimes, seminal deep learning networks champion increased accuracy above all else. In this paper, we attempt to alleviate biases encountered by semantic segmentation models in urban driving scenes, via an iteratively trained unlearning algorithm. Convolutional neural networks have been shown to rely on colour and texture rather than geometry. This raises issues when safety-critical applications, such as self-driving cars, encounter images with covariate shift at test time - induced by variations such as lighting changes or seasonality. Conceptual proof of bias unlearning has been shown on simple datasets such as MNIST. However, the strategy has never been applied to the safety-critical domain of pixel-wise semantic segmentation of highly variable training data - such as urban scenes. Trained models for both the baseline and bias unlearning scheme have been tested for performance on colour-manipulated validation sets showing a disparity of up to 85.50% in mIoU from the original RGB images - confirming segmentation networks strongly depend on the colour information in the training data to make their classification. The bias unlearning scheme shows improvements of handling this covariate shift of up to 61% in the best observed case - and performs consistently better at classifying the "human" and "vehicle" classes compared to the baseline model.
翻訳日:2021-12-03 15:30:14 公開日:2021-12-02
# オープンセット3次元物体検出

Open-set 3D Object Detection ( http://arxiv.org/abs/2112.01135v1 )

ライセンス: Link先を確認
Jun Cen, Peng Yun, Junhao Cai, Michael Yu Wang, Ming Liu(参考訳) 近年,ロボット認識システムにおいて3次元物体検出が盛んに研究されている。 しかし、既存の3Dオブジェクト検出はクローズドセット状態であり、ネットワークは訓練されたクラスのボックスのみを出力できる。 残念なことに、このクローズドセット条件は、ミスで知られている未知のオブジェクトを識別するため、実用上十分に堅牢ではない。 そこで本研究では,(1)クローズドセット検出のような既知の物体を識別し,(2)未知の物体を識別し,それらの正確な拘束箱を与えるオープンセット3Dオブジェクト検出器を提案する。 具体的には、オープンセットの3Dオブジェクト検出問題を、(1)未知のオブジェクトを含む領域を高い確率で発見し、(2)これらの領域の点を適切なバウンディングボックスで囲む2つのステップに分割する。 最初のステップは、未知の物体は、しばしば低い信頼度を持つ既知の物体として分類され、計量学習に基づくユークリッド距離和は、未知の物体と既知の物体を区別するナイーブ・ソフトマックス確率よりも優れた信頼度スコアであることを示すことによって解決される。 このベースで、教師なしクラスタリングは未知のオブジェクトの境界ボックスを洗練するために使用される。 メトリクス学習と教師なしクラスタリングを組み合わせた手法をMLUCネットワークと呼ぶ。 実験の結果,我々のMLUCネットワークは最先端の性能を達成し,未知の物体と未知の物体の両方を期待通りに識別できることがわかった。

3D object detection has been wildly studied in recent years, especially for robot perception systems. However, existing 3D object detection is under a closed-set condition, meaning that the network can only output boxes of trained classes. Unfortunately, this closed-set condition is not robust enough for practical use, as it will identify unknown objects as known by mistake. Therefore, in this paper, we propose an open-set 3D object detector, which aims to (1) identify known objects, like the closed-set detection, and (2) identify unknown objects and give their accurate bounding boxes. Specifically, we divide the open-set 3D object detection problem into two steps: (1) finding out the regions containing the unknown objects with high probability and (2) enclosing the points of these regions with proper bounding boxes. The first step is solved by the finding that unknown objects are often classified as known objects with low confidence, and we show that the Euclidean distance sum based on metric learning is a better confidence score than the naive softmax probability to differentiate unknown objects from known objects. On this basis, unsupervised clustering is used to refine the bounding boxes of unknown objects. The proposed method combining metric learning and unsupervised clustering is called the MLUC network. Our experiments show that our MLUC network achieves state-of-the-art performance and can identify both known and unknown objects as expected.
翻訳日:2021-12-03 15:29:47 公開日:2021-12-02
# 時間的優先順位を伴わない映像フレーム補間

Video Frame Interpolation without Temporal Priors ( http://arxiv.org/abs/2112.01161v1 )

ライセンス: Link先を確認
Youjian Zhang, Chaoyue Wang, Dacheng Tao(参考訳) 映像列における非既存中間フレームの合成を目的とした映像フレーム補間は,コンピュータビジョンにおいて重要な研究課題である。 既存のビデオフレーム補間法は、即時や既知の露光時間といった特定の仮定の下で顕著な結果を得た。 しかし、複雑な現実世界では、フレーム毎秒(FPS)とフレーム露光時間といったビデオの時間的先行は、異なるカメラセンサーによって異なる場合がある。 テストビデオがトレーニングと異なる露光条件下で撮影されると、補間されたフレームは重大なミスアライメントに悩まされる。 本研究では,不確定な露光(及び間隔)時間内に入力フレームを取得できる一般的な状況下で,映像フレーム補間問題を解く。 特定の時間的先行にのみ適用できる従来の方法とは異なり、時間的先行を伴わない4つの連続したシャープフレームまたは2つの連続したぼやけたフレームから一般的な曲線運動軌道公式を導出する。 さらに, 隣接運動軌跡内の制約を利用して, 補間結果を改善するための新しい光流精細化戦略を考案する。 最後に実験では、訓練されたモデルが複雑な実環境下で高品質なスローモーションビデオを合成するのに十分であることを実証する。 コードはhttps://github.com/y jzhang96/UTI-VFIで入手できる。

Video frame interpolation, which aims to synthesize non-exist intermediate frames in a video sequence, is an important research topic in computer vision. Existing video frame interpolation methods have achieved remarkable results under specific assumptions, such as instant or known exposure time. However, in complicated real-world situations, the temporal priors of videos, i.e. frames per second (FPS) and frame exposure time, may vary from different camera sensors. When test videos are taken under different exposure settings from training ones, the interpolated frames will suffer significant misalignment problems. In this work, we solve the video frame interpolation problem in a general situation, where input frames can be acquired under uncertain exposure (and interval) time. Unlike previous methods that can only be applied to a specific temporal prior, we derive a general curvilinear motion trajectory formula from four consecutive sharp frames or two consecutive blurry frames without temporal priors. Moreover, utilizing constraints within adjacent motion trajectories, we devise a novel optical flow refinement strategy for better interpolation results. Finally, experiments demonstrate that one well-trained model is enough for synthesizing high-quality slow-motion videos under complicated real-world situations. Codes are available on https://github.com/y jzhang96/UTI-VFI.
翻訳日:2021-12-03 15:29:24 公開日:2021-12-02
# ニューラルアクション表現におけるドメインギャップを克服する

Overcoming the Domain Gap in Neural Action Representations ( http://arxiv.org/abs/2112.01176v1 )

ライセンス: Link先を確認
Semih G\"unel and Florian Aymanns and Sina Honari and Pavan Ramdya and Pascal Fua(参考訳) 動物の行動と脳活動を関連付けることは神経科学の基本的な目標であり、堅牢な脳と機械のインターフェイスの構築に実践的な応用がある。 しかし、個人間のドメイン間ギャップは、ラベルなしの主題に取り組む一般的なモデルのトレーニングを妨げる主要な問題である。 3次元ポーズデータは手作業による介入なしに多視点映像列から確実に抽出できるため,神経活動表現の符号化を,顕微鏡画像の特徴を生かした一連の神経および行動の強化と共に導くことを提案する。 ドメインギャップを減らすために、トレーニングの間、同様の行動をしているように見える動物間で神経と行動のデータを取り替える。 これを示すために、我々は、ハエとその神経活動を特徴とする3つの非常に異なるマルチモーダルデータセット、人間の脳皮質電図(ECoG)データを含む1つ、そして最後に異なる視点からの人間の活動のRGBビデオデータについて、我々の手法を検証した。

Relating animal behaviors to brain activity is a fundamental goal in neuroscience, with practical applications in building robust brain-machine interfaces. However, the domain gap between individuals is a major issue that prevents the training of general models that work on unlabeled subjects. Since 3D pose data can now be reliably extracted from multi-view video sequences without manual intervention, we propose to use it to guide the encoding of neural action representations together with a set of neural and behavioral augmentations exploiting the properties of microscopy imaging. To reduce the domain gap, during training, we swap neural and behavioral data across animals that seem to be performing similar actions. To demonstrate this, we test our methods on three very different multimodal datasets; one that features flies and their neural activity, one that contains human neural Electrocorticography (ECoG) data, and lastly the RGB video data of human activities from different viewpoints.
翻訳日:2021-12-03 15:28:59 公開日:2021-12-02
# (参考訳) 視覚模倣における表現学習の驚くべき効果 [全文訳有]

The Surprising Effectiveness of Representation Learning for Visual Imitation ( http://arxiv.org/abs/2112.01511v1 )

ライセンス: CC BY 4.0
Jyothish Pari, Nur Muhammad (Mahi) Shafiullah, Sridhar Pandian Arunachalam, Lerrel Pinto(参考訳) 視覚的模倣学習は、視覚的なデモンストレーションから学ぶ最も効果的な方法の1つであるが、それらから一般化するには、何百もの多様なデモンストレーション、タスク固有の事前、あるいは大規模で訓練が難しいパラメトリックモデルが必要である。 このような複雑さの1つの理由は、標準的な視覚模倣フレームワークが、簡潔だが多様な視覚データから良い表現を学ぶと同時に、実証された行動とそのような表現を同時に関連付けるという、2つの結合した問題を一度に解決しようとするためである。 このような共同学習は、これらの2つの問題の間に相互依存を引き起こし、しばしば学習のために大量の実演を必要とする。 この課題に対処するために、視覚模倣のための行動学習から表現学習を分離することを提案する。 まず,標準教師あり,自己教師あり学習法を用いてオフラインデータから視覚表現エンコーダを学習する。 表現がトレーニングされると、非パラメトリックな局所重み付き回帰を使ってアクションを予測します。 我々は,この簡単な分離により,視覚模倣における先行作業と比較して,オフラインデモデータセットと実ロボットドアオープンの両方における視覚模倣モデルの性能が向上することを示す。 生成されたデータ、コード、ロボットビデオはすべてhttps://jyopari.gith ub.io/VINN/で公開されています。

While visual imitation learning offers one of the most effective ways of learning from visual demonstrations, generalizing from them requires either hundreds of diverse demonstrations, task specific priors, or large, hard-to-train parametric models. One reason such complexities arise is because standard visual imitation frameworks try to solve two coupled problems at once: learning a succinct but good representation from the diverse visual data, while simultaneously learning to associate the demonstrated actions with such representations. Such joint learning causes an interdependence between these two problems, which often results in needing large amounts of demonstrations for learning. To address this challenge, we instead propose to decouple representation learning from behavior learning for visual imitation. First, we learn a visual representation encoder from offline data using standard supervised and self-supervised learning methods. Once the representations are trained, we use non-parametric Locally Weighted Regression to predict the actions. We experimentally show that this simple decoupling improves the performance of visual imitation models on both offline demonstration datasets and real-robot door opening compared to prior work in visual imitation. All of our generated data, code, and robot videos are publicly available at https://jyopari.gith ub.io/VINN/.
翻訳日:2021-12-03 15:27:37 公開日:2021-12-02
# モデル不確かさを考慮した校正誤りの理由--ディープラーニングを用いた後部予測チェックを用いて

Why Calibration Error is Wrong Given Model Uncertainty: Using Posterior Predictive Checks with Deep Learning ( http://arxiv.org/abs/2112.01477v1 )

ライセンス: Link先を確認
Achintya Gopal(参考訳) ここ数年、ニューラルネットワークと組み合わせて統計モデルを使うことに動き、最終目標は「我々のモデルは何を知っているのか」という質問に答えることだ。 この傾向から,予測区間被覆確率(PICP)などの古典的指標やキャリブレーション誤差などの新しい指標がモデル評価の一般的なレパートリーに入り,モデルの不確実性が現実とどのように比較されるか,より深い洞察を得ることができた。 不確実性モデリングの重要な要素の1つは、モデルの不確実性(エピステミック不確実性)である。 しかし、現在の評価手法は、モデルの不確かさとアレタリック不確かさ(不正確な誤り)を区別する傾向があり、誤った結論をもたらす。 本稿では, 後続の予測チェックを用いて, キャリブレーション誤差とその変種が, モデルの不確かさをほとんど常に誤っていることを示し, さらに, この誤りが, 悪いモデルへの信頼と良いモデルへの不信につながることを示す。 後続の予測チェックはベイズモデルのインサンプル評価によく用いられるが、現代のディープラーニングの世界では依然として重要な位置にあることを示す。

Within the last few years, there has been a move towards using statistical models in conjunction with neural networks with the end goal of being able to better answer the question, "what do our models know?". From this trend, classical metrics such as Prediction Interval Coverage Probability (PICP) and new metrics such as calibration error have entered the general repertoire of model evaluation in order to gain better insight into how the uncertainty of our model compares to reality. One important component of uncertainty modeling is model uncertainty (epistemic uncertainty), a measurement of what the model does and does not know. However, current evaluation techniques tends to conflate model uncertainty with aleatoric uncertainty (irreducible error), leading to incorrect conclusions. In this paper, using posterior predictive checks, we show how calibration error and its variants are almost always incorrect to use given model uncertainty, and further show how this mistake can lead to trust in bad models and mistrust in good models. Though posterior predictive checks has often been used for in-sample evaluation of Bayesian models, we show it still has an important place in the modern deep learning world.
翻訳日:2021-12-03 15:11:09 公開日:2021-12-02
# 単調ブール関数の重み付き影響による最大コンセンサス

Maximum Consensus by Weighted Influences of Monotone Boolean Functions ( http://arxiv.org/abs/2112.00953v1 )

ライセンス: Link先を確認
Erchuan Zhang, David Suter, Ruwan Tennakoon, Tat-Jun Chin, Alireza Bab-Hadiashar, Giang Truong, Syed Zulqarnain Gilani(参考訳) ロバストなモデルフィッティングはコンピュータビジョンにおける根本的な問題であり、異常値の存在下で生データを前処理するために使用される。 合意の最大化(MaxCon)は最も人気のある堅牢な基準の一つであり、広く使用されている。 近年 (tennakoon et al. cvpr2021) では,maxcon と単調ブール関数の影響を推定する手法が提案されている。 ブール立方体に異なる尺度を装着し、異なるサンプリング戦略(同じコインの2つの側面)を採用すると、異なる効果が生じる可能性がある。 本稿では,MaxConの解法における重み付き影響の概念について考察する。 特に,ブール立方体をベルヌーイ測度で内挿し,偏り(一様とは対照的に)なサンプリングを行う。 理論的には、この尺度の下で、より大きな構造に属する点の重み付き影響は、一般に小さな構造に属する点よりも小さいことが証明される。 また,キューブの特定の(ハミング)レベルに集中した一様測度によるサンプリングという,別の「自然な」サンプリング・重み付け戦略も検討する。 重み付きサンプリングに基づき,tennakoonらのアルゴリズムを変更し,合成データと実データの両方でテストを行う。 本論文は,新たなアプローチの推進ではなく,加重サンプリングの問題を研究するものである。 むしろ、ベルヌーイサンプリングの控えめな利得を示し、データの構造と重み付けサンプリングの間の相互作用のいくつかを照らします。

Robust model fitting is a fundamental problem in computer vision: used to pre-process raw data in the presence of outliers. Maximisation of Consensus (MaxCon) is one of the most popular robust criteria and widely used. Recently (Tennakoon et al. CVPR2021), a connection has been made between MaxCon and estimation of influences of a Monotone Boolean function. Equipping the Boolean cube with different measures and adopting different sampling strategies (two sides of the same coin) can have differing effects: which leads to the current study. This paper studies the concept of weighted influences for solving MaxCon. In particular, we study endowing the Boolean cube with the Bernoulli measure and performing biased (as opposed to uniform) sampling. Theoretically, we prove the weighted influences, under this measure, of points belonging to larger structures are smaller than those of points belonging to smaller structures in general. We also consider another "natural" family of sampling/weighting strategies, sampling with uniform measure concentrated on a particular (Hamming) level of the cube. Based on weighted sampling, we modify the algorithm of Tennakoon et al., and test on both synthetic and real datasets. This paper is not promoting a new approach per se, but rather studying the issue of weighted sampling. Accordingly, we are not claiming to have produced a superior algorithm: rather we show some modest gains of Bernoulli sampling, and we illuminate some of the interactions between structure in data and weighted sampling.
翻訳日:2021-12-03 15:10:21 公開日:2021-12-02
# 予測規則の書き換えによる分類器の編集

Editing a classifier by rewriting its prediction rules ( http://arxiv.org/abs/2112.01008v1 )

ライセンス: Link先を確認
Shibani Santurkar, Dimitris Tsipras, Mahalaxmi Elango, David Bau, Antonio Torralba, Aleksander Madry(参考訳) 本稿では,その予測規則を直接書き換えて分類器の動作を変更する手法を提案する。 当社のアプローチでは,新たな環境へのモデル適用や,突発的な機能を無視する修正など,さまざまな設定に適用可能なデータ収集は,ほとんど必要ありません。 私たちのコードはhttps://github.com/M adryLab/EditingClass ifiersで利用可能です。

We present a methodology for modifying the behavior of a classifier by directly rewriting its prediction rules. Our approach requires virtually no additional data collection and can be applied to a variety of settings, including adapting a model to new environments, and modifying it to ignore spurious features. Our code is available at https://github.com/M adryLab/EditingClass ifiers .
翻訳日:2021-12-03 15:09:54 公開日:2021-12-02
# 知覚適応ネットワークによる非拘束顔スケッチ合成と新しいベンチマーク

Unconstrained Face Sketch Synthesis via Perception-Adaptive Network and A New Benchmark ( http://arxiv.org/abs/2112.01019v1 )

ライセンス: Link先を確認
Lin Nie and Lingbo Liu and Zhengtao Wu and Wenxiong Kang(参考訳) 顔スケッチ生成は視覚コンピューティングの分野で多くの注目を集めている。 しかし、既存のメソッドは制約条件に限定されているか、未処理のケースを扱うために様々な前処理ステップに大きく依存している。 本稿では,顔領域と顔成分を正確に知覚することが,制約のないスケッチ合成において重要であることを論じる。 そこで本研究では,非制約条件下での高品質な顔スケッチをエンドツーエンドで生成できる新しい知覚適応ネットワーク(PANet)を提案する。 具体的には パンネットは 一 階層的特徴抽出のための完全畳み込みエンコーダ 二 潜在的な顔領域を抽出し、顔のバリエーションを取り扱う顔適応認識復号機 三 顔成分認識特徴表現学習のためのコンポーネント適応知覚モジュール 制約のない顔のスケッチ合成のさらなる研究を容易にするために,ポーズ,表現,民族的起源,背景,照明など,800対の顔写真スケッチを含むWildSketchというベンチマークを導入した。 実験の結果,提案手法は制約条件と制約条件の両方で最先端性能を実現することができることがわかった。 私たちのソースコードとWildSketchベンチマークはプロジェクトページ http://lingboliu.com /unconstrained_face_ sketch.html で再販売されています。

Face sketch generation has attracted much attention in the field of visual computing. However, existing methods either are limited to constrained conditions or heavily rely on various preprocessing steps to deal with in-the-wild cases. In this paper, we argue that accurately perceiving facial region and facial components is crucial for unconstrained sketch synthesis. To this end, we propose a novel Perception-Adaptive Network (PANet), which can generate high-quality face sketches under unconstrained conditions in an end-to-end scheme. Specifically, our PANet is composed of i) a Fully Convolutional Encoder for hierarchical feature extraction, ii) a Face-Adaptive Perceiving Decoder for extracting potential facial region and handling face variations, and iii) a Component-Adaptive Perceiving Module for facial component aware feature representation learning. To facilitate further researches of unconstrained face sketch synthesis, we introduce a new benchmark termed WildSketch, which contains 800 pairs of face photo-sketch with large variations in pose, expression, ethnic origin, background, and illumination. Extensive experiments demonstrate that the proposed method is capable of achieving state-of-the-art performance under both constrained and unconstrained conditions. Our source codes and the WildSketch benchmark are resealed on the project page http://lingboliu.com /unconstrained_face_ sketch.html.
翻訳日:2021-12-03 15:09:49 公開日:2021-12-02
# 雑音ラベル抑制のための事前指導型ロバストモデル学習

Sample Prior Guided Robust Model Learning to Suppress Noisy Labels ( http://arxiv.org/abs/2112.01197v1 )

ライセンス: Link先を確認
Wenkai Chen, Chuang Zhu, Yi Chen(参考訳) 不完全なラベルは現実世界のデータセットに広く存在しており、モデルのパフォーマンスを著しく損なう。 最近の雑音ラベル処理には2つの重要なステップがある。 1) サンプルを清潔にラベル付けし、不正にラベル付けしたセットに、トレーニング損失により分割すること。 2) 半教師付き手法を用いて, 間違ったラベル付き集合のサンプルの擬似ラベルを生成する。 しかし, 従来の手法は, 硬度試料と雑音試料との類似の損失分布により, 常に情報的硬度試料を破損させる。 本稿では,サンプルの事前知識を生成し,ノイズを抑制するための深層モデルを構築するための新しいフレームワークであるpgdf(prior guided denoising framework)を提案し,サンプルの分割ステップと半教師付きステップの両方に統合した。 私たちのフレームワークは、より情報に富んだクリーンなサンプルをクリーンなラベル付きセットに保存できます。 さらに, 疑似ラベル生成方式のノイズを抑制することにより, 半教師あり段階における擬似ラベルの品質向上を図る。 ハードサンプルをさらに強化するため、トレーニング中にクリーンラベル付きセットでサンプルを重み付けする。 CIFAR-10とCIFAR-100と実世界のWebVisionとChrothing1Mに基づく合成データセットを用いて評価を行った。 その結果,最先端手法よりも大幅に改善が見られた。

Imperfect labels are ubiquitous in real-world datasets and seriously harm the model performance. Several recent effective methods for handling noisy labels have two key steps: 1) dividing samples into cleanly labeled and wrongly labeled sets by training loss, 2) using semi-supervised methods to generate pseudo-labels for samples in the wrongly labeled set. However, current methods always hurt the informative hard samples due to the similar loss distribution between the hard samples and the noisy ones. In this paper, we proposed PGDF (Prior Guided Denoising Framework), a novel framework to learn a deep model to suppress noise by generating the samples' prior knowledge, which is integrated into both dividing samples step and semi-supervised step. Our framework can save more informative hard clean samples into the cleanly labeled set. Besides, our framework also promotes the quality of pseudo-labels during the semi-supervised step by suppressing the noise in the current pseudo-labels generating scheme. To further enhance the hard samples, we reweight the samples in the cleanly labeled set during training. We evaluated our method using synthetic datasets based on CIFAR-10 and CIFAR-100, as well as on the real-world datasets WebVision and Clothing1M. The results demonstrate substantial improvements over state-of-the-art methods.
翻訳日:2021-12-03 15:09:29 公開日:2021-12-02
# CSAW-M: 腫瘍のマンモグラフィーマスキングのベンチマークのための正規分類データセット

CSAW-M: An Ordinal Classification Dataset for Benchmarking Mammographic Masking of Cancer ( http://arxiv.org/abs/2112.01330v1 )

ライセンス: Link先を確認
Moein Sorkhei, Yue Liu, Hossein Azizpour, Edward Azavedo, Karin Dembrower, Dimitra Ntoula, Athanasios Zouzos, Fredrik Strand, Kevin Smith(参考訳) 乳がん検診における偽陰性評価は, 乳がん検診において, 乳がんの予後が他の乳がんよりも悪化する傾向がみられ, 乳がん検診では乳がん検診の経過が遅くなる傾向がみられた。 スクリーニング時間検出の欠如は、通常、腫瘍が周囲の乳房組織、つまりマスクと呼ばれる現象によって隠蔽されることによって引き起こされる。 がんのマンモグラフィーマスキングを研究・ベンチマークするために,1万人以上の個人から収集し,潜在的なマスキングを付加したCSAW-Mを提案する。 乳房画像密度をプロキシとして測定する従来のアプローチとは対照的に,我々のデータセットは5人の専門家によるマスキングの可能性評価のアノテーションを直接提供する。 また, CSAW-Mの深層学習モデルを用いて, マスキングレベルを推定し, 乳房密度の指標よりも, 時間間隔や大規模な浸潤癌と診断された被験者の検診が有意に予測可能であることを示した。

Interval and large invasive breast cancers, which are associated with worse prognosis than other cancers, are usually detected at a late stage due to false negative assessments of screening mammograms. The missed screening-time detection is commonly caused by the tumor being obscured by its surrounding breast tissues, a phenomenon called masking. To study and benchmark mammographic masking of cancer, in this work we introduce CSAW-M, the largest public mammographic dataset, collected from over 10,000 individuals and annotated with potential masking. In contrast to the previous approaches which measure breast image density as a proxy, our dataset directly provides annotations of masking potential assessments from five specialists. We also trained deep learning models on CSAW-M to estimate the masking level and showed that the estimated masking is significantly more predictive of screening participants diagnosed with interval and large invasive cancers -- without being explicitly trained for these tasks -- than its breast density counterparts.
翻訳日:2021-12-03 15:09:11 公開日:2021-12-02
# ドメイン適応のためのアクティブラーニング:エネルギーベースアプローチ

Active Learning for Domain Adaptation: An Energy-based Approach ( http://arxiv.org/abs/2112.01406v1 )

ライセンス: Link先を確認
Binhui Xie, Longhui Yuan, Shuang Li, Chi Harold Liu, Xinjing Cheng, and Guoren Wang(参考訳) 教師なしドメイン適応は、ディープニューラルネットワークを新しいターゲットドメインに一般化するための効果的なパラダイムとして最近登場した。 しかし、完全に監督されたパフォーマンスに到達するためにタップされる可能性はまだ大きい。 本稿では,アクティブドメイン適応と呼ばれる,対象領域における知識伝達を支援する新しいアクティブな学習戦略を提案する。 トレーニング(ソース)とテスト(ターゲット)データが異なる分布から来る場合、エネルギーベースのモデルが自由エネルギーバイアスを示すという観察から始める。 この固有のメカニズムに触発されて、単純な効率的なエネルギーベースのサンプリング戦略が、特定のアーキテクチャや距離の計算を必要とする既存のアプローチよりも、最も価値のあるターゲットサンプルの選択に光を当てていることを実証的に明らかにした。 我々のアルゴリズムであるEnergy-based Active Domain Adaptation (EADA)は、各選択ラウンドにドメイン特性とインスタンスの不確実性の両方を組み込んだタージデータのグループをクエリする。 一方、正規化項を介してソースドメインの周りにコンパクトなターゲットデータの自由エネルギーを調整することにより、ドメインギャップを暗黙的に減少させることができる。 大規模な実験により、EADAは既知の挑戦的ベンチマークにおいて最先端の手法を超越し、大幅に改善され、オープンな世界で有用な選択肢となった。 コードはhttps://github.com/B IT-DA/EADAで入手できる。

Unsupervised domain adaptation has recently emerged as an effective paradigm for generalizing deep neural networks to new target domains. However, there is still enormous potential to be tapped to reach the fully supervised performance. In this paper, we present a novel active learning strategy to assist knowledge transfer in the target domain, dubbed active domain adaptation. We start from an observation that energy-based models exhibit free energy biases when training (source) and test (target) data come from different distributions. Inspired by this inherent mechanism, we empirically reveal that a simple yet efficient energy-based sampling strategy sheds light on selecting the most valuable target samples than existing approaches requiring particular architectures or computation of the distances. Our algorithm, Energy-based Active Domain Adaptation (EADA), queries groups of targe data that incorporate both domain characteristic and instance uncertainty into every selection round. Meanwhile, by aligning the free energy of target data compact around the source domain via a regularization term, domain gap can be implicitly diminished. Through extensive experiments, we show that EADA surpasses state-of-the-art methods on well-known challenging benchmarks with substantial improvements, making it a useful option in the open world. Code is available at https://github.com/B IT-DA/EADA.
翻訳日:2021-12-03 15:07:58 公開日:2021-12-02
# 深層住宅の表現:教師なし学習を用いて標高データを解き放つジオデミノグラフィー予測

Deep residential representations: Using unsupervised learning to unlock elevation data for geo-demographic prediction ( http://arxiv.org/abs/2112.01421v1 )

ライセンス: Link先を確認
Matthew Stevenson, Christophe Mues, Cristi\'an Bravo(参考訳) LiDAR("Light Detection And Ranging" または "Laser Imaging, Detection, And Ranging" の略)技術は、都市景観と農村景観の詳細な3次元標高図を提供するために使用できる。 現在まで、空中LiDAR画像は、主に環境と考古学の領域に限られている。 しかしながら、このデータの地理的に粒度が高く、オープンソースな性質は、ジオデミック型データが活用される社会、組織、ビジネスアプリケーションにも役立ちます。 おそらく、この多次元データの処理にまつわる複雑さは、これまで広く採用を制限してきた。 本稿では,教師なし深層学習の最近の進歩を活かし,この課題に対処するため,タスク非依存なタイルの埋め込み方式を提案する。 ロンドン大都市圏の小さな地形に対する7つの英語の欠落指標 (2019) を予測し, 埋め込みの可能性を検証する。 これらの指標は、様々な社会経済的成果をカバーし、埋め込みを適用可能な様々な下流タスクのプロキシとして機能する。 我々は、このデータの適合性は、それ自体だけでなく、人口統計学的特徴と組み合わせたデータの補助源としても考慮し、埋め込みの現実的なユースケースを提供する。 様々なモデル/埋め込み構成を試したところ、私たちの最高の実装は、標準の人口統計学的特徴だけでの使用よりも最大21%改善したRoot-Mean-Squared-Er ror(RMSE)につながることがわかった。 また、ディープラーニングとk-meansクラスタリングを組み合わせることで、潜在埋め込み機能を解釈可能なコヒーレントなタイルセグメントを生成する方法も示しています。

LiDAR (short for "Light Detection And Ranging" or "Laser Imaging, Detection, And Ranging") technology can be used to provide detailed three-dimensional elevation maps of urban and rural landscapes. To date, airborne LiDAR imaging has been predominantly confined to the environmental and archaeological domains. However, the geographically granular and open-source nature of this data also lends itself to an array of societal, organizational and business applications where geo-demographic type data is utilised. Arguably, the complexity involved in processing this multi-dimensional data has thus far restricted its broader adoption. In this paper, we propose a series of convenient task-agnostic tile elevation embeddings to address this challenge, using recent advances from unsupervised Deep Learning. We test the potential of our embeddings by predicting seven English indices of deprivation (2019) for small geographies in the Greater London area. These indices cover a range of socio-economic outcomes and serve as a proxy for a wide variety of downstream tasks to which the embeddings can be applied. We consider the suitability of this data not just on its own but also as an auxiliary source of data in combination with demographic features, thus providing a realistic use case for the embeddings. Having trialled various model/embedding configurations, we find that our best performing embeddings lead to Root-Mean-Squared-Er ror (RMSE) improvements of up to 21% over using standard demographic features alone. We also demonstrate how our embedding pipeline, using Deep Learning combined with K-means clustering, produces coherent tile segments which allow the latent embedding features to be interpreted.
翻訳日:2021-12-03 15:07:35 公開日:2021-12-02
# 冠動脈疾患予測のための機械学習に基づく分類アルゴリズム

Machine Learning-Based Classification Algorithms for the Prediction of Coronary Heart Diseases ( http://arxiv.org/abs/2112.01503v1 )

ライセンス: Link先を確認
Kelvin Kwakye, Emmanuel Dadzie(参考訳) 冠動脈疾患は心臓血管疾患(CVD)の一形態であり、世界中で死因となっている。 早期に発見または診断した場合、生存確率は良好である。 本報告では,機械学習(ML)アルゴリズムを用いた冠動脈疾患データセットの分類について比較検討する。 この研究は、いくつかの機械学習に基づく分類モデルを作成し、テストした。 データセットは2つの異なるパフォーマンス指標への影響を評価するために、バランスの取れていないクラスと特徴選択テクニックを扱うためにSmoteの対象とされた。 その結果、ロジスティック回帰は、他のアルゴリズムと比較して、元のデータセットで最高のパフォーマンススコアが得られた。 結論として,順に処理され,標準化されたデータセット上のLRが,他のアルゴリズムよりも精度の高い冠状心疾患を予測できることが示唆された。

Coronary heart disease, which is a form of cardiovascular disease (CVD), is the leading cause of death worldwide. The odds of survival are good if it is found or diagnosed early. The current report discusses a comparative approach to the classification of coronary heart disease datasets using machine learning (ML) algorithms. The current study created and tested several machine-learning-bas ed classification models. The dataset was subjected to Smote to handle unbalanced classes and feature selection technique in order to assess the impact on two distinct performance metrics. The results show that logistic regression produced the highest performance score on the original dataset compared to the other algorithms employed. In conclusion, this study suggests that LR on a well-processed and standardized dataset can predict coronary heart disease with greater accuracy than the other algorithms.
翻訳日:2021-12-03 15:07:07 公開日:2021-12-02
# インスタンスの畳み込みによる物体認識単眼深度予測

Object-aware Monocular Depth Prediction with Instance Convolutions ( http://arxiv.org/abs/2112.01521v1 )

ライセンス: Link先を確認
Enis Simsar, Evin P{\i}nar \"Ornek, Fabian Manhardt, Helisa Dhamo, Nassir Navab, Federico Tombari(参考訳) ディープラーニングの出現に伴い、単一のRGB画像から深度を推定することは、最近多くの注目を集めており、ロボット工学の経路計画から計算撮影まで、さまざまな応用に力を入れている。 それでも、深度マップは全体としてかなり信頼性が高いが、物体の不連続性に関する推定はまだまだ満足できない。 これは、畳み込み演算子が自然にオブジェクトの不連続性全体に特徴を集約し、明確な境界ではなく滑らかな遷移をもたらすという事実に寄与することができる。 そこで、この問題を回避するために、異なる対象部品の特徴集約を避けるために明示的に調整された新しい畳み込み演算子を提案する。 特に,本手法は,部分ごとの深度をスーパーピクセルで推定する。 提案する畳み込み演算子は、"instance convolution"と仮定し、推定されたスーパーピクセルに基づいて、各対象部分のみを個別に考慮する。 我々は,nyuv2 および ibims データセットに対する評価により,咬合境界付近の深さを推定する古典的な畳み込みよりもインスタンス畳み込みが優れていることを明確に示し,他でも比較結果が得られた。 コードは受理次第公開される予定だ。

With the advent of deep learning, estimating depth from a single RGB image has recently received a lot of attention, being capable of empowering many different applications ranging from path planning for robotics to computational cinematography. Nevertheless, while the depth maps are in their entirety fairly reliable, the estimates around object discontinuities are still far from satisfactory. This can be contributed to the fact that the convolutional operator naturally aggregates features across object discontinuities, resulting in smooth transitions rather than clear boundaries. Therefore, in order to circumvent this issue, we propose a novel convolutional operator which is explicitly tailored to avoid feature aggregation of different object parts. In particular, our method is based on estimating per-part depth values by means of superpixels. The proposed convolutional operator, which we dub "Instance Convolution", then only considers each object part individually on the basis of the estimated superpixels. Our evaluation with respect to the NYUv2 as well as the iBims dataset clearly demonstrates the superiority of Instance Convolutions over the classical convolution at estimating depth around occlusion boundaries, while producing comparable results elsewhere. Code will be made publicly available upon acceptance.
翻訳日:2021-12-03 15:06:54 公開日:2021-12-02
# bevt:ビデオトランスフォーマーのbertプリトレーニング

BEVT: BERT Pretraining of Video Transformers ( http://arxiv.org/abs/2112.01529v1 )

ライセンス: Link先を確認
Rui Wang and Dongdong Chen and Zuxuan Wu and Yinpeng Chen and Xiyang Dai and Mengchen Liu and Yu-Gang Jiang and Luowei Zhou and Lu Yuan(参考訳) 本稿では,ビデオトランスのBERT事前学習について検討する。 BERTによる画像トランスフォーマーの事前トレーニングが最近成功したことを考えると、これは単純だが価値のある拡張である。 本稿では,映像表現学習を空間表現学習と時間ダイナミクス学習に分離するBEVTを紹介する。 特に、BEVTはまず画像データ上でマスク画像モデリングを行い、次に動画データ上でマスク映像モデリングと共同でマスク画像モデリングを行う。 このデザインの動機は2つの観察です 1)画像データセットで学習したトランスフォーマーは、ビデオトランスフォーマーの学習を容易化するための十分な空間的事前情報を提供する。 2) クラス内およびクラス間の変化が大きいため,正しい予測を行うために必要な識別的手がかり,すなわち空間的および時間的情報。 我々は、BEVTが非常に有望な結果を得る3つの挑戦的なビデオベンチマークについて広範な実験を行った。 認識は主に差別的な空間表現に依存しているKineetics 400では、BEVTは強い教師付きベースラインに匹敵する結果を得る。 時間力学に依存したビデオを含むSomething-V2とDiving 48では、BEVTは全ての代替ベースラインをクリアマージンで上回り、それぞれ70.6%と86.7%の精度で最先端のパフォーマンスを達成する。

This paper studies the BERT pretraining of video transformers. It is a straightforward but worth-studying extension given the recent success from BERT pretraining of image transformers. We introduce BEVT which decouples video representation learning into spatial representation learning and temporal dynamics learning. In particular, BEVT first performs masked image modeling on image data, and then conducts masked image modeling jointly with masked video modeling on video data. This design is motivated by two observations: 1) transformers learned on image datasets provide decent spatial priors that can ease the learning of video transformers, which are often times computationally-inte nsive if trained from scratch; 2) discriminative clues, i.e., spatial and temporal information, needed to make correct predictions vary among different videos due to large intra-class and inter-class variations. We conduct extensive experiments on three challenging video benchmarks where BEVT achieves very promising results. On Kinetics 400, for which recognition mostly relies on discriminative spatial representations, BEVT achieves comparable results to strong supervised baselines. On Something-Something- V2 and Diving 48, which contain videos relying on temporal dynamics, BEVT outperforms by clear margins all alternative baselines and achieves state-of-the-art performance with a 70.6% and 86.7% Top-1 accuracy respectively.
翻訳日:2021-12-03 15:06:30 公開日:2021-12-02
# 階層型テキストエンコーダとSciBERTに基づく再分類による局所的引用

Local Citation Recommendation with Hierarchical-Attenti on Text Encoder and SciBERT-based Reranking ( http://arxiv.org/abs/2112.01206v1 )

ライセンス: Link先を確認
Nianlong Gu, Yingqiang Gao, Richard H.R. Hahnloser(参考訳) ローカルな引用レコメンデーションの目標は、ローカルな引用コンテキストから、グローバルなコンテキストからも、欠落した参照を推奨することである。 大規模論文データベースの文脈において、引用推薦のスピードと精度のトレードオフをバランスさせるために、効率的なランキング手法を用いて、まず限られた数の関連文書をプリフェッチし、さらにより洗練されたモデルを用いてきめ細かいリグレードを行う。 その過程で、bm25はプレフェッチングに対する強烈なアプローチであることが分かっています。 さらに,階層型アテンションネットワークによって構築されたテキスト埋め込みの近傍探索によるプレフェッチについて検討する。 局所的な引用レコメンデーションタスクを微調整したscibert rerankerと組み合わせると、階層的アテンションエンコーダ(hatten)は、指定された数の候補に対して高いプリフェッチリコールを達成します。 その結果、リランカはプリフェッチ候補を減らす必要があるが、ACL-200、FullTextPeerRead、RefSeer、arXivなど、さまざまなローカルな引用レコメンデーションデータセットで最先端のパフォーマンスを実現している。

The goal of local citation recommendation is to recommend a missing reference from the local citation context and optionally also from the global context. To balance the tradeoff between speed and accuracy of citation recommendation in the context of a large-scale paper database, a viable approach is to first prefetch a limited number of relevant documents using efficient ranking methods and then to perform a fine-grained reranking using more sophisticated models. In that vein, BM25 has been found to be a tough-to-beat approach to prefetching, which is why recent work has focused mainly on the reranking step. Even so, we explore prefetching with nearest neighbor search among text embeddings constructed by a hierarchical attention network. When coupled with a SciBERT reranker fine-tuned on local citation recommendation tasks, our hierarchical Attention encoder (HAtten) achieves high prefetch recall for a given number of candidates to be reranked. Consequently, our reranker needs to rerank fewer prefetch candidates, yet still achieves state-of-the-art performance on various local citation recommendation datasets such as ACL-200, FullTextPeerRead, RefSeer, and arXiv.
翻訳日:2021-12-03 15:06:03 公開日:2021-12-02
# 階層型連合学習のためのコンテキスト対応オンラインクライアント選択

Context-Aware Online Client Selection for Hierarchical Federated Learning ( http://arxiv.org/abs/2112.00925v1 )

ライセンス: Link先を確認
Zhe Qu, Rui Duan, Lixing Chen, Jie Xu, Zhuo Lu and Yao Liu(参考訳) フェデレートラーニング(FL)は、従来の機械学習(ML)と比較してモバイルデバイスのデータプライバシ問題に対処するための魅力的なフレームワークと考えられている。 エッジサーバ(ES)を中間体として、近接してモデルアグリゲーションを行うと、送信オーバーヘッドが減少し、FL(HFL)の階層的アーキテクチャが注目される低遅延FLにおいて大きなポテンシャルが得られる。 適切なクライアント選択ポリシーを設計すれば、トレーニング性能が大幅に向上し、FL研究で広く利用されている。 しかし、私たちの知る限りでは、HFLに焦点を当てた研究はない。 さらに、HFL のクライアント選択は従来の FL よりも多くの課題に直面している。例えば、クライアント-ES ペアの時間的変化と Network Operator (NO) の限られた予算である。 本稿では,HFLにおけるクライアント選択問題について検討する。NOは,各ESの限られた予算の下で,トレーニング性能の向上(すなわち,各ラウンドにおけるクライアント数の選択)のために,成功したクライアント数を学ぶ。 Contextual Combinatorial Multi-Armed Bandit (CC-MAB) に基づいたオンラインポリシーである Context-aware Online Client Selection (COCS) が開発されている。 COCSは、ローカルコンピューティングの側面情報(コンテキスト)とクライアント-ESペアの送信を観察し、限られた予算でNOの効用を最大化するクライアント選択決定を行う。 理論的には、COCS は強凸 HFL と非凸 HFL の両方に関する Oracle の方針と比較して、サブ線形後悔を達成している。 シミュレーション結果は、実世界のデータセットに対するCOCSポリシーの効率性も支援する。

Federated Learning (FL) has been considered as an appealing framework to tackle data privacy issues of mobile devices compared to conventional Machine Learning (ML). Using Edge Servers (ESs) as intermediaries to perform model aggregation in proximity can reduce the transmission overhead, and it enables great potentials in low-latency FL, where the hierarchical architecture of FL (HFL) has been attracted more attention. Designing a proper client selection policy can significantly improve training performance, and it has been extensively used in FL studies. However, to the best of our knowledge, there are no studies focusing on HFL. In addition, client selection for HFL faces more challenges than conventional FL, e.g., the time-varying connection of client-ES pairs and the limited budget of the Network Operator (NO). In this paper, we investigate a client selection problem for HFL, where the NO learns the number of successful participating clients to improve the training performance (i.e., select as many clients in each round) as well as under the limited budget on each ES. An online policy, called Context-aware Online Client Selection (COCS), is developed based on Contextual Combinatorial Multi-Armed Bandit (CC-MAB). COCS observes the side-information (context) of local computing and transmission of client-ES pairs and makes client selection decisions to maximize NO's utility given a limited budget. Theoretically, COCS achieves a sublinear regret compared to an Oracle policy on both strongly convex and non-convex HFL. Simulation results also support the efficiency of the proposed COCS policy on real-world datasets.
翻訳日:2021-12-03 15:05:17 公開日:2021-12-02
# マルチエージェント強化学習における報酬フリー攻撃

Reward-Free Attacks in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2112.00940v1 )

ライセンス: Link先を確認
Ted Fujimoto and Timothy Doster and Adam Attarian and Jill Brandenberger and Nathan Hodas(参考訳) 被害者の報酬にアクセスできることなく、被害者の行動からのみ学習した場合、攻撃者がどれほど効果的かを調べる。 本研究は,被害者の動機が不明な場合に攻撃者が戦略的に行動したいというシナリオに動機づけられる。 攻撃者が使えるヒューリスティックなアプローチの一つは、被害者のポリシーのエントロピーを最大化することである。 ポリシーは一般に難読化されていないため、単に被害者を受動的に観察することで抽出することができる。 我々は,探索段階における攻撃者のエントロピーを最大化し,計画段階における被害者の経験的エントロピーを最大化する,報酬のない探索アルゴリズムの形でそのような戦略を提供する。 我々の実験では、被害者エージェントは政策エントロピーの最大化によって転倒し、攻撃者が成功するために被害者の報酬にアクセスする必要がなくなる可能性を示唆している。 したがって、観察行動のみに基づく報酬フリー攻撃は、被害者の報酬情報が保護されている場合でも、被害者の動機を知らずに戦略的に行動する可能性を示す。

We investigate how effective an attacker can be when it only learns from its victim's actions, without access to the victim's reward. In this work, we are motivated by the scenario where the attacker wants to behave strategically when the victim's motivations are unknown. We argue that one heuristic approach an attacker can use is to maximize the entropy of the victim's policy. The policy is generally not obfuscated, which implies it may be extracted simply by passively observing the victim. We provide such a strategy in the form of a reward-free exploration algorithm that maximizes the attacker's entropy during the exploration phase, and then maximizes the victim's empirical entropy during the planning phase. In our experiments, the victim agents are subverted through policy entropy maximization, implying an attacker might not need access to the victim's reward to succeed. Hence, reward-free attacks, which are based only on observing behavior, show the feasibility of an attacker to act strategically without knowledge of the victim's motives even if the victim's reward information is protected.
翻訳日:2021-12-03 15:04:48 公開日:2021-12-02
# マルチドメイントランスフォーマティブによる収益電話分析のための相反的拡張

Multi-Domain Transformer-Based Counterfactual Augmentation for Earnings Call Analysis ( http://arxiv.org/abs/2112.00963v1 )

ライセンス: Link先を確認
Zixuan Yuan, Yada Zhu, Wei Zhang, Ziming Huang, Guangnan Ye, Hui Xiong(参考訳) 上場企業の定期的遠隔会議としてのEarnings Call(EC)は、企業基盤における分析的価値の高さから、重要な市場指標として広く研究されている。 近年のディープラーニング技術の出現は、ECが支援する金融アプリケーションに利益をもたらすために、自動化パイプラインを作成する上で大きな期待を示している。 しかし、これらの手法は、長文のテキストから貴重な意味論を精査することなく、全ての内容が情報化されるべきであると仮定し、EC不足の問題に悩まされる。 一方、これらのブラックボックス法は人間に理解可能な説明を与えるのに固有の困難を伴っている。 そこで本稿では,MTCAと呼ばれるマルチドメイントランスフォーマーを用いた対実拡張手法を提案する。 具体的には、まず、市場推測のための重要なECコンテンツのタスクインスパイアされた意義を注意深く定量化するトランスフォーマーベースのECエンコーダを提案する。 次に,多領域対応学習フレームワークを開発し,限られたEC情報テキストに豊富なクロスドメイン文書を混入させ,MTCAが教師なしデータ拡張を行えるようにした。 ボーナスとして,非トレーニングデータをインスタンスベースの説明として利用し,ケーススタディで結果を示す方法を見出した。 実世界の金融データセットに関する大規模な実験は、解釈可能なMTCAの有効性を示し、最先端技術のボラティリティ評価能力を14.2\%精度で向上させた。

Earnings call (EC), as a periodic teleconference of a publicly-traded company, has been extensively studied as an essential market indicator because of its high analytical value in corporate fundamentals. The recent emergence of deep learning techniques has shown great promise in creating automated pipelines to benefit the EC-supported financial applications. However, these methods presume all included contents to be informative without refining valuable semantics from long-text transcript and suffer from EC scarcity issue. Meanwhile, these black-box methods possess inherent difficulties in providing human-understandable explanations. To this end, in this paper, we propose a Multi-Domain Transformer-Based Counterfactual Augmentation, named MTCA, to address the above problems. Specifically, we first propose a transformer-based EC encoder to attentively quantify the task-inspired significance of critical EC content for market inference. Then, a multi-domain counterfactual learning framework is developed to evaluate the gradient-based variations after we perturb limited EC informative texts with plentiful cross-domain documents, enabling MTCA to perform unsupervised data augmentation. As a bonus, we discover a way to use non-training data as instance-based explanations for which we show the result with case studies. Extensive experiments on the real-world financial datasets demonstrate the effectiveness of interpretable MTCA for improving the volatility evaluation ability of the state-of-the-art by 14.2\% in accuracy.
翻訳日:2021-12-03 15:04:28 公開日:2021-12-02
# 高忠実度シミュレーションにおける自動走行システムのシナリオベーステストに関する調査

A Survey on Scenario-Based Testing for Automated Driving Systems in High-Fidelity Simulation ( http://arxiv.org/abs/2112.00964v1 )

ライセンス: Link先を確認
Ziyuan Zhong, Yun Tang, Yuan Zhou, Vania de Oliveira Neves, Yang Liu, Baishakhi Ray(参考訳) 自動運転システム(ADS)は近年急速に進歩している。 これらのシステムの安全性と信頼性を確保するため、将来の大量配備前に広範なテストが行われている。 道路上でシステムをテストすることは、現実世界と望ましいアプローチに最も近いが、非常にコストがかかる。 また、このような現実世界のテストで稀なコーナーケースをカバーすることも不可能である。 したがって、一般的な代替手段は、ADSのパフォーマンスを、よく設計されたシナリオ、すなわちシナリオベースのテストで評価することである。 この設定で高忠実度シミュレータは、what-ifシナリオをテストする際の柔軟性と利便性を最大化するために広く使われている。 特定のシステムをテストするための様々なフレームワークやメソッドを提供する多くの研究が提案されているが、それらの比較や関連性はいまだに欠けている。 このギャップを埋めるため,本研究では,高忠実度シミュレーションにおけるシナリオベーステストの汎用的な定式化と,既存の作品に関する文献レビューを行う。 さらにそれらを比較し、オープンな課題と将来の研究方向性を提示する。

Automated Driving Systems (ADSs) have seen rapid progress in recent years. To ensure the safety and reliability of these systems, extensive testings are being conducted before their future mass deployment. Testing the system on the road is the closest to real-world and desirable approach, but it is incredibly costly. Also, it is infeasible to cover rare corner cases using such real-world testing. Thus, a popular alternative is to evaluate an ADS's performance in some well-designed challenging scenarios, a.k.a. scenario-based testing. High-fidelity simulators have been widely used in this setting to maximize flexibility and convenience in testing what-if scenarios. Although many works have been proposed offering diverse frameworks/methods for testing specific systems, the comparisons and connections among these works are still missing. To bridge this gap, in this work, we provide a generic formulation of scenario-based testing in high-fidelity simulation and conduct a literature review on the existing works. We further compare them and present the open challenges as well as potential future research directions.
翻訳日:2021-12-03 15:04:06 公開日:2021-12-02
# 弱監督データを用いた数学的質問戦略の評価

Evaluation of mathematical questioning strategies using data collected through weak supervision ( http://arxiv.org/abs/2112.00985v1 )

ライセンス: Link先を確認
Debajyoti Datta, Maria Phillips, James P Bywater, Jennifer Chiu, Ginger S. Watson, Laura E. Barnes, Donald E Brown(参考訳) 多数の研究が、教師の質問戦略が学生の学習結果をどのように改善するかを示している。 しかしながら、特定のシナリオのトレーニングデータやラベリングに関連するコストが不足していることから、新たなシナリオの開発は困難である。 本稿では,教師が研究に基づく数学的質問のスキルをリハーサルするのに役立つ,高忠実なAIベースの教室シミュレータを提案する。 そこで我々は,Human-in-the-loopアプローチを用いて,数学的質問シナリオのための高品質なトレーニングデータセットを収集した。 近年の不確実性定量化の進歩を生かして,ユーザビリティのための対話エージェントの評価を行い,データ収集のためのヒューマン・イン・ザ・ループ・アプローチと数学的質問シナリオのためのシステム評価の実践性を検討した。

A large body of research demonstrates how teachers' questioning strategies can improve student learning outcomes. However, developing new scenarios is challenging because of the lack of training data for a specific scenario and the costs associated with labeling. This paper presents a high-fidelity, AI-based classroom simulator to help teachers rehearse research-based mathematical questioning skills. Using a human-in-the-loop approach, we collected a high-quality training dataset for a mathematical questioning scenario. Using recent advances in uncertainty quantification, we evaluated our conversational agent for usability and analyzed the practicality of incorporating a human-in-the-loop approach for data collection and system evaluation for a mathematical questioning scenario.
翻訳日:2021-12-03 15:03:50 公開日:2021-12-02
# 制約付き機械学習: Bagel Framework

Constrained Machine Learning: The Bagel Framework ( http://arxiv.org/abs/2112.01088v1 )

ライセンス: Link先を確認
Guillaume Perez, Sebastian Ament, Carla Gomes, Arnaud Lallouet(参考訳) 機械学習モデルはドキュメント分析やビジョンといった現実世界のアプリケーションで広く使われている。 制約付き機械学習問題は、学習したモデルを正確かつ尊重しなければならない問題である。 連続凸制約については、多くの研究が提案されているが、組合せ制約下での学習は依然として難しい問題である。 本論文の目的は,コンビネート最適化による既存作業を組み込むことにより,制約付き機械学習問題のモデル化能力を広げることである。 まず,各ノードで学習問題を生成・訓練する制約付き学習問題に対して,有効なモデルのみを得るまでブランチとバウンドを適用するBaGeL(Branch, Generate and Learn)という一般的なフレームワークを提案する。 機械学習には特定の要件があるため、仮説の空間を分割する拡張テーブル制約も提案する。 提案手法は,構成制約下での線形回帰と,潜在意味論解析の事前知識を用いた非負行列分解の2つの例で検証する。

Machine learning models are widely used for real-world applications, such as document analysis and vision. Constrained machine learning problems are problems where learned models have to both be accurate and respect constraints. For continuous convex constraints, many works have been proposed, but learning under combinatorial constraints is still a hard problem. The goal of this paper is to broaden the modeling capacity of constrained machine learning problems by incorporating existing work from combinatorial optimization. We propose first a general framework called BaGeL (Branch, Generate and Learn) which applies Branch and Bound to constrained learning problems where a learning problem is generated and trained at each node until only valid models are obtained. Because machine learning has specific requirements, we also propose an extended table constraint to split the space of hypotheses. We validate the approach on two examples: a linear regression under configuration constraints and a non-negative matrix factorization with prior knowledge for latent semantics analysis.
翻訳日:2021-12-03 15:03:35 公開日:2021-12-02
# コントラストリカレント状態空間モデルを用いた画素からのロバストロボット制御

Robust Robotic Control from Pixels using Contrastive Recurrent State-Space Models ( http://arxiv.org/abs/2112.01163v1 )

ライセンス: Link先を確認
Nitish Srivastava, Walter Talbott, Martin Bertran Lopez, Shuangfei Zhai, Josh Susskind(参考訳) 世界のモデリングは、エージェントの潜在状態空間を形作るための豊富なトレーニング信号を提供することで、ロボット学習に役立つ。 しかし,画像などの高次元観測空間上の制約のない環境での世界モデルを学ぶことは困難である。 難題の1つとして、無関係だが難解な背景障害や、タスク関連エンティティの重要でない視覚的詳細がある。 我々は,次の観測を対照的に予測する反復潜在力学モデルを学習することでこの問題に対処する。 このシンプルなモデルは、カメラ、背景、色覚の同時操作でも驚くほどロバストなロボット制御をもたらす。 我々は、将来の報酬のばらつきや将来の最適行動から得られる状態相似性対策を課すバイシミュレーション法などの代替手段より優れている。 我々は、pixelベースのロボット制御のための挑戦的なベンチマークであるsenseing control suiteで最新の結果を得た。

Modeling the world can benefit robot learning by providing a rich training signal for shaping an agent's latent state space. However, learning world models in unconstrained environments over high-dimensional observation spaces such as images is challenging. One source of difficulty is the presence of irrelevant but hard-to-model background distractions, and unimportant visual details of task-relevant entities. We address this issue by learning a recurrent latent dynamics model which contrastively predicts the next observation. This simple model leads to surprisingly robust robotic control even with simultaneous camera, background, and color distractions. We outperform alternatives such as bisimulation methods which impose state-similarity measures derived from divergence in future reward or future optimal actions. We obtain state-of-the-art results on the Distracting Control Suite, a challenging benchmark for pixel-based robotic control.
翻訳日:2021-12-03 15:03:18 公開日:2021-12-02
# アニメーションとモーションリターゲティングのための階層型ニューラルインシシットポーズネットワーク

Hierarchical Neural Implicit Pose Network for Animation and Motion Retargeting ( http://arxiv.org/abs/2112.00958v1 )

ライセンス: Link先を確認
Sourav Biswas, Kangxue Yin, Maria Shugrina, Sanja Fidler, Sameh Khamis(参考訳) 提案するHIPNetは,複数のポーズで訓練されたニューラル暗黙のポーズネットワークである。 HIPNetは、ポーズ特化の詳細から被写体固有の詳細を切り離すことができ、ある被写体から別の被写体への動きを再ターゲティングしたり、潜在空間補間によってキーフレーム間でアニメーション化することができる。 この目的のために, 階層的スケルトンベース表現を用いて, 正準不定空間上の符号付き距離関数を学習する。 この関節による分解により, 関節周囲の空間に局所的な微妙な詳細を表現できる。 トレーニングに地味なSDFを必要とする従来のニューラル暗黙法とは異なり、私たちのモデルは、トレーニングにポーズされた骨格とポイントクラウドしか必要とせず、従来のパラメトリックモデルや従来のスキンニングアプローチに依存していません。 種々の単目的および多目的のベンチマークで最先端の結果を得る。

We present HIPNet, a neural implicit pose network trained on multiple subjects across many poses. HIPNet can disentangle subject-specific details from pose-specific details, effectively enabling us to retarget motion from one subject to another or to animate between keyframes through latent space interpolation. To this end, we employ a hierarchical skeleton-based representation to learn a signed distance function on a canonical unposed space. This joint-based decomposition enables us to represent subtle details that are local to the space around the body joint. Unlike previous neural implicit method that requires ground-truth SDF for training, our model we only need a posed skeleton and the point cloud for training, and we have no dependency on a traditional parametric model or traditional skinning approaches. We achieve state-of-the-art results on various single-subject and multi-subject benchmarks.
翻訳日:2021-12-03 15:02:24 公開日:2021-12-02
# 解剖学的前駆体を用いたブラックブルードMRIにおける深層学習に基づく頸動脈壁剥離術

Deep Learning-Based Carotid Artery Vessel Wall Segmentation in Black-Blood MRI Using Anatomical Priors ( http://arxiv.org/abs/2112.01137v1 )

ライセンス: Link先を確認
Dieuwertje Alblas, Christoph Brune, Jelmer M. Wolterink(参考訳) 頸動脈血管壁厚の測定は動脈硬化患者のモニタリングにおいて重要なステップである。 これは、血管壁、すなわち動脈の腔と外壁の間の領域をブラックブラッド磁気共鳴(MR)画像で正確に分割する必要がある。 セマンティックセグメンテーションによく使われる畳み込みニューラルネットワーク(cnns)は、連続したリング状セグメンテーションを保証しないため、このタスクに最適である。 そこで本研究では,極座標系におけるマルチタスク回帰問題として容器壁のセグメンテーションを適用した。 各軸方向の画像スライスにおける頸動脈について, 血管壁を並立する2つの非交差型輪郭を同時に発見することを目的としている。 この問題に適用されたCNNは、リング状の容器壁を保証する誘導バイアスを可能にする。 さらに,セグメンテーション性能に大きな影響を及ぼす問題固有のトレーニングデータ拡張手法を同定する。 本手法は内頸動脈壁および外頸動脈壁の分節化に応用し,血管壁に対して0.813,ルーメンと外壁に対して0.552mm,0.5776mmの中央のハウスドルフ距離を,一般の挑戦においてトップランクの定量的結果を得る。 さらに,従来のセマンティックセグメンテーション手法よりも手法が優れていることを示す。 これらの結果から, 頸動脈血管壁の解剖学的に有望なセグメントを高精度に自動的に得ることが可能であった。

Carotid artery vessel wall thickness measurement is an essential step in the monitoring of patients with atherosclerosis. This requires accurate segmentation of the vessel wall, i.e., the region between an artery's lumen and outer wall, in black-blood magnetic resonance (MR) images. Commonly used convolutional neural networks (CNNs) for semantic segmentation are suboptimal for this task as their use does not guarantee a contiguous ring-shaped segmentation. Instead, in this work, we cast vessel wall segmentation as a multi-task regression problem in a polar coordinate system. For each carotid artery in each axial image slice, we aim to simultaneously find two non-intersecting nested contours that together delineate the vessel wall. CNNs applied to this problem enable an inductive bias that guarantees ring-shaped vessel walls. Moreover, we identify a problem-specific training data augmentation technique that substantially affects segmentation performance. We apply our method to segmentation of the internal and external carotid artery wall, and achieve top-ranking quantitative results in a public challenge, i.e., a median Dice similarity coefficient of 0.813 for the vessel wall and median Hausdorff distances of 0.552 mm and 0.776 mm for lumen and outer wall, respectively. Moreover, we show how the method improves over a conventional semantic segmentation approach. These results show that it is feasible to automatically obtain anatomically plausible segmentations of the carotid vessel wall with high accuracy.
翻訳日:2021-12-03 15:01:13 公開日:2021-12-02
# 中央データによるコミュニケーション効率のよいフェデレーション学習:水平フェデレーション学習における垂直トレーニングの実装

A Communication-effici ent Federated learning assisted by Central data: Implementation of vertical training into Horizontal Federated learning ( http://arxiv.org/abs/2112.01039v1 )

ライセンス: Link先を確認
Shuo Wan, Jiaxun Lu, Pingyi Fan, Yunfeng Shao, Chenghui Peng, and Khaled B. Letaief(参考訳) フェデレートラーニング(FL)は、中央データ収集の必要性を回避しつつ、IoT内の分散データセットでモデルを共同トレーニングするために登場した。 観測範囲が限られているため、そのようなデータセットは、訓練されたモデルの品質を制限するローカル情報のみを反映することができる。 実践的なネットワークでは、グローバル情報と局所的な観測は常に共存し、合理的な政策を学習するためには共同で検討する必要がある。 しかし、分散クライアント間の水平FLでは、中央機関がモデルアグリゲータとして機能し、そのグローバルな特徴を利用してモデルをさらに改善する。 これは、グローバル情報が明らかに精度を向上させるフロー予測のような、いくつかのミッションでのパフォーマンスを著しく低下させる可能性がある。 一方、このようなグローバル機能は、データセキュリティのためにエージェントに直接送信されない。 そして、その安全性を保ちながら、中央機関のグローバルな監視をいかに活用するかが、FLの重要な課題である。 そこで,本稿では,縦-水平共役学習 (vhfl) プロセスを開発した。このプロセスでは,追加のコミュニケーションラウンドを必要とせず,縦 fl と同様の手順でグローバル特徴をエージェントと共有する。 遅延とパケット損失を考慮し,ネットワークシステムの収束解析を行い,実験によりその性能を検証した。 提案したVHFLは,グローバルデータのセキュリティを保護しながら水平FLと比較して精度を向上させることができる。

Federated learning (FL) has emerged to jointly train a model with distributed data sets in IoT while avoiding the need for central data collection. Due to limited observation range, such data sets can only reflect local information, which limits the quality of trained models. In practical network, the global information and local observations always coexist, which requires joint consideration for learning to make reasonable policy. However, in horizontal FL among distributed clients, the central agency only acts as a model aggregator without utilizing its global features to further improve the model. This could largely degrade the performance in some missions such as flow prediction, where the global information could obviously enhance the accuracy. Meanwhile, such global feature may not be directly transmitted to agents for data security. Then how to utilize the global observation residing in the central agency while protecting its safety rises up as an important problem in FL. In this paper, we developed the vertical-horizontal federated learning (VHFL) process, where the global feature is shared with the agents in a procedure similar to vertical FL without extra communication rounds. Considering the delay and packet loss, we analyzed its convergence in the network system and validated its performance by experiments. The proposed VHFL could enhance the accuracy compared with the horizontal FL while protecting the security of global data.
翻訳日:2021-12-03 15:00:20 公開日:2021-12-02
# コンセンサスから診断へ:半教師関係抽出のためのマルチティーラー蒸留

From Consensus to Disagreement: Multi-Teacher Distillation for Semi-Supervised Relation Extraction ( http://arxiv.org/abs/2112.01048v1 )

ライセンス: Link先を確認
Wanli Li and Tieyun Qian(参考訳) ラベル付きデータの欠如は関係抽出の主な障害である。 半教師付き関係抽出(SSRE)は、未ラベルサンプルを追加のトレーニングデータとしてアノテートすることで、この問題に対して有望な方法であることが証明されている。 このラインにおけるほぼ全ての以前の研究は、これらのモデルから予測された結果の交点セットを取ることによって、アノテーションをより信頼性を高めるために複数のモデルを採用する。 しかし、ラベルのないデータに関する豊富な情報を含む差分集合は、以前から無視されてきた。 本稿では,SSREにおけるコンセンサスだけでなく,モデル間の相違点からも学習することを提案する。 そこで我々は,既存のSSRE手法に容易に組み込むことのできる,シンプルで汎用的なマルチティーチンガー蒸留(MTD)フレームワークを開発した。 具体的には,教師が複数のモデルに対応するようにし,ラベル付きデータを通常通り増やすためのssre法において,最後のイテレーションの交点集合のサンプルを選択する。 次に,サンプルのクラス分布をソフトラベルとして転送し,学生の指導を行う。 最終的に,訓練学生モデルを用いて予測を行う。 2つの公開データセットに対する実験結果から,我々のフレームワークは,計算コストの低い基本SSRE法の性能を著しく向上させることが示された。

Lack of labeled data is a main obstacle in relation extraction. Semi-supervised relation extraction (SSRE) has been proven to be a promising way for this problem through annotating unlabeled samples as additional training data. Almost all prior researches along this line adopt multiple models to make the annotations more reliable by taking the intersection set of predicted results from these models. However, the difference set, which contains rich information about unlabeled data, has been long neglected by prior studies. In this paper, we propose to learn not only from the consensus but also the disagreement among different models in SSRE. To this end, we develop a simple and general multi-teacher distillation (MTD) framework, which can be easily integrated into any existing SSRE methods. Specifically, we first let the teachers correspond to the multiple models and select the samples in the intersection set of the last iteration in SSRE methods to augment labeled data as usual. We then transfer the class distributions for samples in the difference set as soft labels to guide the student. We finally perform prediction using the trained student model. Experimental results on two public datasets demonstrate that our framework significantly promotes the performance of the base SSRE methods with pretty low computational cost.
翻訳日:2021-12-03 14:59:37 公開日:2021-12-02
# 意図制御を用いた複数文献の引用文生成の試み

Towards generating citation sentences for multiple references with intent control ( http://arxiv.org/abs/2112.01332v1 )

ライセンス: Link先を確認
Jia-Yan Wu, Alexander Te-Wei Shieh, Shih-Ju Hsu, Yun-Nung Chen(参考訳) 機械生成の引用文は、自動科学文献のレビューと記事執筆を支援することができる。 現在の引用テキスト生成方法は引用文書と引用文書を入力として単一の引用文生成に制限されていた。 しかし、現実の状況では、著者は複数の研究を1文で要約したり、段落全体を通して関連する情報を議論することが多い。 さらに、これまで複数の引用意図が特定されており、異なるシナリオをカバーするために生成された文の意図を制御する必要があることを示唆している。 そこで本研究では,複数の引用文の生成と,新たに収集したcitemiというデータセットの公開に注目する。 まず、複数の長い入力に対応するためにFusion-in-Decoderアプローチを用いて新しい生成モデルを構築する。 第2に,予測された引用意図をインテント制御のためのトレーニングに組み込む。 実験により,提案手法は引用文を生成するためのより包括的な特徴を提供することが示された。

Machine-generated citation sentences can aid automated scientific literature review and assist article writing. Current methods in generating citation text were limited to single citation generation using the citing document and a cited document as input. However, in real-world situations, writers often summarize several studies in one sentence or discuss relevant information across the entire paragraph. In addition, multiple citation intents have been previously identified, implying that writers may need control over the intents of generated sentences to cover different scenarios. Therefore, this work focuses on generating multiple citations and releasing a newly collected dataset named CiteMI to drive the future research. We first build a novel generation model with the Fusion-in-Decoder approach to cope with multiple long inputs. Second, we incorporate the predicted citation intents into training for intent control. The experiments demonstrate that the proposed approaches provide much more comprehensive features for generating citation sentences.
翻訳日:2021-12-03 14:59:14 公開日:2021-12-02
# (参考訳) transfgu: きめ細かな教師なしセグメンテーションのためのトップダウンアプローチ [全文訳有]

TransFGU: A Top-down Approach to Fine-Grained Unsupervised Semantic Segmentation ( http://arxiv.org/abs/2112.01515v1 )

ライセンス: CC BY 4.0
Zhaoyuan Yin, Pichao Wang, Fan Wang, Xianzhe Xu, Hanling Zhang, Hao Li, Rong Jin(参考訳) 教師なしセマンティックセグメンテーションは、手動のアノテーションを使わずに、低レベルの視覚的特徴の高レベルセマンティック表現を得ることを目的としている。 既存の手法のほとんどはボトムアップのアプローチで、ピクセルを視覚的な手がかりや事前定義されたルールに基づいて領域にグループ化しようとする。 その結果、複数のオブジェクトと類似した視覚的な外観を持ついくつかのオブジェクトが複雑なシーンに現れると、これらのボトムアップアプローチがきめ細かなセマンティックセグメンテーションを生成することは困難である。 対照的に,超複雑なシナリオにおける細粒度のセグメンテーションのための,最初のトップダウン非教師なしセグメンテーションフレームワークを提案する。 具体的には,まず,大規模視覚データから自己教師あり学習方法でリッチな高レベル構造化意味概念情報を取得し,それ以前の情報を用いて対象データセットに提示される潜在的な意味カテゴリーを探索する。 第二に、発見された高レベルセマンティックカテゴリは、ある発見されたセマンティック表現に関してクラスアクティベーションマップ(CAM)を計算することにより、低レベルのピクセル特徴にマッピングされる。 最後に、得られたCAMは擬似ラベルとして機能し、セグメンテーションモジュールをトレーニングし、最終的なセグメンテーションを生成する。 複数のセマンティックセグメンテーションベンチマークの実験結果から、トップダウンの教師なしセグメンテーションは、異なるセマンティックセグメンテーションレベルのオブジェクト中心とシーン中心のデータセットの両方に対して堅牢であり、現在のボトムアップ手法よりも優れています。 私たちのコードは \url{https://github.com/d amo-cv/TransFGU} で利用可能です。

Unsupervised semantic segmentation aims to obtain high-level semantic representation on low-level visual features without manual annotations. Most existing methods are bottom-up approaches that try to group pixels into regions based on their visual cues or certain predefined rules. As a result, it is difficult for these bottom-up approaches to generate fine-grained semantic segmentation when coming to complicated scenes with multiple objects and some objects sharing similar visual appearance. In contrast, we propose the first top-down unsupervised semantic segmentation framework for fine-grained segmentation in extremely complicated scenarios. Specifically, we first obtain rich high-level structured semantic concept information from large-scale vision data in a self-supervised learning manner, and use such information as a prior to discover potential semantic categories presented in target datasets. Secondly, the discovered high-level semantic categories are mapped to low-level pixel features by calculating the class activate map (CAM) with respect to certain discovered semantic representation. Lastly, the obtained CAMs serve as pseudo labels to train the segmentation module and produce final semantic segmentation. Experimental results on multiple semantic segmentation benchmarks show that our top-down unsupervised segmentation is robust to both object-centric and scene-centric datasets under different semantic granularity levels, and outperforms all the current state-of-the-art bottom-up methods. Our code is available at \url{https://github.com/d amo-cv/TransFGU}.
翻訳日:2021-12-03 14:57:23 公開日:2021-12-02
# Hindsight Task Relabelling: Sparse Reward Meta-RLの経験リプレイ

Hindsight Task Relabelling: Experience Replay for Sparse Reward Meta-RL ( http://arxiv.org/abs/2112.00901v1 )

ライセンス: Link先を確認
Charles Packer, Pieter Abbeel, Joseph E. Gonzalez(参考訳) メタ強化学習(meta-reinforcement learning, meta-rl)は、新しい関連するタスクを素早く学習するために、以前のタスクからの経験を活用するためのフレームワークであることが証明されている。 既存のメタRLアルゴリズムは、新しいスパース報酬タスクに適応するための戦略を学ぶことができるが、実際の適応戦略は手形報酬関数を用いて学習されるか、スパース報酬に遭遇するのにランダム探索が十分である単純な環境を必要とする。 そこで,本稿では,メタ学習中に経験を積んだメタrlに対する後天的relabelingの定式化について述べる。 提案手法の有効性を,メタトレーニング中に高い報酬を要求されるような,難易度の高い目標達成環境において実証する。 提案手法は,真のスパース報酬関数を用いて,プロキシ密度報酬関数を用いたトレーニングに匹敵する性能で,これらの環境を解消する。

Meta-reinforcement learning (meta-RL) has proven to be a successful framework for leveraging experience from prior tasks to rapidly learn new related tasks, however, current meta-RL approaches struggle to learn in sparse reward environments. Although existing meta-RL algorithms can learn strategies for adapting to new sparse reward tasks, the actual adaptation strategies are learned using hand-shaped reward functions, or require simple environments where random exploration is sufficient to encounter sparse reward. In this paper, we present a formulation of hindsight relabeling for meta-RL, which relabels experience during meta-training to enable learning to learn entirely using sparse reward. We demonstrate the effectiveness of our approach on a suite of challenging sparse reward goal-reaching environments that previously required dense reward during meta-training to solve. Our approach solves these environments using the true sparse reward function, with performance comparable to training with a proxy dense reward function.
翻訳日:2021-12-03 14:39:32 公開日:2021-12-02
# HyperSPNs:コンパクトで表現力のある確率回路

HyperSPNs: Compact and Expressive Probabilistic Circuits ( http://arxiv.org/abs/2112.00914v1 )

ライセンス: Link先を確認
Andy Shih and Dorsa Sadigh and Stefano Ermon(参考訳) 確率回路(probabilistic circuits, pcs)は、確率分布の正確な可能性と限界の計算を可能にする生成モデルの一群である。 PCは表現力とトラクタブルであり、離散密度推定タスクの一般的な選択肢として機能する。 しかし、大きなPCは過度に適合する可能性があり、いくつかの正規化戦略(ドロップアウト、重量減少など)が研究されている。 小型ニューラルネットワークを用いた大規模PCの混合重み生成のための新しいパラダイムであるHyperSPNを提案する。 我々のフレームワークは、より優れた一般化と小型モデルのメモリフットプリント特性とを組み合わさった、ソフトウェイトシェアリング戦略と見なすことができる。 近年の文献で紹介された2つの最先端pcファミリー – rat-spns と einets -- における正規化戦略のメリットを示し,離散領域と連続領域の両方における密度推定ベンチマークスイート上で,両モデルにおける一般化改善を示す。

Probabilistic circuits (PCs) are a family of generative models which allows for the computation of exact likelihoods and marginals of its probability distributions. PCs are both expressive and tractable, and serve as popular choices for discrete density estimation tasks. However, large PCs are susceptible to overfitting, and only a few regularization strategies (e.g., dropout, weight-decay) have been explored. We propose HyperSPNs: a new paradigm of generating the mixture weights of large PCs using a small-scale neural network. Our framework can be viewed as a soft weight-sharing strategy, which combines the greater expressiveness of large models with the better generalization and memory-footprint properties of small models. We show the merits of our regularization strategy on two state-of-the-art PC families introduced in recent literature -- RAT-SPNs and EiNETs -- and demonstrate generalization improvements in both models on a suite of density estimation benchmarks in both discrete and continuous domains.
翻訳日:2021-12-03 14:39:13 公開日:2021-12-02
# レコメンデーション付きレコメンデーション

Recommending with Recommendations ( http://arxiv.org/abs/2112.00979v1 )

ライセンス: Link先を確認
Naveen Durvasula, Franklyn Wang, Scott Duke Kominers(参考訳) レコメンデーションシステムは機械学習の重要な現代的応用であるが、予測を行う際にセンシティブなユーザー情報を引き出すことが多いという欠点がある。 この障害に対処するには、他の既存サービスからのレコメンデーションに基づいてサービスのレコメンデーションエンジンをベースとして、本質的にセンシティブな情報を含まない方法で対処する方法を示す。 具体的には,エージェントが他のサービスのレコメンデーションにアクセス可能なコンテキスト対応の多武装バンディットレコメンデーションフレームワークを提案する。 我々の設定では、ユーザの(潜在的にセンシティブな)情報は高次元の潜在空間に属し、ソースおよびターゲットタスク(非センシティブな)に対する理想的な勧告は、ユーザ情報の未知の線形変換によって与えられる。 タスクがユーザ情報の類似のセグメントに依存している限り、ターゲットのレコメンデーション問題を、ソースレコメンデーションから派生できる体系的なコンポーネントと、ユーザ固有でソースから派生することができないが、かなり低い次元を持つ慣用的なコンポーネントに分解することができる。 そこで本研究では,摂動理論と測定値の統計的集中から得られたアイデアを用いて,ソースと対象変換の完全な知識を持つ強いスカイラインに匹敵する後悔をアルゴリズムが達成できることを実証する。 また,複数の同時ターゲットを持つモデルへのアルゴリズムの一般化も検討した。 本手法は合成ベンチマークにおいて優れた実験結果を得る。

Recommendation systems are a key modern application of machine learning, but they have the downside that they often draw upon sensitive user information in making their predictions. We show how to address this deficiency by basing a service's recommendation engine upon recommendations from other existing services, which contain no sensitive information by nature. Specifically, we introduce a contextual multi-armed bandit recommendation framework where the agent has access to recommendations for other services. In our setting, the user's (potentially sensitive) information belongs to a high-dimensional latent space, and the ideal recommendations for the source and target tasks (which are non-sensitive) are given by unknown linear transformations of the user information. So long as the tasks rely on similar segments of the user information, we can decompose the target recommendation problem into systematic components that can be derived from the source recommendations, and idiosyncratic components that are user-specific and cannot be derived from the source, but have significantly lower dimensionality. We propose an explore-then-refine approach to learning and utilizing this decomposition; then using ideas from perturbation theory and statistical concentration of measure, we prove our algorithm achieves regret comparable to a strong skyline that has full knowledge of the source and target transformations. We also consider a generalization of our algorithm to a model with many simultaneous targets and no source. Our methods obtain superior empirical results on synthetic benchmarks.
翻訳日:2021-12-03 14:37:16 公開日:2021-12-02
# MLP学習における特徴多様性のトラップ

Trap of Feature Diversity in the Learning of MLPs ( http://arxiv.org/abs/2112.00980v1 )

ライセンス: Link先を確認
Dongrui Liu, Shaobo Wang, Jie Ren, Kangrui Wang, Sheng Yin, Quanshi Zhang(参考訳) 本稿では,多層パーセプトロン(MLP)の学習における二相現象について述べる。 第1フェーズでは、トレーニング損失が大幅に減少することはないが、異なるサンプル間の特徴の類似度が増加し、特徴の多様性が損なわれる。 MLPの学習力学の観点から,このような2相現象を説明する。 さらに,2相現象を排除し,特徴量の減少を回避し,トレーニングプロセスを高速化する2つの正規化操作を提案する。

In this paper, we discover a two-phase phenomenon in the learning of multi-layer perceptrons (MLPs). I.e., in the first phase, the training loss does not decrease significantly, but the similarity of features between different samples keeps increasing, which hurts the feature diversity. We explain such a two-phase phenomenon in terms of the learning dynamics of the MLP. Furthermore, we propose two normalization operations to eliminate the two-phase phenomenon, which avoids the decrease of the feature diversity and speeds up the training process.
翻訳日:2021-12-03 14:36:50 公開日:2021-12-02
# AutoGEL: 明示的なリンク情報を備えたグラフニューラルネットワーク

AutoGEL: An Automated Graph Neural Network with Explicit Link Information ( http://arxiv.org/abs/2112.01064v1 )

ライセンス: Link先を確認
Zhili Wang, Shimin Di, Lei Chen(参考訳) 最近、グラフニューラルネットワーク(GNN)は様々な現実世界のシナリオで人気を集めている。 大きな成功にもかかわらず、GNNのアーキテクチャ設計は手作業に大きく依存している。 このようにして、自動グラフニューラルネットワーク(AutoGNN)は研究コミュニティから関心を集め、近年は大幅なパフォーマンス向上を遂げている。 しかし、既存のAutoGNNは主にグラフ内のリンク情報をモデル化し活用する暗黙の手法を採用しており、グラフ上のリンク予測タスクに十分に正規化されていないため、他のグラフタスクに対するAutoGNNの性能が制限されている。 本稿では,リンク情報を明示的にモデル化する新しいAutoGNNについて述べる。 このようにして、AutoGELはリンク予測タスクを処理でき、ノード分類およびグラフ分類タスクにおけるAutoGNNの性能を向上させることができる。 特に、AutoGELは層内設計と層間設計の両方において様々な設計次元を含む新しい探索空間を提案し、より堅牢な微分可能な探索アルゴリズムを採用し、効率と効率をさらに向上させる。 ベンチマークデータセットの実験結果は、AutoGELがいくつかのタスクで優れていることを示す。

Recently, Graph Neural Networks (GNNs) have gained popularity in a variety of real-world scenarios. Despite the great success, the architecture design of GNNs heavily relies on manual labor. Thus, automated graph neural network (AutoGNN) has attracted interest and attention from the research community, which makes significant performance improvements in recent years. However, existing AutoGNN works mainly adopt an implicit way to model and leverage the link information in the graphs, which is not well regularized to the link prediction task on graphs, and limits the performance of AutoGNN for other graph tasks. In this paper, we present a novel AutoGNN work that explicitly models the link information, abbreviated to AutoGEL. In such a way, AutoGEL can handle the link prediction task and improve the performance of AutoGNNs on the node classification and graph classification task. Specifically, AutoGEL proposes a novel search space containing various design dimensions at both intra-layer and inter-layer designs and adopts a more robust differentiable search algorithm to further improve efficiency and effectiveness. Experimental results on benchmark data sets demonstrate the superiority of AutoGEL on several tasks.
翻訳日:2021-12-03 14:36:41 公開日:2021-12-02
# コンビニアルセミバンドのリスク認識アルゴリズム

Risk-Aware Algorithms for Combinatorial Semi-Bandits ( http://arxiv.org/abs/2112.01141v1 )

ライセンス: Link先を確認
Shaarad Ayyagari, Ambedkar Dukkipati(参考訳) 本稿では,半帯域フィードバック下での確率的組合せ多重武装バンディット問題について検討する。 線形および一般報酬関数に対する期待報酬を最適化するアルゴリズムについて多くの研究がなされているが、我々はリスクを意識することを目的とした問題の変種を研究している。 より具体的には、最悪の報酬のみを考慮したリスク尺度である条件付きバリュー・アット・リスク(CVaR)の最大化の問題を検討する。 本稿では,ガウスと有界の2つの腕報酬に対して,組合せバンディットのスーパーアームから得られる報酬のCVaRを最大化するアルゴリズムを提案する。 さらに,これらのアルゴリズムを解析し,後悔の限界を与える。 本研究は,リスク対応事例における組合せ半帯域問題に関する最初の理論的知見を提供するものであると考えている。

In this paper, we study the stochastic combinatorial multi-armed bandit problem under semi-bandit feedback. While much work has been done on algorithms that optimize the expected reward for linear as well as some general reward functions, we study a variant of the problem, where the objective is to be risk-aware. More specifically, we consider the problem of maximizing the Conditional Value-at-Risk (CVaR), a risk measure that takes into account only the worst-case rewards. We propose new algorithms that maximize the CVaR of the rewards obtained from the super arms of the combinatorial bandit for the two cases of Gaussian and bounded arm rewards. We further analyze these algorithms and provide regret bounds. We believe that our results provide the first theoretical insights into combinatorial semi-bandit problems in the risk-aware case.
翻訳日:2021-12-03 14:36:23 公開日:2021-12-02
# 並列処理を用いたニュートン法に基づく畳み込みニューラルネットワーク

Newton methods based convolution neural networks using parallel processing ( http://arxiv.org/abs/2112.01401v1 )

ライセンス: Link先を確認
Ujjwal Thakur, Anuj Sharma(参考訳) 畳み込みニューラルネットワークのトレーニングは、高次元および非凸最適化問題である。 現在、パラメトリック学習率を自信を持って設定できない状況では非効率である。 ディープニューラルネットワークのトレーニングにニュートン法を導入した過去の作品もある。 畳み込みニューラルネットワークのニュートン法は複雑な操作を含む。 2階法におけるヘッセン行列の探索は,主に画像データとの差分法を用いるため,非常に複雑になる。 畳み込みニューラルネットワークのニュートン法は、サブサンプルのヘッセンニュートン法を用いてこれを扱う。 本稿では,部分データのみを処理するサブサンプリング方式ではなく,完全なデータを用いた。 さらに,ミニバッチ計算ではシリアル処理の代わりに並列処理を用いる。 本研究で得られた並列処理の結果は, 従来の手法よりも優れていた。

Training of convolutional neural networks is a high dimensional and a non-convex optimization problem. At present, it is inefficient in situations where parametric learning rates can not be confidently set. Some past works have introduced Newton methods for training deep neural networks. Newton methods for convolutional neural networks involve complicated operations. Finding the Hessian matrix in second-order methods becomes very complex as we mainly use the finite differences method with the image data. Newton methods for convolutional neural networks deals with this by using the sub-sampled Hessian Newton methods. In this paper, we have used the complete data instead of the sub-sampled methods that only handle partial data at a time. Further, we have used parallel processing instead of serial processing in mini-batch computations. The results obtained using parallel processing in this study, outperform the time taken by the previous approach.
翻訳日:2021-12-03 14:33:58 公開日:2021-12-02
# 質的フィルタ付き模倣学習

Quantile Filtered Imitation Learning ( http://arxiv.org/abs/2112.00950v1 )

ライセンス: Link先を確認
David Brandfonbrener, William F. Whitney, Rajesh Ranganath, Joan Bruna(参考訳) 本稿では,オフライン強化学習用に設計された新しいポリシー改善オペレータであるqfil(quanttile filtered imitation learning)を紹介する。 QFILは、オフラインデータセットのフィルタバージョンで模倣学習を実行することでポリシー改善を行う。 フィルタリング処理は、振る舞いポリシーからアクションをサンプリングすることによって引き起こされる値に対するプッシュフォワード分布の所定の量子値以下である$s,a $ペアを除去する。 プッシュフォワードQ分布と結果値関数量子化の両方の定義は,本手法の重要な貢献である。 qfilは、関数近似による安全なポリシー改善ステップを提供し、量子量論の選択は、バイアスと改善ステップのばらつきをトレードオフする自然なハイパーパラメータを提供する。 実験的に、QFILがバイアス分散トレードオフを効果的に行う方法を示す合成実験を行い、QFILがD4RLベンチマークでよく動作することを示した。

We introduce quantile filtered imitation learning (QFIL), a novel policy improvement operator designed for offline reinforcement learning. QFIL performs policy improvement by running imitation learning on a filtered version of the offline dataset. The filtering process removes $ s,a $ pairs whose estimated Q values fall below a given quantile of the pushforward distribution over values induced by sampling actions from the behavior policy. The definitions of both the pushforward Q distribution and resulting value function quantile are key contributions of our method. We prove that QFIL gives us a safe policy improvement step with function approximation and that the choice of quantile provides a natural hyperparameter to trade off bias and variance of the improvement step. Empirically, we perform a synthetic experiment illustrating how QFIL effectively makes a bias-variance tradeoff and we see that QFIL performs well on the D4RL benchmark.
翻訳日:2021-12-03 14:33:29 公開日:2021-12-02
# 誰が大学を中退しますか。 解釈可能な機械学習に基づく学術リスク予測

Who will dropout from university? Academic risk prediction based on interpretable machine learning ( http://arxiv.org/abs/2112.01079v1 )

ライセンス: Link先を確認
Shudong Yang (1) ((1) Dalian University of Technology)(参考訳) システム研究モードでは,高次元,非バランスな分類小標本を有する学生行動データセットから,どの特徴が学術的リスクを予測するのに最適な指標かを探索するために,大学生の学術的リスク予測を二元的分類タスクに変換する。 LightGBMモデルとShapley値の解釈可能な機械学習手法に基づいて,学術的リスクを予測する。 シミュレーションの結果, 予測モデルの世界的観点からは, 学友の質, 教室の席位, 寮の学習雰囲気, 大学入学試験の英語スコア, 学友の量, ゲーム依存度, 学友の移動度, 学友の移動度などの特性が, 学友の学友にとって最高の8つの予測因子であることがわかった。 キャンパスに住まうか、職場で学ぶか、口紅中毒か、学生リーダーか、恋人数か、喫煙かといった特徴は、この実験における大学生のリスクとはほとんど相関しない。 サンプルの地域的視点から見ると、学術的リスクに影響する要因は人によって異なる。 シェープリー値を通じてパーソナライズされた解釈可能な解析を行うことができ、従来の数学的統計的予測モデルでは実行できない。 この研究の学術的貢献は主に2つの側面からなる: まず、学習相互作用ネットワークが最初に提案され、社会的行動が一方的な個人行動の補償や学術的リスク予測の性能向上に利用できる。 第2に、shapley値計算の導入によって、明確な推論プロセスの欠如した機械学習が実現され、教育マネージャに直感的な意思決定サポートを提供する。

In the institutional research mode, in order to explore which characteristics are the best indicators for predicting academic risk from the student behavior data sets that have high-dimensional, unbalanced classified small sample, it transforms the academic risk prediction of college students into a binary classification task. It predicts academic risk based on the LightGBM model and the interpretable machine learning method of Shapley value. The simulation results show that from the global perspective of the prediction model, characteristics such as the quality of academic partners, the seating position in classroom, the dormitory study atmosphere, the English scores of the college entrance examination, the quantity of academic partners, the addiction level of video games, the mobility of academic partners, and the degree of truancy are the best 8 predictors for academic risk. It is contrary to intuition that characteristics such as living in campus or not, work-study, lipstick addiction, student leader or not, lover amount, and smoking have little correlation with university academic risk in this experiment. From the local perspective of the sample, the factors affecting academic risk vary from person to person. It can perform personalized interpretable analysis through Shapley values, which cannot be done by traditional mathematical statistical prediction models. The academic contributions of this research are mainly in two aspects: First, the learning interaction networks is proposed for the first time, so that social behavior can be used to compensate for the one-sided individual behavior and improve the performance of academic risk prediction. Second, the introduction of Shapley value calculation makes machine learning that lacks a clear reasoning process visualized, and provides intuitive decision support for education managers.
翻訳日:2021-12-03 14:33:14 公開日:2021-12-02
# サンプル選択バイアスによるオフポリティ学習の一般化

Generalizing Off-Policy Learning under Sample Selection Bias ( http://arxiv.org/abs/2112.01387v1 )

ライセンス: Link先を確認
Tobias Hatt, Daniel Tschernutter, Stefan Feuerriegel(参考訳) ターゲット人口に一般化したパーソナライズされた意思決定方針を学ぶことは、非常に有益である。 訓練データはしばしば対象人口を代表していないため、標準政策学習法は対象人口を一般化しない政策を導出することができる。 この課題に対処するため,対象人口に一般化した学習政策の枠組みを提案する。 本研究では,学習データと対象個体群との差異を,選択変数を用いてサンプル選択バイアスとして特徴付ける。 この選択変数に関する不確実性について、ターゲット個体群に対する最悪の政策値を達成するためにポリシーのミニマックス値を最適化する。 ミニマックス問題を解くために、凸凹法に基づく効率的なアルゴリズムを導出し、ロジスティックポリシーのようなポリシーのパラメータ化された空間の収束性を証明する。 不確実性セットが適切に特定されている場合、トレーニングデータよりも悪いことができないため、我々のポリシーはターゲット人口に一般化される。 シミュレーションデータと臨床試験を用いて,標準的な政策学習手法と比較して,政策の一般化性が大幅に向上することを示す。

Learning personalized decision policies that generalize to the target population is of great relevance. Since training data is often not representative of the target population, standard policy learning methods may yield policies that do not generalize target population. To address this challenge, we propose a novel framework for learning policies that generalize to the target population. For this, we characterize the difference between the training data and the target population as a sample selection bias using a selection variable. Over an uncertainty set around this selection variable, we optimize the minimax value of a policy to achieve the best worst-case policy value on the target population. In order to solve the minimax problem, we derive an efficient algorithm based on a convex-concave procedure and prove convergence for parametrized spaces of policies such as logistic policies. We prove that, if the uncertainty set is well-specified, our policies generalize to the target population as they can not do worse than on the training data. Using simulated data and a clinical trial, we demonstrate that, compared to standard policy learning methods, our framework improves the generalizability of policies substantially.
翻訳日:2021-12-03 14:32:22 公開日:2021-12-02
# ソフトな等分散制約に対する残留経路優先法

Residual Pathway Priors for Soft Equivariance Constraints ( http://arxiv.org/abs/2112.01388v1 )

ライセンス: Link先を確認
Marc Finzi, Gregory Benton, Andrew Gordon Wilson(参考訳) 現実のニュアンスを捉えるのに十分な表現力を持つ深層学習システムを構築することと、効率的な学習のための正しい帰納的バイアスを持つこととの間には、しばしばトレードオフがある。 強固なアーキテクチャ上の制約をソフトな優先へと変換し、モデルを構造化されたソリューションへと導く手法として、余剰経路優先(rpps)を導入する。 rppを用いて,等価性に対する帰納的バイアスを持つニューラルネットワークを,柔軟性を制限せずに構築する。 RPPは近似対称性や不特定対称性に耐性があり、対称性が正確であっても完全に制約されたモデルと同じくらい有効であることを示す。 動的システム,表計算データ,強化学習によるRCPの適用性について紹介する。 接触力と指向性報酬が厳密な等価仮定に反するムジョコ移動タスクでは、RCPはベースラインモデルフリーのRLエージェントより優れ、モデルベースRLの学習遷移モデルも改善する。

There is often a trade-off between building deep learning systems that are expressive enough to capture the nuances of the reality, and having the right inductive biases for efficient learning. We introduce Residual Pathway Priors (RPPs) as a method for converting hard architectural constraints into soft priors, guiding models towards structured solutions, while retaining the ability to capture additional complexity. Using RPPs, we construct neural network priors with inductive biases for equivariances, but without limiting flexibility. We show that RPPs are resilient to approximate or misspecified symmetries, and are as effective as fully constrained models even when symmetries are exact. We showcase the broad applicability of RPPs with dynamical systems, tabular data, and reinforcement learning. In Mujoco locomotion tasks, where contact forces and directional rewards violate strict equivariance assumptions, the RPP outperforms baseline model-free RL agents, and also improves the learned transition models for model-based RL.
翻訳日:2021-12-03 14:32:05 公開日:2021-12-02
# (参考訳) 複素値深層学習のための共ドメイン対称性 [全文訳有]

Co-domain Symmetry for Complex-Valued Deep Learning ( http://arxiv.org/abs/2112.01525v1 )

ライセンス: CC BY 4.0
Utkarsh Singhal, Yifei Xing and Stella X. Yu(参考訳) 複素数値スケーリングは、対称性の一種であり、複素数値測定と表現に特有のものである。 Deep Complex Networks (DCN) は、複素数値スケーリングに対処することなく、実数値代数を複素領域に拡張する。 SurReal は複素数の制限的多様体ビューを採り、複素スケーリング不変性を達成するために距離メートル法を採用する。 共ドメイン変換として複素値スケーリングを解析し、この特殊変換のために新しい同値および不変ニューラルネットワーク層関数を設計する。 また、RGB画像の複雑な値の表現も提案し、複雑な値のスケーリングは色チャネル間の色変化や相関変化を示す。 MSTAR, CIFAR10, CIFAR100, SVHN をベンチマークし、我々の共ドメイン対称(CDS)分類器はより精度が高く、より一般化され、コドメイン変換に対するロバスト性があり、DCN や SurReal よりもはるかに少ないパラメータでモデルのバイアスと分散が小さい。

We study complex-valued scaling as a type of symmetry natural and unique to complex-valued measurements and representations. Deep Complex Networks (DCN) extends real-valued algebra to the complex domain without addressing complex-valued scaling. SurReal takes a restrictive manifold view of complex numbers, adopting a distance metric to achieve complex-scaling invariance while losing rich complex-valued information. We analyze complex-valued scaling as a co-domain transformation and design novel equivariant and invariant neural network layer functions for this special transformation. We also propose novel complex-valued representations of RGB images, where complex-valued scaling indicates hue shift or correlated changes across color channels. Benchmarked on MSTAR, CIFAR10, CIFAR100, and SVHN, our co-domain symmetric (CDS) classifiers deliver higher accuracy, better generalization, robustness to co-domain transformations, and lower model bias and variance than DCN and SurReal with far fewer parameters.
翻訳日:2021-12-03 14:30:27 公開日:2021-12-02
# 深層学習における学習効率とロバスト性

Training Efficiency and Robustness in Deep Learning ( http://arxiv.org/abs/2112.01423v1 )

ライセンス: Link先を確認
Fartash Faghri(参考訳) Deep Learningは機械学習と人工知能に革命をもたらし、いくつかの標準ベンチマークで超人的パフォーマンスを達成した。 ディープラーニングモデルは、数百万のトレーニングデータを複数回処理することで学習し、列ではなく同時に大量のデータを並列に処理するために強力な計算資源を必要とすることはよく知られている。 深層学習モデルにも予期せぬ失敗モードがあり、それらは誤った振る舞いに騙され、予期せぬ誤った予測をもたらす。 本稿では,ディープラーニングモデルの学習効率とロバスト性を改善するための手法について検討する。 視覚的な埋め込み学習の文脈では、より有益なトレーニングデータで学習を優先することで収束速度が向上し、テストデータの一般化性能が向上する。 我々は、計算オーバーヘッドのない学習対象関数の修正として、ハードネガティブマイニングと呼ばれる単純なトリックを定式化する。 次に,深層学習における汎用最適化手法における最適化速度の改善を求める。 トレーニングデータのサンプリングを冗長性に配慮した修正により、トレーニング速度が向上し、トレーニング信号の多様性、すなわち勾配クラスタリングを検出する効率的な方法を開発した。 最後に, 深層学習における対角強靭性について検討し, 追加データによる学習を伴わずに最大対角強靭性を実現するためのアプローチを提案する。 線形モデルでは、最適化器、正規化、アーキテクチャの適切な選択によってのみ、最大ロバスト性を保証する。

Deep Learning has revolutionized machine learning and artificial intelligence, achieving superhuman performance in several standard benchmarks. It is well-known that deep learning models are inefficient to train; they learn by processing millions of training data multiple times and require powerful computational resources to process large batches of data in parallel at the same time rather than sequentially. Deep learning models also have unexpected failure modes; they can be fooled into misbehaviour, producing unexpectedly incorrect predictions. In this thesis, we study approaches to improve the training efficiency and robustness of deep learning models. In the context of learning visual-semantic embeddings, we find that prioritizing learning on more informative training data increases convergence speed and improves generalization performance on test data. We formalize a simple trick called hard negative mining as a modification to the learning objective function with no computational overhead. Next, we seek improvements to optimization speed in general-purpose optimization methods in deep learning. We show that a redundancy-aware modification to the sampling of training data improves the training speed and develops an efficient method for detecting the diversity of training signal, namely, gradient clustering. Finally, we study adversarial robustness in deep learning and approaches to achieve maximal adversarial robustness without training with additional data. For linear models, we prove guaranteed maximal robustness achieved only by appropriate choice of the optimizer, regularization, or architecture.
翻訳日:2021-12-03 14:10:21 公開日:2021-12-02
# DenseCLIP: コンテキスト対応プロンプトによる言語ガイドによるDense予測

DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting ( http://arxiv.org/abs/2112.01518v1 )

ライセンス: Link先を確認
Yongming Rao, Wenliang Zhao, Guangyi Chen, Yansong Tang, Zheng Zhu, Guan Huang, Jie Zhou, Jiwen Lu(参考訳) 近年の進歩により、コントラッシブな画像テキストペアを用いた大規模事前学習が、自然言語による高品質な視覚表現学習の代替となることが示されている。 より広い監督の源から恩恵を受けるこの新しいパラダイムは、下流の分類タスクやデータセットへの印象的な転送性を示している。 しかし、画像テキストペアからより複雑な密集予測タスクに知識を移すという問題はほとんど見つからなかった。 本稿では,CLIPの事前学習知識を暗黙的かつ明示的に活用することで,高密度予測のための新しいフレームワークを提案する。 具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。 画像からの文脈情報をさらに活用して言語モデルを促すことで、事前学習した知識をよりうまく活用することが可能になる。 この手法は,任意の密集予測システムや,CLIPモデルやImageNet事前学習モデルなど,様々な事前学習された視覚バックボーンに適用できる。 広範な実験により,セマンティクスセグメンテーション,オブジェクト検出,インスタンスセグメンテーションタスクにおいて,提案手法の優れた性能を示す。 コードはhttps://github.com/r aoyongming/DenseCLIP で入手できる。

Recent progress has shown that large-scale pre-training using contrastive image-text pairs can be a promising alternative for high-quality visual representation learning from natural language supervision. Benefiting from a broader source of supervision, this new paradigm exhibits impressive transferability to downstream classification tasks and datasets. However, the problem of transferring the knowledge learned from image-text pairs to more complex dense prediction tasks has barely been visited. In this work, we present a new framework for dense prediction by implicitly and explicitly leveraging the pre-trained knowledge from CLIP. Specifically, we convert the original image-text matching problem in CLIP to a pixel-text matching problem and use the pixel-text score maps to guide the learning of dense prediction models. By further using the contextual information from the image to prompt the language model, we are able to facilitate our model to better exploit the pre-trained knowledge. Our method is model-agnostic, which can be applied to arbitrary dense prediction systems and various pre-trained visual backbones including both CLIP models and ImageNet pre-trained models. Extensive experiments demonstrate the superior performance of our methods on semantic segmentation, object detection, and instance segmentation tasks. Code is available at https://github.com/r aoyongming/DenseCLIP
翻訳日:2021-12-03 14:09:57 公開日:2021-12-02
# ユニバーサル画像分割のためのマスク変換器

Masked-attention Mask Transformer for Universal Image Segmentation ( http://arxiv.org/abs/2112.01527v1 )

ライセンス: Link先を確認
Bowen Cheng and Ishan Misra and Alexander G. Schwing and Alexander Kirillov and Rohit Girdhar(参考訳) イメージセグメンテーション(Image segmentation)とは、カテゴリやインスタンスのメンバシップなど、異なるセマンティクスでピクセルをグループ化することである。 それぞれのタスクのセマンティクスが異なるが、現在の研究はタスクごとに特別なアーキテクチャを設計することに焦点を当てている。 Masked-attention Mask Transformer (Mask2Former)は,任意の画像セグメンテーションタスク(パノプティクス,インスタンス,セマンティクス)に対処できる新しいアーキテクチャである。 主要な構成要素は、予測されたマスク領域内での横断的注意を制限して局所的な特徴を抽出するマスク注意である。 研究の労力を少なくとも3倍に削減することに加えて、4つの一般的なデータセットにおいて、最高の特殊アーキテクチャよりも大きなマージンを持つ。 特に、mask2formerはpanoptic segmentation(coco上で57.8 pq)、インスタンスセグメンテーション(coco上で50.1 ap)、セマンティックセグメンテーション(ade20k上で57.7 miou)のための新しい最先端セグメンテーションを設定する。

Image segmentation is about grouping pixels with different semantics, e.g., category or instance membership, where each choice of semantics defines a task. While only the semantics of each task differ, current research focuses on designing specialized architectures for each task. We present Masked-attention Mask Transformer (Mask2Former), a new architecture capable of addressing any image segmentation task (panoptic, instance or semantic). Its key components include masked attention, which extracts localized features by constraining cross-attention within predicted mask regions. In addition to reducing the research effort by at least three times, it outperforms the best specialized architectures by a significant margin on four popular datasets. Most notably, Mask2Former sets a new state-of-the-art for panoptic segmentation (57.8 PQ on COCO), instance segmentation (50.1 AP on COCO) and semantic segmentation (57.7 mIoU on ADE20K).
翻訳日:2021-12-03 14:09:36 公開日:2021-12-02
# 視覚認識のための高速知識蒸留フレームワーク

A Fast Knowledge Distillation Framework for Visual Recognition ( http://arxiv.org/abs/2112.01528v1 )

ライセンス: Link先を確認
Zhiqiang Shen and Eric Xing(参考訳) 知識蒸留(KD)は、教師付き分類や自己教師型表現学習など多くの視覚的タスクにおいて有用なツールとして認識されているが、バニラKDフレームワークの主な欠点は、巨大な教師ネットワークを転送する際の計算オーバーヘッドの大部分を消費し、学習手順全体を非効率でコストがかかるメカニズムである。 最近提案されたソリューションであるReLabelは、イメージ全体のラベルマップを作成することを提案している。 トレーニング中は、RoIが収集した地域レベルのラベルを事前に生成したラベルマップに合わせることで、教師を何度も通すことなく効率的な監督生成を可能にする。 しかし、kdの教師は従来のマルチクロップ訓練から来ているため、この手法ではグローバルラベルマップと地域レベルラベルの間に様々なミスマッチがあり、結果としてパフォーマンスが低下する。 本研究では,蒸留工程を再現し,マルチクロップKDアプローチを用いてソフトラベルを生成するとともに,RoIアライメントやソフトマックス操作などのポストプロセスが使用されていないため,ReLabelよりも高速なトレーニングを行うFKDフレームワークを提案する。 データローディングで同じイメージでマルチクロップを行う場合、FKDは従来の画像分類フレームワークよりも効率的です。 ImageNet-1Kでは、ResNet-50で79.8%を獲得し、より高速なReLabelを約1.0%上回った。 自己教師付き学習タスクでは,fkdが効率上優れていることも示している。 プロジェクトページ: http://zhiqiangshen. com/projects/FKD/ind ex.html, ソースコードとモデルは以下の通りである。

While Knowledge Distillation (KD) has been recognized as a useful tool in many visual tasks, such as supervised classification and self-supervised representation learning, the main drawback of a vanilla KD framework is its mechanism, which consumes the majority of the computational overhead on forwarding through the giant teacher networks, making the entire learning procedure inefficient and costly. ReLabel, a recently proposed solution, suggests creating a label map for the entire image. During training, it receives the cropped region-level label by RoI aligning on a pre-generated entire label map, allowing for efficient supervision generation without having to pass through the teachers many times. However, as the KD teachers are from conventional multi-crop training, there are various mismatches between the global label-map and region-level label in this technique, resulting in performance deterioration. In this study, we present a Fast Knowledge Distillation (FKD) framework that replicates the distillation training phase and generates soft labels using the multi-crop KD approach, while training faster than ReLabel since no post-processes such as RoI align and softmax operations are used. When conducting multi-crop in the same image for data loading, our FKD is even more efficient than the traditional image classification framework. On ImageNet-1K, we obtain 79.8% with ResNet-50, outperforming ReLabel by ~1.0% while being faster. On the self-supervised learning task, we also show that FKD has an efficiency advantage. Our project page: http://zhiqiangshen. com/projects/FKD/ind ex.html, source code and models are available at: https://github.com/s zq0214/FKD.
翻訳日:2021-12-03 14:09:11 公開日:2021-12-02
# GLAMR: ダイナミックカメラを用いたグローバルオクルージョン対応ヒューマンメッシュリカバリ

GLAMR: Global Occlusion-Aware Human Mesh Recovery with Dynamic Cameras ( http://arxiv.org/abs/2112.01524v1 )

ライセンス: Link先を確認
Ye Yuan, Umar Iqbal, Pavlo Molchanov, Kris Kitani, Jan Kautz(参考訳) ダイナミックカメラで記録したモノクロビデオから3次元グローバルなヒューマンメッシュ復元手法を提案する。 我々のアプローチは、厳密で長期の閉塞に対して堅牢であり、カメラの視野外でも人間の身体を追跡します。 これを実現するために,我々はまず,可視的動作に基づいて自己回帰的に人体運動に浸透する深部発生運動インフィルを提案する。 さらに,従来の研究とは対照的に,ダイナミックカメラにおいても,人間のメッシュを一貫したグローバル座標で再構築する。 人間の動きとカメラポーズの協調的再構成は制約が低いため,局所的な身体の動きに基づくグローバルな人間の軌跡を生成するグローバルな軌跡予測器を提案する。 予測軌跡をアンカーとして用いることで,予測軌跡を洗練し,カメラのポーズを2Dキーポイントなどの映像証拠に合わせるグローバル最適化フレームワークを提案する。 動的カメラを用いた屋内および車内データセットへの挑戦実験により,提案手法が,モーションインフィルングとグローバルメッシュリカバリの点で,先行手法を大幅に上回っていることが示された。

We present an approach for 3D global human mesh recovery from monocular videos recorded with dynamic cameras. Our approach is robust to severe and long-term occlusions and tracks human bodies even when they go outside the camera's field of view. To achieve this, we first propose a deep generative motion infiller, which autoregressively infills the body motions of occluded humans based on visible motions. Additionally, in contrast to prior work, our approach reconstructs human meshes in consistent global coordinates even with dynamic cameras. Since the joint reconstruction of human motions and camera poses is underconstrained, we propose a global trajectory predictor that generates global human trajectories based on local body movements. Using the predicted trajectories as anchors, we present a global optimization framework that refines the predicted trajectories and optimizes the camera poses to match the video evidence such as 2D keypoints. Experiments on challenging indoor and in-the-wild datasets with dynamic cameras demonstrate that the proposed approach outperforms prior methods significantly in terms of motion infilling and global mesh recovery.
翻訳日:2021-12-03 14:08:22 公開日:2021-12-02
# EngineKGI: クローズドな知識グラフ推論

EngineKGI: Closed-Loop Knowledge Graph Inference ( http://arxiv.org/abs/2112.01040v1 )

ライセンス: Link先を確認
Guanglin Niu, Bo Li, Yongfei Zhang, Shiliang Pu(参考訳) 知識グラフ(KG)推論は、KGの自然な不完全性に対処するための重要な手法である。 既存のkg推論アプローチは、ルール学習ベースとkg埋め込みベースモデルに分類できる。 しかし、これらのアプローチは正確性、一般化、解釈可能性、効率を同時にバランスさせることは出来ない。 さらに、これらのモデルは常に純粋なトリプルに依存し、追加情報を無視する。 したがって、KG埋め込み(KGE)とルール学習(KG)推論(KG inference)の両方は、スパースエンティティと限定的セマンティクスによる課題に直面している。 本稿では,これらの観測に基づいてエンジンとして動作する新規かつ効果的な閉ループkg推論フレームワーク enginekgi を提案する。 EngineKGIはKGEとルール学習を組み合わせて、パスや概念のセマンティクスを活用しながら、クローズドループパターンで相互に補完する。 KGEモジュールは、エンティティ間のセマンティックな関連を強化するためにパスを利用し、解釈可能性のためのルールを導入する。 ルール学習モジュールにおいて、経路を初期候補ルールとして活用し、KG埋め込みと、より高品質なルールを抽出するための概念を併用することにより、新しいルールプーニング機構を提案する。 実世界の4つのデータセットによる実験結果から,我々のモデルはリンク予測タスクにおいて,他のベースラインよりも優れており,閉ループ機構を用いた共同論理とデータ駆動方式によるKG推論におけるモデルの有効性と優位性を示している。

Knowledge Graph (KG) inference is the vital technique to address the natural incompleteness of KGs. The existing KG inference approaches can be classified into rule learning-based and KG embedding-based models. However, these approaches cannot well balance accuracy, generalization, interpretability and efficiency, simultaneously. Besides, these models always rely on pure triples and neglect additional information. Therefore, both KG embedding (KGE) and rule learning KG inference approaches face challenges due to the sparse entities and the limited semantics. We propose a novel and effective closed-loop KG inference framework EngineKGI operating similarly as an engine based on these observations. EngineKGI combines KGE and rule learning to complement each other in a closed-loop pattern while taking advantage of semantics in paths and concepts. KGE module exploits paths to enhance the semantic association between entities and introduces rules for interpretability. A novel rule pruning mechanism is proposed in the rule learning module by leveraging paths as initial candidate rules and employing KG embeddings together with concepts for extracting more high-quality rules. Experimental results on four real-world datasets show that our model outperforms other baselines on link prediction tasks, demonstrating the effectiveness and superiority of our model on KG inference in a joint logic and data-driven fashion with a closed-loop mechanism.
翻訳日:2021-12-03 14:06:37 公開日:2021-12-02
# LOGEN: 自己学習による論理的知識記述テキスト生成

LOGEN: Few-shot Logical Knowledge-Conditione d Text Generation with Self-training ( http://arxiv.org/abs/2112.01404v1 )

ライセンス: Link先を確認
Ningyu Zhang, Hongbin Ye, Jiacheng Yang, Shumin Deng, Chuanqi Tan, Mosha Chen, Songfang Huang, Fei Huang, Huajun Chen(参考訳) 構造化データからの自然言語生成は主に、制御不能なコンテンツ選択と低忠実さに苦しむ表面レベルの記述に焦点を当てている。 以前の作品は論理形式を利用して論理知識条件付きテキスト生成を容易にする。 目覚ましい進歩を遂げたものの、それらはデータ収集であり、限られたデータで現実のアプリケーションを採用するのに苦労している。 そこで本稿では,論理知識条件付きテキスト生成のための統合フレームワークを提案する。 少数の種論理形式(例:20/100ショット)で、本手法は自己学習を活用し、内容と構造整合性に基づいて擬似論理形式をサンプリングする。 実験結果から,本手法はベースラインよりも精度が良いことを示す。

Natural language generation from structured data mainly focuses on surface-level descriptions, suffering from uncontrollable content selection and low fidelity. Previous works leverage logical forms to facilitate logical knowledge-conditione d text generation. Though achieving remarkable progress, they are data-hungry, which makes the adoption for real-world applications challenging with limited data. To this end, this paper proposes a unified framework for logical knowledge-conditione d text generation in the few-shot setting. With only a few seeds logical forms (e.g., 20/100 shot), our approach leverages self-training and samples pseudo logical forms based on content and structure consistency. Experimental results demonstrate that our approach can obtain better few-shot performance than baselines.
翻訳日:2021-12-03 14:06:14 公開日:2021-12-02
# 単語ベクトルに注意を向けたマルチラベル・マイノショット画像分類のためのプロトタイプの推算

Inferring Prototypes for Multi-Label Few-Shot Image Classification with Word Vector Guided Attention ( http://arxiv.org/abs/2112.01037v1 )

ライセンス: Link先を確認
Kun Yan, Chenbin Zhang, Jun Hou, Ping Wang, Zied Bouraoui, Shoaib Jameel, Steven Schockaert(参考訳) ML-FSIC (Multi-label few-shot image classification) は、少数のトレーニング例に基づいて、以前は目に見えない画像に記述ラベルを割り当てるタスクである。 マルチラベル設定の重要な特徴は、画像が通常、画像の異なる領域を参照する複数のラベルを持つことである。 プロトタイプを推定する場合、メトリックベースの設定では、どのリージョンがどのラベルに関連しているかを判断することが重要ですが、限られたトレーニングデータの量でこれを非常に困難にしています。 そこで本稿では,ラベルの意味に関する事前知識の形式として単語埋め込みの利用を提案する。 特に、視覚プロトタイプは、ラベル埋め込みに依存する注意機構を用いて、サポート画像の局所的な特徴マップを集約することによって得られる。 重要な利点として,モデルパラメータの微調整を必要とせず,未知ラベルのプロトタイプを推測することが可能であり,その強力な一般化能力を示す。 さらに,COCOおよびPASCAL VOCの実験により,我々のモデルが最先端技術を改善することを示す。

Multi-label few-shot image classification (ML-FSIC) is the task of assigning descriptive labels to previously unseen images, based on a small number of training examples. A key feature of the multi-label setting is that images often have multiple labels, which typically refer to different regions of the image. When estimating prototypes, in a metric-based setting, it is thus important to determine which regions are relevant for which labels, but the limited amount of training data makes this highly challenging. As a solution, in this paper we propose to use word embeddings as a form of prior knowledge about the meaning of the labels. In particular, visual prototypes are obtained by aggregating the local feature maps of the support images, using an attention mechanism that relies on the label embeddings. As an important advantage, our model can infer prototypes for unseen labels without the need for fine-tuning any model parameters, which demonstrates its strong generalization abilities. Experiments on COCO and PASCAL VOC furthermore show that our model substantially improves the current state-of-the-art.
翻訳日:2021-12-03 14:06:01 公開日:2021-12-02
# DenseCLIP: CLIPから無料のDense Labelsを抽出する

DenseCLIP: Extract Free Dense Labels from CLIP ( http://arxiv.org/abs/2112.01071v1 )

ライセンス: Link先を確認
Chong Zhou, Chen Change Loy, Bo Dai(参考訳) Contrastive Language-Image Pre-Training (CLIP) はオープン語彙ゼロショット画像認識において画期的な進歩を遂げた。 最近の多くの研究は、画像レベルの分類と操作に事前訓練されたCLIPモデルを利用している。 本稿では,特にセマンティックセグメンテーションにおいて,ピクセルレベルの密度予測のためのCLIPの可能性について検討する。 アノテーションや微調整がないことで、さまざまなデータセットにまたがるオープンコンセプトに対して合理的なセグメンテーション結果が得られるのです。 例えば、パスカルvoc/パスカルコンテキスト/cocoの無意味クラスを35.6/20.7/30.3から86.1/66.7/54.7に改善する。 また,入力汚損下でのDenseCLIPのロバスト性を検証し,細粒度オブジェクトや新しい概念を識別する能力を評価する。 DenseCLIPは,アノテーションのないセグメンテーションを実現するために,高密度予測タスクの信頼性の高い新たな管理源として機能する可能性が示唆された。

Contrastive Language-Image Pre-training (CLIP) has made a remarkable breakthrough in open-vocabulary zero-shot image recognition. Many recent studies leverage the pre-trained CLIP models for image-level classification and manipulation. In this paper, we further explore the potentials of CLIP for pixel-level dense prediction, specifically in semantic segmentation. Our method, DenseCLIP, in the absence of annotations and fine-tuning, yields reasonable segmentation results on open concepts across various datasets. By adding pseudo labeling and self-training, DenseCLIP+ surpasses SOTA transductive zero-shot semantic segmentation methods by large margins, e.g., mIoUs of unseen classes on PASCAL VOC/PASCAL Context/COCO Stuff are improved from 35.6/20.7/30.3 to 86.1/66.7/54.7. We also test the robustness of DenseCLIP under input corruption and evaluate its capability in discriminating fine-grained objects and novel concepts. Our finding suggests that DenseCLIP can serve as a new reliable source of supervision for dense prediction tasks to achieve annotation-free segmentation.
翻訳日:2021-12-03 14:05:42 公開日:2021-12-02
# FIBA: 医用画像解析における周波数インジェクションによるバックドア攻撃

FIBA: Frequency-Injection based Backdoor Attack in Medical Image Analysis ( http://arxiv.org/abs/2112.01148v1 )

ライセンス: Link先を確認
Yu Feng, Benteng Ma, Jing Zhang, Shanshan Zhao, Yong Xia, Dacheng Tao(参考訳) 近年、AIシステムのセキュリティは、特に医療画像領域において研究の注目を集めている。 セキュアな医療画像解析(MIA)システムを開発するためには,システム内に隠された悪意のある動作を埋め込むことができるバックドア攻撃(BA)の可能性を研究する必要がある。 しかし、様々なMIAシステムに適用可能な統一BA法を設計することは、画像モダリティ(X線、CT、MRIなど)と分析タスク(分類、検出、セグメント化など)の多様性のために困難である。 既存のBA手法の多くは、画像の訓練に空間的トリガーを適用し、有毒なピクセルの意味を必然的に損なう自然画像分類モデルに攻撃するように設計されている。 この問題に対処するために,様々なMIAタスクで攻撃を配信できる新しい周波数注入型バックドアアタック法(FIBA)を提案する。 具体的には、FIBAは、両方の画像のスペクトル振幅を線形に組み合わせることで、トリガー画像の低周波情報を有毒画像に注入できる周波数領域のトリガー関数を利用する。 有毒画像画素のセマンティクスを保存するため、FIBAは分類モデルと密度予測モデルの両方に対して攻撃を行うことができる。 MIA (ISIC-2019 for skin lesion classification, KiTS-19 for kidney tumor segmentation, EAD-2019 for endoscopic artifact detection) の3つのベンチマーク実験では、FIBAの有効性と、MIAモデルへの攻撃およびバックドア防御をバイパスする最先端の方法よりも優れていることが検証された。 コードはhttps://github.com/H azardFY/FIBA.comから入手できる。

In recent years, the security of AI systems has drawn increasing research attention, especially in the medical imaging realm. To develop a secure medical image analysis (MIA) system, it is a must to study possible backdoor attacks (BAs), which can embed hidden malicious behaviors into the system. However, designing a unified BA method that can be applied to various MIA systems is challenging due to the diversity of imaging modalities (e.g., X-Ray, CT, and MRI) and analysis tasks (e.g., classification, detection, and segmentation). Most existing BA methods are designed to attack natural image classification models, which apply spatial triggers to training images and inevitably corrupt the semantics of poisoned pixels, leading to the failures of attacking dense prediction models. To address this issue, we propose a novel Frequency-Injection based Backdoor Attack method (FIBA) that is capable of delivering attacks in various MIA tasks. Specifically, FIBA leverages a trigger function in the frequency domain that can inject the low-frequency information of a trigger image into the poisoned image by linearly combining the spectral amplitude of both images. Since it preserves the semantics of the poisoned image pixels, FIBA can perform attacks on both classification and dense prediction models. Experiments on three benchmarks in MIA (i.e., ISIC-2019 for skin lesion classification, KiTS-19 for kidney tumor segmentation, and EAD-2019 for endoscopic artifact detection), validate the effectiveness of FIBA and its superiority over state-of-the-art methods in attacking MIA models as well as bypassing backdoor defense. The code will be available at https://github.com/H azardFY/FIBA.
翻訳日:2021-12-03 14:05:15 公開日:2021-12-02
# どのフィルターが重要か、バッチ正規化が教えてくれる

Batch Normalization Tells You Which Filter is Important ( http://arxiv.org/abs/2112.01155v1 )

ライセンス: Link先を確認
Junghun Oh, Heewon Kim, Sungyong Baik, Cheeun Hong and Kyoung Mu Lee(参考訳) フィルタプルーニングの目標は、プロセスのパフォーマンスを犠牲にすることなく、畳み込みニューラルネットワーク(CNN)を効率よくするために、重要でないフィルタを除去することである。 課題は、ニューラルネットワークの最終出力に対して各フィルタがどの程度重要か、あるいはどの程度関連があるかを決定するのに役立つ情報を見つけることである。 本稿では,事前学習されたcnnのバッチ正規化(bn)パラメータを用いて,トレーニングデータの処理をせずに,アクティベーション出力の特徴分布を推定できることについて考察する。 そこで本研究では,事前学習したcnnのbnパラメータに基づいて各フィルタの重要性を評価し,簡易かつ効果的なフィルタプルーニング手法を提案する。 CIFAR-10 と ImageNet の実験結果から,提案手法は精度低下と計算複雑性の低減,およびプルーンドネットワークのパラメータ数とのトレードオフを微調整することなく,優れた性能を実現することができることを示した。

The goal of filter pruning is to search for unimportant filters to remove in order to make convolutional neural networks (CNNs) efficient without sacrificing the performance in the process. The challenge lies in finding information that can help determine how important or relevant each filter is with respect to the final output of neural networks. In this work, we share our observation that the batch normalization (BN) parameters of pre-trained CNNs can be used to estimate the feature distribution of activation outputs, without processing of training data. Upon observation, we propose a simple yet effective filter pruning method by evaluating the importance of each filter based on the BN parameters of pre-trained CNNs. The experimental results on CIFAR-10 and ImageNet demonstrate that the proposed method can achieve outstanding performance with and without fine-tuning in terms of the trade-off between the accuracy drop and the reduction in computational complexity and number of parameters of pruned networks.
翻訳日:2021-12-03 14:04:42 公開日:2021-12-02
# (参考訳) ScaleVLAD:ローカルディスクリプタのマルチスケール融合によるマルチモーダル感性分析の改善 [全文訳有]

ScaleVLAD: Improving Multimodal Sentiment Analysis via Multi-Scale Fusion of Locally Descriptors ( http://arxiv.org/abs/2112.01368v1 )

ライセンス: CC BY 4.0
Huaishao Luo, Lei Ji, Yanyong Huang, Bin Wang, Shenggong Ji, Tianrui Li(参考訳) 融合技術はマルチモーダル感情分析における重要な研究テーマである。 最近の注意に基づく核融合は、単純な操作に基づく核融合の進歩を示す。 しかし、これらの融合はシングルスケール、すなわちトークンレベルまたは発話レベル、アンモダル表現を採用する。 このような単一スケールの融合は、異なるモダリティを異なる粒度に合わせる必要があるため、最適ではない。 本稿では,テキスト,ビデオ,音声から,局所的に集約されたディスクリプタの共有ベクトルを用いたマルチスケール表現を収集し,非整合なマルチモーダル感情分析を改善するために,scalevladという融合モデルを提案する。 これらの共有ベクトルは、異なるモダリティを整列する共有トピックと見なすことができる。 さらに, 自己教師付きシフトクラスタリング損失を, 試料間の融合特性の差を抑えるために提案する。 バックボーンは3つのモードに対応する3つのトランスフォーマーエンコーダであり、融合モジュールから生成された集約された特徴は、タスク予測を完了するためのフル接続に加えてトランスフォーマーにフィードされる。 IEMOCAP、MOSI、MOSEIの3つの一般的な感情分析ベンチマークの実験は、ベースラインよりも大幅に向上した。

Fusion technique is a key research topic in multimodal sentiment analysis. The recent attention-based fusion demonstrates advances over simple operation-based fusion. However, these fusion works adopt single-scale, i.e., token-level or utterance-level, unimodal representation. Such single-scale fusion is suboptimal because that different modality should be aligned with different granularities. This paper proposes a fusion model named ScaleVLAD to gather multi-Scale representation from text, video, and audio with shared Vectors of Locally Aggregated Descriptors to improve unaligned multimodal sentiment analysis. These shared vectors can be regarded as shared topics to align different modalities. In addition, we propose a self-supervised shifted clustering loss to keep the fused feature differentiation among samples. The backbones are three Transformer encoders corresponding to three modalities, and the aggregated features generated from the fusion module are feed to a Transformer plus a full connection to finish task predictions. Experiments on three popular sentiment analysis benchmarks, IEMOCAP, MOSI, and MOSEI, demonstrate significant gains over baselines.
翻訳日:2021-12-03 14:02:22 公開日:2021-12-02
# グラウンドドビデオ記述生成のための関係グラフ学習

Relational Graph Learning for Grounded Video Description Generation ( http://arxiv.org/abs/2112.00967v1 )

ライセンス: Link先を確認
Wenqiao Zhang, Xin Eric Wang, Siliang Tang, Haizhou Shi, Haocheng Shi, Jun Xiao, Yueting Zhuang, William Yang Wang(参考訳) グラウンドドビデオ記述(GVD)は、キャプションモデルに適切なビデオ領域(例えばオブジェクト)への参加を動的に促し、記述を生成する。 このような設定は、キャプションモデルの決定を説明し、モデルが記述中のオブジェクト単語を幻覚させるのを防ぐのに役立つ。 しかし、この設計は主にオブジェクト語生成に焦点を当てており、細かな情報を無視し、視覚概念の欠如に苦しむことがある。 さらに、リレーショナルな単語(例えば「ジャンプ左」や「右」など)は通常の時空間的推測結果である。 上記の制約に対処するため,我々はGVDのための新しい関係グラフ学習フレームワークを設計し,言語に精通したシーングラフ表現を視覚的概念のきめ細かな表現として設計する。 さらに、洗練されたグラフは、正しい単語を生成するために必要な関連情報を選択する際にキャプションモデルを支援する関係帰納的知識と見なすことができる。 自動測定と人的評価によるモデルの有効性を検証するとともに,提案手法がよりきめ細かな正確な記述を生成できることを示すとともに,対象幻覚の問題をある程度解決できることを示す。

Grounded video description (GVD) encourages captioning models to attend to appropriate video regions (e.g., objects) dynamically and generate a description. Such a setting can help explain the decisions of captioning models and prevents the model from hallucinating object words in its description. However, such design mainly focuses on object word generation and thus may ignore fine-grained information and suffer from missing visual concepts. Moreover, relational words (e.g., "jump left or right") are usual spatio-temporal inference results, i.e., these words cannot be grounded on certain spatial regions. To tackle the above limitations, we design a novel relational graph learning framework for GVD, in which a language-refined scene graph representation is designed to explore fine-grained visual concepts. Furthermore, the refined graph can be regarded as relational inductive knowledge to assist captioning models in selecting the relevant information it needs to generate correct words. We validate the effectiveness of our model through automatic metrics and human evaluation, and the results indicate that our approach can generate more fine-grained and accurate description, and it solves the problem of object hallucination to some extent.
翻訳日:2021-12-03 13:44:38 公開日:2021-12-02
# オブジェクト中心非教師なし画像キャプション

Object-Centric Unsupervised Image Captioning ( http://arxiv.org/abs/2112.00969v1 )

ライセンス: Link先を確認
Zihang Meng, David Yang, Xuefei Cao, Ashish Shah, Ser-Nam Lim(参考訳) 注釈付きイメージキャプションペアを使わずに、教師なしで画像キャプションモデルを訓練することは、テキストと画像のより広いコーパスにタッピングするための重要なステップである。 教師付き設定では、画像キャプチャペアは「よく一致」しており、文中で言及されるすべてのオブジェクトが対応する画像に現れる。 しかし、これらのペアリングは教師なしの設定では利用できない。 これを克服するために、この克服に効果的であることが示されている主な研究分野は、オブジェクトの重なりに応じて、トレーニングセット内の画像とテキストからペアを構築することである。 教師付き設定とは異なり、これらの構成されたペアリングは、完全な重複したオブジェクトセットを持つことは保証されない。 本稿では,同じ画像に属さない場合でも,与えられた文に対応するオブジェクトをトレーニングセットから抽出することで,この問題を克服する。 変圧器への入力として使用される場合、そのような混合オブジェクトは、完全なオブジェクトカバレッジでなければ大きくなり、対応する文によって監督されると、未監督のメソッドをかなりのマージンで上回る結果が得られる。 さらに,(1)オブジェクトとオブジェクトの属性の関係に関する追加情報も性能向上に寄与することを示すとともに,(2)英語以外の画像キャプションにも拡張し,通常はアノテーションの不足に苦しむことを示した。 我々の発見は強い実証的結果によって裏付けられている。

Training an image captioning model in an unsupervised manner without utilizing annotated image-caption pairs is an important step towards tapping into a wider corpus of text and images. In the supervised setting, image-caption pairs are "well-matched", where all objects mentioned in the sentence appear in the corresponding image. These pairings are, however, not available in the unsupervised setting. To overcome this, a main school of research that has been shown to be effective in overcoming this is to construct pairs from the images and texts in the training set according to their overlap of objects. Unlike in the supervised setting, these constructed pairings are however not guaranteed to have fully overlapping set of objects. Our work in this paper overcomes this by harvesting objects corresponding to a given sentence from the training set, even if they don't belong to the same image. When used as input to a transformer, such mixture of objects enable larger if not full object coverage, and when supervised by the corresponding sentence, produced results that outperform current state of the art unsupervised methods by a significant margin. Building upon this finding, we further show that (1) additional information on relationship between objects and attributes of objects also helps in boosting performance; and (2) our method also extends well to non-English image captioning, which usually suffers from a scarcer level of annotations. Our findings are supported by strong empirical results.
翻訳日:2021-12-03 13:44:16 公開日:2021-12-02
# キーワードによる教育用質問生成の制御性向上

Improving Controllability of Educational Question Generation by Keyword Provision ( http://arxiv.org/abs/2112.01012v1 )

ライセンス: Link先を確認
Ying-Hong Chan, Ho-Lam Chung, Yao-Chung Fan(参考訳) 質問生成(QG)はNLPコミュニティで研究の注目を集めている。 QGの動機の1つは、QGが教育読解の実践と評価を著しく促進することである。 QG技術の大幅な進歩が報告されているが、現在のQGの結果は、‘textit{controllability} と \textit{question difficulty} の観点からの教育読影実践評価には理想的ではない。 本稿では,2つの課題について報告する。 まず,現在最高のモデルである11.96から20.19(BLEU 4スコア)を推し進め,最先端の試験様QGモデルについて報告する。 第2に,ユーザがQG方向を案内するキーワードを提供することで,QG設定の変種について検討する。 また,QG制御性タスクに対する簡易かつ効果的なモデルを提案する。 また,提案したキーワード提供QGモデルにより,QGの多様性と制御性を向上させる可能性および可能性を示す実験を行った。

Question Generation (QG) receives increasing research attention in NLP community. One motivation for QG is that QG significantly facilitates the preparation of educational reading practice and assessments. While the significant advancement of QG techniques was reported, current QG results are not ideal for educational reading practice assessment in terms of \textit{controllability} and \textit{question difficulty}. This paper reports our results toward the two issues. First, we report a state-of-the-art exam-like QG model by advancing the current best model from 11.96 to 20.19 (in terms of BLEU 4 score). Second, we propose to investigate a variant of QG setting by allowing users to provide keywords for guiding QG direction. We also present a simple but effective model toward the QG controllability task. Experiments are also performed and the results demonstrate the feasibility and potentials of improving QG diversity and controllability by the proposed keyword provision QG model.
翻訳日:2021-12-03 13:43:53 公開日:2021-12-02
# ユニモーダルバンディットの指数付き最小経験的発散

Indexed Minimum Empirical Divergence for Unimodal Bandits ( http://arxiv.org/abs/2112.01452v1 )

ライセンス: Link先を確認
Hassan Saber (CRIStAL, Scool), Pierre M\'enard (OVGU), Odalric-Ambrym Maillard (Scool)(参考訳) 一次元の家族指数分布の集合に一様構造を付与した多武装バンディット問題を考察する。 本稿では,本多と竹村が2015年に導入したインデクテッド・ミニマル・エスピリカル・ディバージェンス(IMED)アルゴリズムに適応して,この一助構造を最適に活用するアルゴリズムであるIMED-UBを紹介する。 本手法により, IMED-UBアルゴリズムの有限時間解析を簡潔に行うことができる。 数値実験により、IMED-UBは最先端のアルゴリズムと競合することが示された。

We consider a multi-armed bandit problem specified by a set of one-dimensional family exponential distributions endowed with a unimodal structure. We introduce IMED-UB, a algorithm that optimally exploits the unimodal-structure, by adapting to this setting the Indexed Minimum Empirical Divergence (IMED) algorithm introduced by Honda and Takemura [2015]. Owing to our proof technique, we are able to provide a concise finite-time analysis of IMED-UB algorithm. Numerical experiments show that IMED-UB competes with the state-of-the-art algorithms.
翻訳日:2021-12-03 13:43:39 公開日:2021-12-02
# 道路利用者検出のための確率論的アプローチ

Probabilistic Approach for Road-Users Detection ( http://arxiv.org/abs/2112.01360v1 )

ライセンス: Link先を確認
G. Melotti and W. Lu and D. Zhao and A. Asvadi and N. Gon\c{c}alves and C. Premebida(参考訳) 自動運転アプリケーションにおける物体検出は、セマンティックオブジェクトの検出と追跡が、歩行者や車両のような都市部の運転環境に特有のことを暗示している。 最先端のディープラーニングに基づくオブジェクト検出における大きな課題の1つは、自信過剰なスコアで発生する偽陽性である。 安全上の懸念から、自動運転や他の重要なロボット知覚領域では、これは非常に望ましくない。 本稿では, 深層物体検出ネットワークに新しい確率層を導入することにより, 過密予測の問題を緩和する手法を提案する。 提案手法は従来のsgmoidまたはsoftmax予測層を避け、しばしば自信過剰な予測を生成する。 提案手法は, 真正に対する性能を劣化させることなく, 偽正の過信を低減できることを実証した。 この手法は、YOLOV4とSECOND(Lidar-based detector)による2D-KITTI対物検出で検証される。 提案手法は,ネットワークの再学習を必要とせず,解釈可能な確率予測を可能にする。

Object detection in autonomous driving applications implies that the detection and tracking of semantic objects are commonly native to urban driving environments, as pedestrians and vehicles. One of the major challenges in state-of-the-art deep-learning based object detection is false positive which occurrences with overconfident scores. This is highly undesirable in autonomous driving and other critical robotic-perception domains because of safety concerns. This paper proposes an approach to alleviate the problem of overconfident predictions by introducing a novel probabilistic layer to deep object detection networks in testing. The suggested approach avoids the traditional Sigmoid or Softmax prediction layer which often produces overconfident predictions. It is demonstrated that the proposed technique reduces overconfidence in the false positives without degrading the performance on the true positives. The approach is validated on the 2D-KITTI objection detection through the YOLOV4 and SECOND (Lidar-based detector). The proposed approach enables enabling interpretable probabilistic predictions without the requirement of re-training the network and therefore is very practical.
翻訳日:2021-12-03 13:43:27 公開日:2021-12-02
# (参考訳) バイオアッセイの簡易セマンティフィケーション [全文訳有]

Easy Semantification of Bioassays ( http://arxiv.org/abs/2111.15182v2 )

ライセンス: CC BY-SA 4.0
Marco Anteghini, Jennifer D'Souza, Vitor A.P. Martins dos Santos, S\"oren Auer(参考訳) 生物学的データと知識基盤は、セマンティックウェブ技術とデータ統合、検索、フェデレーションドクエリのための知識グラフの利用にますます依存している。 生体アッセイを自動的に分離する手法を提案する。 提案手法は,2つの手法が手法複雑性スペクトルの両端にある場合,ラベル付けとクラスタリングという自動セマンティフィケーションの問題と対比する。 我々の問題の特徴をモデル化すると、クラスタリングソリューションはディープニューラルネットワークの最先端ラベリングアプローチを大きく上回っていることが分かる。 この新しい貢献は2つの要因に基づいている。 1) データの後に密にモデル化された学習目的は、洗練されたセマンティックモデリングによる代替アプローチより優れている。 2)生体アッセイを自動分離することで,83%近い高性能なf1が得られる。

Biological data and knowledge bases increasingly rely on Semantic Web technologies and the use of knowledge graphs for data integration, retrieval and federated queries. We propose a solution for automatically semantifying biological assays. Our solution contrasts the problem of automated semantification as labeling versus clustering where the two methods are on opposite ends of the method complexity spectrum. Characteristically modeling our problem, we find the clustering solution significantly outperforms a deep neural network state-of-the-art labeling approach. This novel contribution is based on two factors: 1) a learning objective closely modeled after the data outperforms an alternative approach with sophisticated semantic modeling; 2) automatically semantifying biological assays achieves a high performance F1 of nearly 83%, which to our knowledge is the first reported standardized evaluation of the task offering a strong benchmark model.
翻訳日:2021-12-03 13:41:00 公開日:2021-12-02
# (参考訳) NeeDrop:ニードルドロップを用いたスパース点雲からの自己教師型形状表現 [全文訳有]

NeeDrop: Self-supervised Shape Representation from Sparse Point Clouds using Needle Dropping ( http://arxiv.org/abs/2111.15207v2 )

ライセンス: CC BY 4.0
Alexandre Boulch, Pierre-Alain Langlois, Gilles Puy, Renaud Marlet(参考訳) 近年、暗黙の形状表現への関心が高まっている。 明示的な表現とは対照的に、それらは解像度の制限がなく、様々な表面トポロジを簡単に扱うことができる。 これらの暗黙の表現を学習するために、現在のアプローチは一定のレベルの形状の監督(例えば、内外情報や距離から形への知識)、あるいは少なくとも密度の高い点雲(十分な距離から形までの距離)を必要とする。 対照的に,多分極小点雲から形状表現を学ぶための自己教師あり手法である needrop を導入する。 バフィンの針の問題と同様に、我々は点雲に針を「投下」(サンプル)し、統計的には表面の近く、針の端点が表面の反対側にあると考える。 形状の知識は必要とせず、lidarポイント雲が車両によって獲得されるなど、ポイントクラウドは非常にスパースである。 従来の自己教師型形状表現アプローチでは、この種のデータに対して良質な結果が得られなかった。 形状復元データセットに対する既存の教師付きアプローチと同等の定量的な結果を得るとともに,kitti のようなハード自動運転データセットに対して有望な質的結果を示す。

There has been recently a growing interest for implicit shape representations. Contrary to explicit representations, they have no resolution limitations and they easily deal with a wide variety of surface topologies. To learn these implicit representations, current approaches rely on a certain level of shape supervision (e.g., inside/outside information or distance-to-shape knowledge), or at least require a dense point cloud (to approximate well enough the distance-to-shape). In contrast, we introduce NeeDrop, a self-supervised method for learning shape representations from possibly extremely sparse point clouds. Like in Buffon's needle problem, we "drop" (sample) needles on the point cloud and consider that, statistically, close to the surface, the needle end points lie on opposite sides of the surface. No shape knowledge is required and the point cloud can be highly sparse, e.g., as lidar point clouds acquired by vehicles. Previous self-supervised shape representation approaches fail to produce good-quality results on this kind of data. We obtain quantitative results on par with existing supervised approaches on shape reconstruction datasets and show promising qualitative results on hard autonomous driving datasets such as KITTI.
翻訳日:2021-12-03 13:23:19 公開日:2021-12-02
# (参考訳) ctによる膵管腺癌検出のための完全自動ディープラーニングフレームワーク [全文訳有]

Fully Automatic Deep Learning Framework for Pancreatic Ductal Adenocarcinoma Detection on Computed Tomography ( http://arxiv.org/abs/2111.15409v2 )

ライセンス: CC BY 4.0
Nat\'alia Alves, Megan Schuurmans, Geke Litjens, Joeran S. Bosma, John Hermans and Henkjan Huisman(参考訳) 早期発見は膵管腺癌 (PDAC) の予後を改善するが, 造影CT (CE-CT) では病変が小さく, 定義が不十分である。 深層学習はPDAC診断を促進するが、現在のモデルでは小さな (2cm) の病変を識別できない。 本研究では,小病変に着目したpdac自動検出フレームワークの開発に,最先端のディープラーニングモデルを用いた。 さらに, 周囲の解剖学的統合の影響について検討した。 119例のPDAC患者のコホートと123例のPDACのないコホートからCE-CTスキャンを行い,nUnetの自動病変検出とセグメンテーション(nnUnet_T)のトレーニングを行った。 膵臓と腫瘍(nnunet_tp)の分節化,2)膵臓,腫瘍,および複数の周囲解剖学的構造(nnunet_ms)の分節化について検討した。 3つのネットワークの性能を比較するために、外部で公開されたテストセットが使用された。 nnUnet_MSは, 試験セット全体の特性曲線0.91, 腫瘍<2cm>0.88の領域で最高の性能を示し, 最先端の深層学習が小さなPDACを検出でき, 解剖学的情報から恩恵を受けられることを示した。

Early detection improves prognosis in pancreatic ductal adenocarcinoma (PDAC) but is challenging as lesions are often small and poorly defined on contrast-enhanced computed tomography scans (CE-CT). Deep learning can facilitate PDAC diagnosis, however current models still fail to identify small (<2cm) lesions. In this study, state-of-the-art deep learning models were used to develop an automatic framework for PDAC detection, focusing on small lesions. Additionally, the impact of integrating surrounding anatomy was investigated. CE-CT scans from a cohort of 119 pathology-proven PDAC patients and a cohort of 123 patients without PDAC were used to train a nnUnet for automatic lesion detection and segmentation (nnUnet_T). Two additional nnUnets were trained to investigate the impact of anatomy integration: (1) segmenting the pancreas and tumor (nnUnet_TP), (2) segmenting the pancreas, tumor, and multiple surrounding anatomical structures (nnUnet_MS). An external, publicly available test set was used to compare the performance of the three networks. The nnUnet_MS achieved the best performance, with an area under the receiver operating characteristic curve of 0.91 for the whole test set and 0.88 for tumors <2cm, showing that state-of-the-art deep learning can detect small PDAC and benefits from anatomy information.
翻訳日:2021-12-03 12:32:25 公開日:2021-12-02
# オブジェクトアウェアビデオ言語による検索事前学習

Object-aware Video-language Pre-training for Retrieval ( http://arxiv.org/abs/2112.00656v2 )

ライセンス: Link先を確認
Alex Jinpeng Wang, Yixiao Ge, Guanyu Cai, Rui Yan, Xudong Lin, Ying Shan, Xiaohu Qie, Mike Zheng Shou(参考訳) 近年,大規模データセットと強力なトランスフォーマーネットワークの導入により,映像言語事前学習が特に検索において大きな成功を収めている。 しかし、既存のビデオ言語トランスフォーマーモデルは、はっきりとしたセマンティックアライメントを明示していない。 本研究では,オブジェクト表現を組み込むためにビデオ言語トランスフォーマーを拡張するオブジェクト中心型トランスフォーマーを提案する。 重要なアイデアは、トレーニングプロセスを導くために、バウンディングボックスとオブジェクトタグを活用することだ。 4つのベンチマークでビデオテキストマッチングの3つの標準サブタスクについて評価した。 また,提案手法について深い解析と詳細なアブレーションを行う。 対象表現をビデオ言語アーキテクチャに組み込んだモデルの価値を実証し、考慮したすべてのタスクやデータセットのパフォーマンス改善を示す。 コードは \url{https://github.com/F ingerRec/OA-Transfor mer} でリリースされる。

Recently, by introducing large-scale dataset and strong transformer network, video-language pre-training has shown great success especially for retrieval. Yet, existing video-language transformer models do not explicitly fine-grained semantic align. In this work, we present Object-aware Transformers, an object-centric approach that extends video-language transformer to incorporate object representations. The key idea is to leverage the bounding boxes and object tags to guide the training process. We evaluate our model on three standard sub-tasks of video-text matching on four widely used benchmarks. We also provide deep analysis and detailed ablation about the proposed method. We show clear improvement in performance across all tasks and datasets considered, demonstrating the value of a model that incorporates object representations into a video-language architecture. The code will be released at \url{https://github.com/F ingerRec/OA-Transfor mer}.
翻訳日:2021-12-03 12:18:29 公開日:2021-12-02
# robin : 実世界の分散シフトにおける個々の迷惑に対するロバスト性に関するベンチマーク

ROBIN : A Benchmark for Robustness to Individual Nuisances in Real-World Out-of-Distribution Shifts ( http://arxiv.org/abs/2111.14341v2 )

ライセンス: Link先を確認
Bingchen Zhao, Shaozuo Yu, Wufei Ma, Mingxin Yu, Shenxiao Mei, Angtian Wang, Ju He, Alan Yuille, Adam Kortylewski(参考訳) 実世界のシナリオにおける堅牢性の向上は、非常に困難であることが証明されている。 というのも、既存のロバスト性ベンチマークは、合成データに依存するか、データセット間の一般化としてロバスト性を測定するだけで、個々の迷惑要因の影響を無視するからである。 本研究では,実世界の画像における個々のニュアンスに対して,視覚アルゴリズムの堅牢性を診断するためのベンチマークデータセットであるROBINを紹介する。 ROBINは、PASCAL VOC 2012とImageNetデータセットから10の厳格なカテゴリを構築し、オブジェクトの3Dポーズ、形状、テクスチャ、コンテキスト、気象条件のアウト・オブ・ディストリビューションの例を含む。 ROBINは、画像分類、オブジェクト検出、および3Dポーズ推定のためのベンチマークモデルを可能にするために、豊富な注釈が付けられている。 私たちは、多くの人気のあるベースラインに対して結果を提供し、いくつかの興味深い観察を行います。 1. ニュアンス要因によっては, 性能に悪影響を及ぼす要因も少なくない。 さらに,oodnuisanceの負の効果は下流視タスクに依存する。 2. 強データ拡張によるOODの堅牢性向上に向けた最近のアプローチは, 現実のOODシナリオに限らず, 時にはOOD性能を低下させる。 3) OODの堅牢性の観点からは, 畳み込みアーキテクチャと変圧器アーキテクチャの間に有意な差異はみられない。 私たちのデータセットは、視覚アルゴリズムのOODロバスト性を研究するための豊富なテストベッドを提供し、この分野の研究を大幅に進める助けになるだろうと考えています。

Enhancing the robustness in real-world scenarios has been proven very challenging. One reason is that existing robustness benchmarks are limited, as they either rely on synthetic data or they simply measure robustness as generalization between datasets and hence ignore the effects of individual nuisance factors. In this work, we introduce ROBIN, a benchmark dataset for diagnosing the robustness of vision algorithms to individual nuisances in real-world images. ROBIN builds on 10 rigid categories from the PASCAL VOC 2012 and ImageNet datasets and includes out-of-distribution examples of the objects 3D pose, shape, texture, context and weather conditions. ROBIN is richly annotated to enable benchmark models for image classification, object detection, and 3D pose estimation. We provide results for a number of popular baselines and make several interesting observations: 1. Some nuisance factors have a much stronger negative effect on the performance compared to others. Moreover, the negative effect of an OODnuisance depends on the downstream vision task. 2. Current approaches to enhance OOD robustness using strong data augmentation have only marginal effects in real-world OOD scenarios, and sometimes even reduce the OOD performance. 3. We do not observe any significant differences between convolutional and transformer architectures in terms of OOD robustness. We believe our dataset provides a rich testbed to study the OOD robustness of vision algorithms and will help to significantly push forward research in this area.
翻訳日:2021-12-03 12:18:17 公開日:2021-12-02
# 緩やかな時間的局所的注意を用いた点雲分割

Point Cloud Segmentation Using Sparse Temporal Local Attention ( http://arxiv.org/abs/2112.00289v2 )

ライセンス: Link先を確認
Joshua Knights, Peyman Moghadam, Clinton Fookes, Sridha Sridharan(参考訳) 点雲は自動運転車の知覚において重要なモダリティであり、周囲の環境の堅牢な幾何学的理解の手段を提供する。 しかし、自律走行車からのセンサー出力は自然に時間的だが、3dセマンティックセグメンテーションのためのポイントクラウドシーケンスの活用は限られている。 本稿では,前点のクラウドフレームの局所的近傍から中間的な特徴を集約し,デコーダにリッチな時間的コンテキストを提供する新しいスパース時空間的局所的注意 (stela) モジュールを提案する。 sparse local neighborhoodhoodを使用することで、ポイント機能に直接マッチする機能よりも柔軟に機能を収集でき、ポイントクラウドフレーム全体にわたって高価なグローバルな注意を向ける方法よりも効率的です。 SemanticKittiデータセット上で64.3%の競合mIoUを実現し、アブレーション研究における単一フレームベースラインに対する大幅な改善を示す。

Point clouds are a key modality used for perception in autonomous vehicles, providing the means for a robust geometric understanding of the surrounding environment. However despite the sensor outputs from autonomous vehicles being naturally temporal in nature, there is still limited exploration of exploiting point cloud sequences for 3D seman-tic segmentation. In this paper we propose a novel Sparse Temporal Local Attention (STELA) module which aggregates intermediate features from a local neighbourhood in previous point cloud frames to provide a rich temporal context to the decoder. Using the sparse local neighbourhood enables our approach to gather features more flexibly than those which directly match point features, and more efficiently than those which perform expensive global attention over the whole point cloud frame. We achieve a competitive mIoU of 64.3% on the SemanticKitti dataset, and demonstrate significant improvement over the single-frame baseline in our ablation studies.
翻訳日:2021-12-03 12:17:52 公開日:2021-12-02
# 文間依存グラフによるゼロショット言語間機械読解理解

Zero-Shot Cross-Lingual Machine Reading Comprehension via Inter-Sentence Dependency Graph ( http://arxiv.org/abs/2112.00503v2 )

ライセンス: Link先を確認
Liyan Xu, Xuchao Zhang, Bo Zong, Yanchi Liu, Wei Cheng, Jingchao Ni, Haifeng Chen, Liang Zhao, Jinho D. Choi(参考訳) 我々は,汎用依存関係(ud)からの構文的特徴を組み込むことにより,直接ゼロショット設定における言語間機械読解(mrc)のタスクを目標とし,各文における構文的関係を重要視する。 先行研究では,mrcタスクのマルチセンテンス入力における構文依存性をさらに活用するために,基本的イントラセンス関係に加えて,イントラセンテンス間の構文関係を採用することを提案する。 本手法では,係り受け木を連結した文間依存グラフ(ISDG)を構築し,文間の大域的構文関係を形成する。 次に、グローバル依存グラフを符号化するIDDGエンコーダを提案し、ワンホップとマルチホップの依存関係パスの両方を通して、文間関係を明示的に解決する。 3つの多言語MRCデータセット(XQuAD、MLQA、TyDiQA-GoldP)の実験では、英語でのみ訓練されたエンコーダは、8つの言語をカバーする14のテストセットすべてでゼロショット性能を向上でき、平均3.8 F1 / 5.2 EMの改善と、特定の言語で5.2 F1 / 11.2 EMを実現している。 さらなる分析は、言語間一貫した構文経路に注意を向けることによる改善が可能であることを示している。

We target the task of cross-lingual Machine Reading Comprehension (MRC) in the direct zero-shot setting, by incorporating syntactic features from Universal Dependencies (UD), and the key features we use are the syntactic relations within each sentence. While previous work has demonstrated effective syntax-guided MRC models, we propose to adopt the inter-sentence syntactic relations, in addition to the rudimentary intra-sentence relations, to further utilize the syntactic dependencies in the multi-sentence input of the MRC task. In our approach, we build the Inter-Sentence Dependency Graph (ISDG) connecting dependency trees to form global syntactic relations across sentences. We then propose the ISDG encoder that encodes the global dependency graph, addressing the inter-sentence relations via both one-hop and multi-hop dependency paths explicitly. Experiments on three multilingual MRC datasets (XQuAD, MLQA, TyDiQA-GoldP) show that our encoder that is only trained on English is able to improve the zero-shot performance on all 14 test sets covering 8 languages, with up to 3.8 F1 / 5.2 EM improvement on-average, and 5.2 F1 / 11.2 EM on certain languages. Further analysis shows the improvement can be attributed to the attention on the cross-linguistically consistent syntactic path.
翻訳日:2021-12-03 12:17:35 公開日:2021-12-02
# マスアート・ミスラベル雑音モデルによる一般化保証付き半空間の自己学習

Self-Training of Halfspaces with Generalization Guarantees under Massart Mislabeling Noise Model ( http://arxiv.org/abs/2111.14427v2 )

ライセンス: Link先を確認
Lies Hadjadj, Massih-Reza Amini, Sana Louhichi, Alexis Deschamps(参考訳) 半空間を持つ自己学習アルゴリズムの一般化特性について検討する。 このアプローチでは、ラベル付きおよびラベルなしのトレーニングデータから、ハーフスペースのリストを反復的に学習する。 探索フェーズでは、符号なしマージンをラベルなしの例の中で最大化し、擬似ラベルを現在のしきい値よりも高い距離を持つものに割り当てることで、ハーフスペースが順次発見される。 擬似ラベル付きサンプルがトレーニングセットに追加され、新しい分類器が学習される。 このプロセスは、偽のラベル付けのための未ラベルの例が残るまで繰り返される。 プルーニングフェーズでは、関連する符号なしマージンよりも大きい最後のハーフスペースまでの距離を持つ擬似ラベル付きサンプルを廃棄する。 得られた分類器列の誤分類誤差が有界であることを証明し、得られた半教師付きアプローチが初期ラベル付きトレーニングセットのみを用いて学習した分類器と比較して性能を劣化させないことを示す。 様々なベンチマークで実施した実験は、最先端手法と比較して提案手法の有効性を示している。

We investigate the generalization properties of a self-training algorithm with halfspaces. The approach learns a list of halfspaces iteratively from labeled and unlabeled training data, in which each iteration consists of two steps: exploration and pruning. In the exploration phase, the halfspace is found sequentially by maximizing the unsigned-margin among unlabeled examples and then assigning pseudo-labels to those that have a distance higher than the current threshold. The pseudo-labeled examples are then added to the training set, and a new classifier is learned. This process is repeated until no more unlabeled examples remain for pseudo-labeling. In the pruning phase, pseudo-labeled samples that have a distance to the last halfspace greater than the associated unsigned-margin are then discarded. We prove that the misclassification error of the resulting sequence of classifiers is bounded and show that the resulting semi-supervised approach never degrades performance compared to the classifier learned using only the initial labeled training set. Experiments carried out on a variety of benchmarks demonstrate the efficiency of the proposed approach compared to state-of-the-art methods.
翻訳日:2021-12-03 12:17:06 公開日:2021-12-02
# 近視のゴール選択で、長い水平な操作が可能に

Wish you were here: Hindsight Goal Selection for long-horizon dexterous manipulation ( http://arxiv.org/abs/2112.00597v2 )

ライセンス: Link先を確認
Todor Davchev, Oleg Sushkov, Jean-Baptiste Regli, Stefan Schaal, Yusuf Aytar, Markus Wulfmeier, Jon Scholz(参考訳) 連続制御設定における複雑なシーケンシャルタスクは、エージェントが状態空間内の「狭い通路」のセットをうまく通過させる必要があることが多い。 このような課題をサンプル効率のよい方法でスパース報酬で解決することは、問題の長期的性質と学習中に十分な正のシグナルが欠如していることから、現代の強化学習(RL)への挑戦となる。 この課題に対処するために様々なツールが適用されている。 利用可能な場合、大規模なデモセットはエージェント探索をガイドすることができる。 一方、後ろ向きのラベリングは追加の情報源を必要としない。 しかし、既存の戦略はタスクに依存しない目標分布に基づいて探索する。 本研究は,タスク固有の分布に沿って探索をガイドするための後視リラベリング機構を拡張し,少数の実演を成功させた。 提案手法は,4つの複雑な単腕と双腕のロボット操作タスクを,適切なベースラインに対して評価する。 この方法は全てのタスクを解決するためにはるかに少ないデモンストレーションを必要とし、タスクの複雑さが増すにつれて全体的なパフォーマンスが大幅に向上する。 最後に,提案する解のロバスト性について,入力表現の質と実演数について検討する。

Complex sequential tasks in continuous-control settings often require agents to successfully traverse a set of "narrow passages" in their state space. Solving such tasks with a sparse reward in a sample-efficient manner poses a challenge to modern reinforcement learning (RL) due to the associated long-horizon nature of the problem and the lack of sufficient positive signal during learning. Various tools have been applied to address this challenge. When available, large sets of demonstrations can guide agent exploration. Hindsight relabelling on the other hand does not require additional sources of information. However, existing strategies explore based on task-agnostic goal distributions, which can render the solution of long-horizon tasks impractical. In this work, we extend hindsight relabelling mechanisms to guide exploration along task-specific distributions implied by a small set of successful demonstrations. We evaluate the approach on four complex, single and dual arm, robotics manipulation tasks against strong suitable baselines. The method requires far fewer demonstrations to solve all tasks and achieves a significantly higher overall performance as task complexity increases. Finally, we investigate the robustness of the proposed solution with respect to the quality of input representations and the number of demonstrations.
翻訳日:2021-12-03 12:16:47 公開日:2021-12-02
# 周波数適合度割り当て:良いソリューションのバイアスのない最適化は効率的である

Frequency Fitness Assignment: Optimization without a Bias for Good Solutions can be Efficient ( http://arxiv.org/abs/2112.00229v2 )

ライセンス: Link先を確認
Thomas Weise, Zhize Wu, Xinlu Li, Yan Chen, J\"org L\"assig(参考訳) 適合割り当てプロセスは、候補ソリューションの機能(客観的値など)をスカラー適合性に変換し、それが選択の基盤となる。 周波数適合度割り当て(FFA)では、目標値に対応する適合度はその出現周波数であり、最小化される。 FFAはより良い解に偏りがなく、目的関数値のすべての単射の下で不変なアルゴリズムを生成する。 本研究では、FFAが2つの理論に着想を得た最先端EA、Greedy (2+1) GA、Self-Adjusting (1+(lambda,lambda)) GAの性能に与える影響について検討する。 FFAは、彼らにとって難しい問題に対して、パフォーマンスを大幅に改善します。 1つのFFAベースのアルゴリズムは、この研究において、トラップ、ジャンプ、プラトーを含む全ての理論ベースのベンチマーク問題を多項式時間で解くことができる。 直接最適化とFFAに基づく最適化を併用した2つのハイブリッド手法を提案する。 すべてのFFAベースのアルゴリズムは、全ての純粋なアルゴリズムの変種よりも満足度の問題に優れる。

A fitness assignment process transforms the features (such as the objective value) of a candidate solution to a scalar fitness, which then is the basis for selection. Under Frequency Fitness Assignment (FFA), the fitness corresponding to an objective value is its encounter frequency and is subject to minimization. FFA creates algorithms that are not biased towards better solutions and are invariant under all bijections of the objective function value. We investigate the impact of FFA on the performance of two theory-inspired, state-of-the-art EAs, the Greedy (2+1) GA and the Self-Adjusting (1+(lambda,lambda)) GA. FFA improves their performance significantly on some problems that are hard for them. We empirically find that one FFA-based algorithm can solve all theory-based benchmark problems in this study, including traps, jumps, and plateaus, in polynomial time. We propose two hybrid approaches that use both direct and FFA-based optimization and find that they perform well. All FFA-based algorithms also perform better on satisfiability problems than all pure algorithm variants.
翻訳日:2021-12-03 12:14:59 公開日:2021-12-02
# オノマトペを用いた環境音抽出

Environmental Sound Extraction Using Onomatopoeia ( http://arxiv.org/abs/2112.00209v2 )

ライセンス: Link先を確認
Yuki Okamoto, Shota Horiguchi, Masaaki Yamamoto, Keisuke Imoto, Yohei Kawaguchi(参考訳) 音を音響的に模倣する文字列であるオノマトペは、持続時間、ピッチ、音色などの音の特徴を表現するのに有効である。 本研究では,オノマトペを用いた環境音抽出手法を提案する。 本手法では,U-Netアーキテクチャを用いて入力混合分光図とオノマトペから時間周波数マスクを推定し,そのマスクにより対応するターゲット音を抽出する。 実験の結果,提案手法はオノマトペに対応する目標音のみを抽出でき,目標音の特定に音響イベントクラスを用いる従来の手法よりも優れた性能を示すことがわかった。

Onomatopoeia, which is a character sequence that phonetically imitates a sound, is effective in expressing characteristics of sound such as duration, pitch, and timbre. We propose an environmental-sound- extraction method using onomatopoeia to specify the target sound to be extracted. With this method, we estimate a time-frequency mask from an input mixture spectrogram and onomatopoeia by using U-Net architecture then extract the corresponding target sound by masking the spectrogram. Experimental results indicate that the proposed method can extract only the target sound corresponding to onomatopoeia and performs better than conventional methods that use sound-event classes to specify the target sound.
翻訳日:2021-12-03 12:14:42 公開日:2021-12-02