このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220508となっている論文です。

PDF登録状況(公開日: 20220508)

TitleAuthorsAbstract論文公表日・翻訳日
# スケーラブルで統一されたサンプルベース説明と異常検出に向けて

Toward Scalable and Unified Example-based Explanation and Outlier Detection ( http://arxiv.org/abs/2011.05577v3 )

ライセンス: Link先を確認
Penny Chong, Ngai-Man Cheung, Yuval Elovici, Alexander Binder(参考訳) ニューラルネットワークを高い意思決定に使用する場合には,その決定に寄与する特徴を理解するために,その予測に関する説明を提供することが望ましい。 同時に、ドメインエキスパートによる詳細な検証のために潜在的な外れ値にフラグを付けることも重要です。 本研究では,外乱検出による説明可能性の異なる2つの側面を統合することを提案する。 我々は,プロトタイプベースの学生ネットワークを広く採用し,その予測についてサンプルベースで説明できると同時に,予測したサンプルとサンプルとの類似性領域を識別できることを議論する。 この例は,新しい反復型プロトタイプ置換アルゴリズムを用いて,トレーニングセットからサンプルした実際のプロトタイプケースである。 さらに,プロトタイプの類似度スコアを用いて,外れ値の同定を行う。 提案するネットワークを他のベースラインと比較し,分類,説明品質,外乱検出の点で性能を比較した。 類似カーネル以外のプロトタイプベースのネットワークは,分類精度を損なうことなく,有意義な説明と予測外乱検出結果が得られることを示す。

When neural networks are employed for high-stakes decision-making, it is desirable that they provide explanations for their prediction in order for us to understand the features that have contributed to the decision. At the same time, it is important to flag potential outliers for in-depth verification by domain experts. In this work we propose to unify two differing aspects of explainability with outlier detection. We argue for a broader adoption of prototype-based student networks capable of providing an example-based explanation for their prediction and at the same time identify regions of similarity between the predicted sample and the examples. The examples are real prototypical cases sampled from the training set via our novel iterative prototype replacement algorithm. Furthermore, we propose to use the prototype similarity scores for identifying outliers. We compare performances in terms of the classification, explanation quality, and outlier detection of our proposed network with other baselines. We show that our prototype-based networks beyond similarity kernels deliver meaningful explanations and promising outlier detection results without compromising classification accuracy.
翻訳日:2022-09-27 00:35:36 公開日:2022-05-08
# (参考訳) N-ACT: 自動細胞型および正常遺伝子同定のための解釈可能な深層学習モデル

N-ACT: An Interpretable Deep Learning Model for Automatic Cell Type and Salient Gene Identification ( http://arxiv.org/abs/2206.04047v1 )

ライセンス: CC BY 4.0
A. Ali Heydari, Oscar A. Davalos, Katrina K. Hoyer, Suzanne S. Sindi(参考訳) 単細胞RNAシークエンシング(scRNAseq)は、複雑な組織や生物における細胞組成の理解を急速に進めている。 ほとんどのscrnaseq分析パイプラインの主要な制限は、時間消費、主観的、専門知識を必要とするセルのアイデンティティを決定するために手動アノテーションに依存することである。 セルシークエンシングの急増に伴い、特に深層学習モデルを用いたセルタイプの自動識別(ACTI)が開発され、精度とスケーラビリティが向上した。 しかしながら、ACTIの既存のディープラーニングフレームワークには解釈性がなく、“ブラックボックス”モデルとして使用されている。 N-ACT(Neural-Attention for Cell Type Identification: 細胞型同定のためのニューラルアテンション)は,ニューラルアテンションを用いて,細胞型同定に用いるサルエント遺伝子を検出するためのACTI用ニューラルネットワークである。 我々はN-ACTと従来のアノテーション手法を比較し、N-ACTがマーカー遺伝子や細胞型を教師なしで正確に識別し、従来の教師付きACTIの最先端モデルに対して複数のデータセットで比較可能であることを示した。

Single-cell RNA sequencing (scRNAseq) is rapidly advancing our understanding of cellular composition within complex tissues and organisms. A major limitation in most scRNAseq analysis pipelines is the reliance on manual annotations to determine cell identities, which are time consuming, subjective, and require expertise. Given the surge in cell sequencing, supervised methods-especially deep learning models-have been developed for automatic cell type identification (ACTI), which achieve high accuracy and scalability. However, all existing deep learning frameworks for ACTI lack interpretability and are used as "black-box" models. We present N-ACT (Neural-Attention for Cell Type identification): the first-of-its-kind interpretable deep neural network for ACTI utilizing neural-attention to detect salient genes for use in cell-type identification. We compare N-ACT to conventional annotation methods on two previously manually annotated data sets, demonstrating that N-ACT accurately identifies marker genes and cell types in an unsupervised manner, while performing comparably on multiple data sets to current state-of-the-art model in traditional supervised ACTI.
翻訳日:2022-06-13 00:32:38 公開日:2022-05-08
# (参考訳) neurips'21チャレンジ「10億近い近接探索」の結果

Results of the NeurIPS'21 Challenge on Billion-Scale Approximate Nearest Neighbor Search ( http://arxiv.org/abs/2205.03763v1 )

ライセンス: CC BY-SA 4.0
Harsha Vardhan Simhadri, George Williams, Martin Aum\"uller, Matthijs Douze, Artem Babenko, Dmitry Baranchuk, Qi Chen, Lucas Hosseini, Ravishankar Krishnaswamy, Gopal Srinivasa, Suhas Jayaram Subramanya, Jingdong Wang(参考訳) 近距離探索のための幅広いアルゴリズムにもかかわらず、アルゴリズムの実証的な評価はより小さなデータセットに焦点を合わせており、典型的には100万点〜\citep{benchmark}である。 しかし,最近の組込み技術による大規模検索,推薦,ランキングの展開には,数十億,数十億以上のANNS指標が必要である。 最近のいくつかの論文を除いて、このスケールでどのアルゴリズムが有効であるかについてのコンセンサスは限られている。 このコンペティションは、ANNSアルゴリズムをハードウェアコスト、精度、性能で数十億ドル規模で比較する。 私たちは、標準化されたハードウェアと特殊なハードウェアのためのオープンソースの評価フレームワークとリーダーボードを構築しました。 競技には3つのトラックがある。 標準的なハードウェアトラックT1は、DRAMが限られているAzure VM上のアルゴリズムを評価する。 FAISS~\citep{Faiss17} をベースラインとして使用する。 標準のハードウェアトラックT2は、限られたDRAMに加えて安価なSSDを可能にし、ベースラインとしてDiskANN~\citep{DiskANN19}を使用する。 特別なハードウェアトラックT3は任意のハードウェア構成を可能にし、FAISSをベースラインとして使用する。 このコンペティションのために新たにリリースされた4つのデータセットは、さまざまなモダリティ、データタイプ、寸法、ディープラーニングモデル、距離関数、ソースにまたがる。 競合の結果は、クエリスループットのしきい値でのリコールに基づいて、各トラックのアルゴリズムのリーダーボードにランク付けされた。 さらにトラックT3では、リコールとコスト正規化と電力正規化のクエリスループットに基づいて、別々のリーダボードが作成されている。

Despite the broad range of algorithms for Approximate Nearest Neighbor Search, most empirical evaluations of algorithms have focused on smaller datasets, typically of 1 million points~\citep{Benchmark}. However, deploying recent advances in embedding based techniques for search, recommendation and ranking at scale require ANNS indices at billion, trillion or larger scale. Barring a few recent papers, there is limited consensus on which algorithms are effective at this scale vis-\`a-vis their hardware cost. This competition compares ANNS algorithms at billion-scale by hardware cost, accuracy and performance. We set up an open source evaluation framework and leaderboards for both standardized and specialized hardware. The competition involves three tracks. The standard hardware track T1 evaluates algorithms on an Azure VM with limited DRAM, often the bottleneck in serving billion-scale indices, where the embedding data can be hundreds of GigaBytes in size. It uses FAISS~\citep{Faiss17} as the baseline. The standard hardware track T2 additional allows inexpensive SSDs in addition to the limited DRAM and uses DiskANN~\citep{DiskANN19} as the baseline. The specialized hardware track T3 allows any hardware configuration, and again uses FAISS as the baseline. We compiled six diverse billion-scale datasets, four newly released for this competition, that span a variety of modalities, data types, dimensions, deep learning models, distance functions and sources. The outcome of the competition was ranked leaderboards of algorithms in each track based on recall at a query throughput threshold. Additionally, for track T3, separate leaderboards were created based on recall as well as cost-normalized and power-normalized query throughput.
翻訳日:2022-06-03 23:12:44 公開日:2022-05-08
# (参考訳) 短期株式市場予測のための一変量および多変量LSTMモデル

Univariate and Multivariate LSTM Model for Short-Term Stock Market Prediction ( http://arxiv.org/abs/2205.06673v1 )

ライセンス: CC BY 4.0
Vishal Kuber, Divakar Yadav, Arun Kr Yadav(参考訳) 堅牢で正確な予測モデルを設計することは、長い間、有効な研究分野でした。 良く機能する市場予測者の支持者は市場価格を正確に予測することは困難であると信じているが、多くの学者は反対している。 堅牢で正確な予測システムは、ビジネスだけでなく個人にとっても、金融投資を行う上でも役立つだろう。 本稿では,インド企業2社(Reliance IndustriesとInfosys Ltd.)の短期株価を予測するために,入力アプローチの異なるLSTMモデルを提案する。 10年間の歴史的データ(2012-2021)をヤフー金融のウェブサイトから抽出し,提案手法の分析を行った。 第1のアプローチでは、2つの選択した企業の閉店価格を単変量LSTMモデルに直接適用する。 アプローチ2では、閉値から技術的指標値を算出し、多変量LSTMモデルにまとめて適用する。 今後の市場行動は短期的に評価される。 実験結果から, 今後のトレンドを決定するのに有用であるが, 技術的指標を用いた多変量LSTMモデルは, 将来の価格変動を正確に予測するのに有用であることが判明した。

Designing robust and accurate prediction models has been a viable research area since a long time. While proponents of a well-functioning market predictors believe that it is difficult to accurately predict market prices but many scholars disagree. Robust and accurate prediction systems will not only be helpful to the businesses but also to the individuals in making their financial investments. This paper presents an LSTM model with two different input approaches for predicting the short-term stock prices of two Indian companies, Reliance Industries and Infosys Ltd. Ten years of historic data (2012-2021) is taken from the yahoo finance website to carry out analysis of proposed approaches. In the first approach, closing prices of two selected companies are directly applied on univariate LSTM model. For the approach second, technical indicators values are calculated from the closing prices and then collectively applied on Multivariate LSTM model. Short term market behaviour for upcoming days is evaluated. Experimental outcomes revel that approach one is useful to determine the future trend but multivariate LSTM model with technical indicators found to be useful in accurately predicting the future price behaviours.
翻訳日:2022-05-22 15:01:15 公開日:2022-05-08
# 深層学習モデルの耐雑音性に及ぼす学習速度の影響

Impact of Learning Rate on Noise Resistant Property of Deep Learning Models ( http://arxiv.org/abs/2205.07856v1 )

ライセンス: Link先を確認
Omobayode Fagbohungbe and Lijun Qian(参考訳) アナログ計算への関心は、その高速な計算速度と優れたエネルギー効率により、近年急速に高まり、ディープラーニング推論のためのサブワットパワーエンベロープにおけるエッジやIoTデバイスにとって非常に重要である。 しかし、アナログ計算における固有ノイズによるディープラーニングモデルによる顕著な性能劣化は、ミッションクリティカルなアプリケーションでの使用を制限することができる。 したがって、臨界モデルハイパーパラメータの選択がモデルノイズ耐性特性に与える影響を理解する必要がある。 このニーズは、得られた洞察がアナログノイズにロバストなディープラーニングモデルの設計に使用できるため、非常に重要である。 本稿では,学習率,重要な設計選択が耐雑音性に及ぼす影響について検討する。 この研究は、まず異なる学習率でディープラーニングモデルをトレーニングすることで達成される。 その後、モデルにアナログノイズを注入し、アナログノイズによる性能劣化を測定することにより、結果モデルの耐雑音性を検討した。 その結果,モデル予測性能とモデル雑音耐性特性とのバランスが良好である学習速度値のスイートスポットが存在することがわかった。 さらに、観測現象の理論的正当性も提供する。

The interest in analog computation has grown tremendously in recent years due to its fast computation speed and excellent energy efficiency, which is very important for edge and IoT devices in the sub-watt power envelope for deep learning inferencing. However, significant performance degradation suffered by deep learning models due to the inherent noise present in the analog computation can limit their use in mission-critical applications. Hence, there is a need to understand the impact of critical model hyperparameters choice on the resulting model noise-resistant property. This need is critical as the insight obtained can be used to design deep learning models that are robust to analog noise. In this paper, the impact of the learning rate, a critical design choice, on the noise-resistant property is investigated. The study is achieved by first training deep learning models using different learning rates. Thereafter, the models are injected with analog noise and the noise-resistant property of the resulting models is examined by measuring the performance degradation due to the analog noise. The results showed there exists a sweet spot of learning rate values that achieves a good balance between model prediction performance and model noise-resistant property. Furthermore, the theoretical justification of the observed phenomenon is provided.
翻訳日:2022-05-22 11:43:56 公開日:2022-05-08
# クエリを用いたニューラルプログラム合成

Neural Program Synthesis with Query ( http://arxiv.org/abs/2205.07857v1 )

ライセンス: Link先を確認
Di Huang, Rui Zhang, Xing Hu, Xishan Zhang, Pengwei Jin, Nan Li, Zidong Du, Qi Guo, Yunji Chen(参考訳) 入力出力の例でユーザ意図を満たすプログラムを見つけることを目的として、プログラム合成は機械学習分野への関心が高まっている。 既存の手法の有望な性能にもかかわらず、その成功の大部分は、よく設計された入出力例の特権情報に由来する。 しかし、そのような入力出力の例を提供するには、トレーニング分布の下でいくつかの入力出力の例を使って、基礎となるプログラムを記述できることが必要となるため、現実的ではない。 本研究では,問合せニューラルネットワークを学習し,大量の問合せ空間から情報入力出力サンプルを自動的かつインタラクティブに生成する,問合せベースのフレームワークを提案する。 クエリの品質は、クエリと対応するプログラム間の相互情報の量に依存し、クエリフレームワークの最適化を導くことができる。 相互情報をより正確に推定するために、入力出力例とプログラムの関連性を異なる方法でモデル化する関数空間(F空間)を導入する。 本稿では,Karelタスクとリスト処理タスクにおけるクエリベースのフレームワークの有効性と一般化を評価する。 実験の結果、クエリベースのフレームワークは、適切に設計された入力出力の例よりも優れた結果を得る、有益な入力出力の例を生成できることが示されている。

Aiming to find a program satisfying the user intent given input-output examples, program synthesis has attracted increasing interest in the area of machine learning. Despite the promising performance of existing methods, most of their success comes from the privileged information of well-designed input-output examples. However, providing such input-output examples is unrealistic because it requires the users to have the ability to describe the underlying program with a few input-output examples under the training distribution. In this work, we propose a query-based framework that trains a query neural network to generate informative input-output examples automatically and interactively from a large query space. The quality of the query depends on the amount of the mutual information between the query and the corresponding program, which can guide the optimization of the query framework. To estimate the mutual information more accurately, we introduce the functional space (F-space) which models the relevance between the input-output examples and the programs in a differentiable way. We evaluate the effectiveness and generalization of the proposed query-based framework on the Karel task and the list processing task. Experimental results show that the query-based framework can generate informative input-output examples which achieve and even outperform well-designed input-output examples.
翻訳日:2022-05-22 11:43:40 公開日:2022-05-08
# (参考訳) 生成逆ネットワークを用いたエンドツーエンドラビング修復

End-to-End Rubbing Restoration Using Generative Adversarial Networks ( http://arxiv.org/abs/2205.03743v1 )

ライセンス: CC BY 4.0
Gongbo Sun, Zijie Zheng, and Ming Zhang(参考訳) ルビング修復は世界文化史の保存に重要である。 本稿では,不完全なラビング文字の復元のためのRubbingGANモデルを提案する。 具体的には、zhang menglong beiから文字を収集し、最初のラビング復元データセットを構築する。 修復作業のための第1世代対向ネットワークを設計する。 収集したデータセットに基づいて、Zhang Menglong Beiフォントスタイルを学習し、文字を復元するためにRubbingGANを適用します。 実験の結果,rubbingganはわずかに不完全なrubingキャラクタを迅速かつ効果的に修復できることが判明した。

Rubbing restorations are significant for preserving world cultural history. In this paper, we propose the RubbingGAN model for restoring incomplete rubbing characters. Specifically, we collect characters from the Zhang Menglong Bei and build up the first rubbing restoration dataset. We design the first generative adversarial network for rubbing restoration. Based on the dataset we collect, we apply the RubbingGAN to learn the Zhang Menglong Bei font style and restore the characters. The results of experiments show that RubbingGAN can repair both slightly and severely incomplete rubbing characters fast and effectively.
翻訳日:2022-05-15 05:59:50 公開日:2022-05-08
# (参考訳) DPMS: 一般化MaxSAT解法におけるADDに基づくシンボリックアプローチ

DPMS: An ADD-Based Symbolic Approach for Generalized MaxSAT Solving ( http://arxiv.org/abs/2205.03747v1 )

ライセンス: CC BY 4.0
Anastasios Kyrillidis, Moshe Y. Vardi, Zhiwei Zhang(参考訳) ブールマックスSATは、Min-MaxSATやMax-hybrid-SATのような一般化された定式化とともに、ブール推論の基本的な最適化問題である。 MaxSATの既存の手法は、ベンチマークをCNF形式で解くことに成功している。 しかし、ハイブリッドで一般化されたMaxSAT問題をネイティブに処理する能力は欠如している。 そこで本研究では,代数的決定図(ADD)に基づく,一般化されたMaxSAT問題の解法であるDynamic-Programming-MaxSATあるいはDPMSを提案する。 ADDと(段階的な)プロジェクト-ジョイントツリービルダーの力により、私たちの汎用フレームワークは、MaxSATの非CNF制約を持つMaxSATやMin-MaxSAT、MinSATなど、MaxSATの多くの一般化を処理できます。 さらに、DPMSは低い幅のインスタンスで確実にスケールする。 実験の結果、DPMSは様々な手法に基づく他のアルゴリズムがすべて失敗し、特定の問題を迅速に解決できることがわかった。 そのため、DPMSは有望な枠組みであり、将来さらなる調査を望む新たな研究のラインを開く。

Boolean MaxSAT, as well as generalized formulations such as Min-MaxSAT and Max-hybrid-SAT, are fundamental optimization problems in Boolean reasoning. Existing methods for MaxSAT have been successful in solving benchmarks in CNF format. They lack, however, the ability to handle hybrid and generalized MaxSAT problems natively. To address this issue, we propose a novel dynamic-programming approach for solving generalized MaxSAT problems -- called Dynamic-Programming-MaxSAT or DPMS for short -- based on Algebraic Decision Diagrams (ADDs). With the power of ADDs and the (graded) project-join-tree builder, our versatile framework can handle many generalizations of MaxSAT, such as MaxSAT with non-CNF constraints, Min-MaxSAT and MinSAT. Moreover, DPMS scales provably well on instances with low width. Empirical results indicate that DPMS is able to solve certain problems quickly, where other algorithms based on various techniques all fail. Hence, DPMS is a promising framework and opens a new line of research that desires more investigation in the future.
翻訳日:2022-05-15 05:50:57 公開日:2022-05-08
# (参考訳) GOCPT: 一般化されたオンラインカノニカルポリエードテンソル因子化と完了

GOCPT: Generalized Online Canonical Polyadic Tensor Factorization and Completion ( http://arxiv.org/abs/2205.03749v1 )

ライセンス: CC BY 4.0
Chaoqi Yang, Cheng Qian, Jimeng Sun(参考訳) 低ランクテンソルファクタライゼーションや完了は、オンラインテンソルファクタライゼーション(テンポラリモードが成長する)やオンラインテンソル補完(不完全なスライスが徐々に現れる)など、さまざまなオンライン設定でよく研究され、適用されている。 しかし、多くの現実世界の設定では、テンソルはより複雑な進化パターンを持つかもしれない。 (i)1つ以上のモードが成長する。 (ii) 欠落した項目を記入することができる。 (iii)既存のテンソル要素は変更可能である。 既存のメソッドはこのような複雑なシナリオをサポートできない。 このギャップを埋めるために、本論文では、このような動的テンソルのCP構造を進化中に維持する、一般化オンライン正準ポリアディック(CP)テンソル分解および完備化フレームワーク(OCPT)を提案する。 既存のオンラインテンソル因子化と完了設定は GOCPT フレームワークの下で統一可能であることを示す。 さらに,歴史的なテンソル要素が使用できない場合(プライバシ保護など)に対処するために,gocpteという変種を提案する。 実験の結果,JHU Covidデータでは最大2:8%,プロプライエタリな患者クレームデータセットでは9:2%の適合性が得られた。 GOCPTEは2つのデータセットで最大1:2%,5:5%の適合性向上を実現しています。

Low-rank tensor factorization or completion is well-studied and applied in various online settings, such as online tensor factorization (where the temporal mode grows) and online tensor completion (where incomplete slices arrive gradually). However, in many real-world settings, tensors may have more complex evolving patterns: (i) one or more modes can grow; (ii) missing entries may be filled; (iii) existing tensor elements can change. Existing methods cannot support such complex scenarios. To fill the gap, this paper proposes a Generalized Online Canonical Polyadic (CP) Tensor factorization and completion framework (named GOCPT) for this general setting, where we maintain the CP structure of such dynamic tensors during the evolution. We show that existing online tensor factorization and completion setups can be unified under the GOCPT framework. Furthermore, we propose a variant, named GOCPTE, to deal with cases where historical tensor elements are unavailable (e.g., privacy protection), which achieves similar fitness as GOCPT but with much less computational cost. Experimental results demonstrate that our GOCPT can improve fitness by up to 2:8% on the JHU Covid data and 9:2% on a proprietary patient claim dataset over baselines. Our variant GOCPTE shows up to 1:2% and 5:5% fitness improvement on two datasets with about 20% speedup compared to the best model.
翻訳日:2022-05-15 05:26:13 公開日:2022-05-08
# (参考訳) 競合閾値モデルの学習可能性

Learnability of Competitive Threshold Models ( http://arxiv.org/abs/2205.03750v1 )

ライセンス: CC BY 4.0
Yifan Wang and Guangmo Tong(参考訳) 社会的伝染の拡散のモデル化は、社会コンピューティングにおける様々な応用の中心である。 本稿では,理論的観点から,競合しきい値モデルの学習可能性について検討する。 本稿では,有限VC次元の人工ニューラルネットワークで競合しきい値モデルをシームレスにシミュレートし,解析的なサンプルの複雑性と一般化バウンダリを実現する方法を示す。 提案する仮説空間に基づいて,経験的リスク最小化手法により効率的なアルゴリズムを設計する。 理論的な洞察は最終的に実用的で説明可能なモデリング手法に変換され、その効果は数個の合成および実際のデータセットに対する正当性チェックによって検証される。 実験結果から,本手法は過剰なデータポイントを使わずに良好な性能を享受できることを示す。

Modeling the spread of social contagions is central to various applications in social computing. In this paper, we study the learnability of the competitive threshold model from a theoretical perspective. We demonstrate how competitive threshold models can be seamlessly simulated by artificial neural networks with finite VC dimensions, which enables analytical sample complexity and generalization bounds. Based on the proposed hypothesis space, we design efficient algorithms under the empirical risk minimization scheme. The theoretical insights are finally translated into practical and explainable modeling methods, the effectiveness of which is verified through a sanity check over a few synthetic and real datasets. The experimental results promisingly show that our method enjoys a decent performance without using excessive data points, outperforming off-the-shelf methods.
翻訳日:2022-05-15 05:01:06 公開日:2022-05-08
# (参考訳) 多次元時系列予測のための適応グラフ畳み込みネットワークフレームワーク

Adaptive Graph Convolutional Network Framework for Multidimensional Time Series Prediction ( http://arxiv.org/abs/2205.04885v1 )

ライセンス: CC BY 4.0
Ning Wang(参考訳) In the real world, long sequence time-series forecasting (LSTF) is needed in many cases, such as power consumption prediction and air quality prediction.Multi-dimensional long time series model has more strict requirements on the model, which not only needs to effectively capture the accurate long-term dependence between input and output, but also needs to capture the relationship between data of different dimensions.Recent research shows that the Informer model based on Transformer has achieved excellent performance in long time series prediction.However, this model still has some deficiencies in multidimensional prediction,it cannot capture the relationship between different dimensions well. 多次元予測における欠点に対処するためにインフォメータを改善した。 まず,主に時系列予測における隠れ次元依存性を捉える適応型グラフニューラルネットワークを提案する。 次に,適応型グラフ畳み込みネットワークを様々な時空間級数予測モデルに統合し,異なる次元の関係を捉えることができないという欠点を解消する。 第3に,複数のデータセットを用いた実験的テストの結果,モデル導入後のフレームワークの精度が約10\%向上した。

In the real world, long sequence time-series forecasting (LSTF) is needed in many cases, such as power consumption prediction and air quality prediction.Multi-dimensional long time series model has more strict requirements on the model, which not only needs to effectively capture the accurate long-term dependence between input and output, but also needs to capture the relationship between data of different dimensions.Recent research shows that the Informer model based on Transformer has achieved excellent performance in long time series prediction.However, this model still has some deficiencies in multidimensional prediction,it cannot capture the relationship between different dimensions well. We improved Informer to address its shortcomings in multidimensional forecasting. First,we introduce an adaptive graph neural network to capture hidden dimension dependencies in mostly time series prediction. Secondly,we integrate adaptive graph convolutional networks into various spatio-temporal series prediction models to solve the defect that they cannot capture the relationship between different dimensions. Thirdly,After experimental testing with multiple data sets, the accuracy of our framework improved by about 10\% after being introduced into the model.
翻訳日:2022-05-15 04:22:28 公開日:2022-05-08
# (参考訳) 微分電子顕微鏡シミュレーション:可視化法と応用

Differentiable Electron Microscopy Simulation: Methods and Applications for Visualization ( http://arxiv.org/abs/2205.04464v1 )

ライセンス: CC BY-SA 4.0
Ngan Nguyen, Feng Liang, Dominik Engel, Ciril Bohak, Peter Wonka, Timo Ropinski, Ivan Viola(参考訳) 本研究では, 物理電子顕微鏡による観察結果と同様, 微視的形状で原子モデルを描くことのできる新しい顕微鏡シミュレーションシステムを提案する。 このシステムはスケーラブルで、数十個のウイルス粒子の電子顕微鏡のシミュレーションを表現でき、従来の方法よりも高速に合成できる。 その上、シミュレータは微分可能であり、その決定論と、マイクログラフ内の信号とノイズ表現を形成する確率的段階の両方がある。 この注目すべき特性は、最適化によって逆問題を解く能力を持ち、実データから推定したパラメータ設定を用いて顕微鏡シミュレーションを生成することができる。 本研究は,(1)模擬および実マイクログラフの検出器特性を定義する変調伝達関数のパラメータを推定し,(2)模擬例から学習したパラメータに基づいて実データを復調する2つの応用を通して,この学習能力を実証する。 現在のシミュレータは前方設計のためパラメータ推定をサポートしていないが、推定パラメータを用いて得られた結果は実際のマイクログラフの結果と非常によく似ている。 さらに,提案手法の認知能力を評価し,その結果が最先端手法よりも改善したことを示す。 脱音されたマイクログラフは、傾き列のトモグラフィ再構成においてノイズが少なく、最終的には顕微鏡断層像の直接ボリュームレンダリングにおけるノイズの視覚的支配性が低下する。

We propose a new microscopy simulation system that can depict atomistic models in a micrograph visual style, similar to results of physical electron microscopy imaging. This system is scalable, able to represent simulation of electron microscopy of tens of viral particles and synthesizes the image faster than previous methods. On top of that, the simulator is differentiable, both its deterministic as well as stochastic stages that form signal and noise representations in the micrograph. This notable property has the capability for solving inverse problems by means of optimization and thus allows for generation of microscopy simulations using the parameter settings estimated from real data. We demonstrate this learning capability through two applications: (1) estimating the parameters of the modulation transfer function defining the detector properties of the simulated and real micrographs, and (2) denoising the real data based on parameters trained from the simulated examples. While current simulators do not support any parameter estimation due to their forward design, we show that the results obtained using estimated parameters are very similar to the results of real micrographs. Additionally, we evaluate the denoising capabilities of our approach and show that the results showed an improvement over state-of-the-art methods. Denoised micrographs exhibit less noise in the tilt-series tomography reconstructions, ultimately reducing the visual dominance of noise in direct volume rendering of microscopy tomograms.
翻訳日:2022-05-15 04:12:41 公開日:2022-05-08
# (参考訳) スコットランドにおける衛星画像を用いた全炭素推定のための地上バイオマスと土壌有機炭素の併用研究

Joint Study of Above Ground Biomass and Soil Organic Carbon for Total Carbon Estimation using Satellite Imagery in Scotland ( http://arxiv.org/abs/2205.04870v1 )

ライセンス: CC BY 4.0
Terrence Chan, Carla Arus Gomez, Anish Kothikar, Pedro Baiz(参考訳) カーボンクレジット市場では長年、土地の炭素の検証が課題となっている。 現在利用可能なカーボン検証手法は高価であり、低品質のクレジットを生成する可能性がある。 スケーラブルで正確なリモートセンシング技術は、地上バイオマス(agb)と土壌有機炭素(soc)の変化を監視する新しいアプローチを可能にする。 最先端の研究の大部分は、AGBとSOCを別々にリモートセンシングしている。 本研究における2つの領域を組み合わせることで、最先端の炭素推定を改善し、自発的な炭素取引市場に関する洞察を提供する。 SOCドメインとAGBドメインの最先端手法を用いて,スコットランドの本研究領域にベースラインモデルを確立することから始める。 分散インフレーション係数や特徴選択といった特徴工学的手法が機械学習モデルに与える影響について検討した。 これは2つの領域からの予測変数を組み合わせることで拡張される。 最後に, AGB と SOC の相関を利用して両者の関係を確立するとともに, 最先端の結果よりも優れた新しいモデルを提案する。 boosted regression tree, random forest, xgboostの3つの機械学習手法を比較した。 これらの手法は両領域でもっとも効果的であることが示されている。

Land Carbon verification has long been a challenge in the carbon credit market. Carbon verification methods currently available are expensive, and may generate low-quality credit. Scalable and accurate remote sensing techniques enable new approaches to monitor changes in Above Ground Biomass (AGB) and Soil Organic Carbon (SOC). The majority of state-of-the-art research employs remote sensing on AGB and SOC separately, although some studies indicate a positive correlation between the two. We intend to combine the two domains in our research to improve state-of-the-art total carbon estimation and to provide insight into the voluntary carbon trading market. We begin by establishing baseline model in our study area in Scotland, using state-of-the-art methodologies in the SOC and AGB domains. The effects of feature engineering techniques such as variance inflation factor and feature selection on machine learning models are then investigated. This is extended by combining predictor variables from the two domains. Finally, we leverage the possible correlation between AGB and SOC to establish a relationship between the two and propose novel models in an attempt outperform the state-of-the-art results. We compared three machine learning techniques, boosted regression tree, random forest, and xgboost. These techniques have been demonstrated to be the most effective in both domains.
翻訳日:2022-05-15 03:47:39 公開日:2022-05-08
# ネットワーク侵入検出のためのデータセット特性に合わせたアンサンブル分類器の設計

Ensemble Classifier Design Tuned to Dataset Characteristics for Network Intrusion Detection ( http://arxiv.org/abs/2205.06177v1 )

ライセンス: Link先を確認
Zeinab Zoghi, Gursel Serpen(参考訳) 機械学習ベースの教師付きアプローチは、優れたパフォーマンスを提供するために高度にカスタマイズされ、微調整された方法論を必要とする。 本稿では,ネットワーク侵入データセットUNSW-NB15のための機械学習分類器の設計と性能評価を行う。 データセットの分析は、機能空間におけるクラス表現の不均衡とクラス重なりに苦しむことを示唆している。 我々は,ヘリンジャー距離決定木 (rf-hddt) に権限を付与されたバランスド・バグング (bb), 極勾配ブースティング (xgboost), ランダム・フォレストを用いたアンサンブル手法を採用した。 BBとXGBoostは不均衡データを扱うように調整され、ランダムフォレスト(RF)分類器は不均衡問題に対処するためにヘリンジャー計量によって補足される。 データセットのクラスオーバーラップ問題に対処する2つの新しいアルゴリズムが提案されている。 これら2つのアルゴリズムは、3つのベース分類器による最終分類決定を多数投票結合器を使用するアンサンブル分類器の一部として修正することにより、テストデータセットのパフォーマンスを改善するのに役立つ。 提案手法は二進分類と多進分類の両方で評価される。 論文で同じデータセットで報告されたモデルと比較すると、提案モデルは二項分類と多項分類の双方において有意差で他よりも優れていることが示されている。

Machine Learning-based supervised approaches require highly customized and fine-tuned methodologies to deliver outstanding performance. This paper presents a dataset-driven design and performance evaluation of a machine learning classifier for the network intrusion dataset UNSW-NB15. Analysis of the dataset suggests that it suffers from class representation imbalance and class overlap in the feature space. We employed ensemble methods using Balanced Bagging (BB), eXtreme Gradient Boosting (XGBoost), and Random Forest empowered by Hellinger Distance Decision Tree (RF-HDDT). BB and XGBoost are tuned to handle the imbalanced data, and Random Forest (RF) classifier is supplemented by the Hellinger metric to address the imbalance issue. Two new algorithms are proposed to address the class overlap issue in the dataset. These two algorithms are leveraged to help improve the performance of the testing dataset by modifying the final classification decision made by three base classifiers as part of the ensemble classifier which employs a majority vote combiner. The proposed design is evaluated for both binary and multi-category classification. Comparing the proposed model to those reported on the same dataset in the literature demonstrate that the proposed model outperforms others by a significant margin for both binary and multi-category classification cases.
翻訳日:2022-05-13 13:01:28 公開日:2022-05-08
# 大うつ病における機能的脳老化の促進--中国人の大規模fMRI解析から

Accelerated functional brain aging in major depressive disorder: evidence from a large scale fMRI analysis of Chinese participants ( http://arxiv.org/abs/2205.04871v1 )

ライセンス: Link先を確認
Yunsong Luo, Wenyu Chen, Jiang Qiu, Tao Jia(参考訳) 主要なうつ病性障害(mdd)は、脳萎縮と死亡との関連について集中的に研究されている最も一般的な精神疾患の1つである。 近年の研究では、予測年齢と時系列年齢のずれが、MDDを特徴づける加速脳老化の指標となることが示されている。 しかし、現在の結論は通常、コーカサス人の参加者から収集された構造的MRI情報に基づいて導かれる。 このバイオマーカーの普遍性は、異なる民族的・人種的背景と異なる種類のデータによってさらに検証される必要がある。 ここでは、中国の複数のコホート参加者から収集された大規模な静止状態fMRIデータセットであるREST-meta-MDDを利用する。 1101の健常度制御に基づく階層型機械学習モデルを構築し,fMRIの時系列年齢を有望な精度で推定する。 訓練されたモデルは、24箇所から1276名のMDD患者に適用される。 mdd患者は、コントロールと比較して脳予測年齢差(brain-pad)が高い(+4.43$ years (\text{$p$} < 0.0001$, $\text{cohen's $d$} = 0.35$, $\text{95\% ci}:1.86 - 3.91$)。 mddサブグループでは、統計的に有意な$2.09$ years (\text{$p$} < 0.05$, $\text{cohen's $d$} = 0.134483$) が抗うつ薬のない患者と比較された。 観測された統計関係は、3つの異なる機械学習アルゴリズムによってさらにチェックされる。 中国の参加者で観察された陽性脳PADは、MDD患者の脳老化が加速していることを確認する。 年齢推定における機能的脳接続の利用は、新しい次元から既存の知見を検証する。

Major depressive disorder (MDD) is one of the most common mental health conditions that has been intensively investigated for its association with brain atrophy and mortality. Recent studies reveal that the deviation between the predicted and the chronological age can be a marker of accelerated brain aging to characterize MDD. However, current conclusions are usually drawn based on structural MRI information collected from Caucasian participants. The universality of this biomarker needs to be further validated by subjects with different ethnic/racial backgrounds and by different types of data. Here we make use of the REST-meta-MDD, a large scale resting-state fMRI dataset collected from multiple cohort participants in China. We develop a stacking machine learning model based on 1101 healthy controls, which estimates a subject's chronological age from fMRI with promising accuracy. The trained model is then applied to 1276 MDD patients from 24 sites. We observe that MDD patients exhibit a $+4.43$ years ($\text{$p$} < 0.0001$, $\text{Cohen's $d$} = 0.35$, $\text{95\% CI}:1.86 - 3.91$) higher brain-predicted age difference (brain-PAD) compared to controls. In the MDD subgroup, we observe a statistically significant $+2.09$ years ($\text{$p$} < 0.05$, $\text{Cohen's $d$} = 0.134483$) brain-PAD in antidepressant users compared to medication-free patients. The statistical relationship observed is further checked by three different machine learning algorithms. The positive brain-PAD observed in participants in China confirms the presence of accelerated brain aging in MDD patients. The utilization of functional brain connectivity for age estimation verifies existing findings from a new dimension.
翻訳日:2022-05-12 21:00:10 公開日:2022-05-08
# (参考訳) 沈黙は音声よりも甘い:サイレントを使って話者情報を保存する自己教師付きモデル

Silence is Sweeter Than Speech: Self-Supervised Model Using Silence to Store Speaker Information ( http://arxiv.org/abs/2205.03759v1 )

ライセンス: CC BY 4.0
Chi-Luen Feng, Po-chun Hsu, Hung-yi Lee(参考訳) 自己監視学習(SSL)は最近大きな進歩を遂げています。 SSL音声モデルは、幅広いダウンストリームタスクにおいて良好なパフォーマンスを達成し、音声から様々な側面の情報を抽出することを示唆している。 しかし、sslモデルが様々な情報を干渉せずに隠れた表現に保存する方法はまだよく分かっていない。 最近成功したSSLモデルであるHuBERTを例として、SSLモデルがどのように処理し、その表現に話者情報を格納するかを考察する。 ヒューバートは音源中の沈黙に対応する位置の表現に話者情報を格納していることがわかった。 いくつかの証拠があります。 1) 波形のサイレントな部分の発話は話者識別(SID)の精度が向上することがわかった。 2) SID に全発話を使用する場合,沈黙部は常に SID タスクに寄与する。 (3) 発話の一部のみをSIDに用いた場合、サイレント部は他の部分よりも精度が高い。 私たちの発見はSSLモデルの理解を深めるだけでなく、パフォーマンスの向上にも寄与しています。 元の波形にサイレントを加えるだけで、HuBERTはSIDの精度を2%近く改善した。

Self-Supervised Learning (SSL) has made great strides recently. SSL speech models achieve decent performance on a wide range of downstream tasks, suggesting that they extract different aspects of information from speech. However, how SSL models store various information in hidden representations without interfering is still poorly understood. Taking the recently successful SSL model, HuBERT, as an example, we explore how the SSL model processes and stores speaker information in the representation. We found that HuBERT stores speaker information in representations whose positions correspond to silences in a waveform. There are several pieces of evidence. (1) We find that the utterances with more silent parts in the waveforms have better Speaker Identification (SID) accuracy. (2) If we use the whole utterances for SID, the silence part always contributes more to the SID task. (3) If we only use the representation of a part of the utterance for SID, the silenced part has higher accuracy than the other parts. Our findings not only contribute to a better understanding of SSL models but also improve performance. By simply adding silence to the original waveform, HuBERT improved its accuracy on SID by nearly 2%.
翻訳日:2022-05-12 16:44:04 公開日:2022-05-08
# (参考訳) ビデオオブジェクトセグメンテーションのためのリカレント動的埋め込み

Recurrent Dynamic Embedding for Video Object Segmentation ( http://arxiv.org/abs/2205.03761v1 )

ライセンス: CC BY 4.0
Mingxing Li, Li Hu, Zhiwei Xiong, Bang Zhang, Pan Pan, Dong Liu(参考訳) 時空間メモリ(STM)ベースのビデオオブジェクトセグメンテーション(VOS)ネットワークは、通常、数フレーム毎にメモリバンクを増大させ、優れた性能を示す。 しかし、 1)ビデオ長の増加に伴い,ハードウェアはメモリ要求の増大に耐えられない。 2)多くの情報を格納することは必然的に多くのノイズをもたらし、メモリバンクから最も重要な情報を読み取ることには役立たない。 本稿では,一定サイズのメモリバンクを構築するためのRecurrent Dynamic Embedding (RDE)を提案する。 具体的には,歴史情報のキューを利用した時空間アグリゲーションモジュール (SAM) によってRDEを明示的に生成・更新する。 SAMの繰り返し使用による誤りの蓄積を回避するため,トレーニング段階での誘導損失の偏りをなくし,長大なビデオでSAMをより堅牢にする手法を提案する。 さらに、メモリバンク内の予測されたマスクは、クエリフレームのセグメンテーションに影響する不正確なネットワーク推論のために不正確である。 この問題に対処するために,ネットワークがメモリバンク内の異なる品質のマスクの埋め込みを修復できるように,新たな自己補正戦略を設計する。 実験により,本手法は性能と速度の最良のトレードオフを実現することを示す。 コードはhttps://github.com/Limingxing00/RDE-VOS-CVPR2022で公開されている。

Space-time memory (STM) based video object segmentation (VOS) networks usually keep increasing memory bank every several frames, which shows excellent performance. However, 1) the hardware cannot withstand the ever-increasing memory requirements as the video length increases. 2) Storing lots of information inevitably introduces lots of noise, which is not conducive to reading the most important information from the memory bank. In this paper, we propose a Recurrent Dynamic Embedding (RDE) to build a memory bank of constant size. Specifically, we explicitly generate and update RDE by the proposed Spatio-temporal Aggregation Module (SAM), which exploits the cue of historical information. To avoid error accumulation owing to the recurrent usage of SAM, we propose an unbiased guidance loss during the training stage, which makes SAM more robust in long videos. Moreover, the predicted masks in the memory bank are inaccurate due to the inaccurate network inference, which affects the segmentation of the query frame. To address this problem, we design a novel self-correction strategy so that the network can repair the embeddings of masks with different qualities in the memory bank. Extensive experiments show our method achieves the best tradeoff between performance and speed. Code is available at https://github.com/Limingxing00/RDE-VOS-CVPR2022.
翻訳日:2022-05-12 16:34:07 公開日:2022-05-08
# (参考訳) 大規模言語モデルを用いた文脈認識短縮拡張

Context-Aware Abbreviation Expansion Using Large Language Models ( http://arxiv.org/abs/2205.03767v1 )

ライセンス: CC BY 4.0
Shanqing Cai, Subhashini Venugopalan, Katrin Tomanek, Ajit Narayanan, Meredith R. Morris, Michael P. Brenner(参考訳) 重度運動障害のある人に対するAAC(Augmentative and Alternative Communication)におけるテキスト入力の高速化の必要性から,フレーズを単語初期文字として積極的に省略するパラダイムを提案する。 我々のアプローチは、事前訓練された大言語モデル(LLM)のパワーで会話コンテキストを活用することで、略語をフルフレーズに拡張することである。 4つの公開会話データセットのゼロショット、少数ショット、微調整実験により、64Bパラメータを持つLLMは、ダイアログの初期回転に対する応答に対して、省略長が10まで70以上のフレーズを正確に拡張できることを示し、これらの正確な拡張に対して、キーストロークの保存率を最大77に向上させる。 単一の会話の形に少量の文脈を含めると、文脈を持たない場合に比べて略語拡大の精度が2倍以上になる。 さらに、騒音データに対する微調整により、タイポノイズに対するモデルのロバスト性を高めることができる。

Motivated by the need for accelerating text entry in augmentative and alternative communication (AAC) for people with severe motor impairments, we propose a paradigm in which phrases are abbreviated aggressively as primarily word-initial letters. Our approach is to expand the abbreviations into full-phrase options by leveraging conversation context with the power of pretrained large language models (LLMs). Through zero-shot, few-shot, and fine-tuning experiments on four public conversation datasets, we show that for replies to the initial turn of a dialog, an LLM with 64B parameters is able to exactly expand over 70 of phrases with abbreviation length up to 10, leading to an effective keystroke saving rate of up to about 77 on these exact expansions. Including a small amount of context in the form of a single conversation turn more than doubles abbreviation expansion accuracies compared to having no context, an effect that is more pronounced for longer phrases. Additionally, the robustness of models against typo noise can be enhanced through fine-tuning on noisy data.
翻訳日:2022-05-11 08:04:25 公開日:2022-05-08
# (参考訳) Math-KG:数学知識グラフの構築と応用

Math-KG: Construction and Applications of Mathematical Knowledge Graph ( http://arxiv.org/abs/2205.03772v1 )

ライセンス: CC BY 4.0
Jianing Wang(参考訳) 近年,オンライン教育プラットフォームが爆発的に普及し,オンライン教育リソースへのアクセスが容易になった。 しかし、それらの多くは、必然的に \textit{information overload} と \textit{knowledge trek} の問題を引き起こす巨大な非構造化情報の統合を無視している。 本稿では,パイプライン法と自然言語処理技術によって自動的に構築された数学知識グラフMath-KGを提案する。 Baidu Baike, Wikipediaのコーポラから作られている。 提案する計算量kgを検証可能な単純なアプリケーションシステムを実装し,障害解析や意味検索など,一連の場面に寄与する。 このシステムはGitHub \footnote{\url{https://github.com/wjn 1996/Mathematical-Knowledge-Entity-Recognition}で公開されている。 }.

Recently, the explosion of online education platforms makes a success in encouraging us to easily access online education resources. However, most of them ignore the integration of massive unstructured information, which inevitably brings the problem of \textit{information overload} and \textit{knowledge trek}. In this paper, we proposed a mathematical knowledge graph named Math-KG, which automatically constructed by the pipeline method with the natural language processing technology to integrate the resources of the mathematics. It is built from the corpora of Baidu Baike, Wikipedia. We implement a simple application system to validate the proposed Math-KG can make contributions on a series of scenes, including faults analysis and semantic search. The system is publicly available at GitHub \footnote{\url{https://github.com/wjn1996/Mathematical-Knowledge-Entity-Recognition}.}.
翻訳日:2022-05-11 07:43:36 公開日:2022-05-08
# (参考訳) 大動脈大動脈瘤に寄与する異種メカノバイオロジー的侮辱の神経オペレーター学習

Neural operator learning of heterogeneous mechanobiological insults contributing to aortic aneurysms ( http://arxiv.org/abs/2205.03780v1 )

ライセンス: CC BY 4.0
Somdatta Goswami, David S. Li, Bruno V. Rego, Marcos Latorre, Jay D. Humphrey, George Em Karniadakis(参考訳) 胸部大動脈瘤 (taa) は大動脈の局所拡張であり、壁構成、構造、機能に障害があり、生命を脅かすような解離や破裂を引き起こす可能性がある。 taaに寄与するいくつかの遺伝子変異と前処理因子がマウスのモデルで研究され、広範囲のメカノロジー的な侮辱から生じる大動脈の微細構造と物質的性質の特定の変化を特徴付ける。 生体内でのTAA進行の評価は、大動脈瘤の大きさと成長率の測定に限られている。 大動脈形状だけでは患者固有のTAAの進行を予測するには十分ではないことが示されているが、大動脈の進化する生体力学の計算モデルにより、将来の幾何学と特性は侮辱の開始から予測できる。 本研究では, 大動脈の成長とリモデリングのfeベースデータセットを用いて, ディープオペレータネットワーク(deeponet)ベースのサーロゲートモデルを訓練し, taaの寄与因子を同定する統合フレームワークを提案する。 トレーニングデータとして,大動脈拡張と拡張性の軸軸方位マップを生成するために,制約混合モデル内のTAA危険因子と空間分布を複数種類検討する。 トレーニングされたネットワークは、与えられた拡張情報と拡張性情報から初期分布と侮辱範囲を予測することができる。 2つのdeeponetフレームワークが提案されている。1つはスパース情報、もう1つはフルフィールドグレースケールイメージで訓練され、好みのニューラルオペレータベースのアプローチについての洞察を得る。 本モデルの性能評価は, ファシフォームからコンプレックスへ変化する侮辱分布の複数のシミュレーションにより行った。 提案手法は,特にフルフィールド画像に基づいて,患者固有のメカノバイオロジー的侮辱プロファイルを高精度に予測できることを示す。

Thoracic aortic aneurysm (TAA) is a localized dilatation of the aorta resulting from compromised wall composition, structure, and function, which can lead to life-threatening dissection or rupture. Several genetic mutations and predisposing factors that contribute to TAA have been studied in mouse models to characterize specific changes in aortic microstructure and material properties that result from a wide range of mechanobiological insults. Assessments of TAA progression in vivo is largely limited to measurements of aneurysm size and growth rate. It has been shown that aortic geometry alone is not sufficient to predict the patient-specific progression of TAA but computational modeling of the evolving biomechanics of the aorta could predict future geometry and properties from initiating insults. In this work, we present an integrated framework to train a deep operator network (DeepONet)-based surrogate model to identify contributing factors for TAA by using FE-based datasets of aortic growth and remodeling resulting from prescribed insults. For training data, we investigate multiple types of TAA risk factors and spatial distributions within a constrained mixture model to generate axial--azimuthal maps of aortic dilatation and distensibility. The trained network is then capable of predicting the initial distribution and extent of the insult from a given set of dilatation and distensibility information. Two DeepONet frameworks are proposed, one trained on sparse information and one on full-field grayscale images, to gain insight into a preferred neural operator-based approach. Performance of the surrogate models is evaluated through multiple simulations carried out on insult distributions varying from fusiform to complex. We show that the proposed approach can predict patient-specific mechanobiological insult profile with a high accuracy, particularly when based on full-field images.
翻訳日:2022-05-11 07:38:01 公開日:2022-05-08
# (参考訳) 関係抽出のためにエンティティ参照に頼るべきか? 逆解析によるデバイアス関係抽出

Should We Rely on Entity Mentions for Relation Extraction? Debiasing Relation Extraction with Counterfactual Analysis ( http://arxiv.org/abs/2205.03784v1 )

ライセンス: CC BY 4.0
Yiwei Wang, Muhao Chen, Wenxuan Zhou, Yujun Cai, Yuxuan Liang, Dayiheng Liu, Baosong Yang, Juncheng Liu, Bryan Hooi(参考訳) 最近の文献では、文レベルの関係抽出(re)におけるエンティティ情報の利用に焦点が当てられているが、表層的および散発的な関係の手がかりを漏らすリスクがある。 結果として、REは意図しない実体バイアス、すなわちエンティティの言及(名前)と関係の間の急激な相関に悩まされている。 エンティティバイアスはreモデルを誤解して、テキストに存在しない関係を抽出することができる。 この問題に対処するために、エンティティが言及したいくつかの以前のワークマスクは、REモデルがエンティティの言及を過度に適合させないようにしている。 しかし、この戦略はエンティティのセマンティック情報を失うため、RE性能を低下させる。 本稿では,reモデルにエンティティ情報を失うことなく,テキストコンテキストの主な効果に焦点をあてるように誘導する,コア(国語分析に基づく関係抽出)デバイアス手法を提案する。 まず、REモデルの変数間の依存性をモデル化したREの因果グラフを構築する。 そこで,本研究では,各事例における特定の実体言及の因果関係を抽出・緩和するために,因果関係グラフの反実解析を行うことを提案する。 また,CORE法はトレーニングプロセスを変更することなく,推論中に既存のREシステムを劣化させるモデルに依存しない。 大規模実験の結果, CORE は RE の有効性と一般化の両面で有意な利益をもたらすことが示された。 ソースコードはhttps://github.com/vanoracai/core.com/で提供される。

Recent literature focuses on utilizing the entity information in the sentence-level relation extraction (RE), but this risks leaking superficial and spurious clues of relations. As a result, RE still suffers from unintended entity bias, i.e., the spurious correlation between entity mentions (names) and relations. Entity bias can mislead the RE models to extract the relations that do not exist in the text. To combat this issue, some previous work masks the entity mentions to prevent the RE models from overfitting entity mentions. However, this strategy degrades the RE performance because it loses the semantic information of entities. In this paper, we propose the CORE (Counterfactual Analysis based Relation Extraction) debiasing method that guides the RE models to focus on the main effects of textual context without losing the entity information. We first construct a causal graph for RE, which models the dependencies between variables in RE models. Then, we propose to conduct counterfactual analysis on our causal graph to distill and mitigate the entity bias, that captures the causal effects of specific entity mentions in each instance. Note that our CORE method is model-agnostic to debias existing RE systems during inference without changing their training processes. Extensive experimental results demonstrate that our CORE yields significant gains on both effectiveness and generalization for RE. The source code is provided at: https://github.com/vanoracai/CoRE.
翻訳日:2022-05-11 07:36:42 公開日:2022-05-08
# (参考訳) GraphCACHE: 文レベル関係抽出のためのキャッシングとしてのメッセージパッシング

GRAPHCACHE: Message Passing as Caching for Sentence-Level Relation Extraction ( http://arxiv.org/abs/2205.03786v1 )

ライセンス: CC BY 4.0
Yiwei Wang, Muhao Chen, Wenxuan Zhou, Yujun Cai, Yuxuan Liang, Bryan Hooi(参考訳) エンティティタイプとテキストコンテキストは文レベルの関係抽出(RE)に不可欠な性質である。 既存の作業では、個々のインスタンス内でのみこれらのプロパティをエンコードする。 対照的に、データセット全体からこれらのプロパティをモデル化し、データセットレベルの情報を使用して、すべてのインスタンスのセマンティクスを強化します。 本稿では,REの表現性を向上させるために,文間の特徴を伝達する GraphCACHE (Graph Neural Network as Caching) モジュールを提案する。 GraphCACHEはデータセット全体の文から特徴を集約し、プロパティのグローバルな表現を学習し、個々の文内の局所的な特徴を増やすためにそれらを使用する。 グローバルプロパティ機能は、REのデータセットレベルの事前知識として機能し、文レベルの特徴を補完します。 コンピュータシステムにおける古典的なキャッシュ技術に触発されて,プロパティ表現をオンラインに更新する GraphCACHE を開発した。 全体として、 GraphCACHEはREに大きな効果をもたらし、データセット内のすべての文を渡る効率的なメッセージパッシングを可能にする。

Entity types and textual context are essential properties for sentence-level relation extraction (RE). Existing work only encodes these properties within individual instances, which limits the performance of RE given the insufficient features in a single sentence. In contrast, we model these properties from the whole dataset and use the dataset-level information to enrich the semantics of every instance. We propose the GRAPHCACHE (Graph Neural Network as Caching) module, that propagates the features across sentences to learn better representations for RE. GRAPHCACHE aggregates the features from sentences in the whole dataset to learn global representations of properties, and use them to augment the local features within individual sentences. The global property features act as dataset-level prior knowledge for RE, and a complement to the sentence-level features. Inspired by the classical caching technique in computer systems, we develop GRAPHCACHE to update the property representations in an online manner. Overall, GRAPHCACHE yields significant effectiveness gains on RE and enables efficient message passing across all sentences in the dataset.
翻訳日:2022-05-11 07:20:42 公開日:2022-05-08
# (参考訳) 映像イベント定位のための動き誘導ネットワークの過去と未来

Past and Future Motion Guided Network for Audio Visual Event Localization ( http://arxiv.org/abs/2205.03802v1 )

ライセンス: CC BY 4.0
Tingxiu Chen, Jianqin Yin, Jin Tang(参考訳) 近年,音声・視覚イベントのローカライゼーションが注目されている。 目的は、視聴覚イベントを含むセグメントを検出し、未トリミングビデオからイベントカテゴリを認識することである。 既存の手法では、モデルが現在進行中のイベントの空間領域に注意を払い、音声と視覚情報の相関を強調するが、音声と空間の動きの相関は無視する。 本研究では,過去と未来の動き誘導ネットワーク(PFAGN)に埋め込まれた映像から映像を抽出する過去と未来の動き抽出(pf-ME)モジュールと,過去と将来の視覚運動を通してのオーディオモダリティの興味深い出来事に関連する情報に焦点を合わせるための動き誘導オーディオアテンション(MGAA)モジュールを提案する。 AVEを実験的検証データセットとして選択し,本手法が教師付きおよび弱教師付き設定において最先端の手法より優れていることを示す。

In recent years, audio-visual event localization has attracted much attention. It's purpose is to detect the segment containing audio-visual events and recognize the event category from untrimmed videos. Existing methods use audio-guided visual attention to lead the model pay attention to the spatial area of the ongoing event, devoting to the correlation between audio and visual information but ignoring the correlation between audio and spatial motion. We propose a past and future motion extraction (pf-ME) module to mine the visual motion from videos ,embedded into the past and future motion guided network (PFAGN), and motion guided audio attention (MGAA) module to achieve focusing on the information related to interesting events in audio modality through the past and future visual motion. We choose AVE as the experimental verification dataset and the experiments show that our method outperforms the state-of-the-arts in both supervised and weakly-supervised settings.
翻訳日:2022-05-11 07:04:38 公開日:2022-05-08
# (参考訳) グラフニューラルネットワークのためのデータフリー逆知識蒸留

Data-Free Adversarial Knowledge Distillation for Graph Neural Networks ( http://arxiv.org/abs/2205.03811v1 )

ライセンス: CC BY 4.0
Yuanxin Zhuang, Lingjuan Lyu, Chuan Shi, Carl Yang, Lichao Sun(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データのモデリングに広く用いられている。 近年,GNNの知識蒸留(KD)により,グラフモデルの圧縮と知識伝達が著しく進歩している。 しかし、既存のkdメソッドのほとんどが、実際に簡単には利用できない大量の実データを必要としており、教師モデルが稀な、あるいはデータを取得するのが難しいというシナリオで、その適用性を妨げる可能性がある。 この問題に対処するため,グラフ構造化データ(DFAD-GNN)を用いたデータフリー逆知識蒸留のための最初のエンドツーエンドフレームワークを提案する。 具体的には、DFAD-GNNは、教師モデルと学生モデルとを2つの識別器とみなし、教師モデルから学生モデルに知識を抽出するために学習グラフを導出するジェネレータという、主に3つの成分からなる生成的対向ネットワークを採用している。 様々なベンチマークモデルと6つの代表的なデータセットに対する大規模な実験により、DFAD-GNNはグラフ分類タスクにおける最先端のデータフリーベースラインを大幅に上回っていることが示された。

Graph neural networks (GNNs) have been widely used in modeling graph structured data, owing to its impressive performance in a wide range of practical applications. Recently, knowledge distillation (KD) for GNNs has enabled remarkable progress in graph model compression and knowledge transfer. However, most of the existing KD methods require a large volume of real data, which are not readily available in practice, and may preclude their applicability in scenarios where the teacher model is trained on rare or hard to acquire datasets. To address this problem, we propose the first end-to-end framework for data-free adversarial knowledge distillation on graph structured data (DFAD-GNN). To be specific, our DFAD-GNN employs a generative adversarial network, which mainly consists of three components: a pre-trained teacher model and a student model are regarded as two discriminators, and a generator is utilized for deriving training graphs to distill knowledge from the teacher model into the student model. Extensive experiments on various benchmark models and six representative datasets demonstrate that our DFAD-GNN significantly surpasses state-of-the-art data-free baselines in the graph classification task.
翻訳日:2022-05-11 06:48:19 公開日:2022-05-08
# (参考訳) 分散仮説を超えて:言語モデルが意味-テキスト対応を学ぶ

Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text Correspondence ( http://arxiv.org/abs/2205.03815v1 )

ライセンス: CC BY 4.0
Myeongjun Jang, Frank Mtumbuka, Thomas Lukasiewicz(参考訳) 論理否定特性(LNP)は、意味論的に反対の入力に対して異なる予測を生成することを示し、信頼できる言語モデルが満たさなければならない重要な特性である。 しかし、近年の証拠は、大規模事前訓練言語モデル(PLM)がこの性質を満足していないことを示している。 本稿では,PLMのLNP理解を評価するために,探索タスクを用いた実験を行う。 否定表現のみを調べる以前の研究とは異なり、調査の境界を語彙意味論に拡張する。 実験により, PLM が LNP に頻繁に違反することが明らかとなった。 この問題を軽減するために, 分布仮説に頼らず, 意味文対応を直接学習するように設計された, 新しい中間訓練タスク「意味マッチング」を提案する。 複数の実験により,PLMが語彙意味情報を学習できることがわかった。 また、7つのGLUEタスクの微調整実験により、下流タスクの類似あるいはより良いパフォーマンスを保証する安全な中間タスクであることを確認した。 最後に,提案手法が時間と資源効率にもかかわらず,従来の手法よりも優れていることを示す。

The logical negation property (LNP), which implies generating different predictions for semantically opposite inputs, is an important property that a trustworthy language model must satisfy. However, much recent evidence shows that large-size pre-trained language models (PLMs) do not satisfy this property. In this paper, we perform experiments using probing tasks to assess PLM's LNP understanding. Unlike previous studies that only examined negation expressions, we expand the boundary of the investigation to lexical semantics. Through experiments, we observe that PLMs violate the LNP frequently. To alleviate the issue, we propose a novel intermediate training task, names meaning-matching, designed to directly learn a meaning-text correspondence, instead of relying on the distributional hypothesis. Through multiple experiments, we find that the task enables PLMs to learn lexical semantic information. Also, through fine-tuning experiments on 7 GLUE tasks, we confirm that it is a safe intermediate task that guarantees a similar or better performance of downstream tasks. Finally, we observe that our proposed approach outperforms our previous counterparts despite its time and resource efficiency.
翻訳日:2022-05-11 06:11:38 公開日:2022-05-08
# (参考訳) pgada: サポートクエリシフト下での少数ショット学習のための摂動誘導逆アライメント

PGADA: Perturbation-Guided Adversarial Alignment for Few-shot Learning Under the Support-Query Shift ( http://arxiv.org/abs/2205.03817v1 )

ライセンス: CC BY 4.0
Siyang Jiang, Wei Ding, Hsi-Wen Chen, Ming-Syan Chen(参考訳) 少数ショット学習手法は、データを低次元の埋め込み空間に埋め込み、目に見えないクエリデータを視認されたサポートセットに分類することを目的としている。 これらの作業は、サポートセットとクエリセットが同じ埋め込み空間にあると仮定しているが、通常、分散シフトは、実際の世界では、サポートセットとクエリセット、すなわち、サポート-クエリシフトの間に発生する。 最適輸送は異なる分布を整合させることで説得力のある結果が得られたが、画像内の小さな摂動が最適な輸送を著しく誤解し、モデル性能を低下させることが判明した。 そこで本研究では,まず,自己管理的手法でハードケースを生成する新しい逆データ拡張手法であるPerturbation-Guided Adversarial Alignment(PGADA)を提案する。 また、円滑な最適輸送計画の導出のために、正規化最適輸送を導入する。 3つのベンチマークデータセットに対する大規模な実験は、我々のフレームワークが3つのデータセット上で11の最先端メソッドを著しく上回っていることを示している。

Few-shot learning methods aim to embed the data to a low-dimensional embedding space and then classify the unseen query data to the seen support set. While these works assume that the support set and the query set lie in the same embedding space, a distribution shift usually occurs between the support set and the query set, i.e., the Support-Query Shift, in the real world. Though optimal transportation has shown convincing results in aligning different distributions, we find that the small perturbations in the images would significantly misguide the optimal transportation and thus degrade the model performance. To relieve the misalignment, we first propose a novel adversarial data augmentation method, namely Perturbation-Guided Adversarial Alignment (PGADA), which generates the hard examples in a self-supervised manner. In addition, we introduce Regularized Optimal Transportation to derive a smooth optimal transportation plan. Extensive experiments on three benchmark datasets manifest that our framework significantly outperforms the eleven state-of-the-art methods on three datasets.
翻訳日:2022-05-11 05:52:21 公開日:2022-05-08
# (参考訳) 欠落データの存在下でのマルチアームバンディットアルゴリズム使用時の性能に関する考察

Some performance considerations when using multi-armed bandit algorithms in the presence of missing data ( http://arxiv.org/abs/2205.03820v1 )

ライセンス: CC BY 4.0
Xijin Chen, Kim May Lee, Sofia S. Villar, and David S. Robertson(参考訳) マルチアームバンディットアルゴリズムを使用する場合、欠落したデータの影響の可能性はしばしば見過ごされる。 実際には、最も単純なアプローチは、欠落した結果を無視し、バンディットアルゴリズムに従ってサンプルを継続することである。 本研究では,ランダムに報酬が失われている場合を想定して,いくつかのバンディットアルゴリズムに対するデータ欠落の影響をシミュレーションにより検証する。 比較的小さなサンプルサイズをもつ臨床試験において, 患者割り当ての文脈において, バイナリ結果の両腕バンディットアルゴリズムに焦点を当てた。 しかし,この結果は,データ不足が予想されるバンディットアルゴリズムの他の応用にも応用できる。 我々は、期待される報酬(すなわち割り当て結果)を含む運用特性を評価する。 両腕の欠如の確率は異なると考えられる。 我々の研究の鍵となる発見は、欠落したデータを無視する最も単純な戦略を使用する場合、マルチアームバンディット戦略のパフォーマンスに対する対応する影響は、探索・探索トレードオフのバランスの方法によって異なることである。 探索に向けられたアルゴリズムは、より欠落した応答でサンプルを腕に割り当て続けており、このアームはアルゴリズムによって上腕と見なされている。 対照的に、搾取に向けられたアルゴリズムは逆を行い、より多くの応答が欠けた腕にサンプルを割り当てない。 さらに,より探索に焦点を絞ったアルゴリズムでは,単純な平均インプテーション手法を用いて,応答の欠如を軽減できることを示す。

When using multi-armed bandit algorithms, the potential impact of missing data is often overlooked. In practice, the simplest approach is to ignore missing outcomes and continue to sample following the bandit algorithm. We investigate the impact of missing data on several bandit algorithms via a simulation study assuming the rewards are missing at random. We focus on two-armed bandit algorithms with binary outcomes in the context of patient allocation for clinical trials with relatively small sample sizes. However, our results can apply to other applications of bandit algorithms where missing data is expected to occur. We assess the resulting operating characteristics, including the expected reward (i.e., allocation results). Different probabilities of missingness in both arms are considered. The key finding of our work is that when using the simplest strategy of ignoring missing data, the corresponding impact on the performance of multi-armed bandit strategies varies according to their way of balancing the exploration-exploitation trade-off. Algorithms that are geared towards exploration continue to assign samples to the arm with more missing responses, and this arm is perceived as the superior arm by the algorithm. By contrast, algorithms that are geared towards exploitation would do the opposite and not assign samples to the arms with more missing responses. Furthermore, for algorithms focusing more on exploration, we illustrate that the problem of missing responses can be alleviated using a simple mean imputation approach.
翻訳日:2022-05-11 05:39:19 公開日:2022-05-08
# (参考訳) 二重最適化段階に基づく教師なし学習アプローチによる指静脈同定のための完全自動バイナリパターン抽出

Fully Automated Binary Pattern Extraction For Finger Vein Identification using Double Optimization Stages-Based Unsupervised Learning Approach ( http://arxiv.org/abs/2205.03840v1 )

ライセンス: CC BY 4.0
Ali Salah Hameed, Adil Al-Azzawi(参考訳) 今日、指の静脈の識別は生体認証フレームワークの潜在的なソリューションとして人気を集めている。 機械学習に基づく教師なし、教師なし、ディープラーニングのアルゴリズムは、現在、指静脈の検出と認識に大きな影響を与えている。 一方、ディープラーニングは、手作業による生成とラベル付けが必要な多数のトレーニングデータセットを必要とする。 本研究では,データセット作成のトレーニングに完全自動化された教師なし学習戦略を提案する。 本手法は,完全自動二分マスクトレーニングデータセットの抽出と構築を目的としている。 本手法では,2つの最適化ステップを考案し,適用する。 最適化の初期段階は、指静脈像の局所化に基づく完全に自動化されていない画像クラスタリングを作成することである。 第2の最適化では,全指静脈パターンの向き推定を用いて検索した指静脈線を最適化する。 最後に,k-means や Fuzzy C-Means (FCM) のような一般的な教師なし学習手法よりもはるかに高い99.6%のパターン抽出精度を実現する。

Today, finger vein identification is gaining popularity as a potential biometric identification framework solution. Machine learning-based unsupervised, supervised, and deep learning algorithms have had a significant influence on finger vein detection and recognition at the moment. Deep learning, on the other hand, necessitates a large number of training datasets that must be manually produced and labeled. In this research, we offer a completely automated unsupervised learning strategy for training dataset creation. Our method is intended to extract and build a decent binary mask training dataset completely automated. In this technique, two optimization steps are devised and employed. The initial stage of optimization is to create a completely automated unsupervised image clustering based on finger vein image localization. Worldwide finger vein pattern orientation estimation is employed in the second optimization to optimize the retrieved finger vein lines. Finally, the proposed system achieves 99.6 - percent pattern extraction accuracy, which is significantly higher than other common unsupervised learning methods like k-means and Fuzzy C-Means (FCM).
翻訳日:2022-05-11 05:38:13 公開日:2022-05-08
# (参考訳) SeqNet: 自動マルウェア検出のための効率的なニューラルネットワーク

SeqNet: An Efficient Neural Network for Automatic Malware Detection ( http://arxiv.org/abs/2205.03850v1 )

ライセンス: CC BY 4.0
Jiawei Xu and Wenxuan Fu and Haoyu Bu and Zhi Wang and Lingyun Ying(参考訳) マルウェアは急速に進化し続けており、毎日45万件以上のサンプルが採取されている。 しかし、既存のディープラーニング検出モデルは、手動の特徴工学を必要とするか、長いトレーニングプロセスのために高い計算オーバーヘッドを必要とする。 したがって、検出器の重要な要件は、自動かつ効率的な検出を実現することである。 本稿では,生のバイナリにメモリを必要とせず,高速にトレーニングできる軽量マルウェア検出モデルであるseqnetを提案する。 コンテキストの混乱を避け、セマンティックロスを減らすことで、SeqNetはパラメータの数をわずか136Kに減らす際に検出精度を維持する。 実験では,本手法の有効性と,SeqNetの低トレーニングコスト要件を実証した。 さらに、データセットやコードを公開し、さらなる学術研究を刺激します。

Malware continues to evolve rapidly, and more than 450,000 new samples are captured every day, which makes manual malware analysis impractical. However, existing deep learning detection models need manual feature engineering or require high computational overhead for long training processes, which might be laborious to select feature space and difficult to retrain for mitigating model aging. Therefore, a crucial requirement for a detector is to realize automatic and efficient detection. In this paper, we propose a lightweight malware detection model called SeqNet which could be trained at high speed with low memory required on the raw binaries. By avoiding contextual confusion and reducing semantic loss, SeqNet maintains the detection accuracy when reducing the number of parameters to only 136K. We demonstrate the effectiveness of our methods and the low training cost requirement of SeqNet in our experiments. Besides, we make our datasets and codes public to stimulate further academic research.
翻訳日:2022-05-11 05:28:27 公開日:2022-05-08
# (参考訳) 配列ラベリングフレームワークによる対応する遺伝子への種情報の割り当て

Assigning Species Information to Corresponding Genes by a Sequence Labeling Framework ( http://arxiv.org/abs/2205.03853v1 )

ライセンス: CC BY 4.0
Ling Luo, Chih-Hsuan Wei, Po-Ting Lai, Qingyu Chen, Rezarta Islamaj Do\u{g}an, Zhiyong Lu(参考訳) 研究論文における対応する遺伝子に対する種情報の自動割当ては、遺伝子参照を正規化し、テキストマイニングアルゴリズムによりデータベース記録または識別子に関連付ける、遺伝子正規化タスクにおいて極めて重要なステップである。 既存の方法は通常、遺伝子と種が共起することに基づくヒューリスティックな規則に依存するが、その正確さは最適ではない。 そこで我々は,新しい深層学習に基づく枠組みを用いて,遺伝子と種との関係を分類する高性能な手法を開発した。 同じ論文の全ての可能な遺伝子と種の組み合わせを評価する伝統的な二分分類の枠組みの代わりに、この問題をペアのほんの一部だけを考慮すべきシーケンスラベルタスクとして扱う。 ベンチマークの結果,本手法は本手法の基準値法と比較して65.8%から81.3%の精度で高い性能を得た。 種別割り当てのソースコードとデータはhttps://github.com/ncbi/speciesassignmentで無料で利用できる。

The automatic assignment of species information to the corresponding genes in a research article is a critically important step in the gene normalization task, whereby a gene mention is normalized and linked to a database record or identifier by a text-mining algorithm. Existing methods typically rely on heuristic rules based on gene and species co-occurrence in the article, but their accuracy is suboptimal. We therefore developed a high-performance method, using a novel deep learning-based framework, to classify whether there is a relation between a gene and a species. Instead of the traditional binary classification framework in which all possible pairs of genes and species in the same article are evaluated, we treat the problem as a sequence-labeling task such that only a fraction of the pairs needs to be considered. Our benchmarking results show that our approach obtains significantly higher performance compared to that of the rule-based baseline method for the species assignment task (from 65.8% to 81.3% in accuracy). The source code and data for species assignment are freely available at https://github.com/ncbi/SpeciesAssignment.
翻訳日:2022-05-11 05:05:54 公開日:2022-05-08
# (参考訳) 拡散モデルを用いた制御画像生成のための入力雑音の条件付けについて

On Conditioning the Input Noise for Controlled Image Generation with Diffusion Models ( http://arxiv.org/abs/2205.03859v1 )

ライセンス: CC BY 4.0
Vedant Singh, Surgan Jandial, Ayush Chopra, Siddharth Ramesh, Balaji Krishnamurthy, Vineeth N. Balasubramanian(参考訳) 条件付き画像生成は、画像編集、ストック写真の生成、および3Dオブジェクト生成におけるいくつかのブレークスルーの道を開いた。 これは拡散モデルに基づく新しい最先端の手法の台頭によって、引き続き重要な関心事となっている。 しかし、拡散モデルは生成した画像の制御をほとんど行わず、それによって分類器誘導のような技法を探求し、多様性を忠実さと引き離す方法を提供した。 本研究では,入出力ノイズアーチファクトを慎重に構築した条件拡散モデルを提案する。 これにより、セマンティック属性に基づいたイメージの生成が可能になる。 これはガウスノイズを入力し、拡散モデルの推論ステップで条件付けを導入する既存のアプローチとは異なる。 いくつかの例と条件設定に関する実験は、我々のアプローチの可能性を示している。

Conditional image generation has paved the way for several breakthroughs in image editing, generating stock photos and 3-D object generation. This continues to be a significant area of interest with the rise of new state-of-the-art methods that are based on diffusion models. However, diffusion models provide very little control over the generated image, which led to subsequent works exploring techniques like classifier guidance, that provides a way to trade off diversity with fidelity. In this work, we explore techniques to condition diffusion models with carefully crafted input noise artifacts. This allows generation of images conditioned on semantic attributes. This is different from existing approaches that input Gaussian noise and further introduce conditioning at the diffusion model's inference step. Our experiments over several examples and conditional settings show the potential of our approach.
翻訳日:2022-05-11 04:57:09 公開日:2022-05-08
# (参考訳) デモ:ビジョントランスを用いたリアルタイムセマンティックコミュニケーション

Demo: Real-Time Semantic Communications with a Vision Transformer ( http://arxiv.org/abs/2205.03886v1 )

ライセンス: CC BY-SA 4.0
Hanju Yoo, Taehun Jung, Linglong Dai, Songkuk Kim and Chan-Byoung Chae(参考訳) 意味コミュニケーションは、シンボルの正確な転送よりも、より効果的な意味の伝達を可能にすることが期待されている。 本稿では,画像伝送のためのエンド・ツー・エンドのディープニューラルネットワークアーキテクチャを提案し,フィールドプログラミング可能なゲートアレイ(fpga)に基づくプロトタイプを実装し,その実現可能性を示す。 本システムは,CIFAR-10データセットを用いた低信号対雑音比方式において,従来の256四分数振幅変調方式よりも優れていた。 私たちの知る限りでは、これは視覚トランスフォーマーとリアルタイム意味コミュニケーションを実装し、調査する最初の仕事です。

Semantic communications are expected to enable the more effective delivery of meaning rather than a precise transfer of symbols. In this paper, we propose an end-to-end deep neural network-based architecture for image transmission and demonstrate its feasibility in a real-time wireless channel by implementing a prototype based on a field-programmable gate array (FPGA). We demonstrate that this system outperforms the traditional 256-quadrature amplitude modulation system in the low signal-to-noise ratio regime with the popular CIFAR-10 dataset. To the best of our knowledge, this is the first work that implements and investigates real-time semantic communications with a vision transformer.
翻訳日:2022-05-11 04:50:16 公開日:2022-05-08
# (参考訳) convmae: マスク付き畳み込みがマスク付きオートエンコーダと出会う

ConvMAE: Masked Convolution Meets Masked Autoencoders ( http://arxiv.org/abs/2205.03892v1 )

ライセンス: CC BY 4.0
Peng Gao, Teli Ma, Hongsheng Li, Jifeng Dai, Yu Qiao(参考訳) Vision Transformers (ViT) は様々な視覚タスクのための広く採用されているアーキテクチャである。 機能事前トレーニングとマルチスケールハイブリッド畳み込み変換アーキテクチャのためのマスク付き自動エンコーディングは、ViTの可能性をさらに解き放ち、画像分類、検出、セマンティックセグメンテーションにおける最先端のパフォーマンスをもたらす。 本稿では,マルチスケールハイブリッド畳み込み変換器がマスク自動符号化方式によりより識別的な表現を学習可能であることを示す。 しかし、元のマスキング戦略を直接使用すると、計算コストと事前学習ファインタニングの相違が生じる。 この問題に対処するため,我々は,畳み込みブロックの情報漏洩を防止するため,マスク付き畳み込みを採用する。 計算効率を確保するために,単純なブロックワイズマスキング戦略を提案する。 また,エンコーダのマルチスケール機能を直接監督し,マルチスケール機能を強化することを提案する。 事前訓練したConvMAEモデルに基づいて、ConvMAE-Baseは画像Net-1Kの微調整精度をMAE-Baseと比較して1.4%改善する。 物体検出では、25エポックのConvMAE-Baseが100エポックのMAE-Baseを2.9%のボックスAPと2.2%のマスクAPで微調整している。 コードと事前訓練されたモデルはhttps://github.com/Alpha-VL/ConvMAE.comで入手できる。

Vision Transformers (ViT) become widely-adopted architectures for various vision tasks. Masked auto-encoding for feature pretraining and multi-scale hybrid convolution-transformer architectures can further unleash the potentials of ViT, leading to state-of-the-art performances on image classification, detection and semantic segmentation. In this paper, our ConvMAE framework demonstrates that multi-scale hybrid convolution-transformer can learn more discriminative representations via the mask auto-encoding scheme. However, directly using the original masking strategy leads to the heavy computational cost and pretraining-finetuning discrepancy. To tackle the issue, we adopt the masked convolution to prevent information leakage in the convolution blocks. A simple block-wise masking strategy is proposed to ensure computational efficiency. We also propose to more directly supervise the multi-scale features of the encoder to boost multi-scale features. Based on our pretrained ConvMAE models, ConvMAE-Base improves ImageNet-1K finetuning accuracy by 1.4% compared with MAE-Base. On object detection, ConvMAE-Base finetuned for only 25 epochs surpasses MAE-Base fined-tuned for 100 epochs by 2.9% box AP and 2.2% mask AP respectively. Code and pretrained models are available at https://github.com/Alpha-VL/ConvMAE.
翻訳日:2022-05-11 04:47:02 公開日:2022-05-08
# (参考訳) vpn:ニューラルネットワークにおける中毒の検証

VPN: Verification of Poisoning in Neural Networks ( http://arxiv.org/abs/2205.03894v1 )

ライセンス: CC BY 4.0
Youcheng Sun and Muhammad Usman and Divya Gopinath and Corina S. P\u{a}s\u{a}reanu(参考訳) ニューラルネットワークは様々なアプリケーションでうまく使われており、その多くは安全性とセキュリティ上の懸念がある。 その結果、ニューラルネットワーク特性を検証するための正式な検証手法が提案されている。 これまでの研究は主に、ニューラルネットワークの局所的ロバスト性をチェックすることに重点を置いてきたが、代わりに別のニューラルネットワークのセキュリティ問題、すなわちデータ中毒の研究を行った。 この場合、アタッカーがトレーニングデータのサブセットにトリガーを挿入するので、テスト時にこのトリガーが入力され、トレーニングされたモデルがターゲットクラスに誤って分類される。 本稿では,marabou や nneum などのオフセット検証ツールでチェック可能なプロパティとしてデータ中毒チェックを定式化する方法を示し,失敗チェックの反例がトリガを構成する。 さらに,検出されたトリガが小モデルからより大きく,より訓練されたモデルに‘転送可能’であることを示し,画像分類タスクで訓練された最先端のパフォーマンスモデルの解析を可能にした。

Neural networks are successfully used in a variety of applications, many of them having safety and security concerns. As a result researchers have proposed formal verification techniques for verifying neural network properties. While previous efforts have mainly focused on checking local robustness in neural networks, we instead study another neural network security issue, namely data poisoning. In this case an attacker inserts a trigger into a subset of the training data, in such a way that at test time, this trigger in an input causes the trained model to misclassify to some target class. We show how to formulate the check for data poisoning as a property that can be checked with off-the-shelf verification tools, such as Marabou and nneum, where counterexamples of failed checks constitute the triggers. We further show that the discovered triggers are `transferable' from a small model to a larger, better-trained model, allowing us to analyze state-of-the art performant models trained for image classification tasks.
翻訳日:2022-05-11 04:25:50 公開日:2022-05-08
# (参考訳) 動的カテゴリー, 動的オペラド:深層学習から予測市場へ

Dynamic categories, dynamic operads: From deep learning to prediction markets ( http://arxiv.org/abs/2205.03906v1 )

ライセンス: CC BY 4.0
Brandon Shapiro and David I. Spivak(参考訳) 自然な組織化されたシステムは、内部および外部の圧力に適応する。 このアイデアについて明確に考えることは、私たちの論文を動機付けます。だから、このアイデアは、哲学的に興味のある聴衆に広くアクセス可能な、導入において広範囲に詳細化されています。 残りのセクションでは、より圧縮された圏論に目を向ける。 モノイド二重カテゴリ $\mathbf{org}$ を動的組織で定義し、"\mathbf{org}$-enriched" または "dynamic" のカテゴリ構造(例えば、動的カテゴリ、オペレーティング、モノイドカテゴリ)を定義し、哲学的アイデアをインスタンス化する方法について示します。 動的カテゴリー構造の2つの例を挙げる: 動的オペランドとしての市場予測と動的モノイダルカテゴリーとしての深層学習である。

Natural organized systems adapt to internal and external pressures and this seems to happens all the way down. Wanting to think clearly about this idea motivates our paper, and so the idea is elaborated extensively in the introduction, which should be broadly accessible to a philosophically-interested audience. In the remaining sections, we turn to more compressed category theory. We define the monoidal double category $\mathbf{Org}$ of dynamic organizations, we provide definitions of $\mathbf{Org}$-enriched, or "dynamic", categorical structures -- e.g. dynamic categories, operads, and monoidal categories -- and we show how they instantiate the motivating philosophical ideas. We give two examples of dynamic categorical structures: prediction markets as a dynamic operad and deep learning as a dynamic monoidal category.
翻訳日:2022-05-11 04:15:44 公開日:2022-05-08
# (参考訳) マルチスケール残差特徴量に基づくネットワークトラフィック異常検出手法

Network Traffic Anomaly Detection Method Based on Multi scale Residual Feature ( http://arxiv.org/abs/2205.03907v1 )

ライセンス: CC BY 4.0
Xueyuan Duan (1 and 2), Yu Fu (1), Kun Wang (1 and 3) ((1) Department of Information Security, Naval University of Engineering, Wuhan, Hubei, 430033, China, (2) College of Computer and Information Technology, Xinyang Normal University, Xinyang, Henan, 464000, China, (3) School of Mathematics and Information Engineering, Xinyang Vocational and Technical College, Xinyang, Henan, 464000, China)(参考訳) 従来のネットワークトラヒック異常検出アルゴリズムが長期領域の潜在特徴を十分にマイニングしない問題に対処するため,ネットワークトラヒックのmul-tiスケール残差特性に基づく異常検出手法を提案する。 The original traffic is divided into subse-quences of different time spans using sliding windows, and each subsequence is decomposed and reconstructed into data sequences of different levels using wavelet transform technique; the stacked autoencoder (SAE) constructs similar feature space using normal network traffic, and gen-erates reconstructed error vector using the difference between reconstructed samples and input samples in the similar feature space; the multi-path residual group is used to learn reconstructed error The traffic classification is completed by a lightweight classifier. 実験結果から,提案手法は従来手法に比べてsig法より精度が良く,より長い時間スパンとより多くのsトランスフォーメーションスケールが元のネットワークトラヒックにおける潜在的な多様性情報の発見にポジティブな影響を与えていることが確認された。

To address the problem that traditional network traffic anomaly detection algorithms do not suffi-ciently mine potential features in long time domain, an anomaly detection method based on mul-ti-scale residual features of network traffic is proposed. The original traffic is divided into subse-quences of different time spans using sliding windows, and each subsequence is decomposed and reconstructed into data sequences of different levels using wavelet transform technique; the stacked autoencoder (SAE) constructs similar feature space using normal network traffic, and gen-erates reconstructed error vector using the difference between reconstructed samples and input samples in the similar feature space; the multi-path residual group is used to learn reconstructed error The traffic classification is completed by a lightweight classifier. The experimental results show that the detection performance of the proposed method for anomalous network traffic is sig-nificantly improved compared with traditional methods; it confirms that the longer time span and more S transformation scales have positive effects on discovering potential diversity information in the original network traffic.
翻訳日:2022-05-11 03:35:10 公開日:2022-05-08
# (参考訳) 複数の予測付きオンラインアルゴリズム

Online Algorithms with Multiple Predictions ( http://arxiv.org/abs/2205.03921v1 )

ライセンス: CC BY 4.0
Keerti Anand, Rong Ge, Amit Kumar, Debmalya Panigrahi(参考訳) 本稿では,複数の機械学習予測を用いたオンラインアルゴリズムについて検討する。 単一の予測で拡張されたオンラインアルゴリズムは近年広く研究されているが、複数の予測設定の文献は乏しい。 本稿では,最適予測器の性能と競合するオンラインソリューションを得るための,複数の予測による問題を網羅する汎用的なアルゴリズムフレームワークを提案する。 我々のアルゴリズムは、オンラインアルゴリズムの古典的ポテンシャルに基づく分析に予測の利用を取り入れている。 我々は,オンライン・セット・カバーや(重み付けされた)キャッシュ,オンライン施設位置といった古典的な問題を解決するために,アルゴリズム・フレームワークを適用した。 アルゴリズムは、最も優れた予測と(予測なしで)最高のオンラインアルゴリズムのパフォーマンスとを同時に競合させることができる。

This paper studies online algorithms augmented with multiple machine-learned predictions. While online algorithms augmented with a single prediction have been extensively studied in recent years, the literature for the multiple predictions setting is sparse. In this paper, we give a generic algorithmic framework for online covering problems with multiple predictions that obtains an online solution that is competitive against the performance of the best predictor. Our algorithm incorporates the use of predictions in the classic potential-based analysis of online algorithms. We apply our algorithmic framework to solve classical problems such as online set cover, (weighted) caching, and online facility location in the multiple predictions setting. Our algorithm can also be robustified, i.e., the algorithm can be simultaneously made competitive against the best prediction and the performance of the best online algorithm (without prediction).
翻訳日:2022-05-11 03:24:24 公開日:2022-05-08
# (参考訳) ご覧のように書く: レースリードによる臨床メモの差を検出できるのは、差分モデル勧告だ

Write It Like You See It: Detectable Differences in Clinical Notes By Race Lead To Differential Model Recommendations ( http://arxiv.org/abs/2205.03931v1 )

ライセンス: CC BY 4.0
Hammaad Adam, Ming Ying Yang, Kenrick Cato, Ioana Baldini, Charles Senteio, Leo Anthony Celi, Jiaming Zeng, Moninder Singh, Marzyeh Ghassemi(参考訳) 臨床ノートは、医療における機械学習(ML)アプリケーションにとって、ますます重要なデータソースになりつつある。 以前の研究では、MLモデルのデプロイは、人種的少数派に対する既存のバイアスを永続させる可能性があることが示されている。 本研究では,MLモデルと人間専門家が利用できる暗黙の人種情報のレベルと,臨床ノートにおけるモデル検出可能な差異の影響について検討する。 私たちの仕事は3つの重要な貢献をします。 まず,被験者の自記式人種を,明示的な人種の指標から取り除かれても,臨床ノートから識別できることを見いだした。 第2に、人間の専門家は、同一の臨床記録から、患者の人種を正確に予測できないと判断する。 最後に,この暗黙的情報の潜在的影響をシミュレーション研究で示し,これらの人種が有する臨床記録に基づいて訓練されたモデルが臨床治療決定における既存のバイアスを持続する可能性を示す。

Clinical notes are becoming an increasingly important data source for machine learning (ML) applications in healthcare. Prior research has shown that deploying ML models can perpetuate existing biases against racial minorities, as bias can be implicitly embedded in data. In this study, we investigate the level of implicit race information available to ML models and human experts and the implications of model-detectable differences in clinical notes. Our work makes three key contributions. First, we find that models can identify patient self-reported race from clinical notes even when the notes are stripped of explicit indicators of race. Second, we determine that human experts are not able to accurately predict patient race from the same redacted clinical notes. Finally, we demonstrate the potential harm of this implicit information in a simulation study, and show that models trained on these race-redacted clinical notes can still perpetuate existing biases in clinical treatment decisions.
翻訳日:2022-05-11 02:58:24 公開日:2022-05-08
# (参考訳) MASALA:ヒンディー語表記における代名詞の意味論のモデル化と分析

MASALA: Modelling and Analysing the Semantics of Adpositions in Linguistic Annotation of Hindi ( http://arxiv.org/abs/2205.03955v1 )

ライセンス: CC BY 4.0
Aryaman Arora, Nitin Venkateswaran, Nathan Schneider(参考訳) 本稿では,ヒンディー語における形容詞と事例マーカーの注釈付き意味関係の完全な公開コーパスについて述べる。 我々は多言語SNACSアノテーションスキームを用い,様々な言語に応用した。 SNACSアノテーションの言語問題を調べる過去の研究に基づいて、ヒンディー語におけるSNACSスーパーセンスの自動ラベリングを試みるために言語モデルを用いて、過去の英語研究と競合する結果を得る。 Gujaratiのような関連言語へのセマンティックロールラベリングや拡張におけるアップストリームアプリケーションについて検討する。

We present a completed, publicly available corpus of annotated semantic relations of adpositions and case markers in Hindi. We used the multilingual SNACS annotation scheme, which has been applied to a variety of typologically diverse languages. Building on past work examining linguistic problems in SNACS annotation, we use language models to attempt automatic labelling of SNACS supersenses in Hindi and achieve results competitive with past work on English. We look towards upstream applications in semantic role labelling and extension to related languages such as Gujarati.
翻訳日:2022-05-11 02:41:02 公開日:2022-05-08
# (参考訳) $\alpha$NAS: プロパティガイド合成を用いたニューラルアーキテクチャ検索

$\alpha$NAS: Neural Architecture Search using Property Guided Synthesis ( http://arxiv.org/abs/2205.03960v1 )

ライセンス: CC BY 4.0
Charles Jin, Phitchaya Mangpo Phothilimthana, Sudip Roy(参考訳) ここ数年、ニューラルネットワーク検索(NAS)は、ディープラーニングコミュニティにおいてますます重要なツールになりつつある。 最近のnasの成功にもかかわらず、現在のアプローチは、ニューラルネットワークアーキテクチャ設計全体をスクラッチから自動化するという夢に遠く及ばない。 既存のアプローチの多くは、ドメインの専門家が手動で作成した高度に構造化された設計空間を必要とする。 本研究では,より大規模な設計空間において効率的なNASを実現する技術を開発する。 そこで本研究では,プログラムプロパティの抽象的な検索空間においてNASを実行することを提案する。 主な知見は,(1) 抽象的な検索空間は元の検索空間よりもかなり小さく,(2) 類似のプログラム特性を持つアーキテクチャも類似した性能を持つため,抽象的な検索空間においてより効率的に検索できる。 このアプローチを実現するために,プログラム特性のセットを受け入れ,満足度の高いニューラルアーキテクチャを返却する効率的な合成手順を提案する。 我々は、プログラムプロパティによって変異が導かれる進化的フレームワーク内に、$\alpha$NASというアプローチを実装します。 ResNet-34モデルから始めると、$\alpha$NASはCIFAR-10ではわずかに精度が向上するが、パラメータは96%減少するモデルを生成する。 ImageNetでは、$\alpha$NASはVision Transformer(FLOPSとパラメータの30%削減)、ResNet-50(FLOPSは23%削減、パラメータは14%削減)、EfficientNet(FLOPSとパラメータの7%削減)を精度の低下なしに改善することができる。

In the past few years, neural architecture search (NAS) has become an increasingly important tool within the deep learning community. Despite the many recent successes of NAS, current approaches still fall far short of the dream of automating an entire neural network architecture design from scratch. Most existing approaches require highly structured design spaces formulated manually by domain experts. In this work, we develop techniques that enable efficient NAS in a significantly larger design space. To accomplish this, we propose to perform NAS in an abstract search space of program properties. Our key insights are as follows: (1) the abstract search space is significantly smaller than the original search space, and (2) architectures with similar program properties also have similar performance; thus, we can search more efficiently in the abstract search space. To enable this approach, we also propose an efficient synthesis procedure, which accepts a set of promising program properties, and returns a satisfying neural architecture. We implement our approach, $\alpha$NAS, within an evolutionary framework, where the mutations are guided by the program properties. Starting with a ResNet-34 model, $\alpha$NAS produces a model with slightly improved accuracy on CIFAR-10 but 96% fewer parameters. On ImageNet, $\alpha$NAS is able to improve over Vision Transformer (30% fewer FLOPS and parameters), ResNet-50 (23% fewer FLOPS, 14% fewer parameters), and EfficientNet (7% fewer FLOPS and parameters) without any degradation in accuracy.
翻訳日:2022-05-11 02:22:06 公開日:2022-05-08
# (参考訳) チャート質問への回答:最先端の技術と今後の方向性

Chart Question Answering: State of the Art and Future Directions ( http://arxiv.org/abs/2205.03966v1 )

ライセンス: CC BY 4.0
E. Hoque, P. Kavehzadeh, A. Masry(参考訳) バーチャートや線グラフといった情報の可視化は、データの解析や重要な洞察の発見に非常に一般的です。 多くの場合、チャートを分析して、自分が考えている質問に答える。 このような問いへの答えは、しばしばかなりの量の知覚的および認知的努力を必要とするため、難しい場合がある。 チャート質問応答(cqa)システムは、典型的にはチャートと自然言語質問を入力として取り、自動的に回答を生成して視覚的データ分析を容易にする。 ここ数年、CQAの課題に関する文献が増えている。 本研究では,グラフ質問応答問題に着目した現状研究を体系的にレビューする。 本稿では,タスクの入力や出力を含む問題領域のいくつかの重要な次元を特定し,提案手法の利点と限界について議論する。 次に,調査論文における各種評価手法について概説する。 最後に,グラフ質問応答に関するオープン課題と今後の研究機会について概説する。

Information visualizations such as bar charts and line charts are very common for analyzing data and discovering critical insights. Often people analyze charts to answer questions that they have in mind. Answering such questions can be challenging as they often require a significant amount of perceptual and cognitive effort. Chart Question Answering (CQA) systems typically take a chart and a natural language question as input and automatically generate the answer to facilitate visual data analysis. Over the last few years, there has been a growing body of literature on the task of CQA. In this survey, we systematically review the current state-of-the-art research focusing on the problem of chart question answering. We provide a taxonomy by identifying several important dimensions of the problem domain including possible inputs and outputs of the task and discuss the advantages and limitations of proposed solutions. We then summarize various evaluation techniques used in the surveyed papers. Finally, we outline the open challenges and future research opportunities related to chart question answering.
翻訳日:2022-05-11 02:20:50 公開日:2022-05-08
# (参考訳) 人間-ロボットインタラクション研究における有用なツールとしての反抗と不服従 -- ハンドヘルドロボットの場合

Rebellion and Disobedience as Useful Tools in Human-Robot Interaction Research -- The Handheld Robotics Case ( http://arxiv.org/abs/2205.03968v1 )

ライセンス: CC BY 4.0
Walterio W. Mayol-Cuevas(参考訳) 本稿では,人-ロボット相互作用(HRI)における反抗と反抗(RaD)の有用性を論じる。 一般に、制御され、よく設計された反乱と不服従を利用する主な機会が2つある。 一 協力の効力(又は欠如)についての洞察及び 二 利用者の利害関係における過ちの防止及びユーザ行動の是正 ハンドヘルドロボットのような密接な相互作用のモダリティを用いて,HRIの他の事例に適用可能な反抗や不服従のユースケースについて議論する。

This position paper argues on the utility of rebellion and disobedience (RaD) in human-robot interaction (HRI). In general, we see two main opportunities in the use of controlled and well designed rebellion and disobedience: i) illuminate insight into the effectiveness of the collaboration (or lack of) and ii) prevent mistakes and correct user actions when in the user's own interest. Through the use of a close interaction modality, that of handheld robots, we discuss use cases for utility of rebellion and disobedience that can be applicable to other instances of HRI.
翻訳日:2022-05-11 01:36:24 公開日:2022-05-08
# ADMMを用いた地域分散型交流最適潮流の学習

Learning Regionally Decentralized AC Optimal Power Flows with ADMM ( http://arxiv.org/abs/2205.03787v1 )

ライセンス: Link先を確認
Terrence W.K. Mak, Minas Chatzos, Mathieu Tanneau, Pascal Van Hentenryck(参考訳) 次世代のスマートグリッドは、再生可能発電(風力/太陽)、ディスパッチ可能な装置(石炭/ガス/核世代など)、需要応答、バッテリーと貯蔵設備、トポロジー最適化のための分散最適化アルゴリズムとセキュアな通信を使用する可能性がある。 分散最適化問題、特にAC-OPF(AC Optimal Power Flow)に対処するために、ADMM(Alternating Direction Method of Multipliers)がコミュニティで広く使われている。 本稿では,AC-OPFを解くためのADMMの収束を高速化するために機械学習がいかに役立つかを検討する。 ML-ADMMと呼ばれる新しい分散機械学習手法を提案し、各エージェントはディープラーニングを使用して結合ブランチのコンセンサスパラメータを学習する。 この論文は、高品質な収束特性を示すadmm実行からのみ学習するというアイデアを探求し、これらの実行を選択するフィルタリングメカニズムを提案する。 フレンチシステムに基づく実験結果から,ADMMの収束を著しく高速化するアプローチの可能性が示された。

One potential future for the next generation of smart grids is the use of decentralized optimization algorithms and secured communications for coordinating renewable generation (e.g., wind/solar), dispatchable devices (e.g., coal/gas/nuclear generations), demand response, battery & storage facilities, and topology optimization. The Alternating Direction Method of Multipliers (ADMM) has been widely used in the community to address such decentralized optimization problems and, in particular, the AC Optimal Power Flow (AC-OPF). This paper studies how machine learning may help in speeding up the convergence of ADMM for solving AC-OPF. It proposes a novel decentralized machine-learning approach, namely ML-ADMM, where each agent uses deep learning to learn the consensus parameters on the coupling branches. The paper also explores the idea of learning only from ADMM runs that exhibit high-quality convergence properties, and proposes filtering mechanisms to select these runs. Experimental results on test cases based on the French system demonstrate the potential of the approach in speeding up the convergence of ADMM significantly.
翻訳日:2022-05-10 18:11:22 公開日:2022-05-08
# モデルスペーシフィケーションとターボ圧縮センシングによるオーバー・ザ・エア・フェデレーション型マルチタスク学習

Over-the-Air Federated Multi-Task Learning via Model Sparsification and Turbo Compressed Sensing ( http://arxiv.org/abs/2205.03810v1 )

ライセンス: Link先を確認
Haoming Ma, Xiaojun Yuan, Zhi Ding, Dian Fan and Jun Fang(参考訳) 通信効率のよいマルチタスク学習(FMTL)を実現するために,エッジサーバ(ES)の協調の下で,エッジデバイスにデプロイされた複数の学習タスクが非直交型フェーディングチャネルを共有する,OAFMTL(OAFMTL)フレームワークを提案する。 OA-FMTLでは、エッジデバイスの局所的な更新はスパース化され、圧縮され、重ね合わせでアップリンクチャネルに送られる。 esは、タスク間干渉の存在下でのオーバー・ザ・エア計算を用いる。 より具体的には、全てのタスクのモデルアグリゲーションは、ターボ圧縮センシング(Turbo-CS)アルゴリズムの修正版(M-Turbo-CS)に基づいて、チャネル観測から同時に再構成される。 提案するOA-FMTLフレームワークとM-Turbo-CSアルゴリズムの性能解析を行った。 さらに,本解析に基づいて通信学習最適化問題を定式化し,エッジデバイスにおけるタスク間の電力割当を調整することによりシステム性能を向上させる。 数値シミュレーションにより,提案するOAFMTLは,タスク間干渉を効果的に抑制し,直交マルチタスク伝送に匹敵する学習性能を実現する。 また,タスク間の電力配分を適切に調整することにより,タスク間電力割り当て最適化アルゴリズムにより通信オーバヘッドを大幅に低減することを示した。

To achieve communication-efficient federated multitask learning (FMTL), we propose an over-the-air FMTL (OAFMTL) framework, where multiple learning tasks deployed on edge devices share a non-orthogonal fading channel under the coordination of an edge server (ES). In OA-FMTL, the local updates of edge devices are sparsified, compressed, and then sent over the uplink channel in a superimposed fashion. The ES employs over-the-air computation in the presence of intertask interference. More specifically, the model aggregations of all the tasks are reconstructed from the channel observations concurrently, based on a modified version of the turbo compressed sensing (Turbo-CS) algorithm (named as M-Turbo-CS). We analyze the performance of the proposed OA-FMTL framework together with the M-Turbo-CS algorithm. Furthermore, based on the analysis, we formulate a communication-learning optimization problem to improve the system performance by adjusting the power allocation among the tasks at the edge devices. Numerical simulations show that our proposed OAFMTL effectively suppresses the inter-task interference, and achieves a learning performance comparable to its counterpart with orthogonal multi-task transmission. It is also shown that the proposed inter-task power allocation optimization algorithm substantially reduces the overall communication overhead by appropriately adjusting the power allocation among the tasks.
翻訳日:2022-05-10 18:11:02 公開日:2022-05-08
# 固有プライバシー保護を用いた分散確率最適化

Decentralized Stochastic Optimization with Inherent Privacy Protection ( http://arxiv.org/abs/2205.03884v1 )

ライセンス: Link先を確認
Yongqiang Wang and H. Vincent Poor(参考訳) 分散確率最適化は、現代の協調機械学習、分散推定と制御、大規模センシングの基本構成要素である。 関連するデータは、通常、ユーザー位置、医療記録、金融取引などの機密情報を含んでいるため、分散確率最適化アルゴリズムの実装において、プライバシー保護がますます重要になっている。 本稿では,他のエージェントや外部の盗聴者に対して,各エージェントに対して固有のプライバシー保護を組み込んだ分散確率勾配降下アルゴリズムを提案する。 提案アルゴリズムは、最適化精度を損なうことなくプライバシー保護を実現するために、ダイナミックスに基づく勾配難読化機構を組み込んだもので、プライバシーの最適化精度を交換しなければならない分散最適化のための差分プライバシベースのプライバシソリューションとは大きく異なる。 ダイナミクスベースのプライバシアプローチは暗号化フリーであり、そのため、分散確率最適化のための暗号化ベースのプライバシソリューションの一般的な問題である重い通信や計算オーバーヘッドを回避する。 提案手法は,対流対象関数と非凸対象関数の両方の下での分散確率勾配降下アルゴリズムの収束性能を厳密に特徴付けるだけでなく,プライバシー保護の強みに関する厳密な情報理論解析を提供する。 分散推定問題のシミュレーション結果と、ベンチマーク機械学習データセット上での分散学習の数値実験により、提案手法の有効性が確認された。

Decentralized stochastic optimization is the basic building block of modern collaborative machine learning, distributed estimation and control, and large-scale sensing. Since involved data usually contain sensitive information like user locations, healthcare records and financial transactions, privacy protection has become an increasingly pressing need in the implementation of decentralized stochastic optimization algorithms. In this paper, we propose a decentralized stochastic gradient descent algorithm which is embedded with inherent privacy protection for every participating agent against other participating agents and external eavesdroppers. This proposed algorithm builds in a dynamics based gradient-obfuscation mechanism to enable privacy protection without compromising optimization accuracy, which is in significant difference from differential-privacy based privacy solutions for decentralized optimization that have to trade optimization accuracy for privacy. The dynamics based privacy approach is encryption-free, and hence avoids incurring heavy communication or computation overhead, which is a common problem with encryption based privacy solutions for decentralized stochastic optimization. Besides rigorously characterizing the convergence performance of the proposed decentralized stochastic gradient descent algorithm under both convex objective functions and non-convex objective functions, we also provide rigorous information-theoretic analysis of its strength of privacy protection. Simulation results for a distributed estimation problem as well as numerical experiments for decentralized learning on a benchmark machine learning dataset confirm the effectiveness of the proposed approach.
翻訳日:2022-05-10 18:10:37 公開日:2022-05-08
# 簡易モデル模倣によるブラキエートへの学習

Learning to Brachiate via Simplified Model Imitation ( http://arxiv.org/abs/2205.03943v1 )

ライセンス: Link先を確認
Daniele Reda and Hung Yu Ling and Michiel van de Panne(参考訳) ブラキエーションはギボンズやシャマングの移動の主要な形態であり、これらの霊長類は腕だけを使って木の手足から木の手足へと揺れる。 制御権限の制限、必要な事前計画、必要な把握の正確さのため、制御は困難である。 本稿では,この問題に対する強化学習を用いた新しいアプローチを提案するとともに,指のない14リンク平面モデルを用いて,難易度のあるハンドホールドシーケンスのブラキレートを学習する。 提案手法の鍵となるのは,仮想アームを用いた簡易モデルである点質量を用いて,ハンドホールド列を所定の順序で分岐可能なポリシをまず学習することである。 これにより、完全なモデルに対するポリシーの学習が容易になり、それは、全体の質量の軌跡を模倣すると同時に、保持のタイミングも提供することでガイダンスを提供する。 最後に、単純化されたモデルは、与えられた環境で適切なハンドホールドのシーケンスを計画するのにも容易に使用できる。 以上の結果から, 飛行と保持の期間が多岐にわたるブラキエーション動作と, 有効性が証明された場合の創発的なバック・アンド・フォアスイングが示される。 システムは様々なアブレーションで評価される。 この方法は、より一般的な3dブラキエーションへの将来の取り組みを可能にするとともに、他の設定で単純化されたモデル模倣を利用することができる。

Brachiation is the primary form of locomotion for gibbons and siamangs, in which these primates swing from tree limb to tree limb using only their arms. It is challenging to control because of the limited control authority, the required advance planning, and the precision of the required grasps. We present a novel approach to this problem using reinforcement learning, and as demonstrated on a finger-less 14-link planar model that learns to brachiate across challenging handhold sequences. Key to our method is the use of a simplified model, a point mass with a virtual arm, for which we first learn a policy that can brachiate across handhold sequences with a prescribed order. This facilitates the learning of the policy for the full model, for which it provides guidance by providing an overall center-of-mass trajectory to imitate, as well as for the timing of the holds. Lastly, the simplified model can also readily be used for planning suitable sequences of handholds in a given environment. Our results demonstrate brachiation motions with a variety of durations for the flight and hold phases, as well as emergent extra back-and-forth swings when this proves useful. The system is evaluated with a variety of ablations. The method enables future work towards more general 3D brachiation, as well as using simplified model imitation in other settings.
翻訳日:2022-05-10 18:10:13 公開日:2022-05-08
# 非定常環境におけるチャンス制約プログラムのデータ駆動近似

Data-Driven Approximations of Chance Constrained Programs in Nonstationary Environments ( http://arxiv.org/abs/2205.03748v1 )

ライセンス: Link先を確認
Shuhao Yan, Francesca Parise, Eilyan Bitar(参考訳) 確率制約プログラムのサンプル平均近似(SAA)について検討する。 saa法は通常、ランダムなサンプルから構築した経験的分布を実際の分布に応じて独立かつ同一に分配することで、確率制約の実際の分布を近似する。 本稿では,この問題の非定常的変種について考察し,ランダムなサンプルを未知の時間変化分布から逐次的に引き出すと仮定する。 この非定常性は、多くの現実世界の応用における環境条件の変化によって引き起こされる。 データ生成過程における潜在的非定常性を考慮するために,データ生成分布列と実際の確率制約分布との間のワッサーシュタイン距離の情報を利用した,堅牢なSAA手法を提案する。 その結果,実分布下での確率制約に対して高信頼で実現可能な解をロバストなsaa法が得ることを保証するために必要なサンプルサイズを,分布フリーで見積もることができた。

We study sample average approximations (SAA) of chance constrained programs. SAA methods typically approximate the actual distribution in the chance constraint using an empirical distribution constructed from random samples assumed to be independent and identically distributed according to the actual distribution. In this paper, we consider a nonstationary variant of this problem, where the random samples are assumed to be independently drawn in a sequential fashion from an unknown and possibly time-varying distribution. This nonstationarity may be driven by changing environmental conditions present in many real-world applications. To account for the potential nonstationarity in the data generation process, we propose a novel robust SAA method exploiting information about the Wasserstein distance between the sequence of data-generating distributions and the actual chance constraint distribution. As a key result, we obtain distribution-free estimates of the sample size required to ensure that the robust SAA method will yield solutions that are feasible for the chance constraint under the actual distribution with high confidence.
翻訳日:2022-05-10 17:32:15 公開日:2022-05-08
# MLSmellHound: コンテキスト対応コード分析ツール

MLSmellHound: A Context-Aware Code Analysis Tool ( http://arxiv.org/abs/2205.03790v1 )

ライセンス: Link先を確認
Jai Kannan, Scott Barnett, Lu\'is Cruz, Anj Simmons, Akash Agarwal(参考訳) 機械学習(ML)コンポーネントをソフトウェアシステムに組み込むという業界需要の高まりに応えるには、学際的なチームが共通のコードベースに貢献する必要がある。 一貫性の維持、欠陥の低減、メンテナンス性確保のために、開発者はコード分析ツールを使用して欠陥の特定と標準の維持を支援する。 機械学習を取り入れることで、ツールは複数のプログラミング言語として表されるチーム内の文化的な違いを考慮し、定義と目的を矛盾させる必要がある。 既存のツールはこれらの文化的違いを識別できず、MLプロジェクトでの採用を減らすソフトウェアエンジニアリングに向けられている。 提案手法では,この問題を解決するために,文脈の活用を探求する。 一 ソースコードの目的 二 技術領域 三 問題領域、 iv) チームの規範 五 運用環境、及び vi) コード解析にコンテキスト化されたエラーレポートを提供する開発ライフサイクルステージ。 提案手法を実証するために,Pylintを例として適用し,分析対象の個々のプロジェクトファイルのドメインに基づいて,コンテキスト変換の集合をリンティング結果に適用する。 これにより、エンドユーザのコンテキスト化と有意義なエラーレポートが可能になる。

Meeting the rise of industry demand to incorporate machine learning (ML) components into software systems requires interdisciplinary teams contributing to a shared code base. To maintain consistency, reduce defects and ensure maintainability, developers use code analysis tools to aid them in identifying defects and maintaining standards. With the inclusion of machine learning, tools must account for the cultural differences within the teams which manifests as multiple programming languages, and conflicting definitions and objectives. Existing tools fail to identify these cultural differences and are geared towards software engineering which reduces their adoption in ML projects. In our approach we attempt to resolve this problem by exploring the use of context which includes i) purpose of the source code, ii) technical domain, iii) problem domain, iv) team norms, v) operational environment, and vi) development lifecycle stage to provide contextualised error reporting for code analysis. To demonstrate our approach, we adapt Pylint as an example and apply a set of contextual transformations to the linting results based on the domain of individual project files under analysis. This allows for contextualised and meaningful error reporting for the end-user.
翻訳日:2022-05-10 17:31:59 公開日:2022-05-08
# 分子特性予測のための多用途ディープラーニングアーキテクチャFP-GNN

FP-GNN: a versatile deep learning architecture for enhanced molecular property prediction ( http://arxiv.org/abs/2205.03834v1 )

ライセンス: Link先を確認
Hanxuan Cai, Huimin Zhang, Duancheng Zhao, Jingxing Wu, Ling Wang(参考訳) 深層学習は分子設計の重要な方法であり、物理化学的、生物活性、adme/t(吸収、分布、代謝、排出、毒性)などの分子特性を予測する能力を持っている。 本研究では,分子グラフと指紋から情報を同時に学習する,FP-GNNと呼ばれる新しいディープラーニングアーキテクチャを開発した。 FP-GNNモデルを評価するために,13の公開データセット,非バイアスLIT-PCBAデータセット,14の表現型スクリーニングデータセットを用いて乳房細胞株について実験を行った。 FP-GNNアルゴリズムは、高度なディープラーニングと従来の機械学習アルゴリズムと比較して、これらのデータセット上で最先端のパフォーマンスを達成した。 さらに,FP-GNNモデルの性能に及ぼす異なる分子指紋の影響,および分子グラフおよび分子指紋の影響を解析した。 また,FP-GNNは実環境下での競合性も示唆した。

Deep learning is an important method for molecular design and exhibits considerable ability to predict molecular properties, including physicochemical, bioactive, and ADME/T (absorption, distribution, metabolism, excretion, and toxicity) properties. In this study, we advanced a novel deep learning architecture, termed FP-GNN, which combined and simultaneously learned information from molecular graphs and fingerprints. To evaluate the FP-GNN model, we conducted experiments on 13 public datasets, an unbiased LIT-PCBA dataset, and 14 phenotypic screening datasets for breast cell lines. Extensive evaluation results showed that compared to advanced deep learning and conventional machine learning algorithms, the FP-GNN algorithm achieved state-of-the-art performance on these datasets. In addition, we analyzed the influence of different molecular fingerprints, and the effects of molecular graphs and molecular fingerprints on the performance of the FP-GNN model. Analysis of the anti-noise ability and interpretation ability also indicated that FP-GNN was competitive in real-world situations.
翻訳日:2022-05-10 17:30:43 公開日:2022-05-08
# 分散低減によるランダムリシャッフル--新しい解析とより良いレート

Random Reshuffling with Variance Reduction: New Analysis and Better Rates ( http://arxiv.org/abs/2205.03914v1 )

ライセンス: Link先を確認
Grigory Malinovsky, Peter Richt\'arik(参考訳) 無置換標本を用いた確率的勾配降下(sgd)の変種であるランダム・リシャフリング(rr)は、経験的リスク最小化による教師あり機械学習モデルを訓練する非常に一般的な方法である。 実用性能が優れているため、標準の機械学習ソフトウェアに組み込まれ、しばしばデフォルトとして設定される。 fedrrの名称の下では、最近この手法は、局所sgdのような一般的なベースラインと比較して優れたパフォーマンスを持つフェデレーション学習(mishchenko et al.,2021)に適用可能であることが示されている。 この開発に触発されて、federrをさらに改善するための3つの新しいアルゴリズムをデザインした: 圧縮federrと2つの分散縮小拡張: 1つはシャッフルリングから生じる分散を改ざんし、もう1つは圧縮による分散を改ざんする。 圧縮の分散低減機構により、圧縮パラメータへの依存性をなくし、malinovskyらによって導入されたランダムリシャフリングに対する追加制御線形摂動を適用することができる。 (2021)は最適な分散を排除するのに役立つ。 本研究では, 圧縮演算子の限界を克服し, 境界勾配仮定や不均質データを用いずに, 標準仮定の下で圧縮局所法を初めて解析する。 我々は、合成および実データ集合に関する実験で理論結果と照合する。

Random Reshuffling (RR), which is a variant of Stochastic Gradient Descent (SGD) employing sampling without replacement, is an immensely popular method for training supervised machine learning models via empirical risk minimization. Due to its superior practical performance, it is embedded and often set as default in standard machine learning software. Under the name FedRR, this method was recently shown to be applicable to federated learning (Mishchenko et al.,2021), with superior performance when compared to common baselines such as Local SGD. Inspired by this development, we design three new algorithms to improve FedRR further: compressed FedRR and two variance reduced extensions: one for taming the variance coming from shuffling and the other for taming the variance due to compression. The variance reduction mechanism for compression allows us to eliminate dependence on the compression parameter, and applying additional controlled linear perturbations for Random Reshuffling, introduced by Malinovsky et al.(2021) helps to eliminate variance at the optimum. We provide the first analysis of compressed local methods under standard assumptions without bounded gradient assumptions and for heterogeneous data, overcoming the limitations of the compression operator. We corroborate our theoretical results with experiments on synthetic and real data sets.
翻訳日:2022-05-10 17:30:25 公開日:2022-05-08
# SELF-CARE:ストレス検出のためのコンテキスト対応低消費電力エッジコンピューティングによる選択的融合

SELF-CARE: Selective Fusion with Context-Aware Low-Power Edge Computing for Stress Detection ( http://arxiv.org/abs/2205.03974v1 )

ライセンス: Link先を確認
Nafiul Rashid, Trier Mortlock, Mohammad Abdullah Al Faruque(参考訳) 人間のストレスレベルや感情状態を生理的な身体のセンサーで検出することは複雑な作業だが、多くの健康関連の利点がある。 低消費電力デバイスのセンサ測定ノイズとエネルギー効率に対するロバスト性は、ストレス検出の重要な課題である。 センサのデータに基づいて動的に適応する文脈認識型選択的センサ融合を用いたストレス検出のための完全手首法SELFCAREを提案する。 本手法は, 動作を用いてシステムのコンテキストを判断し, 融合センサの調整を学習し, エネルギー効率を保ちながら性能を向上する。 SELF-CAREは3クラスと2クラスの分類問題に対してそれぞれ86.34%と94.12%の精度で、一般公開されたWESADデータセットの最先端性能を得る。 実ハードウェア評価の結果,従来のセンサフュージョンに比べて2.2倍(3クラス)と2.7倍(2クラス)のエネルギー効率が得られた。

Detecting human stress levels and emotional states with physiological body-worn sensors is a complex task, but one with many health-related benefits. Robustness to sensor measurement noise and energy efficiency of low-power devices remain key challenges in stress detection. We propose SELFCARE, a fully wrist-based method for stress detection that employs context-aware selective sensor fusion that dynamically adapts based on data from the sensors. Our method uses motion to determine the context of the system and learns to adjust the fused sensors accordingly, improving performance while maintaining energy efficiency. SELF-CARE obtains state-of-the-art performance across the publicly available WESAD dataset, achieving 86.34% and 94.12% accuracy for the 3-class and 2-class classification problems, respectively. Evaluation on real hardware shows that our approach achieves up to 2.2x (3-class) and 2.7x (2-class) energy efficiency compared to traditional sensor fusion.
翻訳日:2022-05-10 17:29:58 公開日:2022-05-08
# ハイパースペクトルアンミキシングのための高速かつ構造的ブロック項テンソル分解

Fast and Structured Block-Term Tensor Decomposition For Hyperspectral Unmixing ( http://arxiv.org/abs/2205.03798v1 )

ライセンス: Link先を確認
Meng Ding, Xiao Fu, Xi-Le Zhao(参考訳) 多線形階数-$(L_r,L_r,1)$項(または略して「LL1テンソル分解」)を持つブロック項テンソル分解モデルは、線形混合モデルの下での超スペクトルアンミックス(HU)に対する貴重な代替手段を提供する。 特に、LL1分解は、古典行列分解(MF)アプローチでそのような保証がサポートされないシナリオにおいて、エンドメンバー/アバンダンス識別性を保証する。 しかし、既存のLL1ベースのHUアルゴリズムはテンソルの3要素パラメータ化(すなわちハイパースペクトル画像立方体)を使用しており、高い点当たりの複雑性、収束の遅さ、構造的事前情報の導入の難しさなど多くの課題をもたらす。 この研究は、テンソルデータの制約付き2要素再パラメータ化を用いたLL1テンソル分解に基づくHUアルゴリズムを提案する。 その結果、HUに対して2ブロック交互勾配投影(GP)に基づくLL1アルゴリズムが提案される。 慎重に設計された射影解法により、GPアルゴリズムは比較的低い解像単位の複雑さを享受する。 MFベースのHUと同様に、パラメータ化の下の因子は、エンドメンバーとアブリダンスに対応する。 したがって、提案するフレームワークは、HUで生じる物理学的動機を持つ先行を組み込むのが自然である。 提案アルゴリズムは,既存の3要素パラメタライゼーションに基づくHUアルゴリズムと比較して,オーダー・オブ・マグニチュード・スピードアップと実質的なHU性能向上を実現する。

The block-term tensor decomposition model with multilinear rank-$(L_r,L_r,1)$ terms (or, the "LL1 tensor decomposition" in short) offers a valuable alternative for hyperspectral unmixing (HU) under the linear mixture model. Particularly, the LL1 decomposition ensures the endmember/abundance identifiability in scenarios where such guarantees are not supported by the classic matrix factorization (MF) approaches. However, existing LL1-based HU algorithms use a three-factor parameterization of the tensor (i.e., the hyperspectral image cube), which leads to a number of challenges including high per-iteration complexity, slow convergence, and difficulties in incorporating structural prior information. This work puts forth an LL1 tensor decomposition-based HU algorithm that uses a constrained two-factor re-parameterization of the tensor data. As a consequence, a two-block alternating gradient projection (GP)-based LL1 algorithm is proposed for HU. With carefully designed projection solvers, the GP algorithm enjoys a relatively low per-iteration complexity. Like in MF-based HU, the factors under our parameterization correspond to the endmembers and abundances. Thus, the proposed framework is natural to incorporate physics-motivated priors that arise in HU. The proposed algorithm often attains orders-of-magnitude speedup and substantial HU performance gains compared to the existing three-factor parameterization-based HU algorithms.
翻訳日:2022-05-10 17:09:10 公開日:2022-05-08
# 少数ショット画像生成をよく見る

A Closer Look at Few-shot Image Generation ( http://arxiv.org/abs/2205.03805v1 )

ライセンス: Link先を確認
Yunqing Zhao, Henghui Ding, Houjing Huang, Ngai-Man Cheung(参考訳) 現代のGANは高品質で多様な画像を生成するのに優れています。 しかしながら、訓練済みのGANを小さなターゲットデータ(例:10ショット)で転送する場合、ジェネレータはトレーニングサンプルを複製する傾向がある。 この数少ない画像生成タスクに対処するために、いくつかの方法が提案されているが、それらを統一されたフレームワークで分析する努力が欠如している。 第1の貢献として,適応中の既存手法を解析するためのフレームワークを提案する。 分析の結果,品質改善を阻害する多様性維持に不釣り合いに焦点を合わせている手法もあるが,すべての手法が収束後に同様の品質が得られることがわかった。 したがって、より良い方法は多様性の低下を遅らせるものである。 さらに分析の結果,多様性の劣化をさらに遅らせる余地がまだたくさんあることが判明した。 提案する2つ目のコントリビューションは,適応中のターゲットジェネレータの多様性劣化を遅くするため,ソースドメインの豊富な多層多様性情報をターゲットドメインジェネレータに保持するために相互情報(MI)を最大化することを提案する。 比較損失(CL)によるMI最大化を行い、ジェネレータと識別器を2つの特徴エンコーダとして利用し、CLの異なるマルチレベル特徴を抽出する。 本手法をDCL(Dual Contrastive Learning)と呼ぶ。 いくつかの公開データセットに対する大規模な実験により、適応中に多様性劣化の発生が遅くなる一方で、提案したDCLは視覚的に快適な品質と最先端の定量的性能をもたらすことが示された。

Modern GANs excel at generating high quality and diverse images. However, when transferring the pretrained GANs on small target data (e.g., 10-shot), the generator tends to replicate the training samples. Several methods have been proposed to address this few-shot image generation task, but there is a lack of effort to analyze them under a unified framework. As our first contribution, we propose a framework to analyze existing methods during the adaptation. Our analysis discovers that while some methods have disproportionate focus on diversity preserving which impede quality improvement, all methods achieve similar quality after convergence. Therefore, the better methods are those that can slow down diversity degradation. Furthermore, our analysis reveals that there is still plenty of room to further slow down diversity degradation. Informed by our analysis and to slow down the diversity degradation of the target generator during adaptation, our second contribution proposes to apply mutual information (MI) maximization to retain the source domain's rich multi-level diversity information in the target domain generator. We propose to perform MI maximization by contrastive loss (CL), leverage the generator and discriminator as two feature encoders to extract different multi-level features for computing CL. We refer to our method as Dual Contrastive Learning (DCL). Extensive experiments on several public datasets show that, while leading to a slower diversity-degrading generator during adaptation, our proposed DCL brings visually pleasant quality and state-of-the-art quantitative performance.
翻訳日:2022-05-10 17:08:45 公開日:2022-05-08
# WKGM:並列画像再構成のための軽量K空間生成モデル

WKGM: Weight-K-space Generative Model for Parallel Imaging Reconstruction ( http://arxiv.org/abs/2205.03883v1 )

ライセンス: Link先を確認
Zongjiang Tu, Die Liu, Xiaoqing Wang, Chen Jiang, Minghui Zhang, Qiegen Liu, Dong Liang(参考訳) 並列イメージング(PI)は、MRI(accrating magnetic resonance imaging)において最も重要で成功している技術の一つである。 近年,MRIを高速化する有効な手法として深層学習PIが出現している。 それでも、ほとんどのアプローチはイメージドメインに基づいている。 本研究では,柔軟 pi 再構成のためのロバスト生成モデルである weight-k-space generative model (wkgm) を用いて k-空間領域を探索する。 特に、WKGMは一般化されたk空間領域モデルであり、k空間重み付け技術と高次元空間戦略をスコアベース生成モデルトレーニングに効率的に組み込んで、良質で堅牢な再構成を実現する。 加えて、WKGMは柔軟であり、様々な伝統的なk空間PIモデルを相乗的に組み合わせ、学習に基づく事前生成を行い、高忠実度再構築を行うことができる。 サンプリングパターンや加速度係数の異なるデータセットを用いた実験結果から,wkgmはk空間生成前処理で最先端の再構築を実現できることが示された。

Parallel Imaging (PI) is one of the most im-portant and successful developments in accelerating magnetic resonance imaging (MRI). Recently deep learning PI has emerged as an effective technique to accelerate MRI. Nevertheless, most approaches have so far been based image domain. In this work, we propose to explore the k-space domain via robust generative modeling for flexible PI reconstruction, coined weight-k-space generative model (WKGM). Specifically, WKGM is a generalized k-space domain model, where the k-space weighting technology and high-dimensional space strategy are efficiently incorporated for score-based generative model training, resulting in good and robust reconstruction. In addition, WKGM is flexible and thus can synergistically combine various traditional k-space PI models, generating learning-based priors to produce high-fidelity reconstructions. Experimental results on datasets with varying sampling patterns and acceleration factors demonstrate that WKGM can attain state-of-the-art reconstruction results under the well-learned k-space generative prior.
翻訳日:2022-05-10 17:08:18 公開日:2022-05-08
# 深層学習に基づく医用画像分類のための高周波コンテンツの保存

Preservation of High Frequency Content for Deep Learning-Based Medical Image Classification ( http://arxiv.org/abs/2205.03898v1 )

ライセンス: Link先を確認
Declan McIntosh and Tunai Porto Marques and Alexandra Branzan Albu(参考訳) 胸部X線写真は、複数の重篤な疾患(例えば、肺炎、心不全、肺がん)の診断に用いられるため、これらのデータの自動的または半自動分析のためのシステムは特に興味深い。 大量の胸部x線撮影の効率的な分析は、医師や放射線科医の助けとなり、最終的には肺、心臓、胸部関連疾患の医療的治療に役立つ。 コンピュータ支援診断パイプラインにおける一般的なステップである高分解能ラジオグラフィーのダウンサンプリングで一般的に失われる視覚情報の効率的な識別と符号化のための新しい離散ウェーブレット変換法(DWT)を提案する。 提案手法では,既存の畳み込みニューラルネットワーク(cnns)の入力にわずかな修正を加えるだけでよいため,既存の画像分類フレームワークに容易に適用できる。 本研究では,nih chest-8 と imagenet-2017 データセットを用いたベンチマークにおいて,超高周波成分により複数の cnn の分類性能が向上したことを示す。 この結果から,周波数固有係数の提供により,CNNは周波数帯域に特有の構造を特定でき,最終的には計算負荷を増大させることなく分類性能を向上できるという仮説を立てた。 私たちの作業の実装はgithub.com/DeclanMcIntosh/LeGallCudaで公開されています。

Chest radiographs are used for the diagnosis of multiple critical illnesses (e.g., Pneumonia, heart failure, lung cancer), for this reason, systems for the automatic or semi-automatic analysis of these data are of particular interest. An efficient analysis of large amounts of chest radiographs can aid physicians and radiologists, ultimately allowing for better medical care of lung-, heart- and chest-related conditions. We propose a novel Discrete Wavelet Transform (DWT)-based method for the efficient identification and encoding of visual information that is typically lost in the down-sampling of high-resolution radiographs, a common step in computer-aided diagnostic pipelines. Our proposed approach requires only slight modifications to the input of existing state-of-the-art Convolutional Neural Networks (CNNs), making it easily applicable to existing image classification frameworks. We show that the extra high-frequency components offered by our method increased the classification performance of several CNNs in benchmarks employing the NIH Chest-8 and ImageNet-2017 datasets. Based on our results we hypothesize that providing frequency-specific coefficients allows the CNNs to specialize in the identification of structures that are particular to a frequency band, ultimately increasing classification performance, without an increase in computational load. The implementation of our work is available at github.com/DeclanMcIntosh/LeGallCuda.
翻訳日:2022-05-10 17:07:16 公開日:2022-05-08
# ソルガムパニック検出のための高分解能uav画像生成

High-Resolution UAV Image Generation for Sorghum Panicle Detection ( http://arxiv.org/abs/2205.03947v1 )

ライセンス: Link先を確認
Enyu Cai, Zhankun Luo, Sriram Baireddy, Jiaqi Guo, Changye Yang, Edward J. Delp(参考訳) ソルガム植物の穂数(または頭数)は、植物の発達と収量の推定において重要な形質である。 無人航空機(UAV)の使用により、大規模なソルガム画像の収集と分析が可能となる。 ディープラーニングは、UAV画像から表現型特性を推定する方法を提供するが、大量のラベル付きデータを必要とする。 UAV画像の労働集約的真実化によるトレーニングデータの欠如は、ソルガムパニックの検出とカウントの方法開発において大きなボトルネックとなる。 本稿では,データ拡張のためのGAN(Generative Adversarial Network)からの合成トレーニング画像を用いて,ソルガムパニックの検出とカウントの性能を向上させる手法を提案する。 提案手法は,実際のUAV RGB画像の地上真実データセットを限定した画像から画像への変換GANを用いて,パニックラベルを用いた合成高解像度UAV RGB画像を生成する。 その結果,データ拡張手法によるパニック検出とカウントの改善が示された。

The number of panicles (or heads) of Sorghum plants is an important phenotypic trait for plant development and grain yield estimation. The use of Unmanned Aerial Vehicles (UAVs) enables the capability of collecting and analyzing Sorghum images on a large scale. Deep learning can provide methods for estimating phenotypic traits from UAV images but requires a large amount of labeled data. The lack of training data due to the labor-intensive ground truthing of UAV images causes a major bottleneck in developing methods for Sorghum panicle detection and counting. In this paper, we present an approach that uses synthetic training images from generative adversarial networks (GANs) for data augmentation to enhance the performance of Sorghum panicle detection and counting. Our method can generate synthetic high-resolution UAV RGB images with panicle labels by using image-to-image translation GANs with a limited ground truth dataset of real UAV RGB images. The results show the improvements in panicle detection and counting using our data augmentation approach.
翻訳日:2022-05-10 17:06:54 公開日:2022-05-08
# プライベートアイ:ビデオ会議における眼鏡反射によるテキストスクリーンの覗き込み限界について

Private Eye: On the Limits of Textual Screen Peeking via Eyeglass Reflections in Video Conferencing ( http://arxiv.org/abs/2205.03971v1 )

ライセンス: Link先を確認
Yan Long, Chen Yan, Shivan Prasad, Wenyuan Xu, Kevin Fu(参考訳) 新型コロナウイルス(COVID-19)は、個人会議や電話会議から、日々のコミュニケーションや機密業務のためのビデオ会議へと揺れてきた。 メガネやその他の反射性のある物体が、不当に画面の一部を露出するため、ビデオは参加者の画面上の情報をリークする。 この研究は、数学的モデリングと人体実験を用いて、Webカメラが捉えた眼鏡の反射から得られる認識可能なテキスト情報を、新興のウェブカメラがどの程度漏洩するかを探索する。 私たちの研究の主な目標は、Webカメラ技術が今後進化するにつれて、認識可能性の要因、限界、しきい値を測定し、計算し、予測することにあります。 本研究は,マルチフレームのスーパーレゾリューション技術を用いて,映像フレームのシーケンス上での光攻撃に基づく脅威モデルの探索と特徴付けを行う。 実験結果とモデルから,720pのウェブカメラで最大10mmの高さの画面上テキストを再構成し,認識することが可能であった。 さらに,この脅威モデルを,攻撃能力の異なる web テキストコンテンツに適用して,テキスト認識のしきい値を求める。 参加者20名を対象にしたユーザ調査の結果,720pのウェブカメラは,大画面webサイト上でのテキストコンテンツの復元に十分であることが示唆された。 われわれのモデルは、4Kカメラへの進化がテキストリークのしきい値に近づき、人気のあるウェブサイトのほとんどのヘッダテキストが復元されることを示している。 本研究は,短期的緩和を提案し,この攻撃に対する長期防衛の最小特権原則に従うことの重要性を正当化するものである。 プライバシに敏感なシナリオでは、デフォルトですべてのオブジェクトをぼかす技術を開発すること、そして自然に見える会話を促進するために必要なものだけを曖昧にすることが推奨されている。

Personal video conferencing has become the new norm after COVID-19 caused a seismic shift from in-person meetings and phone calls to video conferencing for daily communications and sensitive business. Video leaks participants' on-screen information because eyeglasses and other reflective objects unwittingly expose partial screen contents. Using mathematical modeling and human subjects experiments, this research explores the extent to which emerging webcams might leak recognizable textual information gleamed from eyeglass reflections captured by webcams. The primary goal of our work is to measure, compute, and predict the factors, limits, and thresholds of recognizability as webcam technology evolves in the future. Our work explores and characterizes the viable threat models based on optical attacks using multi-frame super resolution techniques on sequences of video frames. Our experimental results and models show it is possible to reconstruct and recognize on-screen text with a height as small as 10 mm with a 720p webcam. We further apply this threat model to web textual content with varying attacker capabilities to find thresholds at which text becomes recognizable. Our user study with 20 participants suggests present-day 720p webcams are sufficient for adversaries to reconstruct textual content on big-font websites. Our models further show that the evolution toward 4K cameras will tip the threshold of text leakage to reconstruction of most header texts on popular websites. Our research proposes near-term mitigations, and justifies the importance of following the principle of least privilege for long-term defense against this attack. For privacy-sensitive scenarios, it's further recommended to develop technologies that blur all objects by default, then only unblur what is absolutely necessary to facilitate natural-looking conversations.
翻訳日:2022-05-10 17:06:41 公開日:2022-05-08
# 同じ昔の話だ! 物語的側面によるイベント中心知識グラフの強化

It's the Same Old Story! Enriching Event-Centric Knowledge Graphs by Narrative Aspects ( http://arxiv.org/abs/2205.03876v1 )

ライセンス: Link先を確認
Florian Pl\"otzky and Wolf-Tilo Balke(参考訳) 私たちの生活は、単純な日常的な出来事から社会的な次元の出来事まで、様々な重要な出来事によって支配されている。 そして、情報交換やそのような出来事についての議論に多くの努力が払われ、一般的には、複雑さを減らすために厳格な物語が形成される。 しかし、現在のロシアとウクライナの紛争のような複雑な出来事を考えると、紛争の開始や各部隊の規模など、客観的な事実だけではこれらの出来事を把握できないことが分かりやすい。 考慮すべき視点と評価、個々の参加者が受ける役割の異なる理解などがあります。 では、これらの主観的情報と視点依存情報は、どのような客観的情報とともに効果的に表現できるのか? 近年、主にエンティティ中心の知識グラフのドメインにおいて、客観的なイベント表現のためにイベント中心の知識グラフが提案されている。 本稿では,イベント中心の知識グラフのための新しい軽量な構造について紹介する。 本実験は、イベント参加者に対する主観的帰属の効果的な取り込みを証明し、物語クエリ処理に特化された索引の利点を示す。

Our lives are ruled by events of varying importance ranging from simple everyday occurrences to incidents of societal dimension. And a lot of effort is taken to exchange information and discuss about such events: generally speaking, stringent narratives are formed to reduce complexity. But when considering complex events like the current conflict between Russia and Ukraine it is easy to see that those events cannot be grasped by objective facts alone, like the start of the conflict or respective troop sizes. There are different viewpoints and assessments to consider, a different understanding of the roles taken by individual participants, etc. So how can such subjective and viewpoint-dependent information be effectively represented together with all objective information? Recently event-centric knowledge graphs have been proposed for objective event representation in the otherwise primarily entity-centric domain of knowledge graphs. In this paper we introduce a novel and lightweight structure for event-centric knowledge graphs, which for the first time allows for queries incorporating viewpoint-dependent and narrative aspects. Our experiments prove the effective incorporation of subjective attributions for event participants and show the benefits of specifically tailored indexes for narrative query processing.
翻訳日:2022-05-10 16:20:09 公開日:2022-05-08
# 演算子分割法による分散学習のためのコミュニケーション圧縮

Communication Compression for Decentralized Learning with Operator Splitting Methods ( http://arxiv.org/abs/2205.03779v1 )

ライセンス: Link先を確認
Yuki Takezawa, Kenta Niwa, Makoto Yamada(参考訳) 分散学習では, 一次双対定式化(エッジ・コンセンサス・ラーニング(ECL))を用いた演算子分割法が異種データに対して堅牢であることが示され, 近年, 注目されている。 しかし、ECLでは、ノードはその隣のノードと双対変数を交換する必要がある。 これらの交換は大きな通信コストを発生させる。 Gossipベースのアルゴリズムでは、多くの圧縮法が提案されているが、各ノードが保持するデータ分布が統計的に不均一である場合、これらのGossipベースのアルゴリズムはうまく機能しない。 本研究では,通信圧縮ECL(Communication Compressed ECL, C-ECL)と呼ばれる,ECLの圧縮手法の新たなフレームワークを提案する。 具体的には、ECLの更新公式を再構成し、二重変数の更新値を圧縮することを提案する。 実験により,C-ECLはECLよりも少ないパラメータ交換でほぼ同等の性能が得られることを示した。 さらに,c-eclはgossipベースのアルゴリズムよりも異種データに対して頑健であることを示す。

In decentralized learning, operator splitting methods using a primal-dual formulation (e.g., the Edge-Consensus Learning (ECL)) has been shown to be robust to heterogeneous data and has attracted significant attention in recent years. However, in the ECL, a node needs to exchange dual variables with its neighbors. These exchanges incur significant communication costs. For the Gossip-based algorithms, many compression methods have been proposed, but these Gossip-based algorithm do not perform well when the data distribution held by each node is statistically heterogeneous. In this work, we propose the novel framework of the compression methods for the ECL, called the Communication Compressed ECL (C-ECL). Specifically, we reformulate the update formulas of the ECL, and propose to compress the update values of the dual variables. We demonstrate experimentally that the C-ECL can achieve a nearly equivalent performance with fewer parameter exchanges than the ECL. Moreover, we demonstrate that the C-ECL is more robust to heterogeneous data than the Gossip-based algorithms.
翻訳日:2022-05-10 16:17:40 公開日:2022-05-08
# 潜在表現とグラフの協調学習による深層埋め込みマルチビュークラスタリング

Deep Embedded Multi-View Clustering via Jointly Learning Latent Representations and Graphs ( http://arxiv.org/abs/2205.03803v1 )

ライセンス: Link先を確認
Zongmo Huang, Yazhou Ren, Xiaorong Pu, Lifang He(参考訳) ディープラーニングモデルの表現学習能力により、多くのシナリオにおいて深い組込みマルチビュークラスタリング(MVC)は印象的なパフォーマンスを実現し、近年はますます人気が高まっている。 この分野では大きな進歩があったが、既存のほとんどのメソッドは潜在表現の学習にのみ焦点を合わせ、ノードの潜在グラフの学習もまたクラスタリングタスクに利用可能な情報を提供することを無視する。 本稿では,2つの側面から深部埋め込みMVCモデルの性能を促進するために潜時グラフを利用するDMVCJ(Jointly Learning Latent Representations and Graphs)による深部埋め込みマルチビュークラスタリングを提案する。 まず,潜在グラフと特徴表現を共同で学習することで,本モデルではグラフ畳み込みネットワーク(gcn)手法が利用可能となる。 グラフと特徴の両方から情報を利用するGCNの能力により、我々のモデルのクラスタリング性能は著しく向上する。 次に,潜在グラフに示されるノードの隣接関係に基づいて,ノイズ低減のためのサンプル重み付け戦略を考案し,モデルの有効性と頑健性をさらに向上させる。 実世界のマルチビューデータセットの異なる種類の実験結果から,DMVCJの有効性が示された。

With the representation learning capability of the deep learning models, deep embedded multi-view clustering (MVC) achieves impressive performance in many scenarios and has become increasingly popular in recent years. Although great progress has been made in this field, most existing methods merely focus on learning the latent representations and ignore that learning the latent graph of nodes also provides available information for the clustering task. To address this issue, in this paper we propose Deep Embedded Multi-view Clustering via Jointly Learning Latent Representations and Graphs (DMVCJ), which utilizes the latent graphs to promote the performance of deep embedded MVC models from two aspects. Firstly, by learning the latent graphs and feature representations jointly, the graph convolution network (GCN) technique becomes available for our model. With the capability of GCN in exploiting the information from both graphs and features, the clustering performance of our model is significantly promoted. Secondly, based on the adjacency relations of nodes shown in the latent graphs, we design a sample-weighting strategy to alleviate the noisy issue, and further improve the effectiveness and robustness of the model. Experimental results on different types of real-world multi-view datasets demonstrate the effectiveness of DMVCJ.
翻訳日:2022-05-10 16:17:21 公開日:2022-05-08
# 正規化マージン制御による一般化の検討

Investigating Generalization by Controlling Normalized Margin ( http://arxiv.org/abs/2205.03940v1 )

ライセンス: Link先を確認
Alexander Farhang, Jeremy Bernstein, Kushal Tirumala, Yang Liu, Yisong Yue(参考訳) ウェイトノルム $\|w\|$ とマージン $\gamma$ は正規化マージン $\gamma/\|w\|$ を通じて学習理論に参加する。 標準ニューラルネットオプティマイザは正規化マージンを制御しないため、この量が一般化に因果関係しているかどうかを調べるのは難しい。 本稿では,正規化マージンを明示的に制御し,二つの中心的問題に取り組むための一連の実験研究を設計する。 まず、正規化マージンは常に一般化に因果効果があるか? この論文は、正規化マージンが一般化と関係のないように見えるネットワークは、Bartlett et al. (2017) に対抗して生成できないことを発見した。第二に、正規化マージンは一般化に因果的影響を持つだろうか? 標準的なトレーニング環境では、テストパフォーマンスは正規化マージンを綿密に追跡している。 本稿はガウス過程モデルをこの振る舞いの有望な説明として提案する。

Weight norm $\|w\|$ and margin $\gamma$ participate in learning theory via the normalized margin $\gamma/\|w\|$. Since standard neural net optimizers do not control normalized margin, it is hard to test whether this quantity causally relates to generalization. This paper designs a series of experimental studies that explicitly control normalized margin and thereby tackle two central questions. First: does normalized margin always have a causal effect on generalization? The paper finds that no -- networks can be produced where normalized margin has seemingly no relationship with generalization, counter to the theory of Bartlett et al. (2017). Second: does normalized margin ever have a causal effect on generalization? The paper finds that yes -- in a standard training setup, test performance closely tracks normalized margin. The paper suggests a Gaussian process model as a promising explanation for this behavior.
翻訳日:2022-05-10 16:17:00 公開日:2022-05-08
# SparseTT: スパーストランスフォーマーによるビジュアルトラッキング

SparseTT: Visual Tracking with Sparse Transformers ( http://arxiv.org/abs/2205.03776v1 )

ライセンス: Link先を確認
Zhihong Fu, Zehua Fu, Qingjie Liu, Wenrui Cai, Yunhong Wang(参考訳) トランスフォーマーは視覚追跡タスクにうまく適用され、トラッキング性能が著しく向上している。 長距離依存をモデル化するために設計された自己保持メカニズムがトランスフォーマーの成功の鍵となる。 しかし、自己注意は検索領域で最も関連性の高い情報に焦点を合わせていないため、背景に気を散らすのは容易である。 本稿では,検索領域に最も関連性の高い情報を集中させることにより,より正確な追跡を行うことによって,この問題を緩和する。 さらに,両頭部予測器を導入し,前景背景分類の精度と目標境界ボックスの回帰性を向上し,トラッキング性能をさらに向上する。 広汎な実験により,40FPSで動作しながら,LaSOT,GOT-10k,TrackingNet,UAV123の最先端手法よりも優れていた。 特に,本手法のトレーニング時間は,TransTと比較して75%削減された。 ソースコードとモデルはhttps://github.com/fzh0917/SparseTTで入手できる。

Transformers have been successfully applied to the visual tracking task and significantly promote tracking performance. The self-attention mechanism designed to model long-range dependencies is the key to the success of Transformers. However, self-attention lacks focusing on the most relevant information in the search regions, making it easy to be distracted by background. In this paper, we relieve this issue with a sparse attention mechanism by focusing the most relevant information in the search regions, which enables a much accurate tracking. Furthermore, we introduce a double-head predictor to boost the accuracy of foreground-background classification and regression of target bounding boxes, which further improve the tracking performance. Extensive experiments show that, without bells and whistles, our method significantly outperforms the state-of-the-art approaches on LaSOT, GOT-10k, TrackingNet, and UAV123, while running at 40 FPS. Notably, the training time of our method is reduced by 75% compared to that of TransT. The source code and models are available at https://github.com/fzh0917/SparseTT.
翻訳日:2022-05-10 15:50:55 公開日:2022-05-08
# 実世界面超解像のための半サイクル生成型逆ネットワーク

Semi-Cycled Generative Adversarial Networks for Real-World Face Super-Resolution ( http://arxiv.org/abs/2205.03777v1 )

ライセンス: Link先を確認
Hao Hou, Xiaotao Hu, Jun Xu, Yingkun Hou, Benzheng Wei, and Dinggang Shen(参考訳) real-world face super- resolution (sr) は非常に不適切な画像復元タスクである。 完全サイクルのCycle-GANアーキテクチャは、顔SR上で有望な性能を達成するために広く利用されているが、実際のシナリオでは、同じ劣化ブランチへの共同参加が、実世界のLRとジェネレータが獲得した合成LRとの間の大きなドメインギャップのために最終的なパフォーマンスに影響を与えるため、挑戦的なケースでアーティファクトを生成する傾向にある。 本稿では,実世界の顔srに対してganの強力な生成能力をうまく活用するために,前部と後部サイクル一貫性のある再構築プロセスにおいて,それぞれ2つの独立した劣化分枝を確立し,この2つのプロセスが同じ修復分枝を共有していることを示す。 我々の半サイクル生成適応ネットワーク(SCGAN)は、実世界のLR顔画像と合成LR画像との領域ギャップの悪影響を軽減し、前向きと後向きの両方の学習プロセスで正規化された共有復元ブランチにより、正確で堅牢な顔SR性能を実現する。 2つの実世界のデータセットと2つの実世界のデータセットの実験により、私たちのSCGANは、顔の構造や詳細を復元する最先端の手法と、実世界の顔 SR の定量的指標を上回ります。 コードはhttps://github.com/HaoHou-98/SCGANで公開される。

Real-world face super-resolution (SR) is a highly ill-posed image restoration task. The fully-cycled Cycle-GAN architecture is widely employed to achieve promising performance on face SR, but prone to produce artifacts upon challenging cases in real-world scenarios, since joint participation in the same degradation branch will impact final performance due to huge domain gap between real-world and synthetic LR ones obtained by generators. To better exploit the powerful generative capability of GAN for real-world face SR, in this paper, we establish two independent degradation branches in the forward and backward cycle-consistent reconstruction processes, respectively, while the two processes share the same restoration branch. Our Semi-Cycled Generative Adversarial Networks (SCGAN) is able to alleviate the adverse effects of the domain gap between the real-world LR face images and the synthetic LR ones, and to achieve accurate and robust face SR performance by the shared restoration branch regularized by both the forward and backward cycle-consistent learning processes. Experiments on two synthetic and two real-world datasets demonstrate that, our SCGAN outperforms the state-of-the-art methods on recovering the face structures/details and quantitative metrics for real-world face SR. The code will be publicly released at https://github.com/HaoHou-98/SCGAN.
翻訳日:2022-05-10 15:50:36 公開日:2022-05-08
# 多視点ステレオの非パラメトリック深さ分布モデリングに基づく深さ推定

Non-parametric Depth Distribution Modelling based Depth Inference for Multi-view Stereo ( http://arxiv.org/abs/2205.03783v1 )

ライセンス: Link先を確認
Jiayu Yang, Jose M. Alvarez, Miaomiao Liu(参考訳) 最近のコストボリュームピラミッドに基づくディープニューラルネットワークは、多視点ステレオからの深度推論に高解像度画像を効率的に活用する可能性を解き放った。 一般に、これらのアプローチは各ピクセルの深さが一様分布に従うと仮定する。 境界画素は通常、異なる深さを表すためにマルチモーダル分布に従うため、この仮定はコスト体積ピラミッドの粗いレベルで誤った深さ予測を生じさせ、誤った深さ予測につながる改善レベルでは修正できない。 対照的に,非パラメトリックな深度分布モデルを用いて,一様および多モード分布の画素を扱うコストボリュームを構築することを提案する。 提案手法は,初期誤差を避けるために,粗いレベルで複数の深度仮説を出力する。 これらの複数の仮説を後続のレベルで局所的に探索するため、我々は厳密な深度空間秩序を保たず、各体積の情報を導出するための疎コスト集約ネットワークを導入する。 DTU と Tanks & Temples の2つのベンチマークデータセットに対して,我々のアプローチを広範囲に評価した。 実験の結果,提案手法は既存の手法を大差で上回り,境界領域において優れた性能が得られることがわかった。 コードはhttps://github.com/NVlabs/NP-CVP-MVSNetで入手できる。

Recent cost volume pyramid based deep neural networks have unlocked the potential of efficiently leveraging high-resolution images for depth inference from multi-view stereo. In general, those approaches assume that the depth of each pixel follows a unimodal distribution. Boundary pixels usually follow a multi-modal distribution as they represent different depths; Therefore, the assumption results in an erroneous depth prediction at the coarser level of the cost volume pyramid and can not be corrected in the refinement levels leading to wrong depth predictions. In contrast, we propose constructing the cost volume by non-parametric depth distribution modeling to handle pixels with unimodal and multi-modal distributions. Our approach outputs multiple depth hypotheses at the coarser level to avoid errors in the early stage. As we perform local search around these multiple hypotheses in subsequent levels, our approach does not maintain the rigid depth spatial ordering and, therefore, we introduce a sparse cost aggregation network to derive information within each volume. We evaluate our approach extensively on two benchmark datasets: DTU and Tanks & Temples. Our experimental results show that our model outperforms existing methods by a large margin and achieves superior performance on boundary regions. Code is available at https://github.com/NVlabs/NP-CVP-MVSNet
翻訳日:2022-05-10 15:50:07 公開日:2022-05-08
# 顔提示攻撃検出のための一級知識蒸留

One-Class Knowledge Distillation for Face Presentation Attack Detection ( http://arxiv.org/abs/2205.03792v1 )

ライセンス: Link先を確認
Zhi Li, Rizhao Cai, Haoliang Li, Kwok-Yan Lam, Yongjian Hu, Alex C. Kot(参考訳) 顔提示攻撃検出(pad)は、顔認識システムのセキュリティを強化するため、研究コミュニティによって広く研究されてきた。 既存の手法はトレーニングデータと同じような分布を持つデータをテストする上で優れたパフォーマンスを実現しているが、アプリケーションのシナリオでは、見当たらない分布のデータでその性能は著しく低下している。 異なるドメインからトレーニングデータとテストデータが抽出される場合、典型的なアプローチは、ターゲットドメインデータを用いて、対面PADパフォーマンスを改善するために、ドメイン適応技術を適用することである。 しかし、ターゲットドメイン、特に攻撃サンプルで十分なデータサンプルを収集することは、常に非自明な課題でした。 本稿では,一級ドメイン適応による対面PADのクロスドメイン性能向上のための教師学生フレームワークを提案する。 ソースドメインデータに加えて、このフレームワークはターゲットドメインの真の顔サンプルをわずかに利用している。 このフレームワークでは、教師ネットワークにソースドメインサンプルをトレーニングし、顔PADの識別的特徴表現を提供する。 学生ネットワークは、教師ネットワークを模倣し、ターゲットドメインの本物の顔サンプルの類似表現を学ぶように訓練される。 テストフェーズでは、教師と学生ネットワークの表現の類似度スコアを用いて、真の攻撃と区別する。 提案フレームワークを1クラスドメイン適応設定で評価するために,2つの新しいプロトコルを考案し,広範な実験を行った。 実験の結果,本手法は1クラスドメイン適応設定下でベースラインを上回り,教師なしドメイン適応による最先端メソッドも上回ることがわかった。

Face presentation attack detection (PAD) has been extensively studied by research communities to enhance the security of face recognition systems. Although existing methods have achieved good performance on testing data with similar distribution as the training data, their performance degrades severely in application scenarios with data of unseen distributions. In situations where the training and testing data are drawn from different domains, a typical approach is to apply domain adaptation techniques to improve face PAD performance with the help of target domain data. However, it has always been a non-trivial challenge to collect sufficient data samples in the target domain, especially for attack samples. This paper introduces a teacher-student framework to improve the cross-domain performance of face PAD with one-class domain adaptation. In addition to the source domain data, the framework utilizes only a few genuine face samples of the target domain. Under this framework, a teacher network is trained with source domain samples to provide discriminative feature representations for face PAD. Student networks are trained to mimic the teacher network and learn similar representations for genuine face samples of the target domain. In the test phase, the similarity score between the representations of the teacher and student networks is used to distinguish attacks from genuine ones. To evaluate the proposed framework under one-class domain adaptation settings, we devised two new protocols and conducted extensive experiments. The experimental results show that our method outperforms baselines under one-class domain adaptation settings and even state-of-the-art methods with unsupervised domain adaptation.
翻訳日:2022-05-10 15:49:45 公開日:2022-05-08
# 周期シフトウィンドウによる変圧器追跡

Transformer Tracking with Cyclic Shifting Window Attention ( http://arxiv.org/abs/2205.03806v1 )

ライセンス: Link先を確認
Zikai Song and Junqing Yu and Yi-Ping Phoebe Chen and Wei Yang(参考訳) トランスフォーマーアーキテクチャは、その効果的な注意機構のために、視覚的オブジェクト追跡において大きな強みを示している。 既存の変換器ベースのアプローチでは、フラット化された画像特徴に対してピクセル間注目戦略を採用しており、オブジェクトの完全性は避けられない。 本稿では,視覚オブジェクト追跡のための多スケール周期シフトウィンドウアテンションを備えた新しいトランスフォーマーアーキテクチャを提案する。 クロスウインドウのマルチスケールアテンションは、異なるスケールでのアグリゲーションの利点があり、対象対象物に最適なファインスケールマッチを生成する。 さらに、巡回シフト戦略は、位置情報でウィンドウサンプルを拡張することにより精度を高め、同時に冗長な計算を除去して膨大な計算力を節約する。 VOT2020, UAV123, LaSOT, TrackingNet, GOT-10kベンチマークとともに, 5つの挑戦的データセットに新しい最先端のレコードをセットする。

Transformer architecture has been showing its great strength in visual object tracking, for its effective attention mechanism. Existing transformer-based approaches adopt the pixel-to-pixel attention strategy on flattened image features and unavoidably ignore the integrity of objects. In this paper, we propose a new transformer architecture with multi-scale cyclic shifting window attention for visual object tracking, elevating the attention from pixel to window level. The cross-window multi-scale attention has the advantage of aggregating attention at different scales and generates the best fine-scale match for the target object. Furthermore, the cyclic shifting strategy brings greater accuracy by expanding the window samples with positional information, and at the same time saves huge amounts of computational power by removing redundant calculations. Extensive experiments demonstrate the superior performance of our method, which also sets the new state-of-the-art records on five challenging datasets, along with the VOT2020, UAV123, LaSOT, TrackingNet, and GOT-10k benchmarks.
翻訳日:2022-05-10 15:49:22 公開日:2022-05-08
# 指紋テンプレートの可逆性:Minutiae vs. Deep Templates

Fingerprint Template Invertibility: Minutiae vs. Deep Templates ( http://arxiv.org/abs/2205.03809v1 )

ライセンス: Link先を確認
Kanishka P. Wijewardena, Steven A. Grosz, Kai Cao, Anil K. Jain(参考訳) 指紋認証の成功の多くは、minutiaeベースの指紋表現によるものである。 微細なテンプレートは高忠実度指紋画像を得るために逆転できないと考えられていたが、この仮定は誤りであることが示されている。 ディープラーニングの成功は、より優れた認識精度とディープネットワークベースのテンプレートの非可逆性を提供することを期待して、代替の指紋表現(埋め込み)を生み出した。 深部指紋テンプレートがminutiaeテンプレートと同じレコンストラクション攻撃に苦しむかどうかを評価する。 深層テンプレートを逆転させて、その原画像と一致できる指紋画像を生成することができるが、深部テンプレートは無栄養テンプレートよりも復元攻撃に耐性がある。 特に、minutiaeテンプレートから再構成された指紋画像では、nist sd4でテストされた場合、type-i (type-ii)攻撃に対して約100.0% (98.3%)@0.01%のタールが得られる。 同一の商用マッカーを用いた深層テンプレートからの指紋画像再構成時の攻撃性能は、タイプIとタイプIIの攻撃で1%未満のTARが得られるが、再構成された画像が同一のディープネットワークでマッチングされると、タイプI(タイプII)攻撃で85.95%(68.10%)のTARが得られる。 さらに,従来の指紋テンプレートインバージョン研究に欠けているのは,3種類の最先端指紋照合器を用いてブラックボックス攻撃性能の評価である。 その結果,minutiaeテンプレートを反転させた指紋画像はホワイトボックスアタック評価とブラックボックスアタック評価の両方に対して高い感受性を示し,ディープテンプレートによる指紋画像はブラックボックス評価に耐性があり,ホワイトボックス評価に比較的感受性が低いことがわかった。

Much of the success of fingerprint recognition is attributed to minutiae-based fingerprint representation. It was believed that minutiae templates could not be inverted to obtain a high fidelity fingerprint image, but this assumption has been shown to be false. The success of deep learning has resulted in alternative fingerprint representations (embeddings), in the hope that they might offer better recognition accuracy as well as non-invertibility of deep network-based templates. We evaluate whether deep fingerprint templates suffer from the same reconstruction attacks as the minutiae templates. We show that while a deep template can be inverted to produce a fingerprint image that could be matched to its source image, deep templates are more resistant to reconstruction attacks than minutiae templates. In particular, reconstructed fingerprint images from minutiae templates yield a TAR of about 100.0% (98.3%) @ FAR of 0.01% for type-I (type-II) attacks using a state-of-the-art commercial fingerprint matcher, when tested on NIST SD4. The corresponding attack performance for reconstructed fingerprint images from deep templates using the same commercial matcher yields a TAR of less than 1% for both type-I and type-II attacks; however, when the reconstructed images are matched using the same deep network, they achieve a TAR of 85.95% (68.10%) for type-I (type-II) attacks. Furthermore, what is missing from previous fingerprint template inversion studies is an evaluation of the black-box attack performance, which we perform using 3 different state-of-the-art fingerprint matchers. We conclude that fingerprint images generated by inverting minutiae templates are highly susceptible to both white-box and black-box attack evaluations, while fingerprint images generated by deep templates are resistant to black-box evaluations and comparatively less susceptible to white-box evaluations.
翻訳日:2022-05-10 15:49:03 公開日:2022-05-08
# Coplanarity-Aware GANを用いた教師なしホログラフィー推定

Unsupervised Homography Estimation with Coplanarity-Aware GAN ( http://arxiv.org/abs/2205.03821v1 )

ライセンス: Link先を確認
Mingbo Hong, Yuhang Lu, Nianjin Ye, Chunyu Lin, Qijun Zhao, Shuaicheng Liu(参考訳) 画像対からホモグラフィを推定することは画像アライメントにおける根本的な問題である。 教師なし学習は有望なパフォーマンスとラベルなしのトレーニングによって注目を集めている。 しかし、既存の手法では平面誘起パララックスの問題を明確に考慮していないため、予測されたホモグラフィーは複数の平面で妥協される。 本研究では,非教師なしホモグラフィ推定を支配面に焦点を合わせるための新しい手法であるHomoGANを提案する。 まず,マルチスケールトランスフォーマーネットワークは,入力画像の特徴ピラミッドからホモグラフィを粗い方法で予測するように設計されている。 さらに、予測ホモグラフィーにコプラナリティ制約を課す教師なしGANを提案し、生成器を用いて整列した領域のマスクを予測し、2つのマスク付き特徴写像が単一のホモグラフィーによって誘導されるかどうかを判別する。 HomoGANとそのコンポーネントの有効性を検証するため,大規模なデータセット上で広範囲に実験を行い,マッチング誤差が従来のSOTA法よりも22%低いことを示す。 コードはhttps://github.com/megvii-research/homoganで入手できる。

Estimating homography from an image pair is a fundamental problem in image alignment. Unsupervised learning methods have received increasing attention in this field due to their promising performance and label-free training. However, existing methods do not explicitly consider the problem of plane-induced parallax, which will make the predicted homography compromised on multiple planes. In this work, we propose a novel method HomoGAN to guide unsupervised homography estimation to focus on the dominant plane. First, a multi-scale transformer network is designed to predict homography from the feature pyramids of input images in a coarse-to-fine fashion. Moreover, we propose an unsupervised GAN to impose coplanarity constraint on the predicted homography, which is realized by using a generator to predict a mask of aligned regions, and then a discriminator to check if two masked feature maps are induced by a single homography. To validate the effectiveness of HomoGAN and its components, we conduct extensive experiments on a large-scale dataset, and the results show that our matching error is 22% lower than the previous SOTA method. Code is available at https://github.com/megvii-research/HomoGAN.
翻訳日:2022-05-10 15:47:43 公開日:2022-05-08
# ステレオ画像インパインティングのための反復幾何認識クロスガイダンスネットワーク

Iterative Geometry-Aware Cross Guidance Network for Stereo Image Inpainting ( http://arxiv.org/abs/2205.03825v1 )

ライセンス: Link先を確認
Ang Li, Shanshan Zhao, Qingjie Zhang, Qiuhong Ke(参考訳) 現在、単一の画像インパインティングは、深い畳み込みニューラルネットワークに基づく有望な結果を達成している。 しかし、欠落領域を持つステレオ画像のインペインティングは、十分に検討されていないため、重要ではあるが異なる問題である。 ステレオ画像インパインティングの重要な要件は、ステレオ一貫性である。 そこで我々は,IGGNet(Iterative Geometry-Aware Cross Guidance Network)を提案する。 IGGNetには、Geometry-Aware Attention (GAA)モジュールとIterative Cross Guidance (ICG)戦略という2つの重要な要素が含まれている。 GAAモジュールは、エピポーラ幾何学の手がかりに依存し、ある視点から別の視点への幾何学的ガイダンスを学ぶ。 しかし、既存の欠落領域からの学習指導は困難である。 この問題に対処するため、ICG戦略が提案され、2つのビューの欠落した領域を反復的に絞り込むことができる。 実験の結果,提案ネットワークは,最新のステレオイメージインペインティングモデルと最先端のシングルイメージインペインティングモデルよりも優れていることがわかった。

Currently, single image inpainting has achieved promising results based on deep convolutional neural networks. However, inpainting on stereo images with missing regions has not been explored thoroughly, which is also a significant but different problem. One crucial requirement for stereo image inpainting is stereo consistency. To achieve it, we propose an Iterative Geometry-Aware Cross Guidance Network (IGGNet). The IGGNet contains two key ingredients, i.e., a Geometry-Aware Attention (GAA) module and an Iterative Cross Guidance (ICG) strategy. The GAA module relies on the epipolar geometry cues and learns the geometry-aware guidance from one view to another, which is beneficial to make the corresponding regions in two views consistent. However, learning guidance from co-existing missing regions is challenging. To address this issue, the ICG strategy is proposed, which can alternately narrow down the missing regions of the two views in an iterative manner. Experimental results demonstrate that our proposed network outperforms the latest stereo image inpainting model and state-of-the-art single image inpainting models.
翻訳日:2022-05-10 15:47:22 公開日:2022-05-08
# 場所認識のためのハードポジティブの逆学習

Adversarial Learning of Hard Positives for Place Recognition ( http://arxiv.org/abs/2205.03871v1 )

ライセンス: Link先を確認
Wenxuan Fang, Kai Zhang, Yoli Shavit and Wensen Feng(参考訳) 位置認識のための画像検索手法は、ジオタグ付き画像を推論時にフェッチするために使用されるグローバル画像記述子を学習する。 近年の研究では、局所化精度と可視性の変化(照明や視点など)に対する堅牢性を改善するために、強い正と負の採掘に弱い自己超越を用いることが提案されている。 しかし、ロバスト性を得るために不可欠なハードポジティクスを生成することは、ハードコードやグローバル拡張に限られている。 本研究では,画像検索ネットワークをトレーニングするためのハードポジティクスの作成を指導する逆法を提案する。 本手法は,訓練損失を増大させる局所的およびグローバルな拡張ポリシーを学習し,画像検索ネットワークは,ますます困難な事例を識別するために,より強力な特徴を学習せざるを得ない。 このアプローチにより、画像検索ネットワークは、データに提示されるハードな例を超えて一般化し、幅広いバリエーションにロバストな特徴を学ぶことができる。 提案手法は,Pitts250および東京24/7ベンチマークにおける最先端のリコールを実現し,rOxfordおよびrParisデータセットにおける最近の画像検索手法を顕著なマージンで上回っている。

Image retrieval methods for place recognition learn global image descriptors that are used for fetching geo-tagged images at inference time. Recent works have suggested employing weak and self-supervision for mining hard positives and hard negatives in order to improve localization accuracy and robustness to visibility changes (e.g. in illumination or view point). However, generating hard positives, which is essential for obtaining robustness, is still limited to hard-coded or global augmentations. In this work we propose an adversarial method to guide the creation of hard positives for training image retrieval networks. Our method learns local and global augmentation policies which will increase the training loss, while the image retrieval network is forced to learn more powerful features for discriminating increasingly difficult examples. This approach allows the image retrieval network to generalize beyond the hard examples presented in the data and learn features that are robust to a wide range of variations. Our method achieves state-of-the-art recalls on the Pitts250 and Tokyo 24/7 benchmarks and outperforms recent image retrieval methods on the rOxford and rParis datasets by a noticeable margin.
翻訳日:2022-05-10 15:47:05 公開日:2022-05-08
# 混合したレシピ検索のための言語間適応

Cross-lingual Adaptation for Recipe Retrieval with Mixup ( http://arxiv.org/abs/2205.03891v1 )

ライセンス: Link先を確認
Bin Zhu, Chong-Wah Ngo, Jingjing Chen, Wing-Kwong Chan(参考訳) クロスモーダルなレシピ検索は,大規模ペアデータによるトレーニングが可能となり,近年研究の注目を集めている。 それでも、指導的学習のための料理の大半をカバーする十分なレシピとイメージのペアを得るのは難しい。 データ豊富な料理から学んだ知識をデータ豊かな料理に移すことによって、ドメイン適応はこの実践的な問題に光を当てる。 それにもかかわらず、既存の作品では、ソースとターゲット領域のレシピは、ほとんど同じ料理から派生し、同じ言語で書かれていると仮定している。 本稿では,ソース領域とターゲット領域のレシピが異なる言語である画像からレシピへの検索のための教師なしドメイン適応について検討する。 さらに、ターゲットドメインでのトレーニングにはレシピのみを利用できる。 2つのドメイン間の移動可能な埋め込み特徴を学ぶために,新しいレシピミックスアップ法を提案する。 具体的には、レシピミックスアップは、ソースとターゲットのレシピ間でセクションを個別に交換して中間ドメインを形成する。 ドメインギャップを橋渡しするためにレシピミックスアップロスが提案され、レシピ埋め込み空間のソースドメインとターゲットドメインの間の最短測地パスに中間ドメインを配置するよう強制する。 レシピ1Mデータセットをソースドメイン(英語)として、Vireo-FoodTransferデータセットをターゲットドメイン(中国語)として使用することにより、画像からレシピ検索のコンテキストにおいて、レシピミックスアップの有効性を検証する。

Cross-modal recipe retrieval has attracted research attention in recent years, thanks to the availability of large-scale paired data for training. Nevertheless, obtaining adequate recipe-image pairs covering the majority of cuisines for supervised learning is difficult if not impossible. By transferring knowledge learnt from a data-rich cuisine to a data-scarce cuisine, domain adaptation sheds light on this practical problem. Nevertheless, existing works assume recipes in source and target domains are mostly originated from the same cuisine and written in the same language. This paper studies unsupervised domain adaptation for image-to-recipe retrieval, where recipes in source and target domains are in different languages. Moreover, only recipes are available for training in the target domain. A novel recipe mixup method is proposed to learn transferable embedding features between the two domains. Specifically, recipe mixup produces mixed recipes to form an intermediate domain by discretely exchanging the section(s) between source and target recipes. To bridge the domain gap, recipe mixup loss is proposed to enforce the intermediate domain to locate in the shortest geodesic path between source and target domains in the recipe embedding space. By using Recipe 1M dataset as source domain (English) and Vireo-FoodTransfer dataset as target domain (Chinese), empirical experiments verify the effectiveness of recipe mixup for cross-lingual adaptation in the context of image-to-recipe retrieval.
翻訳日:2022-05-10 15:46:42 公開日:2022-05-08
# シーンの曖昧さを生かしたラシカル・アンバイアスド・スキントーン推定に向けて

Towards Racially Unbiased Skin Tone Estimation via Scene Disambiguation ( http://arxiv.org/abs/2205.03962v1 )

ライセンス: Link先を確認
Haiwen Feng, Timo Bolkart, Joachim Tesch, Michael J. Black, and Victoria Abrevaya(参考訳) 仮想顔アバターは没入型コミュニケーション、ゲーム、メタバースにおいてますます重要な役割を担い、それらが包括的であることが重要である。 これは年齢、性別、民族に関係なく、アルベドで表される外観の正確な回復を必要とする。 3次元顔形状推定では有意な進歩がみられたが,アルベド推定はあまり注目されなかった。 観察された色はアルベドと照明の機能であり、どちらも不明であるため、基本的に曖昧である。 提案手法は, (1) 色調を優先する強バイアス前駆体, (2) 光/アルベドの曖昧さを無視するアルゴリズム的解により, 軽い肌色に偏っていることがわかった。 そこで本研究では,アルベド推定を改善するための新しい評価データセット(FAIR)とアルゴリズム(TRUST)を提案する。 具体的には、被験者が肌の色でバランスをとる最初の顔アルベド評価ベンチマークを作成し、個別のタイポロジーアングル(ita)メトリックを用いて精度を測定する。 次に、重要な観察に基づいて光/アルベドの曖昧さに対処する: 顔の収穫された画像とは対照的に、フルシーンの画像は、曖昧さに使用できる照明に関する重要な情報を含んでいる。 TRUSTは、顔領域とシーン画像から得られる大域照明信号の両方を条件付けして顔アルベドを後退させる。 実験結果から,アルベド推定における最先端手法と比較して,精度,公平性ともに有意な改善が認められた。 評価ベンチマークとコードは、研究目的のhttps://trust.is.tue.mpg.deで利用可能になる。

Virtual facial avatars will play an increasingly important role in immersive communication, games and the metaverse, and it is therefore critical that they be inclusive. This requires accurate recovery of the appearance, represented by albedo, regardless of age, sex, or ethnicity. While significant progress has been made on estimating 3D facial geometry, albedo estimation has received less attention. The task is fundamentally ambiguous because the observed color is a function of albedo and lighting, both of which are unknown. We find that current methods are biased towards light skin tones due to (1) strongly biased priors that prefer lighter pigmentation and (2) algorithmic solutions that disregard the light/albedo ambiguity. To address this, we propose a new evaluation dataset (FAIR) and an algorithm (TRUST) to improve albedo estimation and, hence, fairness. Specifically, we create the first facial albedo evaluation benchmark where subjects are balanced in terms of skin color, and measure accuracy using the Individual Typology Angle (ITA) metric. We then address the light/albedo ambiguity by building on a key observation: the image of the full scene -- as opposed to a cropped image of the face -- contains important information about lighting that can be used for disambiguation. TRUST regresses facial albedo by conditioning both on the face region and a global illumination signal obtained from the scene image. Our experimental results show significant improvement compared to state-of-the-art methods on albedo estimation, both in terms of accuracy and fairness. The evaluation benchmark and code will be made available for research purposes at https://trust.is.tue.mpg.de.
翻訳日:2022-05-10 15:46:16 公開日:2022-05-08
# AIの持続可能性に関する調査:学習アルゴリズムと研究課題の新たなトレンド

A Survey on AI Sustainability: Emerging Trends on Learning Algorithms and Research Challenges ( http://arxiv.org/abs/2205.03824v1 )

ライセンス: Link先を確認
Zhenghua Chen, Min Wu, Alvin Chan, Xiaoli Li, Yew-Soon Ong(参考訳) 人工知能(ai)は、急速に成長している研究開発(r&d)分野であり、消費者やビジネスに多大な利益をもたらし、生産性の成長とイノベーションにかなりの利益をもたらすという約束によって、注目を集めている。 これまで、コンピュータビジョン、自然言語処理、音声分析、スマートセンシングなど、多くの分野において、機械にとって困難な課題とみなされてきた重要な成果を報告してきた。 成功を実現する技術的トレンドは、パフォーマンスと堅牢性において、より複雑な問題を解決するために、複雑で大規模なAIモデルの増加に向けたものだ。 しかし、この急速な進歩は、かなりの環境コストと資源を犠牲にしている。 さらに、公正性、安全性、プライバシといったAIの社会的影響に関する議論は激しさを増し続けている。 これらの問題は、AIの持続可能な開発に関する大きな懸念を示している。 本稿では,AIの持続可能性問題に対処できる機械学習アプローチの大きなトレンドを概説する。 具体的には,AIの持続可能性問題に対処する新たなAI方法論とアルゴリズムを,環境の持続可能性と社会の持続可能性という2つの面で検討する。 また、既存の研究の大きな限界を強調し、次世代の持続可能なAI技術を開発するための潜在的研究課題と方向性を提案する。 この技術的レビューは、研究コミュニティのための持続可能なAI R&D活動の促進に役立つと考えています。

Artificial Intelligence (AI) is a fast-growing research and development (R&D) discipline which is attracting increasing attention because of its promises to bring vast benefits for consumers and businesses, with considerable benefits promised in productivity growth and innovation. To date it has reported significant accomplishments in many areas that have been deemed as challenging for machines, ranging from computer vision, natural language processing, audio analysis to smart sensing and many others. The technical trend in realizing the successes has been towards increasing complex and large size AI models so as to solve more complex problems at superior performance and robustness. This rapid progress, however, has taken place at the expense of substantial environmental costs and resources. Besides, debates on the societal impacts of AI, such as fairness, safety and privacy, have continued to grow in intensity. These issues have presented major concerns pertaining to the sustainable development of AI. In this work, we review major trends in machine learning approaches that can address the sustainability problem of AI. Specifically, we examine emerging AI methodologies and algorithms for addressing the sustainability issue of AI in two major aspects, i.e., environmental sustainability and social sustainability of AI. We will also highlight the major limitations of existing studies and propose potential research challenges and directions for the development of next generation of sustainable AI techniques. We believe that this technical review can help to promote a sustainable development of AI R&D activities for the research community.
翻訳日:2022-05-10 15:25:03 公開日:2022-05-08
# 特集にあたって

Introduction to Soar ( http://arxiv.org/abs/2205.03854v1 )

ライセンス: Link先を確認
John E. Laird(参考訳) 本稿では, soar の機能的概要, バージョン9.6 について概説する。 これには、その処理、記憶、学習モジュール、それらのインターフェース、それらのモジュールが使用する知識の表現を含む、soarのアーキテクチャ構造の概要が含まれている。 そこから、意思決定、含意、サブステート、チャンキングによる手順学習、強化学習、セマンティックメモリ、エピソディックメモリ、空間的視覚的推論など、これらのモジュールがサポートする処理について説明する。 次に、Soarにおける意思決定のレベルと学習の多様性、および一般的な人間レベルのAIをサポートするアーキテクチャとしてのSoarの分析についてレビューする。 参考文献は、最近のソアエージェントの短い記述と、ソアの記述に使用する用語の用語集を含む付録である。

This paper is the recommended initial reading for a functional overview of Soar, version 9.6. It includes an abstract overview of the architectural structure of Soar including its processing, memories, learning modules, their interfaces, and the representations of knowledge used by those modules. From there it describes the processing supported by those modules, including decision making, impasses and substates, procedure learning via chunking, reinforcement learning, semantic memory, episodic memory, and spatial-visual reasoning. It then reviews the levels of decision making and variety of learning in Soar, and analysis of Soar as an architecture supporting general human-level AI. Following the references is an appendix that contains short descriptions of recent Soar agents and a glossary of the terminology we use in describing Soar.
翻訳日:2022-05-10 15:24:42 公開日:2022-05-08
# Transformer-Empowered 6G Intelligent Networks: 大規模MIMO処理からセマンティック通信へ

Transformer-Empowered 6G Intelligent Networks: From Massive MIMO Processing to Semantic Communication ( http://arxiv.org/abs/2205.03770v1 )

ライセンス: Link先を確認
Yang Wang, Zhen Gao, Dezhi Zheng, Sheng Chen, Deniz G\"und\"uz, H. Vincent Poor(参考訳) 6G無線ネットワークは、物理的およびサイバー世界の収束をスピードアップし、通信ネットワークの展開と活用の方法におけるパラダイムシフトを可能にするためのものだ。 機械学習、特にディープラーニング(DL)は、高レベルのインテリジェンスを持つネットワークの設計と最適化のための新しいパラダイムを提供することによって、6Gの重要な技術的実現要因の1つである。 本稿では,トランスと呼ばれる新しいDLアーキテクチャを紹介し,その6Gネットワーク設計への影響について論じる。 まず、トランスフォーマーと従来のdlアーキテクチャの違いについて論じ、トランスフォーマーの自己着脱機構と強力な表現能力を強調し、ワイヤレスネットワーク設計における様々な課題に取り組む上で特に魅力的である。 具体的には、6gネットワークにおける大規模複数入力多重出力(mimo)システムと様々な意味的通信問題に対するトランスフォーマティブ・ソリューションを提案する。 最後に,トランスフォーマティブ・ソリューションにおける鍵となる課題と課題について論じ,インテリジェントな6gネットワークへの展開に向けた今後の研究方向を明らかにする。

6G wireless networks are foreseen to speed up the convergence of the physical and cyber worlds and to enable a paradigm-shift in the way we deploy and exploit communication networks. Machine learning, in particular deep learning (DL), is going to be one of the key technological enablers of 6G by offering a new paradigm for the design and optimization of networks with a high level of intelligence. In this article, we introduce an emerging DL architecture, known as the transformer, and discuss its potential impact on 6G network design. We first discuss the differences between the transformer and classical DL architectures, and emphasize the transformer's self-attention mechanism and strong representation capabilities, which make it particularly appealing in tackling various challenges in wireless network design. Specifically, we propose transformer-based solutions for massive multiple-input multiple-output (MIMO) systems and various semantic communication problems in 6G networks. Finally, we discuss key challenges and open issues in transformer-based solutions, and identify future research directions for their deployment in intelligent 6G networks.
翻訳日:2022-05-10 15:08:02 公開日:2022-05-08
# 再構成可能なインテリジェントサーフェスで実現可能なスマート無線環境に対する広範機械学習

Pervasive Machine Learning for Smart Radio Environments Enabled by Reconfigurable Intelligent Surfaces ( http://arxiv.org/abs/2205.03793v1 )

ライセンス: Link先を確認
George C. Alexandropoulos and Kyriakos Stylianopoulos and Chongwen Huang and Chau Yuen and Mehdi Bennis and M\'erouane Debbah(参考訳) Reconfigurable Intelligent Surfaces(RISs)の新たな技術は、高度にスケーラブルで低コストで、ハードウェア効率が高く、ほぼエネルギーニュートラルなソリューションを提供し、無線媒体上での電磁波の伝搬を動的に制御し、最終的には多様な運用目的のために環境知能を高める。 このような再構成可能な無線環境におけるRISの密配置に関する大きな課題の1つは、制限された、あるいは、コンピュータハードウェアが存在しない複数の準曲面の効率的な構成である。 本稿では,マルチユーザおよびマルチrisを用いた無線システムについて検討し,オンライン機械学習による各種コンポーネントのオーケストレーションに関する徹底的な調査を行う。 代表的な設計目的としての和率最大化に着目し,Deep Reinforcement Learning (DRL)に基づく包括的問題定式化を提案する。 無線システムとDRL用語のパラメータ間の対応について詳述し、その実装の詳細を議論しながら、人工ニューラルネットワークのトレーニングと展開のための汎用的なアルゴリズムステップを考案する。 第6世代(6g)時代のマルチrisエンパワー無線通信のさらなる実践的考察と,いくつかのオープン研究課題について述べる。 DRLに基づく現状条件とは違って,システム設計パラメータの構成と無線環境の将来状態の独立性を生かし,従来のディープQ-Network(DQN)アルゴリズムに十分近いが,実装の複雑さを低く抑えながら,計算結果の総和性能をランダムな構成より優れていることを示す,効率的なマルチアームバンディットアプローチを提案する。

The emerging technology of Reconfigurable Intelligent Surfaces (RISs) is provisioned as an enabler of smart wireless environments, offering a highly scalable, low-cost, hardware-efficient, and almost energy-neutral solution for dynamic control of the propagation of electromagnetic signals over the wireless medium, ultimately providing increased environmental intelligence for diverse operation objectives. One of the major challenges with the envisioned dense deployment of RISs in such reconfigurable radio environments is the efficient configuration of multiple metasurfaces with limited, or even the absence of, computing hardware. In this paper, we consider multi-user and multi-RIS-empowered wireless systems, and present a thorough survey of the online machine learning approaches for the orchestration of their various tunable components. Focusing on the sum-rate maximization as a representative design objective, we present a comprehensive problem formulation based on Deep Reinforcement Learning (DRL). We detail the correspondences among the parameters of the wireless system and the DRL terminology, and devise generic algorithmic steps for the artificial neural network training and deployment, while discussing their implementation details. Further practical considerations for multi-RIS-empowered wireless communications in the sixth Generation (6G) era are presented along with some key open research challenges. Differently from the DRL-based status quo, we leverage the independence between the configuration of the system design parameters and the future states of the wireless environment, and present efficient multi-armed bandits approaches, whose resulting sum-rate performances are numerically shown to outperform random configurations, while being sufficiently close to the conventional Deep Q-Network (DQN) algorithm, but with lower implementation complexity.
翻訳日:2022-05-10 15:07:44 公開日:2022-05-08
# DxFormer:デコーダ・エンコーダ変換器を用いたディカップリング型自動診断システム

DxFormer: A Decoupled Automatic Diagnostic System Based on Decoder-Encoder Transformer with Dense Symptom Representations ( http://arxiv.org/abs/2205.03755v1 )

ライセンス: Link先を確認
Wei Chen, Cheng Zhong, Jiajie Peng, Zhongyu Wei(参考訳) 診断指向の対話システムは患者の健康状態を問い合わせ、患者との継続的な対話を通じて疾患の予測を行う。 いくつかの研究は強化学習(rl)を使用して、症状と疾患の合同行動空間から最適な方針を学ぶ。 しかし、既存のRL(Non-RL)法は、その上限から遠く離れたところで十分な予測精度を達成できない。 そこで本研究では,症状問診から疾患診断への移行が停止基準によって明確に決定される症状問診と疾患診断の2つのステップに分類する,分離型自動診断フレームワークdxformerを提案する。 dxformerでは,各症状をトークンとして扱い,言語生成モデルとシーケンス分類モデルに対して,症状問診と疾患診断を形式化する。 我々は,インバータ型トランスフォーマ,すなわちデコーダエンコーダ構造を用いて,強化報酬とクロスエントロピー損失を共同で最適化し,症状の表現を学習する。 3つの実世界のデータセットに関する広範囲な実験により,提案モデルが医師の臨床経験を効果的に学習し,症状のリコールと診断精度の観点から最先端の結果が得られることを証明した。

Diagnosis-oriented dialogue system queries the patient's health condition and makes predictions about possible diseases through continuous interaction with the patient. A few studies use reinforcement learning (RL) to learn the optimal policy from the joint action space of symptoms and diseases. However, existing RL (or Non-RL) methods cannot achieve sufficiently good prediction accuracy, still far from its upper limit. To address the problem, we propose a decoupled automatic diagnostic framework DxFormer, which divides the diagnosis process into two steps: symptom inquiry and disease diagnosis, where the transition from symptom inquiry to disease diagnosis is explicitly determined by the stopping criteria. In DxFormer, we treat each symptom as a token, and formalize the symptom inquiry and disease diagnosis to a language generation model and a sequence classification model respectively. We use the inverted version of Transformer, i.e., the decoder-encoder structure, to learn the representation of symptoms by jointly optimizing the reinforce reward and cross entropy loss. Extensive experiments on three public real-world datasets prove that our proposed model can effectively learn doctors' clinical experience and achieve the state-of-the-art results in terms of symptom recall and diagnostic accuracy.
翻訳日:2022-05-10 15:05:35 公開日:2022-05-08
# ニューラルネットワーク翻訳のためのスケジューリングマルチタスク学習

Scheduled Multi-task Learning for Neural Chat Translation ( http://arxiv.org/abs/2205.03766v1 )

ライセンス: Link先を確認
Yunlong Liang, Fandong Meng, Jinan Xu, Yufeng Chen and Jie Zhou(参考訳) Neural Chat Translation (NCT)は、会話テキストをさまざまな言語に翻訳することを目的としている。 既存の手法は主に多言語対話の特徴(例えばコヒーレンス)をモデル化し、小規模チャット翻訳データを用いたマルチタスク学習によるチャット翻訳を改善することに焦点を当てている。 NCTモデルは目覚ましい成功を収めているが、チャット翻訳データや単純な共同学習方法が不十分なため、まだ十分ではない。 上記の課題に対処するため,NCTのためのマルチタスク学習フレームワークを提案する。 具体的には,最初の事前学習段階と微調整段階の間に第2の事前学習段階を追加することにより,大規模ドメイン内チャット翻訳データをトレーニングに組み込むための3段階学習フレームワークを考案する。 さらに,複数の訓練段階における対話関連補助タスクのスケジュールについて検討し,主要なチャット翻訳タスクを効果的に強化する。 4つの言語方向(英語と中国語とドイツ語)における広範囲な実験は、提案手法の有効性と優位性を検証する。 また,本研究のコミュニティでは,多言語多言語対話データセットを広く公開している。

Neural Chat Translation (NCT) aims to translate conversational text into different languages. Existing methods mainly focus on modeling the bilingual dialogue characteristics (e.g., coherence) to improve chat translation via multi-task learning on small-scale chat translation data. Although the NCT models have achieved impressive success, it is still far from satisfactory due to insufficient chat translation data and simple joint training manners. To address the above issues, we propose a scheduled multi-task learning framework for NCT. Specifically, we devise a three-stage training framework to incorporate the large-scale in-domain chat translation data into training by adding a second pre-training stage between the original pre-training and fine-tuning stages. Further, we investigate where and how to schedule the dialogue-related auxiliary tasks in multiple training stages to effectively enhance the main chat translation task. Extensive experiments in four language directions (English-Chinese and English-German) verify the effectiveness and superiority of the proposed approach. Additionally, we have made the large-scale in-domain paired bilingual dialogue dataset publicly available to the research community.
翻訳日:2022-05-10 15:04:58 公開日:2022-05-08
# マルチドメイン目標感分析

Multi-Domain Targeted Sentiment Analysis ( http://arxiv.org/abs/2205.03804v1 )

ライセンス: Link先を確認
Orith Toledo-Ronen, Matan Orbach, Yoav Katz, Noam Slonim(参考訳) ターゲット感情分析(tsa)は、消費者レビューから洞察を得るための中心的なタスクである。 こうしたコンテンツは非常に多様で、AmazonやYelpのようなサイトには多くの異なるドメインの製品やビジネスに関するレビューが含まれている。 現実世界のTSAシステムは、その多様性を優雅に扱うべきです。 これは、分析されたテキストのドメインに対して堅牢で、さまざまなドメインでうまく機能するマルチドメインモデルによって達成できる。 このシナリオに対処するために,各領域の異なる弱ラベルを持つ与えられたトレーニングセットの強化に基づくマルチドメインtsaシステムを提案する。 これらはYelpのレビューコーパスで自己学習することで得られる。 異なる領域にまたがる3つの評価データセットに対するアプローチによる大規模な実験により、ソリューションの有効性が示された。 さらに,利用可能なラベル付きデータに対する制約が性能に与える影響を解析し,提案手法とtsaラベル付きデータを手作業で収集する費用対効果を比較した。 以上の結果と分析結果から,本手法は実用的なドメインロバストtsaシステムへの有望な一歩であることが示された。

Targeted Sentiment Analysis (TSA) is a central task for generating insights from consumer reviews. Such content is extremely diverse, with sites like Amazon or Yelp containing reviews on products and businesses from many different domains. A real-world TSA system should gracefully handle that diversity. This can be achieved by a multi-domain model -- one that is robust to the domain of the analyzed texts, and performs well on various domains. To address this scenario, we present a multi-domain TSA system based on augmenting a given training set with diverse weak labels from assorted domains. These are obtained through self-training on the Yelp reviews corpus. Extensive experiments with our approach on three evaluation datasets across different domains demonstrate the effectiveness of our solution. We further analyze how restrictions imposed on the available labeled data affect the performance, and compare the proposed method to the costly alternative of manually gathering diverse TSA labeled data. Our results and analysis show that our approach is a promising step towards a practical domain-robust TSA system.
翻訳日:2022-05-10 15:02:40 公開日:2022-05-08
# 低信頼度の選択と校正:デュアルチャネル一貫性に基づくグラフ畳み込みネットワーク

Select and Calibrate the Low-confidence: Dual-Channel Consistency based Graph Convolutional Networks ( http://arxiv.org/abs/2205.03753v1 )

ライセンス: Link先を確認
Shuhao Shi, Jian Chen, Kai Qiao, Shuai Yang, Linyuan Wang and Bin Yan(参考訳) グラフ畳み込みネットワーク(GCN)はノード分類タスクにおいて優れた結果を得たが、低ラベルレートでのモデルの性能はまだ不十分である。 グラフの半教師付き学習(SSL)における従来の研究は、ネットワーク予測を用いて、ソフトな擬似ラベルを生成したり、メッセージの伝搬を指示したりすることに焦点を当ててきた。 提案するDual-Channel Consistency based Graph Convolutional Networks (DCC-GCN) では,ノードの特徴やトポロジ構造から埋め込みを抽出し,二チャネル整合性に基づく信頼性の高い低信頼度および高信頼度サンプル選択を実現する。 さらに,デュアルチャネル一貫性に基づいて得られた低信頼サンプルは精度が低く,モデルの性能に制約があることを確認した。 低信頼度サンプルを無視する以前の研究とは異なり、低信頼サンプルの特徴埋め込みを近所の高信頼サンプルを用いて校正する。 実験の結果,DCC-GCNは低信頼度試料と高信頼度試料とをより正確に識別でき,低信頼度試料の精度を著しく向上できることがわかった。 ベンチマークデータセットについて広範な実験を行い、DCC-GCNは、異なるラベルレートで最先端のベースラインよりもはるかに優れていることを示した。

The Graph Convolutional Networks (GCNs) have achieved excellent results in node classification tasks, but the model's performance at low label rates is still unsatisfactory. Previous studies in Semi-Supervised Learning (SSL) for graph have focused on using network predictions to generate soft pseudo-labels or instructing message propagation, which inevitably contains the incorrect prediction due to the over-confident in the predictions. Our proposed Dual-Channel Consistency based Graph Convolutional Networks (DCC-GCN) uses dual-channel to extract embeddings from node features and topological structures, and then achieves reliable low-confidence and high-confidence samples selection based on dual-channel consistency. We further confirmed that the low-confidence samples obtained based on dual-channel consistency were low in accuracy, constraining the model's performance. Unlike previous studies ignoring low-confidence samples, we calibrate the feature embeddings of the low-confidence samples by using the neighborhood's high-confidence samples. Our experiments have shown that the DCC-GCN can more accurately distinguish between low-confidence and high-confidence samples, and can also significantly improve the accuracy of low-confidence samples. We conducted extensive experiments on the benchmark datasets and demonstrated that DCC-GCN is significantly better than state-of-the-art baselines at different label rates.
翻訳日:2022-05-10 14:43:39 公開日:2022-05-08
# RoViST:ビジュアルストーリーテリングのためのロバストなメトリクスの学習

RoViST:Learning Robust Metrics for Visual Storytelling ( http://arxiv.org/abs/2205.03774v1 )

ライセンス: Link先を確認
Eileen Wang, Caren Han, Josiah Poon(参考訳) ビジュアルストーリーテリング(VST)は、与えられた画像シーケンスを記述するストーリー段落を生成するタスクである。 既存のストーリーテリングアプローチの多くは、bleuやciderといった従来の自然言語生成メトリクスを使用してモデルを評価している。 しかし,n-gramマッチングに基づくこのような指標は人間の評価スコアと相関が低く,文章構造やトピックコヒーレンスといったストーリーテリングに必要な他の基準を明示的に考慮しない傾向にある。 さらに、ひとつのスコアでストーリーを評価するだけでは十分ではありません。 本稿では、良いストーリーでどの側面を探すかを分析するための3つの評価指標セットを提案する。 1)視覚的接地 2)一貫性,及び 3)非冗長性。 VIST(Visual Storytelling Dataset)でトレーニングされた4つの最先端モデルから得られたマシンストーリーのサンプルから,人間の判断スコアとの相関を解析することにより,測定セットの信頼性を測定した。 我々の測定基準は、人間の相関に関する他の指標よりも優れており、既存のルールベースの測定基準を補完する学習ベースの評価基準セットとして機能することができる。

Visual storytelling (VST) is the task of generating a story paragraph that describes a given image sequence. Most existing storytelling approaches have evaluated their models using traditional natural language generation metrics like BLEU or CIDEr. However, such metrics based on n-gram matching tend to have poor correlation with human evaluation scores and do not explicitly consider other criteria necessary for storytelling such as sentence structure or topic coherence. Moreover, a single score is not enough to assess a story as it does not inform us about what specific errors were made by the model. In this paper, we propose 3 evaluation metrics sets that analyses which aspects we would look for in a good story: 1) visual grounding, 2) coherence, and 3) non-redundancy. We measure the reliability of our metric sets by analysing its correlation with human judgement scores on a sample of machine stories obtained from 4 state-of-the-arts models trained on the Visual Storytelling Dataset (VIST). Our metric sets outperforms other metrics on human correlation, and could be served as a learning based evaluation metric set that is complementary to existing rule-based metrics.
翻訳日:2022-05-10 14:15:29 公開日:2022-05-08
# zeroとr2d2:中国の大規模クロスモーダルベンチマークとビジョン言語フレームワーク

Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework ( http://arxiv.org/abs/2205.03860v1 )

ライセンス: Link先を確認
Chunyu Xie, Heng Cai, Jianfei Song, Jincheng Li, Fanjing Kong, Xiaoyu Wu, Henrique Morimitsu, Lin Yao, Dexin Wang, Dawei Leng, Xiangyang Ji, Yafeng Deng(参考訳) 大規模な事前トレーニングデータセットに依存する視覚言語事前トレーニング(VLP)は、さまざまな下流タスクで顕著なパフォーマンスを示している。 この意味では、VLPには完全で公平なベンチマーク(大規模な事前トレーニングデータセットとさまざまなダウンストリームデータセットを含む)が不可欠である。 しかし、こうしたベンチマークを中国語でどのように構築するかは依然として重要な問題である。 この目的のために、我々は、AI研究者のためのZeroと呼ばれる大規模な中国のクロスモーダルベンチマークを開発し、VLPモデルを公平に比較した。 ダウンストリームタスクのための2つの事前トレーニングデータセットと5つの微調整データセットをリリースします。 さらに,クロスモーダル学習のためのプレランキング+ランキングの新たな事前学習フレームワークを提案する。 具体的には、画像の個々の表現と中国語のテキストを学習するために、グローバルコントラストプレランクを適用する。 次に,画像-テキストクロスエンコーダとテキスト-画像クロスエンコーダを用いて,詳細なランク付けを行う。 モデルの性能をさらに高めるために,ターゲット誘導蒸留と特徴誘導蒸留からなる2方向蒸留戦略を提案する。 シンプルさのため、当社のモデルはR2D2です。 4つのパブリックなクロスモーダルデータセットと5つのダウンストリームデータセットで最先端のパフォーマンスを実現します。 データセット、モデル、コードは利用可能になる。

Vision-language pre-training (VLP) relying on large-scale pre-training datasets has shown premier performance on various downstream tasks. In this sense, a complete and fair benchmark (i.e., including large-scale pre-training datasets and a variety of downstream datasets) is essential for VLP. But how to construct such a benchmark in Chinese remains a critical problem. To this end, we develop a large-scale Chinese cross-modal benchmark called Zero for AI researchers to fairly compare VLP models. We release two pre-training datasets and five fine-tuning datasets for downstream tasks. Furthermore, we propose a novel pre-training framework of pre-Ranking + Ranking for cross-modal learning. Specifically, we apply global contrastive pre-ranking to learn the individual representations of images and Chinese texts, respectively. We then fuse the representations in a fine-grained ranking manner via an image-text cross encoder and a text-image cross encoder. To further enhance the capability of the model, we propose a two-way distillation strategy consisting of target-guided Distillation and feature-guided Distillation. For simplicity, we call our model R2D2. We achieve state-of-the-art performance on four public cross-modal datasets and our five downstream datasets. The datasets, models and codes will be made available.
翻訳日:2022-05-10 14:15:10 公開日:2022-05-08
# SoftPool++: ポイントクラウドコンプリートのためのエンコーダデコーダネットワーク

SoftPool++: An Encoder-Decoder Network for Point Cloud Completion ( http://arxiv.org/abs/2205.03899v1 )

ライセンス: Link先を確認
Yida Wang, David Joseph Tan, Nassir Navab, Federico Tombari(参考訳) 本稿では,ポイントクラウド完了作業のための新しい畳み込み演算子を提案する。 このアプローチの注目すべき特徴は、関連する作業に対して、マックスプールやボクセル化操作は不要であることです。 代わりに、提案する演算子は、細粒度の幾何学的詳細を保存できる機能アクティベーションをソフトプールすることで、エンコーダに埋め込まれた点クラウドを学習するために、点クラウドから置換不変な特徴を抽出する。 これらの機能はデコーダアーキテクチャに渡される。 エンコーダの圧縮のため、この種のアーキテクチャの典型的な制限は、入力形状構造の一部を失う傾向があることである。 本稿では,この制限を点雲用に特別に考案されたスキップ接続を用いて克服し,エンコーダの対応する層とデコーダのリンクを確立することを提案する。 これらの接続の一環として,エンコーダからデコーダ,リバーサに特徴を投影する変換行列を導入する。 shapenetデータセット上の部分スキャンによるオブジェクト補完タスクの定量的・定性的な結果から,このアプローチを組み込むことで,低解像度と高解像度の両方での形状補完における最先端の性能が得られることが示された。

We propose a novel convolutional operator for the task of point cloud completion. One striking characteristic of our approach is that, conversely to related work it does not require any max-pooling or voxelization operation. Instead, the proposed operator used to learn the point cloud embedding in the encoder extracts permutation-invariant features from the point cloud via a soft-pooling of feature activations, which are able to preserve fine-grained geometric details. These features are then passed on to a decoder architecture. Due to the compression in the encoder, a typical limitation of this type of architectures is that they tend to lose parts of the input shape structure. We propose to overcome this limitation by using skip connections specifically devised for point clouds, where links between corresponding layers in the encoder and the decoder are established. As part of these connections, we introduce a transformation matrix that projects the features from the encoder to the decoder and vice-versa. The quantitative and qualitative results on the task of object completion from partial scans on the ShapeNet dataset show that incorporating our approach achieves state-of-the-art performance in shape completion both at low and high resolutions.
翻訳日:2022-05-10 14:14:51 公開日:2022-05-08
# 構造化スパンセレクタ

A Structured Span Selector ( http://arxiv.org/abs/2205.03977v1 )

ライセンス: Link先を確認
Tianyu Liu, Yuchen Eleanor Jiang, Ryan Cotterell, Mrinmaya Sachan(参考訳) 多くの自然言語処理タスク、例えば共参照解決や意味的役割ラベリングは、テキストスパンの選択と決定を必要とする。 このようなタスクに対する典型的なアプローチは、タスク固有のダウンストリーム処理で可能なスパンをすべてスコア付けし、グレッシブにスパンを選択することです。 しかしこのアプローチは、どのスパンを選択するべきかという誘導バイアスを含まない(例えば、選択したスパンが構文的成分である傾向がある)。 本稿では,このような問題に対する部分的なスパンレベルのアノテーションを活用することを学習する,文法に基づく構造化スパン選択モデルを提案する。 従来の手法と比較して,提案手法はヒューリスティックなグレーディ・スパン選択スキームを排除し,最適なスパンのセットで下流タスクをモデル化することができる。 2つの一般的なスパン予測タスク(コリファレンス解像度とセマンティクスロールラベリング)でモデルを評価し,両者に改善点を示す。

Many natural language processing tasks, e.g., coreference resolution and semantic role labeling, require selecting text spans and making decisions about them. A typical approach to such tasks is to score all possible spans and greedily select spans for task-specific downstream processing. This approach, however, does not incorporate any inductive bias about what sort of spans ought to be selected, e.g., that selected spans tend to be syntactic constituents. In this paper, we propose a novel grammar-based structured span selection model which learns to make use of the partial span-level annotation provided for such problems. Compared to previous approaches, our approach gets rid of the heuristic greedy span selection scheme, allowing us to model the downstream task on an optimal set of spans. We evaluate our model on two popular span prediction tasks: coreference resolution and semantic role labeling; and show improvements on both.
翻訳日:2022-05-10 14:12:26 公開日:2022-05-08
# 軌道ユーザリンクのための相互蒸留学習ネットワーク

Mutual Distillation Learning Network for Trajectory-User Linking ( http://arxiv.org/abs/2205.03773v1 )

ライセンス: Link先を確認
Wei Chen and Shuzhe Li and Chao Huang and Yanwei Yu and Yongguo Jiang and Junyu Dong(参考訳) トラジェクタとトラジェクタを生成するユーザをリンクするtul(traveal-user link)は,チェックインモビリティデータのスパース性が問題となっている。 既存の手法は、チェックインデータにおける履歴データやリッチなコンテキスト特徴の利用を無視するので、TULタスクの性能は低下する。 本論文では,Mentual 蒸留学習ネットワークを提案し,MainTUL という名前のスパースチェックインモビリティデータに対する TUL 問題を解く。 具体的には、入力トラジェクトリの逐次パターンをモデル化するリカレントニューラルネットワーク(RNN)トラジェクトリエンコーダと、対応する拡張履歴トラジェクトリの長期的依存関係をキャプチャする時間認識トランスフォーマートラジェクトリエンコーダで構成される。 そして、2つの軌跡エンコーダ間で歴史的軌跡に関する知識を伝達し、両エンコーダの学習を誘導し、情報の相互蒸留を行う。 2つの実世界のチェックインモビリティデータセットの実験結果は、最先端のベースラインに対するMainTULの優位性を示している。 私たちのモデルのソースコードはhttps://github.com/Onedean/MainTULで公開されています。

Trajectory-User Linking (TUL), which links trajectories to users who generate them, has been a challenging problem due to the sparsity in check-in mobility data. Existing methods ignore the utilization of historical data or rich contextual features in check-in data, resulting in poor performance for TUL task. In this paper, we propose a novel Mutual distillation learning network to solve the TUL problem for sparse check-in mobility data, named MainTUL. Specifically, MainTUL is composed of a Recurrent Neural Network (RNN) trajectory encoder that models sequential patterns of input trajectory and a temporal-aware Transformer trajectory encoder that captures long-term time dependencies for the corresponding augmented historical trajectories. Then, the knowledge learned on historical trajectories is transferred between the two trajectory encoders to guide the learning of both encoders to achieve mutual distillation of information. Experimental results on two real-world check-in mobility datasets demonstrate the superiority of MainTUL against state-of-the-art baselines. The source code of our model is available at https://github.com/Onedean/MainTUL.
翻訳日:2022-05-10 14:11:54 公開日:2022-05-08
# アクター-批判的手法のための保守的アドバンテージ学習を伴う同時二重q-learning

Simultaneous Double Q-learning with Conservative Advantage Learning for Actor-Critic Methods ( http://arxiv.org/abs/2205.03819v1 )

ライセンス: Link先を確認
Qing Li, Wengang Zhou, Zhenbo Lu, Houqiang Li(参考訳) アクタークリティカル強化学習(RL)アルゴリズムは、連続制御タスクにおいて印象的なパフォーマンスを達成した。 しかし、サンプル効率の低下と過大評価バイアスの2つの非自明な障害がまだ残っている。 そこで本研究では,保守的アドバンテージ学習(sdq-cal)を用いた同時二重q-learningを提案する。 我々のSDQ-CALは、ベルマン最適度演算子とアドバンテージ学習の修正に基づいて、非政治アクター批判的RLの二重Q学習を促進する。 具体的には、SDQ-CALは、最適なアクションと他のアクションの体験との区別を容易にするために報酬を変更することで、サンプル効率を改善する。 さらに、2重推定器を同時に更新することで過大評価問題を緩和する。 実験の結果,提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。 我々は、このメソッドのソースコードを \url{https://github.com/lqnew/sdq-cal} でリリースします。

Actor-critic Reinforcement Learning (RL) algorithms have achieved impressive performance in continuous control tasks. However, they still suffer two nontrivial obstacles, i.e., low sample efficiency and overestimation bias. To this end, we propose Simultaneous Double Q-learning with Conservative Advantage Learning (SDQ-CAL). Our SDQ-CAL boosts the Double Q-learning for off-policy actor-critic RL based on a modification of the Bellman optimality operator with Advantage Learning. Specifically, SDQ-CAL improves sample efficiency by modifying the reward to facilitate the distinction from experience between the optimal actions and the others. Besides, it mitigates the overestimation issue by updating a pair of critics simultaneously upon double estimators. Extensive experiments reveal that our algorithm realizes less biased value estimation and achieves state-of-the-art performance in a range of continuous control benchmark tasks. We release the source code of our method at: \url{https://github.com/LQNew/SDQ-CAL}.
翻訳日:2022-05-10 14:11:33 公開日:2022-05-08
# 物体光場の無監督発見と組成

Unsupervised Discovery and Composition of Object Light Fields ( http://arxiv.org/abs/2205.03923v1 )

ライセンス: Link先を確認
Cameron Smith, Hong-Xing Yu, Sergey Zakharov, Fredo Durand, Joshua B. Tenenbaum, Jiajun Wu, Vincent Sitzmann(参考訳) 連続的および離散的なニューラルシーン表現は、3dシーン理解のための強力な新しいパラダイムとして最近登場した。 最近の研究は、対象中心の神経シーン表現の教師なし発見に取り組んでいる。 しかし、各オブジェクト表現を別々にレイマーチングしなければならないという事実によって悪化するレイマーチングのコストが高いため、放射能フィールドのサンプリングが不十分となり、ノイズのレンダリング、フレームレートの低下、トレーニングやレンダリングの際のメモリと時間の複雑さが増す。 本稿では,オブジェクト中心の合成シーンを光場として表現することを提案する。 本稿では,オブジェクト中心の光場から全球光野を再構成できる新しい光電場合成モジュールを提案する。 提案手法は,オブジェクト中心のニューラルシーン表現の教師なし学習,標準データセット上での最先端の再構築と新しいビュー合成性能,および既存の3次元アプローチよりも桁違いに高速なレンダリングとトレーニング速度を実現する。

Neural scene representations, both continuous and discrete, have recently emerged as a powerful new paradigm for 3D scene understanding. Recent efforts have tackled unsupervised discovery of object-centric neural scene representations. However, the high cost of ray-marching, exacerbated by the fact that each object representation has to be ray-marched separately, leads to insufficiently sampled radiance fields and thus, noisy renderings, poor framerates, and high memory and time complexity during training and rendering. Here, we propose to represent objects in an object-centric, compositional scene representation as light fields. We propose a novel light field compositor module that enables reconstructing the global light field from a set of object-centric light fields. Dubbed Compositional Object Light Fields (COLF), our method enables unsupervised learning of object-centric neural scene representations, state-of-the-art reconstruction and novel view synthesis performance on standard datasets, and rendering and training speeds at orders of magnitude faster than existing 3D approaches.
翻訳日:2022-05-10 13:55:44 公開日:2022-05-08
# 自動エッセイスコーリングにおけるBERTの利用について:マルチスケールエッセイ表現の連成学習

On the Use of BERT for Automated Essay Scoring: Joint Learning of Multi-Scale Essay Representation ( http://arxiv.org/abs/2205.03835v1 )

ライセンス: Link先を確認
Yongjie Wang and Chuan Wang and Ruobing Li and Hui Lin(参考訳) 近年,自然言語処理(nlp)タスクにおいて,事前学習モデルが主流となっている。 しかし、AES(Automated Essay Scoring)の分野では、BERTのような事前学習モデルがLSTMのような他のディープラーニングモデルより優れているわけではない。 本稿では, bert の多元的エッセイ表現について, 共同学習が可能な新しいエッセイ表現を提案する。 また、ドメイン外のエッセイから複数の損失と転校学習を取り入れ、パフォーマンスをさらに向上させます。 実験の結果,本手法はマルチスケールエッセイ表現の合同学習から得られる多くの利点を示し,asapタスクにおけるすべてのディープラーニングモデルにおける最先端の成果を得た。 また,本論文では,本論文で提案する新しいテキスト表現が長文課題の新規かつ効果的な選択である可能性を示唆する。

In recent years, pre-trained models have become dominant in most natural language processing (NLP) tasks. However, in the area of Automated Essay Scoring (AES), pre-trained models such as BERT have not been properly used to outperform other deep learning models such as LSTM. In this paper, we introduce a novel multi-scale essay representation for BERT that can be jointly learned. We also employ multiple losses and transfer learning from out-of-domain essays to further improve the performance. Experiment results show that our approach derives much benefit from joint learning of multi-scale essay representation and obtains almost the state-of-the-art result among all deep learning models in the ASAP task. Our multi-scale essay representation also generalizes well to CommonLit Readability Prize data set, which suggests that the novel text representation proposed in this paper may be a new and effective choice for long-text tasks.
翻訳日:2022-05-10 13:54:32 公開日:2022-05-08
# 構造認識等分散学習を用いたロバスト(制御)表-テキスト生成

Robust (Controlled) Table-to-Text Generation with Structure-Aware Equivariance Learning ( http://arxiv.org/abs/2205.03972v1 )

ライセンス: Link先を確認
Fei Wang, Zhewei Xu, Pedro Szekely and Muhao Chen(参考訳) 制御されたテーブル・トゥ・テキスト生成は、テーブルのハイライトされた部分の自然言語記述を生成する。 従来のSOTAシステムでは、テーブルを線形構造として捉えるだけでテーブルレイアウトが変化しても不安定なシーケンス・ツー・シーケンス生成方式が採用されていた。 我々は,(1)表中のコンテンツ要素の関係を効果的に表現すること,(2)モデルがコンテンツ不変構造変換に堅牢にすること,により,このパラダイムを超越しようとする。 そこで本研究では,テーブルを構造認識型自己照査機構で符号化する等分散学習フレームワークを提案する。 これにより、完全な自己アテンション構造を順序不変グラフアテンションに抽出し、同じ行や列に属する細胞の連結グラフ構造をキャプチャし、関連する細胞と無関係な細胞を構造的観点から区別する。 また,同一セルにおけるトークンの相対的な位置を保ちつつ,異なるセル間の位置不変性を強制する位置符号化機構を改良した。 我々の技術は、既存のテーブル・ツー・テキスト生成モデルに自由にプラグインでき、T5ベースのモデルを改善し、ToTToとHiTabのパフォーマンスを改善しました。 さらに, totto の難解なバージョンでは, 従来の sota システムでは, トランスフォーメーションベースのデータ拡張においても, 大幅な性能低下が見られたが, 有望な性能を保っている。 私たちのコードはhttps://github.com/luka-group/latticeで利用可能です。

Controlled table-to-text generation seeks to generate natural language descriptions for highlighted subparts of a table. Previous SOTA systems still employ a sequence-to-sequence generation method, which merely captures the table as a linear structure and is brittle when table layouts change. We seek to go beyond this paradigm by (1) effectively expressing the relations of content pieces in the table, and (2) making our model robust to content-invariant structural transformations. Accordingly, we propose an equivariance learning framework, which encodes tables with a structure-aware self-attention mechanism. This prunes the full self-attention structure into an order-invariant graph attention that captures the connected graph structure of cells belonging to the same row or column, and it differentiates between relevant cells and irrelevant cells from the structural perspective. Our framework also modifies the positional encoding mechanism to preserve the relative position of tokens in the same cell but enforce position invariance among different cells. Our technology is free to be plugged into existing table-to-text generation models, and has improved T5-based models to offer better performance on ToTTo and HiTab. Moreover, on a harder version of ToTTo, we preserve promising performance, while previous SOTA systems, even with transformation-based data augmentation, have seen significant performance drops. Our code is available at https://github.com/luka-group/Lattice.
翻訳日:2022-05-10 13:28:55 公開日:2022-05-08
# テキスト認識のためのマルチモーダル半教師付き学習

Multimodal Semi-Supervised Learning for Text Recognition ( http://arxiv.org/abs/2205.03873v1 )

ライセンス: Link先を確認
Aviad Aberdam, Roy Ganz, Shai Mazor, Ron Litman(参考訳) 近年まで、実世界のテキスト画像の数はシーンテキスト認識者の訓練には不十分であった。 したがって、現代のほとんどの訓練方法は合成データに依存し、完全に教師された方法で運用されている。 それでも、公的な現実世界のテキスト画像の量は、大量のラベルのないデータを含む、最近著しく増加している。 これらのリソースを活用するには半教師付きアプローチが必要だが、視覚言語によるマルチモダリティ構造や最先端のマルチモダリティアーキテクチャを考慮しない既存の手法は少ない。 このギャップを埋めるために、各モダリティ訓練段階におけるラベルなしデータを活用するマルチモーダルテキスト認識器(SemiMTR)について半教師付き学習を行う。 特に,本手法は,現在3段階のマルチモーダルトレーニング手順を維持している。 我々のアルゴリズムは、教師あり学習と自己教師あり学習を一体化する一段階の訓練を通して、視覚モデルを事前訓練することから始まる。 より具体的には、既存の視覚表現学習アルゴリズムを拡張し、シーンテキスト認識のための最初のコントラストベース手法を提案する。 テキストコーパス上で言語モデルを事前トレーニングした後、テキストイメージの弱みと強みのビュー間の逐次的、文字レベル、一貫性の規則化を通じて、ネットワーク全体を微調整する。 新たなセットアップでは、各モダリティに対して一貫性を別々に実施する。 大規模な実験により,本手法が現在のトレーニング手法より優れており,複数のシーンテキスト認識ベンチマークで最先端の結果が得られた。

Until recently, the number of public real-world text images was insufficient for training scene text recognizers. Therefore, most modern training methods rely on synthetic data and operate in a fully supervised manner. Nevertheless, the amount of public real-world text images has increased significantly lately, including a great deal of unlabeled data. Leveraging these resources requires semi-supervised approaches; however, the few existing methods do not account for vision-language multimodality structure and therefore suboptimal for state-of-the-art multimodal architectures. To bridge this gap, we present semi-supervised learning for multimodal text recognizers (SemiMTR) that leverages unlabeled data at each modality training phase. Notably, our method refrains from extra training stages and maintains the current three-stage multimodal training procedure. Our algorithm starts by pretraining the vision model through a single-stage training that unifies self-supervised learning with supervised training. More specifically, we extend an existing visual representation learning algorithm and propose the first contrastive-based method for scene text recognition. After pretraining the language model on a text corpus, we fine-tune the entire network via a sequential, character-level, consistency regularization between weakly and strongly augmented views of text images. In a novel setup, consistency is enforced on each modality separately. Extensive experiments validate that our method outperforms the current training schemes and achieves state-of-the-art results on multiple scene text recognition benchmarks.
翻訳日:2022-05-10 13:28:13 公開日:2022-05-08