このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220831となっている論文です。

PDF登録状況(公開日: 20220831)

TitleAuthorsAbstract論文公表日・翻訳日
# テキストからSQLへの構造化事前学習

Structure-Grounded Pretraining for Text-to-SQL ( http://arxiv.org/abs/2010.12773v3 )

ライセンス: Link先を確認
Xiang Deng, Ahmed Hassan Awadallah, Christopher Meek, Oleksandr Polozov, Huan Sun, Matthew Richardson(参考訳) Text-to-SQLのようなタスクには、テキストテーブルのアライメントをキャプチャする学習が不可欠だ。 モデルは、列や値に対する自然言語の参照を正しく認識し、与えられたデータベーススキーマにそれらを置く必要がある。 本稿では,テキストテーブルコーパスに基づいてテキストテーブルアライメントを効果的に取得できる,テキストからSQLへの構造化事前学習フレームワーク(StruG)を提案する。 カラムグラウンド,バリューグラウンド,カラム値マッピングという,一連の新しい予測タスクを特定し,それらをテキストテーブルエンコーダの事前トレーニングに活用する。 さらに、より現実的なテキストテーブルアライメント設定下で異なるメソッドを評価するために、カラム名の明示的な言及を含むスパイダー・リアリスティックをベースとした新しい評価セットを作成し、既存の8つのテキスト-SQLデータセットをデータベース間評価に適用する。 STRUGはすべての設定でBERT-LARGEよりも大幅に改善されている。 GRAPPAのような既存の事前学習手法と比較して、STRUGはスパイダーで同様の性能を達成し、より現実的なセットで全てのベースラインを上回ります。 Spider-Realisticデータセットはhttps://doi.org/10.5281/zenodo.5205322で公開されている。

Learning to capture text-table alignment is essential for tasks like text-to-SQL. A model needs to correctly recognize natural language references to columns and values and to ground them in the given database schema. In this paper, we present a novel weakly supervised Structure-Grounded pretraining framework (StruG) for text-to-SQL that can effectively learn to capture text-table alignment based on a parallel text-table corpus. We identify a set of novel prediction tasks: column grounding, value grounding and column-value mapping, and leverage them to pretrain a text-table encoder. Additionally, to evaluate different methods under more realistic text-table alignment settings, we create a new evaluation set Spider-Realistic based on Spider dev set with explicit mentions of column names removed, and adopt eight existing text-to-SQL datasets for cross-database evaluation. STRUG brings significant improvement over BERT-LARGE in all settings. Compared with existing pretraining methods such as GRAPPA, STRUG achieves similar performance on Spider, and outperforms all baselines on more realistic sets. The Spider-Realistic dataset is available at https://doi.org/10.5281/zenodo.5205322.
翻訳日:2022-10-03 11:50:06 公開日:2022-08-31
# 屋内小型セルの伝送電力制御:フェデレーション強化学習に基づく手法

Transmit Power Control for Indoor Small Cells: A Method Based on Federated Reinforcement Learning ( http://arxiv.org/abs/2209.13536v1 )

ライセンス: Link先を確認
Peizheng Li, Hakan Erdol, Keith Briggs, Xiaoyang Wang, Robert Piechocki, Abdelrahim Ahmad, Rui Inacio, Shipra Kapoor, Angela Doufexi, Arjun Parekh(参考訳) 5Gセルの送信電力設定は長期にわたる議論のトピックであり、最適化された電力設定は、ユーザの干渉を低減し、サービス品質を改善するのに役立つ。 近年,機械学習(ml)ベース,特に強化学習(rl)ベースの制御手法が注目されている。 しかし、訓練されたRLモデルの一般化能力についてはほとんど議論がない。 本稿では,室内環境下で訓練したRLエージェントが室内依存型であり,新しい異種環境を直接利用できないことを指摘する。 そこで本稿では,open radio access network (o-ran) の文脈において,federated reinforcement learning (frl) に基づく分散セル電力制御方式を提案する。 異なる屋内環境のモデルは、トレーニングプロセス中にグローバルモデルに集約され、中央サーバは更新されたモデルを各クライアントにブロードキャストする。 このモデルは、新しい環境での適応トレーニングのベースモデルとしても使用される。 シミュレーションの結果,FRLモデルは1つのRLエージェントと同等の性能を示し,どちらもランダムなパワー割り当て法や全探索法よりも優れていることがわかった。 一般化実験の結果, FRLモデルをベースモデルとして用いることにより, 新環境におけるモデルの収束速度が向上することが示された。

Setting the transmit power setting of 5G cells has been a long-term topic of discussion, as optimized power settings can help reduce interference and improve the quality of service to users. Recently, machine learning (ML)-based, especially reinforcement learning (RL)-based control methods have received much attention. However, there is little discussion about the generalisation ability of the trained RL models. This paper points out that an RL agent trained in a specific indoor environment is room-dependent, and cannot directly serve new heterogeneous environments. Therefore, in the context of Open Radio Access Network (O-RAN), this paper proposes a distributed cell power-control scheme based on Federated Reinforcement Learning (FRL). Models in different indoor environments are aggregated to the global model during the training process, and then the central server broadcasts the updated model back to each client. The model will also be used as the base model for adaptive training in the new environment. The simulation results show that the FRL model has similar performance to a single RL agent, and both are better than the random power allocation method and exhaustive search method. The results of the generalisation test show that using the FRL model as the base model improves the convergence speed of the model in the new environment.
翻訳日:2022-10-02 23:57:48 公開日:2022-08-31
# 共有標準を用いたレーザー誘起破壊分光システム間のライブラリー転送

Library transfer between distinct Laser-Induced Breakdown Spectroscopy systems with shared standards ( http://arxiv.org/abs/2209.07637v1 )

ライセンス: Link先を確認
J. Vr\'abel (1 and 2), E. K\'epe\v{s} (1 and 2), P. Ned\v{e}ln\'ik (1), J. Buday (1 and 2), J. Cepm\'irek (3), P. Po\v{r}\'izka (1 and 2), J. Kaiser (1 and 2) ((1) CEITEC, Brno University of Technology, (2) Institute of Physical Engineering, Brno University of Technology, (3) Department of Geological Sciences, Faculty of Science, Masaryk University)(参考訳) 異なる分光システムの相互不適合性は、レーザー誘起破壊分光(LIBS)において最も制限される要素の一つである。 新しいLIBSシステムの設定に伴うコストは、その広範なキャリブレーションを必要とするため増大する。 この問題の解決は、他の分光技術の基礎となる共同基準測定と共有スペクトルライブラリーを可能にする。 本研究では, 使用済みの分光計と集光光学のみにおいてlibsシステムが異なるが, 装置の他の部分も共有し, 同じプラズマプルームから同時にスペクトルを収集する, この課題の簡易版について検討した。 ヘテロジニアス標本のハイパースペクトル画像として測定された広範なデータセットは、システム間でスペクトルを転送できる機械学習モデルのトレーニングに使用される。 この転送は、可変オートエンコーダ(VAE)と完全に接続された人工ニューラルネットワーク(ANN)で構成されるパイプラインによって実現される。 最初のステップでは、(VAEを用いて)一次系上で測定されたスペクトルの潜在表現を得る。 第2のステップでは、二次系からのスペクトルを(ANNによって)潜在空間の対応する位置へマッピングする。 最後に、二次系スペクトルを潜在空間から一次系の空間へ再構成する。 この移動はいくつかの図(空間的に解決されたユークリッド距離とコサイン距離、転送スペクトルのk平均クラスタリング)によって評価される。 この方法論はいくつかのベースラインアプローチと比較される。

The mutual incompatibility of distinct spectroscopic systems is among the most limiting factors in Laser-Induced Breakdown Spectroscopy (LIBS). The cost related to setting up a new LIBS system is increased, as its extensive calibration is required. Solving the problem would enable inter-laboratory reference measurements and shared spectral libraries, which are fundamental for other spectroscopic techniques. In this work, we study a simplified version of this challenge where LIBS systems differ only in used spectrometers and collection optics but share all other parts of the apparatus, and collect spectra simultaneously from the same plasma plume. Extensive datasets measured as hyperspectral images of heterogeneous specimens are used to train machine learning models that can transfer spectra between systems. The transfer is realized by a pipeline that consists of a variational autoencoder (VAE) and a fully-connected artificial neural network (ANN). In the first step, we obtain a latent representation of the spectra which were measured on the Primary system (by using the VAE). In the second step, we map spectra from the Secondary system to corresponding locations in the latent space (by the ANN). Finally, Secondary system spectra are reconstructed from the latent space to the space of the Primary system. The transfer is evaluated by several figures of merit (Euclidean and cosine distances, both spatially resolved; k-means clustering of transferred spectra). The methodology is compared to several baseline approaches.
翻訳日:2022-09-25 17:59:08 公開日:2022-08-31
# 野生におけるテーブル検出:新しい多様なテーブル検出データセットおよび方法

Table Detection in the Wild: A Novel Diverse Table Detection Dataset and Method ( http://arxiv.org/abs/2209.09207v1 )

ライセンス: Link先を確認
Mrinal Haloi, Shashank Shekhar, Nikhil Fande, Siddhant Swaroop Dash, Sanjay G(参考訳) テーブル検出における近年の深層学習手法は優れた性能を達成し,文書レイアウトの同定に有効であることが証明された。 現在利用可能なテーブル検出ベンチマークには、サンプルの多様性の欠如、単純なテーブル構造、トレーニングケースの欠如、サンプル品質など、多くの制限がある。 本稿では,多種多様な情報源から収集したテーブル構造を含む7万以上のサンプルを用いて,テーブル検出のための多種多様な大規模データセットを提案する。 それに加えて,畳み込みニューラルネットワークを用いた文書の表構造検出手法によるベースライン結果も提示する。 実験の結果,古典的コンピュータビジョンに基づく手法よりも畳み込み型深層学習手法が優れていることがわかった。 この多様なテーブル検出データセットの導入により、コミュニティは文書レイアウトと表データ処理を理解するための高いスループットのディープラーニング手法を開発できるようになる。

Recent deep learning approaches in table detection achieved outstanding performance and proved to be effective in identifying document layouts. Currently, available table detection benchmarks have many limitations, including the lack of samples diversity, simple table structure, the lack of training cases, and samples quality. In this paper, we introduce a diverse large-scale dataset for table detection with more than seven thousand samples containing a wide variety of table structures collected from many diverse sources. In addition to that, we also present baseline results using a convolutional neural network-based method to detect table structure in documents. Experimental results show the superiority of applying convolutional deep learning methods over classical computer vision-based methods. The introduction of this diverse table detection dataset will enable the community to develop high throughput deep learning methods for understanding document layout and tabular data processing.
翻訳日:2022-09-25 17:48:05 公開日:2022-08-31
# 正常胸部X線診断のための人工知能ソリューションのロバスト性

Robustness of an Artificial Intelligence Solution for Diagnosis of Normal Chest X-Rays ( http://arxiv.org/abs/2209.09204v1 )

ライセンス: Link先を確認
Tom Dyer, Jordan Smith, Gaetan Dissez, Nicole Tay, Qaiser Malik, Tom Naunton Morgan, Paul Williams, Liliana Garcia-Mondragon, George Pearse, and Simon Rasalingham(参考訳) 目的: 医療診断のための人工知能(AI)ソリューションは、全ての患者サブグループでパフォーマンスが維持され、提案されたケア改善が公平に行われることを証明するために、徹底的な評価が必要である。 本研究は, 正常胸部X線(CXR)の診断におけるAIソリューションのロバスト性について, 複数の患者および環境サブグループ間での性能を比較し, 人的専門家によるAIエラーとの比較を行った。 方法:NHS患者とケア設定の多様なデータセットを表すために,合計4,060個のCXRを採取した。 地上のラベルには3つの放射線科医のパネルが割り当てられた。 aiのパフォーマンスは、割り当てられたラベルに対して評価され、サブグループ分析は、患者年齢と性別、およびcxrビュー、モダリティ、デバイスメーカー、病院サイトに対して行われた。 結果: AIソリューションは、データセットの18.5%をHigh Confidence Normal (HCN)に分類することで削除することができた。 これは96.0%の負の予測値(NPV)と関連付けられ、放射線医による正常なスキャンの診断では89.1%であった。 あらゆるAI偽陰性(FN)症例では、放射線科医が最終接地ラベルと比較すると、同じ誤りを犯したことが判明した。 サブグループ分析ではAIの性能に統計的に有意な変動は見られなかったが, 通常の分類は一部の病院で観測された。 結論: スキャンの18.5%をhcnと診断することで、aiソリューションが有意義なワークロード削減を実現できることを示す。 aiソリューションは患者のサブグループ間でうまく動作し、エラーケースは主観的あるいは微妙な性質であることが示されている。

Purpose: Artificial intelligence (AI) solutions for medical diagnosis require thorough evaluation to demonstrate that performance is maintained for all patient sub-groups and to ensure that proposed improvements in care will be delivered equitably. This study evaluates the robustness of an AI solution for the diagnosis of normal chest X-rays (CXRs) by comparing performance across multiple patient and environmental subgroups, as well as comparing AI errors with those made by human experts. Methods: A total of 4,060 CXRs were sampled to represent a diverse dataset of NHS patients and care settings. Ground-truth labels were assigned by a 3-radiologist panel. AI performance was evaluated against assigned labels and sub-groups analysis was conducted against patient age and sex, as well as CXR view, modality, device manufacturer and hospital site. Results: The AI solution was able to remove 18.5% of the dataset by classification as High Confidence Normal (HCN). This was associated with a negative predictive value (NPV) of 96.0%, compared to 89.1% for diagnosis of normal scans by radiologists. In all AI false negative (FN) cases, a radiologist was found to have also made the same error when compared to final ground-truth labels. Subgroup analysis showed no statistically significant variations in AI performance, whilst reduced normal classification was observed in data from some hospital sites. Conclusion: We show the AI solution could provide meaningful workload savings by diagnosis of 18.5% of scans as HCN with a superior NPV to human readers. The AI solution is shown to perform well across patient subgroups and error cases were shown to be subjective or subtle in nature.
翻訳日:2022-09-25 17:47:54 公開日:2022-08-31
# 格子理論畳み込みによる多次元パーシステンスモジュール分類

Multidimensional Persistence Module Classification via Lattice-Theoretic Convolutions ( http://arxiv.org/abs/2011.14057v2 )

ライセンス: Link先を確認
Hans Riess, Jakob Hansen, Robert Ghrist(参考訳) 多パラメータ永続ホモロジーは機械学習アルゴリズムへの入力として無視されている。 格子型畳み込みニューラルネットワーク層を多パラメータ永続モジュールから生じる特徴を解析するためのツールとして利用することを検討する。 これらは多次元永続モジュールの分類の畳み込みの代替として、promiseを示す。

Multiparameter persistent homology has been largely neglected as an input to machine learning algorithms. We consider the use of lattice-based convolutional neural network layers as a tool for the analysis of features arising from multiparameter persistence modules. We find that these show promise as an alternative to convolutions for the classification of multidimensional persistence modules.
翻訳日:2022-09-19 20:04:33 公開日:2022-08-31
# IoT BCIインプラントのためのZydeco-Style Spike Sorting Low Power VLSI Architecture

Zydeco-Style Spike Sorting Low Power VLSI Architecture for IoT BCI Implants ( http://arxiv.org/abs/2209.04427v1 )

ライセンス: Link先を確認
Zag ElSayed, Murat Ozer, Nelly Elsayed, Hazem Said(参考訳) 脳コンピュータインタフェース(BCI)は、多くの脳信号分析の限界、精神障害の解決、神経制御されたインプラントによる手足の機能を回復する大きな可能性を秘めている。 しかし、単独では使用できず、日常使用のための安全なインプラントはまだ存在していない。 提案されたインプラントの多くは、感染の危険性や放熱といったいくつかの実装上の問題があり、使用性を制限し、規制や品質管理の実施を困難にしている。 ワイヤレスインプラントは頭蓋骨に慢性的な傷を負う必要はない。 しかし、インプラントチップ内の現在の複雑なクラスタリングニューロン識別アルゴリズムは、多くの電力と帯域幅を消費し、高い放熱問題を引き起こし、インプラントのバッテリーを排出する。 スパイクソート(spike sorting)は、侵入型bciチップのコアユニットであり、消費電力、精度、面積において重要な役割を果たす。 そこで本研究では,bciスパイクソートのための低消費電力適応型簡易vlsiアーキテクチャ"zydeco-style"を提案する。 このアーキテクチャは、外部IoT医療ICUデバイスを備えた低消費電力Bluetooth無線通信モジュールを使用する。 提案されたアーキテクチャはVerilogで実装され、シミュレートされた。 また,インプラントの概念設計も提案している。

Brain Computer Interface (BCI) has great potential for solving many brain signal analysis limitations, mental disorder resolutions, and restoring missing limb functionality via neural-controlled implants. However, there is no single available, and safe implant for daily life usage exists yet. Most of the proposed implants have several implementation issues, such as infection hazards and heat dissipation, which limits their usability and makes it more challenging to pass regulations and quality control production. The wireless implant does not require a chronic wound in the skull. However, the current complex clustering neuron identification algorithms inside the implant chip consume a lot of power and bandwidth, causing higher heat dissipation issues and draining the implant's battery. The spike sorting is the core unit of an invasive BCI chip, which plays a significant role in power consumption, accuracy, and area. Therefore, in this study, we propose a low-power adaptive simplified VLSI architecture, "Zydeco-Style," for BCI spike sorting that is computationally less complex with higher accuracy that performs up to 93.5% in the worst-case scenario. The architecture uses a low-power Bluetooth Wireless communication module with external IoT medical ICU devices. The proposed architecture was implemented and simulated in Verilog. In addition, we are proposing an implant conceptual design.
翻訳日:2022-09-18 16:53:14 公開日:2022-08-31
# 非意味的特徴クラスタ置換に基づく非制限逆サンプル

Unrestricted Adversarial Samples Based on Non-semantic Feature Clusters Substitution ( http://arxiv.org/abs/2209.02406v1 )

ライセンス: Link先を確認
MingWei Zhou, Xiaobing Pei(参考訳) 現在のほとんどのメソッドは、$L_p$標準仕様で逆例を生成する。 その結果、多くの防御手法がこのような攻撃アルゴリズムの影響を排除するためにこの特性を利用している。 そこで本論文では,モデルトレーニングによって学習した突発的関係を用いて,敵対的サンプルを生成する「制限なし」摂動を導入する。 具体的には, モデル判定結果と強く相関する非意味的特徴群の特徴クラスタを同定し, モデルが学習した素早い関係として扱う。 次に,対象画像の対応する特徴クラスタを置換するために,逆向きのサンプルを作成する。 実験により,ブラックボックスとホワイトボックスの両方の状況で評価された。 敵の例ではイメージのセマンティクスは変わりませんが、敵が訓練したdnnイメージ分類器を騙すのに有効です。

Most current methods generate adversarial examples with the $L_p$ norm specification. As a result, many defense methods utilize this property to eliminate the impact of such attacking algorithms. In this paper,we instead introduce "unrestricted" perturbations that create adversarial samples by using spurious relations which were learned by model training. Specifically, we find feature clusters in non-semantic features that are strongly correlated with model judgment results, and treat them as spurious relations learned by the model. Then we create adversarial samples by using them to replace the corresponding feature clusters in the target image. Experimental evaluations show that in both black-box and white-box situations. Our adversarial examples do not change the semantics of images, while still being effective at fooling an adversarially trained DNN image classifier.
翻訳日:2022-09-11 13:09:39 公開日:2022-08-31
# 自動変調分類のための注意深いマルチスケール表現学習

Deep Multi-Scale Representation Learning with Attention for Automatic Modulation Classification ( http://arxiv.org/abs/2209.03764v1 )

ライセンス: Link先を確認
Xiaowei Wu, Shengyun Wei, Yan Zhou(参考訳) 現在,小型畳み込みフィルタを積み重ねたディープラーニング手法は,自動変調分類(AMC)に広く用いられている。 本報告では,畳み込み型深層畳み込みニューラルネットワーク(amc)をベースとする大規模カーネルサイズを用いて,生信号i/q系列データのマルチスケール特徴抽出をより効率的に行うことにより,経験豊富な改善が得られた。 また、Squeeze-and-Excitation(SE)機構は、AMCネットワークが信号のより重要な特徴に集中するのに役立つ。 そこで本論文では,カーネルサイズとSE機構(SE-MSFN)を有するマルチスケール機能ネットワークを提案する。 SE-MSFNは、一般に知られたRADIOML 2018.01Aデータセットで最先端の分類性能を達成し、平均分類精度は64.50%、CLDNNは1.42%、最大分類精度は98.5%、下位SNR範囲0dBから10dBでは85.53%、CLDNNは2.85%である。 さらに,アンサンブル学習が分類性能の向上に役立つことも確認した。 このレポートが実際の場面で開発者や研究者に参考になることを期待しています。

Currently, deep learning methods with stacking small size convolutional filters are widely used for automatic modulation classification (AMC). In this report, we find some experienced improvements by using large kernel size for convolutional deep convolution neural network based AMC, which is more efficient in extracting multi-scale features of the raw signal I/Q sequence data. Also, Squeeze-and-Excitation (SE) mechanisms can significantly help AMC networks to focus on the more important features of the signal. As a result, we propose a multi-scale feature network with large kernel size and SE mechanism (SE-MSFN) in this paper. SE-MSFN achieves state-of-the-art classification performance on the public well-known RADIOML 2018.01A dataset, with average classification accuracy of 64.50%, surpassing CLDNN by 1.42%, maximum classification accuracy of 98.5%, and an average classification accuracy of 85.53% in the lower SNR range 0dB to 10dB, surpassing CLDNN by 2.85%. In addition, we also verified that ensemble learning can help further improve classification performance. We hope this report can provide some references for developers and researchers in practical scenes.
翻訳日:2022-09-11 13:08:03 公開日:2022-08-31
# AutoPET Challenge 2022:Deep LearningとFDG PET/CTに基づく全身腫瘍病変の自動分離

AutoPET Challenge 2022: Automatic Segmentation of Whole-body Tumor Lesion Based on Deep Learning and FDG PET/CT ( http://arxiv.org/abs/2209.01212v1 )

ライセンス: Link先を確認
Shaonan Zhong, Junyang Mo, Zhantao Liu(参考訳) 腫瘍病変の自動分離はPET/CTの定量的解析において重要な初期処理ステップである。 しかし, 形状, サイズ, 吸収強度の異なる多くの腫瘍病変は, 全身の解剖学的文脈で分布し, 健康な臓器にも顕著な取り込みがある。 したがって,全身PET/CT腫瘍病変セグメント化モデルの構築は難しい課題である。 本稿では,系統的腫瘍分割が可能な深層学習モデルを構築するための新しいトレーニング戦略を提案する。 本手法はAutoPET 2022 Challengeのトレーニングセットで検証される。 予備テストセットでは、0.7574diceスコア、0.0299false positiveボリューム、 0.2538false negativeボリュームを達成しました。

Automatic segmentation of tumor lesions is a critical initial processing step for quantitative PET/CT analysis. However, numerous tumor lesion with different shapes, sizes, and uptake intensity may be distributed in different anatomical contexts throughout the body, and there is also significant uptake in healthy organs. Therefore, building a systemic PET/CT tumor lesion segmentation model is a challenging task. In this paper, we propose a novel training strategy to build deep learning models capable of systemic tumor segmentation. Our method is validated on the training set of the AutoPET 2022 Challenge. We achieved 0.7574 Dice score, 0.0299 false positive volume and 0.2538 false negative volume on preliminary test set.The code of our work is available on the following link: https://github.com/ZZZsn/MICCAI2022-autopet.
翻訳日:2022-09-11 13:03:31 公開日:2022-08-31
# MAFormer:視覚認識のためのマルチスケールアテンションフュージョンを用いたトランスフォーマーネットワーク

MAFormer: A Transformer Network with Multi-scale Attention Fusion for Visual Recognition ( http://arxiv.org/abs/2209.01620v1 )

ライセンス: Link先を確認
Yunhao Wang, Huixin Sun, Xiaodi Wang, Bin Zhang, Chao Li, Ying Xin, Baochang Zhang, Errui Ding, Shumin Han(参考訳) Vision Transformerとその変種は、様々なコンピュータビジョンタスクにおいて大きな可能性を証明している。 しかし、従来のビジョントランスフォーマーは、大まかなレベルでのグローバル依存に焦点を当てることが多く、グローバルリレーションとトークンレベルでのきめ細かい表現の学習課題に苦しむ。 本稿では,視覚認識のためのデュアルストリームフレームワークにおいて,局所的なアグリゲーションとグローバル特徴抽出を探索するtransformer (maformer) へのマルチスケールアテンション融合を提案する。 トークンレベルで細粒度および粗粒度の特徴を学習し,それを動的に融合させることにより,視覚表現のためのトランスフォーマーの潜在能力を探索する。 我々のマルチスケールアテンション・フュージョン(MAF)ブロックは以下の通りである。 一 ウィンドウ内の短期的な相互作用を学習し、きめ細かい局所的な特徴を集約するローカルウィンドウ注意ブランチ 二 ダウンサンプリング(gld)操作による新しいグローバルラーニングによるグローバル特徴抽出により、画像全体の長距離コンテキスト情報を効率よく取得すること。 三 注意力による両機能の統合を自己探究する融合モジュール 私たちのmaformerは、共通のビジョンタスクで最先端のパフォーマンスを実現します。 特に、MaFormer-L は ImageNet で85.9$\%$ Top-1 の精度を達成し、CSWin-B と LV-ViT-L をそれぞれ 1.7$\% と 0.6$\% で上回っている。 MSCOCOでは、MAFormerは、オブジェクト検出において1.7$\%$ mAPs、類似サイズのパラメータを持つインスタンスセグメンテーションにおいて1.4$\%$で、CSWinよりも優れており、一般的なバックボーンネットワークである可能性を示している。

Vision Transformer and its variants have demonstrated great potential in various computer vision tasks. But conventional vision transformers often focus on global dependency at a coarse level, which suffer from a learning challenge on global relationships and fine-grained representation at a token level. In this paper, we introduce Multi-scale Attention Fusion into transformer (MAFormer), which explores local aggregation and global feature extraction in a dual-stream framework for visual recognition. We develop a simple but effective module to explore the full potential of transformers for visual representation by learning fine-grained and coarse-grained features at a token level and dynamically fusing them. Our Multi-scale Attention Fusion (MAF) block consists of: i) a local window attention branch that learns short-range interactions within windows, aggregating fine-grained local features; ii) global feature extraction through a novel Global Learning with Down-sampling (GLD) operation to efficiently capture long-range context information within the whole image; iii) a fusion module that self-explores the integration of both features via attention. Our MAFormer achieves state-of-the-art performance on common vision tasks. In particular, MAFormer-L achieves 85.9$\%$ Top-1 accuracy on ImageNet, surpassing CSWin-B and LV-ViT-L by 1.7$\%$ and 0.6$\%$ respectively. On MSCOCO, MAFormer outperforms the prior art CSWin by 1.7$\%$ mAPs on object detection and 1.4$\%$ on instance segmentation with similar-sized parameters, demonstrating the potential to be a general backbone network.
翻訳日:2022-09-11 13:02:03 公開日:2022-08-31
# パワーグリッドにおけるランク付け型物理インフォームドライン故障検出

Ranking-Based Physics-Informed Line Failure Detection in Power Grids ( http://arxiv.org/abs/2209.01021v1 )

ライセンス: Link先を確認
Aleksandra Burashnikova and Wenting Li and Massih Amini and Deepjoyti Deka and Yury Maximov(参考訳) 気候変動は、風と吹雪、大雨、山火事など、電力システムの信頼性を損なう極端な気象現象の数を増やし、複数の機器の故障を引き起こす。 リアルタイムかつ正確なライン障害検出は、極端な気象影響を緩和し、緊急制御を活性化するための第一歩である。 電力収支方程式の非線形性、極端な事象における発生の不確実性の増加、グリッド観測性の欠如は、従来のデータ駆動故障検出手法の効率を損なう。 同時に、ニューラルネットワークに基づく最新の問題解決機械学習手法は、特に時間変化環境において、事故を検出するために大量のデータを必要とする。 本稿では,グリッドトポロジ情報を利用してサンプルおよび時間複雑度を低減し,位置推定精度を向上させる物理インフォームライン故障検出器(field)を提案する。 最後に, 各種テストケースに対する最先端手法と比較して, 提案手法の優れた経験的性能について述べる。

Climate change increases the number of extreme weather events (wind and snowstorms, heavy rains, wildfires) that compromise power system reliability and lead to multiple equipment failures. Real-time and accurate detecting of potential line failures is the first step to mitigating the extreme weather impact and activating emergency controls. Power balance equations nonlinearity, increased uncertainty in generation during extreme events, and lack of grid observability compromise the efficiency of traditional data-driven failure detection methods. At the same time, modern problem-oblivious machine learning methods based on neural networks require a large amount of data to detect an accident, especially in a time-changing environment. This paper proposes a Physics-InformEd Line failure Detector (FIELD) that leverages grid topology information to reduce sample and time complexities and improve localization accuracy. Finally, we illustrate the superior empirical performance of our approach compared to state-of-the-art methods over various test cases.
翻訳日:2022-09-05 13:03:49 公開日:2022-08-31
# 深層ニューラルネットワークを用いた長期ヘイルリスク評価

Long-term hail risk assessment with deep neural networks ( http://arxiv.org/abs/2209.01191v1 )

ライセンス: Link先を確認
Ivan Lukyanenko (1), Mikhail Mozikov (2), Yury Maximov (3), Ilya Makarov (4) ((1) Moscow Institute of Physics and Technologies, (2) Skolkovo Institute of Science and Technology, (3) Los Alamos National Laboratory, (4) Artificial Intelligence Research Institute)(参考訳) hailリスクアセスメントは、作物、果樹園、インフラの被害を見積り、軽減するために必要である。 また、企業、特に保険会社の損失の見積もりや削減にも役立ちます。 しかし、ヘイル予測は難しい。 この目的のためにモデルの設計に使用されるデータは、木次元地理空間時系列である。 Hailは、利用可能なデータセットの解決に関して、非常にローカルなイベントである。 また、観測対象の1%のみが「ハイル」とマークされることは稀である。 近況や短期の干ばつ予測のモデルが改善されている。 気象分野への機械学習モデルの導入は新しいものではない。 将来の気候変動のシナリオを反映した様々な気候モデルも存在する。 しかし、特定の領域におけるハイル頻度の変化をデータ駆動で予測する機械学習モデルはありません。 後者のタスクで考えられる最初のアプローチは、空間的および時間的構造を無視し、与えられた気象変数の垂直プロファイルを、ヘイル形成に好適かどうかを分類できるモデルを開発することである。 このようなアプローチは重要な情報を無視するが、観測を互いに独立して扱うため、非常に軽量でスケーラブルである。 より高度なアプローチは、地理空間データを処理できるニューラルネットワークを設計することである。 ここでの考え方は、空間データの処理に責任を負う畳み込み層と、時間構造を扱うことができるリカレントニューラルネットワークブロックを組み合わせることです。 本研究は,2つのアプローチを比較し,今後数十年の発声頻度の変化予測に適したモデルを提案する。

Hail risk assessment is necessary to estimate and reduce damage to crops, orchards, and infrastructure. Also, it helps to estimate and reduce consequent losses for businesses and, particularly, insurance companies. But hail forecasting is challenging. Data used for designing models for this purpose are tree-dimensional geospatial time series. Hail is a very local event with respect to the resolution of available datasets. Also, hail events are rare - only 1% of targets in observations are marked as "hail". Models for nowcasting and short-term hail forecasts are improving. Introducing machine learning models to the meteorology field is not new. There are also various climate models reflecting possible scenarios of climate change in the future. But there are no machine learning models for data-driven forecasting of changes in hail frequency for a given area. The first possible approach for the latter task is to ignore spatial and temporal structure and develop a model capable of classifying a given vertical profile of meteorological variables as favorable to hail formation or not. Although such an approach certainly neglects important information, it is very light weighted and easily scalable because it treats observations as independent from each other. The more advanced approach is to design a neural network capable to process geospatial data. Our idea here is to combine convolutional layers responsible for the processing of spatial data with recurrent neural network blocks capable to work with temporal structure. This study compares two approaches and introduces a model suitable for the task of forecasting changes in hail frequency for ongoing decades.
翻訳日:2022-09-05 13:02:04 公開日:2022-08-31
# 信頼は説明可能性、解釈可能性、透明性の研究において正しく測定されているか?

Are we measuring trust correctly in explainability, interpretability, and transparency research? ( http://arxiv.org/abs/2209.00651v1 )

ライセンス: Link先を確認
Tim Miller(参考訳) 本稿では,説明可能性,解釈可能性,透明性研究において信頼度を十分に測定していない理由について論じる。 ほとんどの研究は参加者に対して、説明/解釈されたモデルの信頼度を評価するための信頼尺度を完成させるよう求めている。 信頼が高まれば、これは肯定的だと考えます。 しかし、これには2つの問題がある。 まず、通常、参加者がモデルを信じるべきかどうかを知る方法がありません。 モデルの品質が低ければ、信頼は確実に低下すべきです。 第二に、これらの尺度は信頼を示すのではなく、知覚された信頼を測定する。 本稿では,信頼度を計測・実証する3つの方法を紹介する。 最終的な発言ではなく、このトピックに関する議論の出発点となることを意図しています。 著者は批評と議論を招待する。

This paper presents an argument for why we are not measuring trust sufficiently in explainability, interpretability, and transparency research. Most studies ask participants to complete a trust scale to rate their trust of a model that has been explained/interpreted. If the trust is increased, we consider this a positive. However, there are two issues with this. First, we usually have no way of knowing whether participants should trust the model. Trust should surely decrease if a model is of poor quality. Second, these scales measure perceived trust rather than demonstrated trust. This paper showcases three methods that do a good job at measuring perceived and demonstrated trust. It is intended to be starting point for discussion on this topic, rather than to be the final say. The author invites critique and discussion.
翻訳日:2022-09-05 12:43:15 公開日:2022-08-31
# eeg記録を用いた視線状態の分類:信号時間と相互情報計測による高速化

Classification of eye-state using EEG recordings: speed-up gains using signal epochs and mutual information measure ( http://arxiv.org/abs/2209.01023v1 )

ライセンス: Link先を確認
Phoebe M Asquith and Hisham Ihshaish(参考訳) 脳波(eeg)信号の分類は、発作の検出/予測、運動画像の分類、感情の分類、薬物効果の診断など、幅広い用途で有用である。 多くのEEGチャネルが取得され、あるアプリケーションから別のアプリケーションへ様々な重要性を持つ効率的なデータ抽出手法が開発されることが重要になっている。 また、多くのアプリケーションでeeg記録中にオンライン分類を行い、変化の監視を行うことも重要である。 本稿では,チャネル選択のための相互情報(MI)に基づく手法を提案する。 得られた結果は,分類精度スコアにペナルティがある一方で,MI技術を用いて有望なスピードアップゲインを達成できることを示唆している。 miと信号遷移を含む信号エポック(3secs)を使用することで、これらのスピードアップ効果が向上する。 本研究は探索的であり,検証と開発のためのさらなる研究が提案されている。 分類速度を改善することの利点は、臨床または教育現場での応用を改善することである。

The classification of electroencephalography (EEG) signals is useful in a wide range of applications such as seizure detection/prediction, motor imagery classification, emotion classification and drug effects diagnosis, amongst others. With the large number of EEG channels acquired, it has become vital that efficient data-reduction methods are developed, with varying importance from one application to another. It is also important that online classification is achieved during EEG recording for many applications, to monitor changes as they happen. In this paper we introduce a method based on Mutual Information (MI), for channel selection. Obtained results show that whilst there is a penalty on classification accuracy scores, promising speed-up gains can be achieved using MI techniques. Using MI with signal epochs (3secs) containing signal transitions enhances these speed-up gains. This work is exploratory and we suggest further research to be carried out for validation and development. Benefits to improving classification speed include improving application in clinical or educational settings.
翻訳日:2022-09-05 12:20:23 公開日:2022-08-31
# NeurIPSコンペティションの指導とガイド:教育における学習経路の因果的視点

NeurIPS Competition Instructions and Guide: Causal Insights for Learning Paths in Education ( http://arxiv.org/abs/2208.12610v2 )

ライセンス: Link先を確認
Wenbo Gong, Digory Smith, Zichao Wang, Craig Barton, Simon Woodhead, Nick Pawlowski, Joel Jennings, Cheng Zhang(参考訳) このコンテストでは、参加者は時系列データを用いた教育の文脈における機械学習における2つの基本的な因果問題に対処する。 1つ目は異なる構成物間の因果関係を識別することであり、構成物は学習の最小要素として定義される。 2つ目の課題は、ある構造を学ぶことが他の構造に対する質問に答える能力に与える影響を予測することである。 これらの課題に対処することで、学生の知識獲得の最適化が可能になる。 参加者はこれらのタスクを、一連のA/Bテストから収集した評価データを備えた合成データと実世界のシナリオで理想的な環境で実行します。

In this competition, participants will address two fundamental causal challenges in machine learning in the context of education using time-series data. The first is to identify the causal relationships between different constructs, where a construct is defined as the smallest element of learning. The second challenge is to predict the impact of learning one construct on the ability to answer questions on other constructs. Addressing these challenges will enable optimisation of students' knowledge acquisition, which can be deployed in a real edtech solution impacting millions of students. Participants will run these tasks in an idealised environment with synthetic data and a real-world scenario with evaluation data collected from a series of A/B tests.
翻訳日:2022-09-04 02:10:24 公開日:2022-08-31
# 物質科学応用を用いた物理制約機械学習のための単調ガウス過程

Monotonic Gaussian process for physics-constrained machine learning with materials science applications ( http://arxiv.org/abs/2209.00628v1 )

ライセンス: Link先を確認
Anh Tran and Kathryn Maupin and Theron Rodgers(参考訳) 物理制約付き機械学習は、物理学の機械学習分野において重要なトピックとして浮上している。 物理制約を機械学習手法に組み込むことの最も大きな利点の1つは、結果のモデルがトレーニングするデータを大幅に少なくすることである。 物理ルールを機械学習の定式化自体に組み込むことで、予測は物理的に妥当であることが期待される。 ガウス過程(GP)はおそらく、小さなデータセットの機械学習において最も一般的な方法の1つである。 本稿では, 実験データと計算データを用いて, 3つの異なる材料データセット上で, 単調性を持つgp定式化を制約する可能性について検討する。 単調GPは通常のGPと比較され、後部分散の顕著な減少が観察された。 単調gpは補間系において厳密に単調であるが、補間系では、トレーニングデータセットを超えて単調効果が消失し始める。 GPに単調性を持たせることは、通常のGPに比べて精度が低い。 モノトニックGPは、データが乏しくノイズの多いアプリケーションにおいて最も有用であり、強い物理的証拠によってモノトニック性が支持される。

Physics-constrained machine learning is emerging as an important topic in the field of machine learning for physics. One of the most significant advantages of incorporating physics constraints into machine learning methods is that the resulting model requires significantly less data to train. By incorporating physical rules into the machine learning formulation itself, the predictions are expected to be physically plausible. Gaussian process (GP) is perhaps one of the most common methods in machine learning for small datasets. In this paper, we investigate the possibility of constraining a GP formulation with monotonicity on three different material datasets, where one experimental and two computational datasets are used. The monotonic GP is compared against the regular GP, where a significant reduction in the posterior variance is observed. The monotonic GP is strictly monotonic in the interpolation regime, but in the extrapolation regime, the monotonic effect starts fading away as one goes beyond the training dataset. Imposing monotonicity on the GP comes at a small accuracy cost, compared to the regular GP. The monotonic GP is perhaps most useful in applications where data is scarce and noisy, and monotonicity is supported by strong physical evidence.
翻訳日:2022-09-02 14:22:20 公開日:2022-08-31
# 深層学習を用いた数理計算における脳波の分類

Classification of Electroencephalograms during Mathematical Calculations Using Deep Learning ( http://arxiv.org/abs/2209.00627v1 )

ライセンス: Link先を確認
Umang Goenka, Param Patil, Kush Gosalia, Aaryan Jagetia(参考訳) 脳波(EEG)信号の分類は脳-コンピュータインタフェース(BCI)を理解するのに役立つ。 脳波信号は人間の心の働きを研究する上で不可欠である。 本稿では,事前計算信号(BCS)と継続計算信号(DCS)からなる算術計算データセットを用いた。 データセットは36人の参加者で構成されていた。 脳内のニューロンの機能を理解するため,BCSとDCSを分類した。 本分類では, 相互情報(MI), 位相ロック値(PLV), エントロピー, 置換エントロピー, スペクトルエントロピー, 特異値分解エントロピー, 近似エントロピー, サンプルエントロピーなどの特徴を抽出した。 これらの特徴の分類は、LSTM、BLSTM、ConvLSTM、CNN-LSTMといったRNNベースの分類器を用いて行われた。 このモデルは、エントロピーを特徴とし、convlstmを分類器として用いたとき、99.72%の精度を達成した。

Classifying Electroencephalogram(EEG) signals helps in understanding Brain-Computer Interface (BCI). EEG signals are vital in studying how the human mind functions. In this paper, we have used an Arithmetic Calculation dataset consisting of Before Calculation Signals (BCS) and During Calculation Signals (DCS). The dataset consisted of 36 participants. In order to understand the functioning of neurons in the brain, we classified BCS vs DCS. For this classification, we extracted various features such as Mutual Information (MI), Phase Locking Value (PLV), and Entropy namely Permutation entropy, Spectral entropy, Singular value decomposition entropy, Approximate entropy, Sample entropy. The classification of these features was done using RNN-based classifiers such as LSTM, BLSTM, ConvLSTM, and CNN-LSTM. The model achieved an accuracy of 99.72% when entropy was used as a feature and ConvLSTM as a classifier.
翻訳日:2022-09-02 14:18:55 公開日:2022-08-31
# 自動ベイズ最適化による抗菌活性表面の計算設計

Computational design of antimicrobial active surfaces via automated Bayesian optimization ( http://arxiv.org/abs/2209.00055v1 )

ライセンス: Link先を確認
Hanfeng Zhai and Jingjie Yeo(参考訳) バイオフィルムは、海洋科学、バイオエネルギー、バイオメディシンなどの様々な分野の技術者にとって重要な問題であり、効果的なバイオフィルム制御が長期的な目標である。 バイオフィルムの接着と表面力学はバイオフィルムの生成と除去に重要な役割を果たしている。 表面トポロジーが異なるカスタマイズされたナノ表面を設計することで、接着性を変化させ、バイオフィルムをより容易に、より長期のバイオフィルム制御を大幅に改善することができる。 このようなトポロジを迅速に設計するために,個々のモデリングとベイズ最適化を用いて設計プロセスを自動化し,有効なバイオフィルム除去のために異なる活性表面を生成する。 応用せん断・振動による生体膜除去のための理想的ナノ表面の創製に成功した。 高度に分布した短柱トポグラフィーはバイオフィルム形成を防ぐための最適形状である。 流動せん断下での最適地形は、高い、細い、柱状の構造をわずかに分配することである。 垂直振動または横振動を受けると、厚い台形の円錐が最適であることが分かる。 振動負荷の最適化は、バイオフィルムの除去において、比較的低い周波数で小さな振動の大きさを示す。 本研究は, バイオフィルムの表面制御を必要とする各種工学分野の知見を提供する。 我々のフレームワークは、より一般的な材料設計と最適化にも適用できる。

Biofilms pose significant problems for engineers in diverse fields, such as marine science, bioenergy, and biomedicine, where effective biofilm control is a long-term goal. The adhesion and surface mechanics of biofilms play crucial roles in generating and removing biofilm. Designing customized nano-surfaces with different surface topologies can alter the adhesive properties to remove biofilms more easily and greatly improve long-term biofilm control. To rapidly design such topologies, we employ individual-based modeling and Bayesian optimization to automate the design process and generate different active surfaces for effective biofilm removal. Our framework successfully generated ideal nano-surfaces for biofilm removal through applied shear and vibration. Densely distributed short pillar topography is the optimal geometry to prevent biofilm formation. Under fluidic shearing, the optimal topography is to sparsely distribute tall, slim, pillar-like structures. When subjected to either vertical or lateral vibrations, thick trapezoidal cones are found to be optimal. Optimizing the vibrational loading indicates a small vibration magnitude with relatively low frequencies is more efficient in removing biofilm. Our results provide insights into various engineering fields that require surface-mediated biofilm control. Our framework can also be applied to more general materials design and optimization.
翻訳日:2022-09-02 14:18:36 公開日:2022-08-31
# 生成音響システムとそのメトリクスの評価

Evaluating generative audio systems and their metrics ( http://arxiv.org/abs/2209.00130v1 )

ライセンス: Link先を確認
Ashvala Vinay, Alexander Lerch(参考訳) 近年、深層生成モデルによる音声合成が大幅に進歩している。 異なる研究は、結果を報告する際に異なる評価方法論と異なるメトリクスを使用し、他のシステムと直接比較することは不可能ではないとしても困難である。 さらに、報告された指標の知覚的関連性と意味は、ほとんどの場合不明であり、実用的なユーザビリティとオーディオ品質に関する決定的な洞察を禁止している。 本稿では,最先端のアプローチを並べて検討する。 (i)従来提案されていた音声再建のための客観的指標のセット (二)聴取の勉強。 その結果、現在使われている客観的指標は、現在のシステムの知覚的品質を記述するのに不十分であることが示された。

Recent years have seen considerable advances in audio synthesis with deep generative models. However, the state-of-the-art is very difficult to quantify; different studies often use different evaluation methodologies and different metrics when reporting results, making a direct comparison to other systems difficult if not impossible. Furthermore, the perceptual relevance and meaning of the reported metrics in most cases unknown, prohibiting any conclusive insights with respect to practical usability and audio quality. This paper presents a study that investigates state-of-the-art approaches side-by-side with (i) a set of previously proposed objective metrics for audio reconstruction, and with (ii) a listening study. The results indicate that currently used objective metrics are insufficient to describe the perceptual quality of current systems.
翻訳日:2022-09-02 14:18:18 公開日:2022-08-31
# fdr制御を用いた可変相互作用の2段階仮説実験

Two-stage Hypothesis Tests for Variable Interactions with FDR Control ( http://arxiv.org/abs/2209.00077v1 )

ライセンス: Link先を確認
Jingyi Duan, Yang Ning, Xi Chen, Yong Chen(参考訳) 変数間の依存が一般的であるゲノムワイド・アソシエーション研究のような多くのシナリオにおいて、モデル内の相互作用効果を推測することはしばしば関心がある。 しかし、複雑・高次元データにおける数百万の変数間のペアワイズ相互作用のテストは、統計力の低下と膨大な計算コストに悩まされる。 これらの課題に対処するため、我々は偽発見率(FDR)制御による2段階テスト手順を提案し、これはより保守的な多重テスト補正として知られている。 理論的には、fdr制御の難しさはテスト統計の2段階におけるデータ依存によるものであり、第2段階における仮説試験の回数が第1段階のスクリーニング結果に依存するという事実である。 Cram\'er型中等偏差法を用いて, 一般化線形モデル(GLM)において, 所望のFDRを漸近的に制御し, モデルの誤特定を許すことを示す。 また、fdr制御手順の漸近力が厳格に確立される。 本手法は, 従来のbh法よりも計算効率が優れ, 比較, 改良された統計力を有することを総合シミュレーションにより実証する。 最後に, 膀胱癌に対する遺伝子感受性遺伝子座の同定を目的として, dbgapの膀胱癌データに適用した。

In many scenarios such as genome-wide association studies where dependences between variables commonly exist, it is often of interest to infer the interaction effects in the model. However, testing pairwise interactions among millions of variables in complex and high-dimensional data suffers from low statistical power and huge computational cost. To address these challenges, we propose a two-stage testing procedure with false discovery rate (FDR) control, which is known as a less conservative multiple-testing correction. Theoretically, the difficulty in the FDR control dues to the data dependence among test statistics in two stages, and the fact that the number of hypothesis tests conducted in the second stage depends on the screening result in the first stage. By using the Cram\'er type moderate deviation technique, we show that our procedure controls FDR at the desired level asymptotically in the generalized linear model (GLM), where the model is allowed to be misspecified. In addition, the asymptotic power of the FDR control procedure is rigorously established. We demonstrate via comprehensive simulation studies that our two-stage procedure is computationally more efficient than the classical BH procedure, with a comparable or improved statistical power. Finally, we apply the proposed method to a bladder cancer data from dbGaP where the scientific goal is to identify genetic susceptibility loci for bladder cancer.
翻訳日:2022-09-02 14:13:52 公開日:2022-08-31
# カーネルベースのテスト解析のための一般的なフレームワーク

A general framework for the analysis of kernel-based tests ( http://arxiv.org/abs/2209.00124v1 )

ライセンス: Link先を確認
Tamara Fern\'andez, Nicol\'as Rivera(参考訳) カーネルベースのテストは、カーネルヒルベルト空間を再現する理論を用いて、非パラメトリックなテスト手順を設計する単純な効果的なフレームワークを提供する。 本稿では,複数のデータシナリオにおけるカーネルベースのテストの漸近的動作,および多くの異なるテスト問題の研究に使用できる新しい理論ツールを提案する。 現在のアプローチとは異なり、我々の手法は文献によく見られるような長い$U$や$V$統計拡張や極限定理の使用を回避し、ヒルベルト空間上のランダム汎函数を直接扱う。 したがって、我々のフレームワークはカーネルテストをよりシンプルかつクリーンに分析し、穏やかな規則性条件を必要とする。 さらに,本手法が要求する正規性条件が十分かつ必要であることを示すことにより,一般に解析が改善されないことを示す。 本手法の有効性を説明するために,条件付き独立性テスト問題に対する新しいカーネルテストと,すでに知られているカーネルベースのテストに対する新しい解析を提案する。

Kernel-based tests provide a simple yet effective framework that use the theory of reproducing kernel Hilbert spaces to design non-parametric testing procedures. In this paper we propose new theoretical tools that can be used to study the asymptotic behaviour of kernel-based tests in several data scenarios, and in many different testing problems. Unlike current approaches, our methods avoid using lengthy $U$ and $V$ statistics expansions and limit theorems, that commonly appear in the literature, and works directly with random functionals on Hilbert spaces. Therefore, our framework leads to a much simpler and clean analysis of kernel tests, only requiring mild regularity conditions. Furthermore, we show that, in general, our analysis cannot be improved by proving that the regularity conditions required by our methods are both sufficient and necessary. To illustrate the effectiveness of our approach we present a new kernel-test for the conditional independence testing problem, as well as new analyses for already known kernel-based tests.
翻訳日:2022-09-02 14:13:28 公開日:2022-08-31
# 自分の近所になる: 自己教師付き学習に基づく近隣関係による敵対的事例の検出

Be Your Own Neighborhood: Detecting Adversarial Example by the Neighborhood Relations Built on Self-Supervised Learning ( http://arxiv.org/abs/2209.00005v1 )

ライセンス: Link先を確認
Zhiyuan He, Yijun Yang, Pin-Yu Chen, Qiang Xu, Tsung-Yi Ho(参考訳) ディープニューラルネットワーク(DNN)は様々な分野で優れた性能を発揮している。 しかしながら、DNNのAdversarial Examples(AE)に対する脆弱性は、安全クリティカルなアプリケーションへのデプロイメントを妨げる。 本稿では,信頼性の高い予測のための新しいAE検出フレームワークであるBEYONDを提案する。 BEYONDは、AEの異常な関係と、その拡張されたバージョン、すなわち隣人との関係を、表現類似性とラベル整合性の2つの見通しから区別することで検出を行う。 自己監督学習モデル(SSL)モデルは、教師付き学習モデルと比較して、その表現を抽出し、高い情報的表現能力のラベルを予測するために使用される。 クリーンサンプルでは、それらの表現と予測は隣人と密接に一致しているが、AEsの表現は大きく異なる。 さらに、この観測を解説し、この不一致を利用してAEを効果的に検出できることを示す。 我々はBEYONDの有効性を厳格に正当化する。 さらに、プラグイン・アンド・プレイモデルとして、BEYONDはAdversarial Trained Classifier (ATC)と容易に協力でき、最先端(SOTA)のロバスト性精度を実現する。 実験の結果,特にアダプティブアタックでは,ベースラインよりも大きなマージンが得られた。 sslで構築された堅牢なリレーションネットによって、検出能力と速度の両方において、ベースラインよりも優れていることが分かりました。 私たちのコードは公開されます。

Deep Neural Networks (DNNs) have achieved excellent performance in various fields. However, DNNs' vulnerability to Adversarial Examples (AE) hinders their deployments to safety-critical applications. This paper presents a novel AE detection framework, named BEYOND, for trustworthy predictions. BEYOND performs the detection by distinguishing the AE's abnormal relation with its augmented versions, i.e. neighbors, from two prospects: representation similarity and label consistency. An off-the-shelf Self-Supervised Learning (SSL) model is used to extract the representation and predict the label for its highly informative representation capacity compared to supervised learning models. For clean samples, their representations and predictions are closely consistent with their neighbors, whereas those of AEs differ greatly. Furthermore, we explain this observation and show that by leveraging this discrepancy BEYOND can effectively detect AEs. We develop a rigorous justification for the effectiveness of BEYOND. Furthermore, as a plug-and-play model, BEYOND can easily cooperate with the Adversarial Trained Classifier (ATC), achieving the state-of-the-art (SOTA) robustness accuracy. Experimental results show that BEYOND outperforms baselines by a large margin, especially under adaptive attacks. Empowered by the robust relation net built on SSL, we found that BEYOND outperforms baselines in terms of both detection ability and speed. Our code will be publicly available.
翻訳日:2022-09-02 14:13:02 公開日:2022-08-31
# 多次元Keller-Segel走化系における凝集パターンの学習と生成のためのDeepParticle法

A DeepParticle method for learning and generating aggregation patterns in multi-dimensional Keller-Segel chemotaxis systems ( http://arxiv.org/abs/2209.00109v1 )

ライセンス: Link先を確認
Zhongjian Wang, Jack Xin, Zhiwen Zhang(参考訳) ケラー・セガル(KS)ケモタキシー系の2次元および3次元における凝集パターンと近傍特異解の正規化相互作用粒子法について検討し,さらに物理パラメータの変動による解の学習と生成を行うディープパーティクル(DP)法を開発した。 KS溶液は、溶液の高勾配に自己適応する粒子の実験測度として近似される。 我々は,深部ニューラルネットワーク(DNN)の表現性を利用して,与えられた初期(ソース)分布から,その変換の可逆性を仮定することなく,爆発前の有限時間Tにおける対象分布への変換を表現する。 トレーニング段階では,入力と対象実験尺度間の離散的な2-wasserstein距離を最小化し,ネットワーク重み付けを更新する。 計算コストを削減するために,wasserstein距離における最適遷移行列を求める反復分割・探索アルゴリズムを開発した。 層流とカオス流の存在下でのKSダイナミクスの学習と生成を成功させるDPフレームワークの数値結果を示す。 本研究の物理的パラメータは, 化学療法剤の小さな拡散率か, アドベクション支配領域における流れ振幅の逆数である。

We study a regularized interacting particle method for computing aggregation patterns and near singular solutions of a Keller-Segal (KS) chemotaxis system in two and three space dimensions, then further develop DeepParticle (DP) method to learn and generate solutions under variations of physical parameters. The KS solutions are approximated as empirical measures of particles which self-adapt to the high gradient part of solutions. We utilize the expressiveness of deep neural networks (DNNs) to represent the transform of samples from a given initial (source) distribution to a target distribution at finite time T prior to blowup without assuming invertibility of the transforms. In the training stage, we update the network weights by minimizing a discrete 2-Wasserstein distance between the input and target empirical measures. To reduce computational cost, we develop an iterative divide-and-conquer algorithm to find the optimal transition matrix in the Wasserstein distance. We present numerical results of DP framework for successful learning and generation of KS dynamics in the presence of laminar and chaotic flows. The physical parameter in this work is either the small diffusivity of chemo-attractant or the reciprocal of the flow amplitude in the advection-dominated regime.
翻訳日:2022-09-02 14:12:31 公開日:2022-08-31
# 木に基づく適応モデル学習

Tree-Based Adaptive Model Learning ( http://arxiv.org/abs/2209.00122v1 )

ライセンス: Link先を確認
Tiago Ferreira, Gerco van Heerdt, and Alexandra Silva(参考訳) kearns-vazirani学習アルゴリズムを拡張して,時間とともに変化するシステムを処理可能にした。 そこで本研究では,学習した動作を再利用し,更新し,learnlibライブラリに実装し,大規模な実例で評価する新しい学習アルゴリズムを提案する。 これらの実験では,従来のkearns-vazirani学習アルゴリズムと現在の最先端適応アルゴリズムを有意に上回っている。

We extend the Kearns-Vazirani learning algorithm to be able to handle systems that change over time. We present a new learning algorithm that can reuse and update previously learned behavior, implement it in the LearnLib library, and evaluate it on large examples, to which we make small adjustments between two runs of the algorithm. In these experiments our algorithm significantly outperforms both the classic Kearns-Vazirani learning algorithm and the current state-of-the-art adaptive algorithm.
翻訳日:2022-09-02 14:12:11 公開日:2022-08-31
# バスケットボール追跡データにおけるグループアクティビティ認識 -- チームスポーツにおける神経組込み(ネット)

Group Activity Recognition in Basketball Tracking Data -- Neural Embeddings in Team Sports (NETS) ( http://arxiv.org/abs/2209.00451v1 )

ライセンス: Link先を確認
Sandro Hauri and Slobodan Vucetic(参考訳) 多くのチームスポーツと同様に、バスケットボールはゲームに勝つために協力的および敵対的な活動に従事する2人のプレイヤーのグループを含む。 プレイヤーとチームは、対戦相手に対して有利になるために、様々な複雑な戦略を実行しています。 様々な種類の活動を定義し、識別し、分析することはスポーツ分析において重要な課題であり、選手やコーチングスタッフによるより良い戦略や決定につながる可能性がある。 本研究の目的は,ゲーム中の選手とボールの位置を示すデータから,バスケットボールグループ活動を自動的に認識することである。 チームスポーツにおけるグループ活動認識(GAR)のための新しい深層学習手法を提案する。 チームスポーツにおける選手関係を効率的にモデル化するために,トランスフォーマーをベースとしたアーキテクチャとLSTM埋め込み,チームワイドプール層を組み合わせてグループ活動を認識した。 このようなニューラルネットワークをトレーニングするには、一般的に大量の注釈付きデータが必要である。 手動ラベルの不足に対処するために,弱ラベルを生成し,自己教師付き軌道予測タスクでニューラルネットワークを事前学習する。 NBAの632試合の大規模追跡データを用いて,そのアプローチを評価した。 以上の結果から,NETS はグループ活動の学習を高い精度で行うことができ,自己指導と弱監督の訓練が GAR の精度に肯定的な影響を与えることが示された。

Like many team sports, basketball involves two groups of players who engage in collaborative and adversarial activities to win a game. Players and teams are executing various complex strategies to gain an advantage over their opponents. Defining, identifying, and analyzing different types of activities is an important task in sports analytics, as it can lead to better strategies and decisions by the players and coaching staff. The objective of this paper is to automatically recognize basketball group activities from tracking data representing locations of players and the ball during a game. We propose a novel deep learning approach for group activity recognition (GAR) in team sports called NETS. To efficiently model the player relations in team sports, we combined a Transformer-based architecture with LSTM embedding, and a team-wise pooling layer to recognize the group activity. Training such a neural network generally requires a large amount of annotated data, which incurs high labeling cost. To address scarcity of manual labels, we generate weak-labels and pretrain the neural network on a self-supervised trajectory prediction task. We used a large tracking data set from 632 NBA games to evaluate our approach. The results show that NETS is capable of learning group activities with high accuracy, and that self- and weak-supervised training in NETS have a positive impact on GAR accuracy.
翻訳日:2022-09-02 14:08:34 公開日:2022-08-31
# seq-ups:半教師付きテキスト認識のための逐次不確実性認識擬似ラベル選択

Seq-UPS: Sequential Uncertainty-aware Pseudo-label Selection for Semi-Supervised Text Recognition ( http://arxiv.org/abs/2209.00641v1 )

ライセンス: Link先を確認
Gaurav Patel, Jan Allebach and Qiang Qiu(参考訳) 本稿では,画像に基づくテキスト認識のための半教師付き学習(SSL)について述べる。 最も一般的なSSLアプローチの1つは擬似ラベル(PL)である。 PLアプローチはラベル付きデータと擬似ラベル付きデータの組み合わせでモデルを再トレーニングする前にラベルをラベル付きデータに割り当てる。 しかし、pl法はノイズにより著しく劣化し、低校正モデルから発生する誤った高信頼擬似ラベルを含むため、ノイズラベルに過剰適合しやすいため、しきい値に基づく選択が効果的ではない。 さらに、仮説空間の組合せ複雑性と複数の不正確な自己回帰ステップによる誤差の蓄積は、シーケンスモデルに挑戦する疑似ラベルを与える。 そこで本研究では,半教師付きテキスト認識のための疑似ラベル生成と不確実性に基づくデータ選択フレームワークを提案する。 まずビームサーチの推論を用いて、確率の高い仮説を導出し、擬似ラベルをラベルのない例に割り当てる。 次に、ドロップアウトによりサンプリングしたモデルのアンサンブルを適用し、文字レベルと単語レベルの予測分布の両方を考慮して、予測に係わる不確かさを堅牢に推定し、良質な擬似ラベルを選択する。 いくつかのベンチマーク手書きおよびシーンテキストデータセットにおける広範囲な実験により、本手法がベースラインアプローチや以前の最先端の半教師付きテキスト認識手法よりも優れていることが示された。

This paper looks at semi-supervised learning (SSL) for image-based text recognition. One of the most popular SSL approaches is pseudo-labeling (PL). PL approaches assign labels to unlabeled data before re-training the model with a combination of labeled and pseudo-labeled data. However, PL methods are severely degraded by noise and are prone to over-fitting to noisy labels, due to the inclusion of erroneous high confidence pseudo-labels generated from poorly calibrated models, thus, rendering threshold-based selection ineffective. Moreover, the combinatorial complexity of the hypothesis space and the error accumulation due to multiple incorrect autoregressive steps posit pseudo-labeling challenging for sequence models. To this end, we propose a pseudo-label generation and an uncertainty-based data selection framework for semi-supervised text recognition. We first use Beam-Search inference to yield highly probable hypotheses to assign pseudo-labels to the unlabelled examples. Then we adopt an ensemble of models, sampled by applying dropout, to obtain a robust estimate of the uncertainty associated with the prediction, considering both the character-level and word-level predictive distribution to select good quality pseudo-labels. Extensive experiments on several benchmark handwriting and scene-text datasets show that our method outperforms the baseline approaches and the previous state-of-the-art semi-supervised text-recognition methods.
翻訳日:2022-09-02 14:02:42 公開日:2022-08-31
# ハードネガティブサンプルを用いた教師付きコントラスト学習

Supervised Contrastive Learning with Hard Negative Samples ( http://arxiv.org/abs/2209.00078v1 )

ライセンス: Link先を確認
Ruijie Jiang, Thuan Nguyen, Prakash Ishwar, Shuchin Aeron(参考訳) 非教師付きコントラスト学習(UCL)は, 正のサンプルを互いに近づきながら, 負のサンプルを埋め込み空間から遠ざけることで, 有用な表現関数を学習することを目的とした自己教師付き学習技術である。 UCLの性能を向上させるために、UCLで使われるランダムサンプリング戦略とは対照的に、「ハード」な負のサンプルを選択することを目的としたハードネガティブな非教師付きコントラスト学習(H-UCL)を導入した。 別のアプローチでは、ラベル情報が利用可能であると仮定して、uclを完全な教師付き設定に拡張することで、教師付きコントラスト学習(scl)が最近開発されている。 本稿では,H-UCLにおけるハードネガティブサンプリング戦略の有効性とラベル情報のSCLにおける有用性から,ハードネガティブ教師付きコントラスト学習(H-SCL)と呼ばれるコントラスト学習フレームワークを提案する。 以上の結果から,複数の画像データセット上でのSCLおよびH-UCLに対するH-SCLの有効性が示された。 さらに, ある条件下では, H-SCL の目的関数は H-UCL の目的関数に拘束できるが, UCL の目的関数には拘束できないことを理論的に証明する。 したがって、UCL損失を最小限に抑えつつ、H-UCL損失を最小限に抑えるためにプロキシとして機能することができる。 H-SCLが他のコントラスト学習法よりも優れていることを数値的に示すように、我々の理論的結果(H-UCLの損失によるH-SCLの損失を束縛する)は、実際、H-UCLがUCLより優れている理由を説明するのに役立ちます。

Unsupervised contrastive learning (UCL) is a self-supervised learning technique that aims to learn a useful representation function by pulling positive samples close to each other while pushing negative samples far apart in the embedding space. To improve the performance of UCL, several works introduced hard-negative unsupervised contrastive learning (H-UCL) that aims to select the "hard" negative samples in contrast to a random sampling strategy used in UCL. In another approach, under the assumption that the label information is available, supervised contrastive learning (SCL) has developed recently by extending the UCL to a fully-supervised setting. In this paper, motivated by the effectiveness of hard-negative sampling strategies in H-UCL and the usefulness of label information in SCL, we propose a contrastive learning framework called hard-negative supervised contrastive learning (H-SCL). Our numerical results demonstrate the effectiveness of H-SCL over both SCL and H-UCL on several image datasets. In addition, we theoretically prove that, under certain conditions, the objective function of H-SCL can be bounded by the objective function of H-UCL but not by the objective function of UCL. Thus, minimizing the H-UCL loss can act as a proxy to minimize the H-SCL loss while minimizing UCL loss cannot. As we numerically showed that H-SCL outperforms other contrastive learning methods, our theoretical result (bounding H-SCL loss by H-UCL loss) helps to explain why H-UCL outperforms UCL in practice.
翻訳日:2022-09-02 14:01:49 公開日:2022-08-31
# 無限水平部分観測可能なマルコフ決定過程の部分対物同定

Partial Counterfactual Identification for Infinite Horizon Partially Observable Markov Decision Process ( http://arxiv.org/abs/2209.00137v1 )

ライセンス: Link先を確認
Aditya Kelvianto Sidharta(参考訳) 本稿では,観測データの集合が与えられた対実的なクエリから可能な出力をバウンダリングする問題について検討する。 様々な文献が反事実クエリに最適なバウンドを提供する効率的なアルゴリズムを生成する手法を記述しているが、それら全ては有限ホリゾン因果図を仮定している。 本稿では,Q-ラーニングアルゴリズムを改良し,無限水平因果図を前提とした因果クエリの有意なバウンダリを提供する。 シミュレーションにより,我々のアルゴリズムは既存のアルゴリズムと比較して性能が良いことが証明された。

This paper investigates the problem of bounding possible output from a counterfactual query given a set of observational data. While various works of literature have described methodologies to generate efficient algorithms that provide an optimal bound for the counterfactual query, all of them assume a finite-horizon causal diagram. This paper aims to extend the previous work by modifying Q-learning algorithm to provide informative bounds of a causal query given an infinite-horizon causal diagram. Through simulations, our algorithms are proven to perform better compared to existing algorithm.
翻訳日:2022-09-02 14:01:17 公開日:2022-08-31
# マルチモーダル軌道予測のためのクラスアウェアアテンション

Class-Aware Attention for Multimodal Trajectory Prediction ( http://arxiv.org/abs/2209.00062v1 )

ライセンス: Link先を確認
Bimsara Pathiraja, Shehan Munasinghe, Malshan Ranawella, Maleesha De Silva, Ranga Rodrigo, Peshala Jayasekara(参考訳) 周囲の動的エージェントの将来の軌道を予測することは、自動運転において不可欠な要件である。 これらの軌道は主に周囲の静的環境とそれらの動的エージェントの過去の動きに依存する。 さらに,エージェント意図のマルチモーダル性は軌道予測問題をより困難にする。 既存のモデルは全て、物理的性質の変化を考慮せずに、ターゲットエージェントと周辺エージェントを同様に考慮している。 本稿では,対象車種や対象車種などの周辺車両の物理的特性と,その物理寸法を重み付けアテンションモジュールを用いて考慮し,予測精度を向上させることを目的とした,自動運転におけるマルチモーダル軌道予測のための新しいディープラーニングフレームワークを提案する。 我々のモデルは, ラスタ化マップを用いた環境情報入力モデルのうち, nuScenesトラジェクトリ予測ベンチマークで最高の結果を得た。 さらに,本モデルはリアルタイムに動作可能であり,300FPSを超える高い推論速度を実現することができる。

Predicting the possible future trajectories of the surrounding dynamic agents is an essential requirement in autonomous driving. These trajectories mainly depend on the surrounding static environment, as well as the past movements of those dynamic agents. Furthermore, the multimodal nature of agent intentions makes the trajectory prediction problem more challenging. All of the existing models consider the target agent as well as the surrounding agents similarly, without considering the variation of physical properties. In this paper, we present a novel deep-learning based framework for multimodal trajectory prediction in autonomous driving, which considers the physical properties of the target and surrounding vehicles such as the object class and their physical dimensions through a weighted attention module, that improves the accuracy of the predictions. Our model has achieved the highest results in the nuScenes trajectory prediction benchmark, out of the models which use rasterized maps to input environment information. Furthermore, our model is able to run in real-time, achieving a high inference rate of over 300 FPS.
翻訳日:2022-09-02 13:50:56 公開日:2022-08-31
# ViA: モーションリターゲティングによるビュー不変スケルトン行動表現学習

ViA: View-invariant Skeleton Action Representation Learning via Motion Retargeting ( http://arxiv.org/abs/2209.00065v1 )

ライセンス: Link先を確認
Di Yang, Yaohui Wang, Antitza Dantcheva, Lorenzo Garattoni, Gianpiero Francesca, Francois Bremond(参考訳) 現在のスケルトン行動表現学習の自己教師ありアプローチは、ビデオやスケルトンデータを実験室で記録する制約付きシナリオに焦点を当てていることが多い。 実世界のビデオで推定された骨格データを扱う場合、対象物やカメラの視点にばらつきがあるため、このような手法はうまく機能しない。 本稿では,自己教師型骨格行動表現学習のためのビュー不変オートエンコーダであるViAを紹介する。 ViAは、2Dまたは3Dスケルトンシーケンスの視覚的表現の上に潜伏するアクション固有の ‘Motion’ 特徴を切り離すために、異なる人間のパフォーマー間の動きの再ターゲティングをプリテキストタスクとして活用する。 このような「動き」の特徴はスケルトン幾何学やカメラビューに不変であり、viaはクロスサブジェクションとクロスビューのアクション分類タスクの両方を容易にできる。 本研究は,実世界データを用いた自己教師付き事前学習によるスケルトンベース行動認識のためのトランスファーラーニングに着目した研究である。 以上の結果から,Viaから得られた骨格表現は,NTU-RGB+D 60やNTU-RGB+D 120といった3次元実験用データセットだけでなく,Toyota Smarthome,UAV-Human,Penn Actionといった2次元データのみを正確に推定する実世界のデータセット上でも,最先端の動作分類精度の向上に十分寄与することが示された。

Current self-supervised approaches for skeleton action representation learning often focus on constrained scenarios, where videos and skeleton data are recorded in laboratory settings. When dealing with estimated skeleton data in real-world videos, such methods perform poorly due to the large variations across subjects and camera viewpoints. To address this issue, we introduce ViA, a novel View-Invariant Autoencoder for self-supervised skeleton action representation learning. ViA leverages motion retargeting between different human performers as a pretext task, in order to disentangle the latent action-specific `Motion' features on top of the visual representation of a 2D or 3D skeleton sequence. Such `Motion' features are invariant to skeleton geometry and camera view and allow ViA to facilitate both, cross-subject and cross-view action classification tasks. We conduct a study focusing on transfer-learning for skeleton-based action recognition with self-supervised pre-training on real-world data (e.g., Posetics). Our results showcase that skeleton representations learned from ViA are generic enough to improve upon state-of-the-art action classification accuracy, not only on 3D laboratory datasets such as NTU-RGB+D 60 and NTU-RGB+D 120, but also on real-world datasets where only 2D data are accurately estimated, e.g., Toyota Smarthome, UAV-Human and Penn Action.
翻訳日:2022-09-02 13:50:40 公開日:2022-08-31
# 信号線距離関数(SRDF)を用いたマルチビュー再構成

Multi-View Reconstruction using Signed Ray Distance Functions (SRDF) ( http://arxiv.org/abs/2209.00082v1 )

ライセンス: Link先を確認
Pierre Zins, Yuanlu Xu, Edmond Boyer, Stefanie Wuhrer, Tony Tung(参考訳) 本稿では,マルチビュー3次元形状再構成の問題に対処する。 暗黙的な形状表現に関連する近年の微分可能レンダリングアプローチはブレークスルー性能を提供してきたが、計算量的に重く、推定ジオメトリの精度に欠けることが多い。 これらの限界を克服するため,我々は,近年の微分可能レンダリング手法のように体積性を持つ新しい形状表現を基盤とした新しい計算手法を検討する。 この表現に付随する形状エネルギーは、与えられた色画像の3次元形状を評価し、外観予測は不要であるが、最適化された場合の体積積分の恩恵を受けない。 実際には、カメラ線に沿った深さでパラメータ化される符号付き距離に基づく暗黙的な形状表現であるsrdfを提案する。 関連する形状エネルギーは、深度予測整合性と測光整合の一致を考慮し、これは体積表現内の3次元位置にある。 中央値ベースラインや、学習関数と同様のより精巧な基準など、さまざまなフォト一貫性の先行を説明できる。 この手法は深度マップと画素精度を保ち、並列化可能である。 標準データセットに関する実験では、従来のマルチビューステレオ法と同様に、暗黙的な形状表現を用いた最近のアプローチに関して最先端の結果が得られている。

In this paper, we address the problem of multi-view 3D shape reconstruction. While recent differentiable rendering approaches associated to implicit shape representations have provided breakthrough performance, they are still computationally heavy and often lack precision on the estimated geometries. To overcome these limitations we investigate a new computational approach that builds on a novel shape representation that is volumetric, as in recent differentiable rendering approaches, but parameterized with depth maps to better materialize the shape surface. The shape energy associated to this representation evaluates 3D geometry given color images and does not need appearance prediction but still benefits from volumetric integration when optimized. In practice we propose an implicit shape representation, the SRDF, based on signed distances which we parameterize by depths along camera rays. The associated shape energy considers the agreement between depth prediction consistency and photometric consistency, this at 3D locations within the volumetric representation. Various photo-consistency priors can be accounted for such as a median based baseline, or a more elaborated criterion as with a learned function. The approach retains pixel-accuracy with depth maps and is parallelizable. Our experiments over standard datasets shows that it provides state-of-the-art results with respect to recent approaches with implicit shape representations as well as with respect to traditional multi-view stereo methods.
翻訳日:2022-09-02 13:50:09 公開日:2022-08-31
# 半教師付き画像分割におけるクラス不均衡への対処 : 心臓MRIによる検討

Addressing Class Imbalance in Semi-supervised Image Segmentation: A Study on Cardiac MRI ( http://arxiv.org/abs/2209.00123v1 )

ライセンス: Link先を確認
Hritam Basak, Sagnik Ghosal, Ram Sarkar(参考訳) 不均衡で限られたデータのため、半教師付き医用画像分割法は特定の専門クラスにおいて優れた性能を得られないことが多い。 特定のクラスに対する不十分なトレーニングは、生成された擬似ラベルにより多くのノイズをもたらし、全体的な学習に影響を与える可能性がある。 この欠点を緩和し、性能の低いクラスを特定するために、トレーニング中にクラスワイドのパフォーマンスを記録する信頼度アレーの維持を提案する。 これらの信頼度スコアのファジィ融合は、従来のアンサンブルアプローチではなく、各サンプルにおける個々の信頼度メトリクスを適応的に優先順位付けするために提案されている。 さらに,より優れたトレーニング戦略のためのロバストなクラスワイズサンプリング法と動的安定化法を提案する。 提案手法では,動的重み付けを伴うクラスをすべて考慮し,学習中のノイズのほとんどを除去しようとする。 2つの心mriデータセット acdc と mmwhs の評価を行った結果,本手法は有効性と汎用性を示し,本論文の最先端法を上回っている。

Due to the imbalanced and limited data, semi-supervised medical image segmentation methods often fail to produce superior performance for some specific tailed classes. Inadequate training for those particular classes could introduce more noise to the generated pseudo labels, affecting overall learning. To alleviate this shortcoming and identify the under-performing classes, we propose maintaining a confidence array that records class-wise performance during training. A fuzzy fusion of these confidence scores is proposed to adaptively prioritize individual confidence metrics in every sample rather than traditional ensemble approaches, where a set of predefined fixed weights are assigned for all the test cases. Further, we introduce a robust class-wise sampling method and dynamic stabilization for a better training strategy. Our proposed method considers all the under-performing classes with dynamic weighting and tries to remove most of the noises during training. Upon evaluation on two cardiac MRI datasets, ACDC and MMWHS, our proposed method shows effectiveness and generalizability and outperforms several state-of-the-art methods found in the literature.
翻訳日:2022-09-02 13:49:49 公開日:2022-08-31
# Archangel: 位置とメッセージメタデータを備えたハイブリッドUAVベースのヒューマン検出ベンチマーク

Archangel: A Hybrid UAV-based Human Detection Benchmark with Position and Pose Metadata ( http://arxiv.org/abs/2209.00128v1 )

ライセンス: Link先を確認
Yi-Ting Shen, Yaesop Lee, Heesung Kwon, Damon M. Conover, Shuvra S. Bhattacharyya, Nikolas Vale, Joshua D. Gray, G. Jeremy Leong, Kenneth Evensen, Frank Skirlo(参考訳) 無人航空機(UAV)が捉えた画像の中で、人間のような物体を検出することを学ぶことは、通常、UAVの物体に対する位置によって引き起こされる大きな変動に悩まされる。 加えて、既存のUAVベースのベンチマークデータセットは適切なデータセットメタデータを提供していない。 本稿では,類似した想像条件とuav位置およびオブジェクトポーズメタデータでキャプチャされた,実および合成のサブセットからなる,最初のuavベースのオブジェクト検出データセットであるarchangelを紹介する。 モデル評価中にメタデータを活用するメリットを示すために、最先端のオブジェクト検出器を用いて、一連の実験を慎重に設計する。 さらに,モデルの微調整における実データと合成データの両方に関する重要な知見を提示する。 最後に、archangelのメリット、限界、今後の方向性について議論し、より広範な機械学習コミュニティにその明確な価値を強調する。

Learning to detect objects, such as humans, in imagery captured by an unmanned aerial vehicle (UAV) usually suffers from tremendous variations caused by the UAV's position towards the objects. In addition, existing UAV-based benchmark datasets do not provide adequate dataset metadata, which is essential for precise model diagnosis and learning features invariant to those variations. In this paper, we introduce Archangel, the first UAV-based object detection dataset composed of real and synthetic subsets captured with similar imagining conditions and UAV position and object pose metadata. A series of experiments are carefully designed with a state-of-the-art object detector to demonstrate the benefits of leveraging the metadata during model evaluation. Moreover, several crucial insights involving both real and synthetic data during model fine-tuning are presented. In the end, we discuss the advantages, limitations, and future directions regarding Archangel to highlight its distinct value for the broader machine learning community.
翻訳日:2022-09-02 13:49:28 公開日:2022-08-31
# 自然言語処理の効率的な手法に関する研究

Efficient Methods for Natural Language Processing: A Survey ( http://arxiv.org/abs/2209.00099v1 )

ライセンス: Link先を確認
Marcos Treviso, Tianchu Ji, Ji-Ung Lee, Betty van Aken, Qingqing Cao, Manuel R. Ciosici, Michael Hassid, Kenneth Heafield, Sara Hooker, Pedro H. Martins, Andr\'e F. T. Martins, Peter Milder, Colin Raffel, Edwin Simpson, Noam Slonim, Niranjan Balasubramanian, Leon Derczynski, Roy Schwartz(参考訳) 限られた資源を最大限に活用することで、自然言語処理(NLP)の研究と実践の進歩が可能になる。 これらのリソースはデータ、時間、ストレージ、エネルギーである。 NLPにおける最近の研究は、スケーリングによって興味深い結果をもたらしたが、結果を改善するためにスケールのみを使用することは、リソース消費もスケールすることを意味する。 この関係は、同様の結果を得るのに少ないリソースを必要とする効率的な方法の研究を動機付ける。 本調査は,NLPにおけるこれらの効率性に関する手法と知見を包括し,新たな研究者を指導し,新たな手法の開発を促すことを目的としている。

Getting the most out of limited resources allows advances in natural language processing (NLP) research and practice while being conservative with resources. Those resources may be data, time, storage, or energy. Recent work in NLP has yielded interesting results from scaling; however, using only scale to improve results means that resource consumption also scales. That relationship motivates research into efficient methods that require less resources to achieve similar results. This survey relates and synthesises methods and findings in those efficiencies in NLP, aiming to guide new researchers in the field and inspire the development of new methods.
翻訳日:2022-09-02 13:44:52 公開日:2022-08-31
# 不均衡分類のためのサンプリングとフィルタリングのトレードオフ

Tradeoffs in Resampling and Filtering for Imbalanced Classification ( http://arxiv.org/abs/2209.00127v1 )

ライセンス: Link先を確認
Ryan Muther, David Smith(参考訳) 不均衡な分類問題は自然言語処理において非常に一般的であり、様々な再サンプリングとフィルタリング技術を用いて解決される。 トークン分類タスクにおけるサンプルおよびフィルタの訓練とテストデータの選択に関わるモデル性能のトレードオフを調べ,これらのトレードオフの大きさと関心現象のベースレートとの関係について検討した。 英語とアラビア語のテキストでまれな現象を検出するためのシーケンスタグ付けの実験では、トレーニングデータを選択する異なる方法が、効果と効率のトレードオフをもたらすことが判明した。 また,高度にバランスの取れないケースでは,第1パス検索モデルを用いたテストデータのフィルタリングが,トレーニングデータの選択と同じくらいモデル性能に重要であることも確認した。 稀なポジティブクラスのベースレートは、トレーニングやテストデータの選択によって生じるパフォーマンスの変化の大きさに明らかな影響を及ぼす。 ベースレートが上昇すると、それらの選択によってもたらされる差は減少する。

Imbalanced classification problems are extremely common in natural language processing and are solved using a variety of resampling and filtering techniques, which often involve making decisions on how to select training data or decide which test examples should be labeled by the model. We examine the tradeoffs in model performance involved in choices of training sample and filter training and test data in heavily imbalanced token classification task and examine the relationship between the magnitude of these tradeoffs and the base rate of the phenomenon of interest. In experiments on sequence tagging to detect rare phenomena in English and Arabic texts, we find that different methods of selecting training data bring tradeoffs in effectiveness and efficiency. We also see that in highly imbalanced cases, filtering test data using first-pass retrieval models is as important for model performance as selecting training data. The base rate of a rare positive class has a clear effect on the magnitude of the changes in performance caused by the selection of training or test data. As the base rate increases, the differences brought about by those choices decreases.
翻訳日:2022-09-02 13:44:42 公開日:2022-08-31
# 著者のフェローシップ:ソーシャルネットワークの文脈から名前の曖昧化

The Fellowship of the Authors: Disambiguating Names from Social Network Context ( http://arxiv.org/abs/2209.00133v1 )

ライセンス: Link先を確認
Ryan Muther, David Smith(参考訳) エンティティリンクやコア参照解決に対するほとんどのNLPアプローチは、スパースや高密度テキスト表現を使って類似の言及を検索することに焦点を当てている。 例えば、一般的な「ウィキフィケーション」タスクは、各エンティティを参照するwikipediaの候補記事を取得する。 文献引用などの多くのドメインでは、各エンティティに関する広範なテキスト記述を持つ権威リストが欠落しており、他の名前付きエンティティの文脈ではほとんど曖昧な名前付きエンティティが生じる。 そこで本稿では, 先行研究と異なり, 文献的証拠から得られた個人同士の関連ネットワークから得られる情報を活用して, 名前の曖昧化を図る。 BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせるとともに,教師付きおよび教師なしクラスタ推論手法の実験を行う。 我々は、CrossRefの文献引用と古典アラビア語の歴史からの伝達の連鎖という2つのドメインの名前のリストからなるデータを用いて実験を行った。 ドメイン内言語モデルの事前学習は,特により大きなコーパスにおいて,参照表現を大幅に改善し,出版場所やタイトルなどの書誌情報の提供により,この課題に対するパフォーマンスの向上が期待できる。 また,計算能力の少ないクラスタ推論モデルを提案することで,個人を徹底的な権限リストに頼らずに識別できなければならない状況に最適であることを示す。

Most NLP approaches to entity linking and coreference resolution focus on retrieving similar mentions using sparse or dense text representations. The common "Wikification" task, for instance, retrieves candidate Wikipedia articles for each entity mention. For many domains, such as bibliographic citations, authority lists with extensive textual descriptions for each entity are lacking and ambiguous named entities mostly occur in the context of other named entities. Unlike prior work, therefore, we seek to leverage the information that can be gained from looking at association networks of individuals derived from textual evidence in order to disambiguate names. We combine BERT-based mention representations with a variety of graph induction strategies and experiment with supervised and unsupervised cluster inference methods. We experiment with data consisting of lists of names from two domains: bibliographic citations from CrossRef and chains of transmission (isnads) from classical Arabic histories. We find that in-domain language model pretraining can significantly improve mention representations, especially for larger corpora, and that the availability of bibliographic information, such as publication venue or title, can also increase performance on this task. We also present a novel supervised cluster inference model which gives competitive performance for little computational effort, making it ideal for situations where individuals must be identified without relying on an exhaustive authority list.
翻訳日:2022-09-02 13:44:26 公開日:2022-08-31
# 意味変化検出のための文脈化言語モデル:教訓

Contextualized language models for semantic change detection: lessons learned ( http://arxiv.org/abs/2209.00154v1 )

ライセンス: Link先を確認
Andrey Kutuzov, Erik Velldal, Lilja {\O}vrelid(参考訳) 本稿では,文脈化埋め込み型手法の(潜在的に誤った)出力を定性的に分析し,ダイアクロニックな意味変化を検出する。 まず,前述した文脈化アプローチに匹敵するアンサンブル手法を提案する。 この手法は,50年間の英単語で予測される意味変化の程度を詳細に分析する基盤として用いられる。 以上の結果から, 文脈化手法は, 語句の語彙的意味的意味的変化を起こさない単語に対して, 高い変化スコアをしばしば予測できることがわかった(少なくともこれらの変化の状況は疑わしい)。 このような困難な事例を実例で詳細に議論し,その言語分類について提案する。 結論として,事前学習された文脈化言語モデルでは,語彙感覚の変化や文脈分散の変化が自然に分布的性質から生じやすいが,静的埋め込みに基づく手法で観察される問題の種類とは異なる傾向がみられた。 さらに、それらはしばしば語彙エンティティの構文的側面と意味的側面を結合する。 これらの問題に対する様々な将来の解決策を提案する。

We present a qualitative analysis of the (potentially erroneous) outputs of contextualized embedding-based methods for detecting diachronic semantic change. First, we introduce an ensemble method outperforming previously described contextualized approaches. This method is used as a basis for an in-depth analysis of the degrees of semantic change predicted for English words across 5 decades. Our findings show that contextualized methods can often predict high change scores for words which are not undergoing any real diachronic semantic shift in the lexicographic sense of the term (or at least the status of these shifts is questionable). Such challenging cases are discussed in detail with examples, and their linguistic categorization is proposed. Our conclusion is that pre-trained contextualized language models are prone to confound changes in lexicographic senses and changes in contextual variance, which naturally stem from their distributional nature, but is different from the types of issues observed in methods based on static embeddings. Additionally, they often merge together syntactic and semantic aspects of lexical entities. We propose a range of possible future solutions to these issues.
翻訳日:2022-09-02 13:44:03 公開日:2022-08-31
# 無限小jackknifeとモデルの組合せ

The Infinitesimal Jackknife and Combinations of Models ( http://arxiv.org/abs/2209.00147v1 )

ライセンス: Link先を確認
Indrayudh Ghosal, Yunzhe Zhou and Giles Hooker(参考訳) 無限小jackknifeはパラメトリックモデルの分散を推定するための一般的な方法であり、最近ではいくつかのアンサンブル法でも用いられる。 本稿では、無限小のjackknifeを拡張し、任意の2つのモデル間の共分散を推定する。 これはモデルの組み合わせに対する不確実性を定量化したり、同じトレーニングデータセットを使用して異なるモデルやアンサンブルを比較するためのテスト統計を構築するために使うことができる。 本稿では、ランダム森林やM推定器のようなモデルの強化された組み合わせを用いる。 また、ニューラルネットワークとXGBoostモデルのアンサンブルへの応用についても検討する。 広範シミュレーションによる分散推定の有効性と北京住宅データへの適用について述べ、無限小ジャックナイフ共分散推定の理論的一貫性を実証する。

The Infinitesimal Jackknife is a general method for estimating variances of parametric models, and more recently also for some ensemble methods. In this paper we extend the Infinitesimal Jackknife to estimate the covariance between any two models. This can be used to quantify uncertainty for combinations of models, or to construct test statistics for comparing different models or ensembles of models fitted using the same training dataset. Specific examples in this paper use boosted combinations of models like random forests and M-estimators. We also investigate its application on neural networks and ensembles of XGBoost models. We illustrate the efficacy of variance estimates through extensive simulations and its application to the Beijing Housing data, and demonstrate the theoretical consistency of the Infinitesimal Jackknife covariance estimate.
翻訳日:2022-09-02 13:37:51 公開日:2022-08-31
# 因果推論モデルの比較のための評価フレームワーク

An evaluation framework for comparing causal inference models ( http://arxiv.org/abs/2209.00115v1 )

ライセンス: Link先を確認
Niki Kiriakidou, Christos Diou(参考訳) 因果効果の推定は多くの科学分野の中核的な目的である。 しかし、特に観測データから効果が推定される場合、これは難しい課題である。 近年,因果効果推定のための機械学習モデルがいくつか提案されている。 これらのモデルの評価は、平均処理効果(ATE)の誤差の平均値と、不均質効果(PEHE)の推定精度に基づいている。 本稿では,dolan と mor{\e} のパフォーマンスプロファイルや非パラメトリックおよびポストホックな統計テストなど,具体的な統計的証拠を用いた因果推論モデルの評価を補完する。 このアプローチの背後にある主な動機は、少数のインスタンスやシミュレーションがベンチマークプロセスに与える影響を取り除くことである。 提案手法を用いた因果効果推定モデルの比較を行った。

Estimation of causal effects is the core objective of many scientific disciplines. However, it remains a challenging task, especially when the effects are estimated from observational data. Recently, several promising machine learning models have been proposed for causal effect estimation. The evaluation of these models has been based on the mean values of the error of the Average Treatment Effect (ATE) as well as of the Precision in Estimation of Heterogeneous Effect (PEHE). In this paper, we propose to complement the evaluation of causal inference models using concrete statistical evidence, including the performance profiles of Dolan and Mor{\'e}, as well as non-parametric and post-hoc statistical tests. The main motivation behind this approach is the elimination of the influence of a small number of instances or simulation on the benchmarking process, which in some cases dominate the results. We use the proposed evaluation methodology to compare several state-of-the-art causal effect estimation models.
翻訳日:2022-09-02 13:33:42 公開日:2022-08-31
# タスク固有の概念知識をスクリプト学習に組み込む

Incorporating Task-specific Concept Knowledge into Script Learning ( http://arxiv.org/abs/2209.00068v1 )

ライセンス: Link先を確認
Chenkai Sun, Tie Xu, ChengXiang Zhai, Heng ji(参考訳) 本稿では,Goal-Oriented Script Completionの新しいタスクであるTetrisを紹介する。 以前の作業とは異なり、よりリアルで一般的な設定であり、入力には目標だけでなく、好みや履歴を含む追加のユーザコンテキストが含まれる。 知識に基づくアプローチを用いてこの問題に対処するために,指導Webサイトから自動的に構築された知識ベースであるタスク概念グラフを導入する。 ConceptNetのようなCommonsense Knowledge Baseとは異なり、タスク概念グラフスキーマはタスクを達成するために、様々な種類の名詞句ベースのノードを導入します。 そこで我々は,このようなグラフをスクリプト学習に統合するために,知識ベースから概念を取得する2つの手法を考案した。 WikiHowベースのデータセットでは、タスク概念グラフから概念を取り入れることで、タスク概念グラフの利点を実証し、一貫してパフォーマンスが向上することがわかった。 さらに、金の標準概念をプロンプトとして持つモデルはベースラインを大きく上回り、目標指向のスクリプト補完におけるタスク固有の知識の必要性をさらに確認する。 データセット、リポジトリ、モデル、デモは、この新しいタスクに関するさらなる研究を促進するために公開される予定だ。

In this paper, we present Tetris, a new task of Goal-Oriented Script Completion. Unlike previous work, it considers a more realistic and more general setting, where the input includes not only the goal but also additional user context, including preferences and history. To address the problem using a knowledge-based approach, we introduce Task Concept Graph, an automatically constructed knowledge base from instructional websites. Different from Commonsense Knowledge Base like ConceptNet, the task concept graph schema introduces various types of noun phrases-based nodes specifically for accomplishing a task. To integrate such graphs into script learning, we devise two methods that acquire concepts from the knowledge base as prompts to downstream script completion. On our WikiHow-based dataset, we find that incorporating concepts from the Task Concept Graph consistently improves performance, demonstrating the benefit of Task Concept Graph for this task. Furthermore, the model with gold-standard concepts as prompt outperforms the baseline significantly, further confirming the need for task-specific knowledge in goal-oriented script completion. The dataset, repository, models, and demo will be publicly available to facilitate further research on this new task.
翻訳日:2022-09-02 13:28:37 公開日:2022-08-31
# 例を見てみましょう:明示的模倣による実証学習の促進

Let Me Check the Examples: Enhancing Demonstration Learning via Explicit Imitation ( http://arxiv.org/abs/2209.00455v1 )

ライセンス: Link先を確認
Sirui Wang, Kaiwen Wei, Hongzhi Zhang, Yuntao Li and Wei Wu(参考訳) デモ学習は、いくつかのショット設定で回答されたデモを提供することで、迅速な予測を導くことを目的としている。 有望な結果を達成するにも拘わらず、既存の作業は、応答された例を(生のコンテキストを含む)プロンプトテンプレートのデモとしてのみ結合し、プロンプト-デモの依存関係を無視する。 さらに、以前の研究では、デモのラベルをランダムに置き換えることでパフォーマンスが損なわれ、モデルがデモによってもたらされる知識を適切に学べないことが示されている。 本稿では,人間学習プロセスに着想を得て,人間レビュー行動の明示的模倣による実証学習の強化を目的とした模倣デモンストレーション学習(imitation-demo)を提案する。 2) 既知の知識を統合するための実証ラベル再予測手法 実験の結果,提案手法は14の分類コーパスのうち11の最先端性能を達成できた。 さらなる研究により、Imitation-Demoはプロンプトとデモの関連を強化し、デモ学習の仕組みを探求する基盤を提供する可能性があることが証明された。

Demonstration learning aims to guide the prompt prediction via providing answered demonstrations in the few shot settings. Despite achieving promising results, existing work only concatenates the answered examples as demonstrations to the prompt template (including the raw context) without any additional operation, neglecting the prompt-demonstration dependencies. Besides, prior research found that randomly replacing the labels of demonstrations marginally hurts performance, illustrating that the model could not properly learn the knowledge brought by the demonstrations. Inspired by the human learning process, in this paper, we introduce Imitation DEMOnstration Learning (Imitation-Demo) to strengthen demonstration learning via explicitly imitating human review behaviour, which includes: (1) contrastive learning mechanism to concentrate on the similar demonstrations. (2) demonstration-label re-prediction method to consolidate known knowledge. Experiment results show that our proposed method achieves state-of-the-art performance on 11 out of 14 classification corpora. Further studies also prove that Imitation-Demo strengthen the association between prompt and demonstrations, which could provide the basis for exploring how demonstration learning works.
翻訳日:2022-09-02 13:25:55 公開日:2022-08-31
# ハイブリッドAIによるインテリジェントトラフィックモニタリング

Intelligent Traffic Monitoring with Hybrid AI ( http://arxiv.org/abs/2209.00448v1 )

ライセンス: Link先を確認
Ehsan Qasemi, Alessandro Oltramari(参考訳) インテリジェントトラフィックモニタリング(ITMo)の課題は、大量のデータとモダリティと、最先端(SOTA)推論の利用の必要性によって悪化している。 我々はITMoの問題を定式化し、マルチモーダルコンテキスト理解のためのニューロシンボリックアーキテクチャであるHANSを導入し、ITMoに適用する。 HANSは知識グラフ技術を利用して、トラフィック領域におけるSOTA推論のバックボーンとして機能する。 ケーススタディを通じて,hansは広範囲の推論手法と統合できながら,交通監視に伴う課題にどのように対処しているかを示す。

Challenges in Intelligent Traffic Monitoring (ITMo) are exacerbated by the large quantity and modalities of data and the need for the utilization of state-of-the-art (SOTA) reasoners. We formulate the problem of ITMo and introduce HANS, a neuro-symbolic architecture for multi-modal context understanding, and its application to ITMo. HANS utilizes knowledge graph technology to serve as a backbone for SOTA reasoning in the traffic domain. Through case studies, we show how HANS addresses the challenges associated with traffic monitoring while being able to integrate with a wide range of reasoning methods
翻訳日:2022-09-02 13:20:59 公開日:2022-08-31
# RecLight: 集積シリコンフォトニクスを備えたリカレントニューラルネットワーク加速器

RecLight: A Recurrent Neural Network Accelerator with Integrated Silicon Photonics ( http://arxiv.org/abs/2209.00084v1 )

ライセンス: Link先を確認
Febin Sunny, Mahdi Nikdast, Sudeep Pasricha(参考訳) リカレントニューラルネットワーク(recurrent neural network、rnn)は、音声認識、人間のアクティビティ認識、異常検出など、データシーケンスの依存関係を学ぶアプリケーションで使用される。 近年では、GRUやLSTMといった新しいRNNがこれらのアプリケーションの実装に使われている。 これらのアプリケーションの多くはリアルタイムシナリオで使用されるため、RNN/LSTM/GRU推論の高速化が不可欠である。 本稿では、シンプルなRNN、GRU、LSTMを高速化する、RecLightと呼ばれる新しいフォトニックハードウェアアクセラレータを提案する。 シミュレーションの結果、RecLightは最先端と比較して37倍のエネルギー/ビット、10%のスループットを実現している。

Recurrent Neural Networks (RNNs) are used in applications that learn dependencies in data sequences, such as speech recognition, human activity recognition, and anomaly detection. In recent years, newer RNN variants, such as GRUs and LSTMs, have been used for implementing these applications. As many of these applications are employed in real-time scenarios, accelerating RNN/LSTM/GRU inference is crucial. In this paper, we propose a novel photonic hardware accelerator called RecLight for accelerating simple RNNs, GRUs, and LSTMs. Simulation results indicate that RecLight achieves 37x lower energy-per-bit and 10% better throughput compared to the state-of-the-art.
翻訳日:2022-09-02 13:20:27 公開日:2022-08-31
# feynman氏が人工知能と機械学習について語る

Feynman on Artificial Intelligence and Machine Learning, with Updates ( http://arxiv.org/abs/2209.00083v1 )

ライセンス: Link先を確認
Eric Mjolsness(参考訳) 私は、リチャード・ファインマンの1980年代半ばの人工知能とニューラルネットワークに対する関心を、当時のニューラルネットワークに対する物理学関連のアプローチの技術的な文脈から回想する。 私はそれ以来の分野における実質的な進歩から彼の考えを評価しようと試み、その逆もそうである。 ファインマンの関心の側面は、主に達成されたものや、特に計算科学においてエキサイティングにオープンなままであり、象徴的手法の復活を含む可能性がある。

I present my recollections of Richard Feynman's mid-1980s interest in artificial intelligence and neural networks, set in the technical context of the physics-related approaches to neural networks of that time. I attempt to evaluate his ideas in the light of the substantial advances in the field since then, and vice versa. There are aspects of Feynman's interests that I think have been largely achieved and others that remain excitingly open, notably in computational science, and potentially including the revival of symbolic methods therein.
翻訳日:2022-09-02 13:16:18 公開日:2022-08-31
# 全身mri画像再構成のための体初型深層神経回路

Physically-primed deep-neural-networks for generalized undersampled MRI reconstruction ( http://arxiv.org/abs/2209.00462v1 )

ライセンス: Link先を確認
Nitzan Avidan and Moti Freiman(参考訳) 深部神経ネットワーク(DNN)に基づく手法が近年提案され、アンダーサンプリングされた"k-space"(フーリエ領域)データからMRI再構成の逆問題に対処している。 しかし, 獲得過程や解剖学的分布の変動に対する不安定性は, DNNアーキテクチャによる関連物理モデルの一般化が, 古典的手法と比較して低いことを示している。 この一般化は, 臨床現場でのMRIのアンダーサンプル化に対するDNNの適用性を効果的に抑制する。 物理的に優先度の高いDNNアーキテクチャとトレーニングアプローチを導入することにより,MRI再構成のアンサンプ化のためのDNN法の一般化能力を向上させる。 本アーキテクチャでは,アンダーサンプリングマスクをモデルアーキテクチャの観測データに加えて符号化し,さまざまなアンダーサンプリングマスクで生成されたデータを用いて,アンダーサンプリングしたMRI再構成問題を一般化する適切なトレーニング手法を用いる。 我々は,Fast-MRIデータセットを用いた広範囲な実験を通じて,提案手法の付加価値を実証した。 特に病理領域において,バニラDNN法とDNN法をアンダーサンプリングマスク増強法で訓練した場合と比較して,獲得過程および解剖学的分布の変動に対するロバスト性は有意に向上した。 実験を再現するトレーニングされたモデルとコードは、受け入れられる前に研究目的で利用可能になります。

A plethora of deep-neural-networks (DNN) based methods were proposed over the past few years to address the challenging ill-posed inverse problem of MRI reconstruction from undersampled "k-space" (Fourier domain) data. However, instability against variations in the acquisition process and the anatomical distribution, indicates a poor generalization of the relevant physical models by the DNN architectures compared to their classical counterparts. The poor generalization effectively precludes DNN applicability for undersampled MRI reconstruction in the clinical setting. We improve the generalization capacity of DNN methods for undersampled MRI reconstruction by introducing a physically-primed DNN architecture and training approach. Our architecture encodes the undersampling mask in addition to the observed data in the model architecture and employs an appropriate training approach that uses data generated with various undersampling masks to encourage the model to generalize the undersampled MRI reconstruction problem. We demonstrated the added-value of our approach through extensive experimentation with the publicly available Fast-MRI dataset. Our physically-primed approach achieved an enhanced generalization capacity which resulted in significantly improved robustness against variations in the acquisition process and in the anatomical distribution, especially in pathological regions, compared to both vanilla DNN methods and DNN trained with undersampling mask augmentation. Trained models and code to replicate our experiments will become available for research purposes upon acceptance.
翻訳日:2022-09-02 13:13:26 公開日:2022-08-31
# FDB: 不正データセットベンチマーク

FDB: Fraud Dataset Benchmark ( http://arxiv.org/abs/2208.14417v2 )

ライセンス: Link先を確認
Prince Grover, Zheng Li, Jianbo Liu, Jakub Zablocki, Hao Zhou, Julia Xu and Anqi Cheng(参考訳) 標準化されたデータセットとベンチマークは、コンピュータビジョン、自然言語処理、マルチモーダルおよび表の設定の革新を刺激している。 他のよく研究されているフィールドと比較して、不正検出には多くの違いがある。 違いは、高いレベルの不均衡、多様な特徴タイプ、頻繁な不正パターンの変更、問題の敵対的性質などである。 これらの違いにより、他の分類タスク用に設計されたモデリングアプローチは、不正検出にはうまくいかない可能性がある。 FDB(Fraud Dataset Benchmark)は,不正検出を目的とした公開データセットのコンパイルである。 fdbは詐欺行為に関連する様々なタスクを含み、詐欺的なカード不正取引の特定、ボット攻撃の検出、悪意のあるurlの分類、コンテンツモデレーションへのローンのリスクの予測などを含む。 fdbのpythonベースのライブラリは、標準化されたトレーニングとテスト分割によるデータローディングのための一貫したapiを提供する。 参考までに、FDB上の異なるモデリングアプローチのベースライン評価も提供する。 さまざまな研究やビジネス上の問題に対するAutomated Machine Learning(AutoML)の人気が高まっていることを踏まえ、ベースライン評価にAutoMLフレームワークを使用しました。 不正防止のためには、限られたリソースとMLの専門知識が欠如している組織は、しばしば調査員のチームを雇い、ブロックリストと手動のルールを使う。 このような組織は、本番環境にデプロイしやすく、不正防止の要件を満たすAutoMLソリューションの恩恵を受けることができる。 我々は、fdbが、異なる詐欺モードであるoperandi(mos)に対応したカスタマイズされた不正検出技術の開発と、ベンチマークのすべてのデータセットでうまく機能するautomlシステムの改善に役立つことを望んでいる。

Standardized datasets and benchmarks have spurred innovations in computer vision, natural language processing, multi-modal and tabular settings. We note that, as compared to other well researched fields fraud detection has numerous differences. The differences include a high class imbalance, diverse feature types, frequently changing fraud patterns, and adversarial nature of the problem. Due to these differences, the modeling approaches that are designed for other classification tasks may not work well for the fraud detection. We introduce Fraud Dataset Benchmark (FDB), a compilation of publicly available datasets catered to fraud detection. FDB comprises variety of fraud related tasks, ranging from identifying fraudulent card-not-present transactions, detecting bot attacks, classifying malicious URLs, predicting risk of loan to content moderation. The Python based library from FDB provides consistent API for data loading with standardized training and testing splits. For reference, we also provide baseline evaluations of different modeling approaches on FDB. Considering the increasing popularity of Automated Machine Learning (AutoML) for various research and business problems, we used AutoML frameworks for our baseline evaluations. For fraud prevention, the organizations that operate with limited resources and lack ML expertise often hire a team of investigators, use blocklists and manual rules, all of which are inefficient and do not scale well. Such organizations can benefit from AutoML solutions that are easy to deploy in production and pass the bar of fraud prevention requirements. We hope that FDB helps in the development of customized fraud detection techniques catered to different fraud modus operandi (MOs) as well as in the improvement of AutoML systems that can work well for all datasets in the benchmark.
翻訳日:2022-09-02 11:38:14 公開日:2022-08-31
# 部分未知モデルを用いたサンプルシステムの安定化強化学習手法

A stabilizing reinforcement learning approach for sampled systems with partially unknown models ( http://arxiv.org/abs/2208.14714v1 )

ライセンス: Link先を確認
Lukas Beckenbach, Pavel Osinenko, Stefan Streif(参考訳) 強化学習は一般的に報酬を最大化する(またはコストを最小化する)エージェントの訓練と結びついている。 モデルフリーまたはモデルベースで、事前またはオンライン収集されたシステムデータを使用して、関連するパラメトリックアーキテクチャをトレーニングすることができる。 一般に、オンライン強化学習は、例えば学習制約や調整されたトレーニングルールを通じて特別な措置が講じられない限り、閉ループ安定性を保証しない。 特に有望なのは、強化学習と古典的な制御アプローチのハイブリッドである。 本研究では,オフライントレーニングを行わずに,純粋にオンライン学習環境におけるシステムコントローラクローズドループの実用的安定性を保証する手法を提案する。 さらに,システムモデルの部分的知識のみを仮定する。 この結果を達成するために,古典的適応制御の手法を用いる。 全体制御方式の実装は、デジタルサンプル設定で明示的に提供される。 すなわち、コントローラはシステムの状態を受信し、制御アクションを離散的、具体的には同値なモーメントで計算する。 この方法は適応トラクション制御とクルーズ制御でテストされ、コストを大幅に削減することができた。

Reinforcement learning is commonly associated with training of reward-maximizing (or cost-minimizing) agents, in other words, controllers. It can be applied in model-free or model-based fashion, using a priori or online collected system data to train involved parametric architectures. In general, online reinforcement learning does not guarantee closed loop stability unless special measures are taken, for instance, through learning constraints or tailored training rules. Particularly promising are hybrids of reinforcement learning with "classical" control approaches. In this work, we suggest a method to guarantee practical stability of the system-controller closed loop in a purely online learning setting, i.e., without offline training. Moreover, we assume only partial knowledge of the system model. To achieve the claimed results, we employ techniques of classical adaptive control. The implementation of the overall control scheme is provided explicitly in a digital, sampled setting. That is, the controller receives the state of the system and computes the control action at discrete, specifically, equidistant moments in time. The method is tested in adaptive traction control and cruise control where it proved to significantly reduce the cost.
翻訳日:2022-09-01 14:02:36 公開日:2022-08-31
# グラフニューラルネットワークを用いたシンボリッククラシック音楽のキャデンス検出

Cadence Detection in Symbolic Classical Music using Graph Neural Networks ( http://arxiv.org/abs/2208.14819v1 )

ライセンス: Link先を確認
Emmanouil Karystinaios, Gerhard Widmer(参考訳) コントラポンタル・ポリフォニーの始まりから今日まで音楽を動かしてきた複雑な構造である。 このような構造を検出することは、音楽学的分析、鍵検出、音楽セグメンテーションといった多くのMIRタスクに欠かせない。 しかし、自動ケイデンス検出は、主にハーモニー、音声リード、リズムといったハイレベルな音楽要素の組み合わせを含むため、依然として困難である。 本研究では,記号スコアのグラフ表現を,ケイデンス検出タスクを解決するための中間手段として提示する。 グラフ畳み込みネットワークを用いた不均衡ノード分類問題としてケイデンス検出にアプローチする。 我々は,その技術水準にほぼ匹敵する結果を得るとともに,細粒度なノート・バイ・ノート表現によって,個々の音符からビートまで,多段階の粒度で予測できるモデルを提案する。 さらに,グラフ畳み込みは,非局所的コンテキストを符号化する特殊な特徴を考案する必要がなく,ケイデンス検出を支援する非局所的特徴を学習できることが示唆された。 音楽の楽譜と分類タスクをモデル化するこの一般的なアプローチは、ここで提示される特定の認識タスク以外にも、潜在的な利点がいくつかあると論じる。

Cadences are complex structures that have been driving music from the beginning of contrapuntal polyphony until today. Detecting such structures is vital for numerous MIR tasks such as musicological analysis, key detection, or music segmentation. However, automatic cadence detection remains challenging mainly because it involves a combination of high-level musical elements like harmony, voice leading, and rhythm. In this work, we present a graph representation of symbolic scores as an intermediate means to solve the cadence detection task. We approach cadence detection as an imbalanced node classification problem using a Graph Convolutional Network. We obtain results that are roughly on par with the state of the art, and we present a model capable of making predictions at multiple levels of granularity, from individual notes to beats, thanks to the fine-grained, note-by-note representation. Moreover, our experiments suggest that graph convolution can learn non-local features that assist in cadence detection, freeing us from the need of having to devise specialized features that encode non-local context. We argue that this general approach to modeling musical scores and classification tasks has a number of potential advantages, beyond the specific recognition task presented here.
翻訳日:2022-09-01 14:02:20 公開日:2022-08-31
# Palmer Drought Severity Index の空間分布予測

Predicting spatial distribution of Palmer Drought Severity Index ( http://arxiv.org/abs/2208.14833v1 )

ライセンス: Link先を確認
V. Grabar, Yu. Maximov, A. Zaytsev(参考訳) 特定の地域で干ばつが起こる確率は、農業に関する決定を行う際に重要である。 この確率を予測することはマネジメントにとって重要であり、同時に挑戦する。 予測モデルは、関心領域と近隣領域の複雑な関係を持つ複数の要因を考慮すべきである。 本稿では,時空間ニューラルネットワークに基づくエンドツーエンドのソリューションを提案することでこの問題に対処する。 このモデルは、関心のサブリージョンに対するPalmer Drought Severity Index(PDSI)を予測する。 気候モデルによる予測は、より正確な干ばつ予測につながるモデルに関するさらなる知識を提供する。 我々のモデルは、ベースライン勾配ブースティングソリューションよりも精度が良く、それに対する$r^2$スコアは$0.90$であり、勾配ブースティングは$0.85$である。 特定の注意は、モデルの適用範囲に向けられる。 我々は世界中の様々な地域を調査し、異なる条件下で検証する。 我々は、異なるシナリオにおける将来の気候変動がpdsiに与える影響と、我々のモデルがより良い意思決定とより持続可能な経済にどのように役立つかを分析して、結果を補完する。

The probability of a drought for a particular region is crucial when making decisions related to agriculture. Forecasting this probability is critical for management and challenging at the same time. The prediction model should consider multiple factors with complex relationships across the region of interest and neighbouring regions. We approach this problem by presenting an end-to-end solution based on a spatio-temporal neural network. The model predicts the Palmer Drought Severity Index (PDSI) for subregions of interest. Predictions by climate models provide an additional source of knowledge of the model leading to more accurate drought predictions. Our model has better accuracy than baseline Gradient boosting solutions, as the $R^2$ score for it is $0.90$ compared to $0.85$ for Gradient boosting. Specific attention is on the range of applicability of the model. We examine various regions across the globe to validate them under different conditions. We complement the results with an analysis of how future climate changes for different scenarios affect the PDSI and how our model can help to make better decisions and more sustainable economics.
翻訳日:2022-09-01 14:01:54 公開日:2022-08-31
# ゼロデイDDoS攻撃検出

Zero-day DDoS Attack Detection ( http://arxiv.org/abs/2208.14971v1 )

ライセンス: Link先を確認
Cameron Boeder and Troy Januchowski(参考訳) ネットワークセキュリティ業界では、ゼロデイ(ノーベル)攻撃を検出する能力が不可欠になっている。 攻撃シグネチャの進化により、既存のネットワーク侵入検知システムはこれらの脅威を検出するのに失敗することが多い。 このプロジェクトは、プライベートネットワークに入る前にキャプチャされるネットワークトラフィックを利用して、ゼロデイddos(distributed denial-of-service)攻撃を検出することを目的としている。 現代の特徴抽出技術はニューラルネットワークと併用して、ネットワークパケットが良性であるか悪質であるかを判断する。

The ability to detect zero-day (novel) attacks has become essential in the network security industry. Due to ever evolving attack signatures, existing network intrusion detection systems often fail to detect these threats. This project aims to solve the task of detecting zero-day DDoS (distributed denial-of-service) attacks by utilizing network traffic that is captured before entering a private network. Modern feature extraction techniques are used in conjunction with neural networks to determine if a network packet is either benign or malicious.
翻訳日:2022-09-01 14:01:39 公開日:2022-08-31
# 最適輸送とマニフォールド学習による保存法則の発見

Discovering Conservation Laws using Optimal Transport and Manifold Learning ( http://arxiv.org/abs/2208.14995v1 )

ライセンス: Link先を確認
Peter Y. Lu, Rumen Dangovski, Marin Solja\v{c}i\'c(参考訳) 保存法則は非線形力学系を理解し、特徴づけ、モデル化するための重要な理論的および実践的なツールである。 しかし、多くの複雑な力学系では、対応する保存量を特定するのが難しく、そのダイナミクスを分析し、効率的で安定した予測モデルを構築するのが困難である。 現在の保存則の発見方法は運動方程式や細粒度時間測定といった詳細な力学情報に依存することが多いが、最近の多くの提案はブラックボックスパラメトリック深層学習法にも依存している。 代わりに、この課題を多様体学習問題として再構成し、最適輸送からワッサースタイン計量を拡散写像と組み合わせる非パラメトリックなアプローチを提案し、力学系からサンプリングされた軌道にまたがって変化する保存量を検出する。 我々は、この新しいアプローチを、保守的なハミルトン系、散逸系、時空間系を含む様々な物理系$\unicode{x2014}$および時空間系$\unicode{x2014}$andでテストし、我々の多様体学習法が保存量の数とそれらの値の両方を識別できることを示した。 最適輸送理論と多様体学習のツールを用いて,提案手法は,システムの明示的なモデルや正確な時間情報を必要としない,頑健かつ解釈可能な保存則を同定するための直接幾何学的アプローチを提供する。

Conservation laws are key theoretical and practical tools for understanding, characterizing, and modeling nonlinear dynamical systems. However, for many complex dynamical systems, the corresponding conserved quantities are difficult to identify, making it hard to analyze their dynamics and build efficient, stable predictive models. Current approaches for discovering conservation laws often depend on detailed dynamical information, such as the equation of motion or fine-grained time measurements, with many recent proposals also relying on black box parametric deep learning methods. We instead reformulate this task as a manifold learning problem and propose a non-parametric approach, combining the Wasserstein metric from optimal transport with diffusion maps, to discover conserved quantities that vary across trajectories sampled from a dynamical system. We test this new approach on a variety of physical systems$\unicode{x2014}$including conservative Hamiltonian systems, dissipative systems, and spatiotemporal systems$\unicode{x2014}$and demonstrate that our manifold learning method is able to both identify the number of conserved quantities and extract their values. Using tools from optimal transport theory and manifold learning, our proposed method provides a direct geometric approach to identifying conservation laws that is both robust and interpretable without requiring an explicit model of the system nor accurate time information.
翻訳日:2022-09-01 14:01:31 公開日:2022-08-31
# 心臓に耳を傾ける:2022年のPhysoronet Challengeの心臓拍動音における大腿骨の自己監督的検出法

Listen to your heart: A self-supervised approach for detecting murmur in heart-beat sounds for the Physionet 2022 challenge ( http://arxiv.org/abs/2208.14845v1 )

ライセンス: Link先を確認
Aristotelis Ballas, Vasileios Papapanagiotou, Anastasios Delopoulos and Christos Diou(参考訳) 心臓の大腿骨は心臓の鼓動に異常な音であり、心臓の乱流によって引き起こされる。 PhysioNet 2022の課題は、心臓のオーディオ記録から大腿骨の自動検出と、正常と異常な臨床結果の自動検出である。 録音は心臓周辺の複数の場所から撮影される。 本研究は,大腿骨検出における自己教師付き学習の有効性について検討する。 我々は,今年と2016年の両課題のデータを用いて,レイヤを自己教師型の方法でトレーニングしたバックボーンCNNの使用を評価した。 トレーニングサンプル毎に異なる2つの拡張と,温度スケールのクロスエントロピー損失の正規化を行った。 有効な心電図表現を学習するために異なる拡張法を用いて実験を行った。 最後の検出器を構築するために、2つの分類ヘッドを訓練します。 利用可能な拡張のすべての組み合わせに対する評価結果と、多重拡張アプローチに関する評価結果を示す。

Heart murmurs are abnormal sounds present in heartbeats, caused by turbulent blood flow through the heart. The PhysioNet 2022 challenge targets automatic detection of murmur from audio recordings of the heart and automatic detection of normal vs. abnormal clinical outcome. The recordings are captured from multiple locations around the heart. Our participation investigates the effectiveness of self-supervised learning for murmur detection. We evaluate the use of a backbone CNN, whose layers are trained in a self-supervised way with data from both this year's and the 2016 challenge. We use two different augmentations on each training sample, and normalized temperature-scaled cross-entropy loss. We experiment with different augmentations to learn effective phonocardiogram representations. To build the final detectors we train two classification heads, one for each challenge task. We present evaluation results for all combinations of the available augmentations, and for our multiple-augmentation approach.
翻訳日:2022-09-01 14:00:00 公開日:2022-08-31
# OpenRAN GymにおけるxAppsを用いたインテリジェント閉ループRAN制御

Intelligent Closed-loop RAN Control with xApps in OpenRAN Gym ( http://arxiv.org/abs/2208.14877v1 )

ライセンス: Link先を確認
Leonardo Bonati, Michele Polese, Salvatore D'Oro, Stefano Basagni, Tommaso Melodia(参考訳) ソフトウォーカライゼーション、プログラマブルネットワーク制御、および異なる時間スケールで機能する全アクセスコントローラの使用は、次世代のセルネットワークへの進化の鍵となる要因である。 これらの技術は、伝統的にクローズドなセルアーキテクチャでは実装が不可能な多様なセル機能群を管理するために、新しく設計されたインテリジェントなデータ駆動ソリューションを育んでいる。 業界におけるRadio Access Network(RAN)のクローズドループ制御に対するAIと機械学習(ML)ソリューションの明確な関心と、この分野におけるいくつかの研究成果にもかかわらず、その設計は主流とは程遠いものであり、洗練され、しばしば見過ごされる操作である。 本稿では,Open RANのインテリジェント閉ループ制御のためのAI/MLソリューションの設計方法について論じる。 次に、データ駆動o-ran実験を大規模に行う最初のツールボックスであるopenran gymを通じて、o-ranのほぼリアルタイムなintelligent controller(ric)上でインスタンス化されたxappsに、これらのソリューションを組み込む方法を示す。 我々は,OpenRAN Gymで開発したxAppを,Colosseum無線ネットワークエミュレータ上に配置した7つの基地局と42名のユーザを持つセルネットワーク上でテストした。 実演では,展開シナリオや交通需要とは無関係に,openran gym ベースの xapp 開発環境の柔軟性の高さを示す。

Softwarization, programmable network control and the use of all-encompassing controllers acting at different timescales are heralded as the key drivers for the evolution to next-generation cellular networks. These technologies have fostered newly designed intelligent data-driven solutions for managing large sets of diverse cellular functionalities, basically impossible to implement in traditionally closed cellular architectures. Despite the evident interest of industry on Artificial Intelligence (AI) and Machine Learning (ML) solutions for closed-loop control of the Radio Access Network (RAN), and several research works in the field, their design is far from mainstream, and it is still a sophisticated and often overlooked operation. In this paper, we discuss how to design AI/ML solutions for the intelligent closed-loop control of the Open RAN, providing guidelines and insights based on exemplary solutions with high-performance record. We then show how to embed these solutions into xApps instantiated on the O-RAN near-real-time RAN Intelligent Controller (RIC) through OpenRAN Gym, the first publicly available toolbox for data-driven O-RAN experimentation at scale. We showcase a use case of an xApp developed with OpenRAN Gym and tested on a cellular network with 7 base stations and 42 users deployed on the Colosseum wireless network emulator. Our demonstration shows the high degree of flexibility of the OpenRAN Gym-based xApp development environment, which is independent of deployment scenarios and traffic demand.
翻訳日:2022-09-01 13:59:45 公開日:2022-08-31
# 葉から樹構造を学習して粒子崩壊を再現する

Learning Tree Structures from Leaves For Particle Decay Reconstruction ( http://arxiv.org/abs/2208.14924v1 )

ライセンス: Link先を確認
James Kahn, Ilias Tsaklidis, Oskar Taubert, Lea Reuter, Giulio Dujany, Tobias Boeckh, Arthur Thaller, Pablo Goldenzweig, Florian Bernlochner, Achim Streit and Markus G\"otz(参考訳) 本研究では,階層的相互作用を記述したルート木グラフを再構築するためのニューラルネットワークを提案し,その表現をLCAG行列と呼ぶ。 このコンパクトな定式化は、隣接行列と同値であるが、隣接行列を直接使用する場合に必要となる事前仮定なしに、葉のみから木の構造を学ぶことができる。 したがってLCAGを利用することで、終端木葉のみを使用して、様々な木の大きさの階層構造を直接学習する、最初のエンドツーエンドのトレーニング可能なソリューションが可能になる。 高エネルギー粒子物理学の場合、粒子崩壊は、最終生成物のみを実験的に観察できる階層木構造を形成し、可能木の大きな組合せ空間は解析的な解を導出することができる。 本稿では,TransformerエンコーダとNeural Relational Inference Encoder Graph Neural Networkを用いて,シミュレーション粒子物理学の崩壊構造を予測する作業において,LCAGをターゲットとして利用することを示す。 このアプローチで、lcagをリーフ機能から純粋に予測することが可能で、最大で8ドル(約9万5000円)のツリー深度で、最大で6ドル(約6万円)のリーフ(約6万円)と、シミュレーションされたデータセットで10ドルまでのツリーに対して59.7ドル(約9万7000円)のケースを予測できます。

In this work, we present a neural approach to reconstructing rooted tree graphs describing hierarchical interactions, using a novel representation we term the Lowest Common Ancestor Generations (LCAG) matrix. This compact formulation is equivalent to the adjacency matrix, but enables learning a tree's structure from its leaves alone without the prior assumptions required if using the adjacency matrix directly. Employing the LCAG therefore enables the first end-to-end trainable solution which learns the hierarchical structure of varying tree sizes directly, using only the terminal tree leaves to do so. In the case of high-energy particle physics, a particle decay forms a hierarchical tree structure of which only the final products can be observed experimentally, and the large combinatorial space of possible trees makes an analytic solution intractable. We demonstrate the use of the LCAG as a target in the task of predicting simulated particle physics decay structures using both a Transformer encoder and a Neural Relational Inference encoder Graph Neural Network. With this approach, we are able to correctly predict the LCAG purely from leaf features for a maximum tree-depth of $8$ in $92.5\%$ of cases for trees up to $6$ leaves (including) and $59.7\%$ for trees up to $10$ in our simulated dataset.
翻訳日:2022-09-01 13:59:17 公開日:2022-08-31
# 損失軌道を利用したメンバーシップ推論攻撃

Membership Inference Attacks by Exploiting Loss Trajectory ( http://arxiv.org/abs/2208.14933v1 )

ライセンス: Link先を確認
Yiyong Liu, Zhengyu Zhao, Michael Backes, Yang Zhang(参考訳) 機械学習モデルは、ターゲットモデルのトレーニングデータセットに特定のサンプルが含まれているかどうかを予測することを目的とした、メンバーシップ推論攻撃に対して脆弱である。 既存の攻撃方法は、与えられたターゲットモデルからのみ出力情報(主に損失)を利用するのが一般的である。 結果として、メンバと非メンバのサンプルが同じくらい小さな損失を発生させるような実用的なシナリオでは、これらの手法は自然に区別できない。 この制限に対処するため,本論文では,対象モデルのトレーニングプロセス全体からのメンバシップ情報を利用して,攻撃性能を向上させる新たな攻撃手法である \system を提案する。 この攻撃を共通のブラックボックス設定にマウントするために、知識蒸留を活用し、所定の対象モデルからの損失とともに、異なる蒸留エポックにおける中間モデル列、すなわち 'emph{distilled loss trajectory} で評価された損失によって会員情報を表現する。 異なるデータセットとモデルアーキテクチャに対する実験結果は、異なるメトリクスの観点から、我々の攻撃の大きな利点を示しています。 例えば、CINIC-10では、我々の攻撃は既存の手法よりも0.1\%低い偽陽性率で少なくとも6$\times$高い真陽性率を達成する。 さらなる分析は、より厳格なシナリオにおける攻撃の一般的な効果を示す。

Machine learning models are vulnerable to membership inference attacks in which an adversary aims to predict whether or not a particular sample was contained in the target model's training dataset. Existing attack methods have commonly exploited the output information (mostly, losses) solely from the given target model. As a result, in practical scenarios where both the member and non-member samples yield similarly small losses, these methods are naturally unable to differentiate between them. To address this limitation, in this paper, we propose a new attack method, called \system, which can exploit the membership information from the whole training process of the target model for improving the attack performance. To mount the attack in the common black-box setting, we leverage knowledge distillation, and represent the membership information by the losses evaluated on a sequence of intermediate models at different distillation epochs, namely \emph{distilled loss trajectory}, together with the loss from the given target model. Experimental results over different datasets and model architectures demonstrate the great advantage of our attack in terms of different metrics. For example, on CINIC-10, our attack achieves at least 6$\times$ higher true-positive rate at a low false-positive rate of 0.1\% than existing methods. Further analysis demonstrates the general effectiveness of our attack in more strict scenarios.
翻訳日:2022-09-01 13:58:51 公開日:2022-08-31
# LoRa-IoTセキュリティ向上のためのディープラーニングベースのデバイスフィンガープリント:ネットワーク展開変更に対する感度

Deep-Learning-Based Device Fingerprinting for Increased LoRa-IoT Security: Sensitivity to Network Deployment Changes ( http://arxiv.org/abs/2208.14964v1 )

ライセンス: Link先を確認
Bechir Hamdaoui and Abdurrahman Elmaghbub(参考訳) ディープラーニングベースのデバイス指紋認証は、最近、ネットワークアクセスの自動認証のキーイネーラとして認識されている。 物理的特徴の複製が本質的に困難であることによる偽装攻撃に対する強固さは、従来の暗号解と区別される。 デバイス指紋認証は有望な性能を示しているが、ネットワーク操作環境の変化に対する感度は依然として大きな制限を課している。 本稿では,LoRa対応デバイス指紋認証の感度を研究・克服することを目的とした実験フレームワークを提案する。 まず、LoRa対応の無線デバイステストベッドを使って収集したRFデータセットを記述する。 次に,ハードウェア障害による帯域外歪み情報を利用して指紋認証精度を向上させる新しい指紋認証手法を提案する。 最後に,種々のネットワーク設定変化に対するLoRaRFフィンガープリントの感度を実験的に検討し,解析した。 以上の結果から,学習モデルが同じ条件下でトレーニング・テストされた場合,指紋認証は比較的良好であることがわかった。 しかし、異なる設定でトレーニングとテストを行うと、これらのモデルはチャネル条件の変更に対して適度な感度を示し、IQデータを入力として使用する場合、プロトコル設定や受信ハードウェアの変更に対して厳しい感度を示す。 しかし、FFTデータを入力として使用すると、どんな変化でも性能は低下する。

Deep-learning-based device fingerprinting has recently been recognized as a key enabler for automated network access authentication. Its robustness to impersonation attacks due to the inherent difficulty of replicating physical features is what distinguishes it from conventional cryptographic solutions. Although device fingerprinting has shown promising performances, its sensitivity to changes in the network operating environment still poses a major limitation. This paper presents an experimental framework that aims to study and overcome the sensitivity of LoRa-enabled device fingerprinting to such changes. We first begin by describing RF datasets we collected using our LoRa-enabled wireless device testbed. We then propose a new fingerprinting technique that exploits out-of-band distortion information caused by hardware impairments to increase the fingerprinting accuracy. Finally, we experimentally study and analyze the sensitivity of LoRa RF fingerprinting to various network setting changes. Our results show that fingerprinting does relatively well when the learning models are trained and tested under the same settings. However, when trained and tested under different settings, these models exhibit moderate sensitivity to channel condition changes and severe sensitivity to protocol configuration and receiver hardware changes when IQ data is used as input. However, with FFT data is used as input, they perform poorly under any change.
翻訳日:2022-09-01 13:58:32 公開日:2022-08-31
# 位置バイアスを用いた逆確率スコアに基づく決定論的ランキングリストのオフライン推定

Inverse Propensity Score based offline estimator for deterministic ranking lists using position bias ( http://arxiv.org/abs/2208.14980v1 )

ライセンス: Link先を確認
Nick Wood and Sumit Sidana(参考訳) 本研究では,位置バイアスモデルを用いた新しいIPS計算手法を提案する。 この技術はOPEが利用できるポリシーを大幅に広げる。 産業規模のデータに対する2つの異なる実験を用いて,この手法を検証する。 OPEの結果はオンラインの結果と強く相関しており、一定のバイアスがある。 推定器は、検査モデルを実際のユーザ行動の合理的な近似として要求する。

In this work, we present a novel way of computing IPS using a position-bias model for deterministic logging policies. This technique significantly widens the policies on which OPE can be used. We validate this technique using two different experiments on industry-scale data. The OPE results are clearly strongly correlated with the online results, with some constant bias. The estimator requires the examination model to be a reasonably accurate approximation of real user behaviour.
翻訳日:2022-09-01 13:58:13 公開日:2022-08-31
# バッファ状態情報を用いたアップリンクマルチキャリア非直交多元アクセスリソース割り当てのための深層強化学習

Deep Reinforcement Learning for Uplink Multi-Carrier Non-Orthogonal Multiple Access Resource Allocation Using Buffer State Information ( http://arxiv.org/abs/2208.14689v1 )

ライセンス: Link先を確認
Eike-Manuel Bansbach, Yigit Kiyak, Laurent Schmalen(参考訳) 直交多重アクセス(OMA)システムでは、サービスされたユーザ機器(UE)の数は、利用可能な直交リソースの数に限られる。 一方、非直交多重アクセス(NOMA)方式では、複数のUEが同じ直交リソースを使用することができる。 この余分な自由度は、リソース割り当てに新たな課題をもたらす。 バッファ状態情報(BSI)は、伝送待ちのパケットのサイズや年齢と同様に、OMAシステムのスケジューリングを改善するために使われる。 本稿では,データレートとレイテンシの異なるUEを用いたアップリンクマルチキャリアNOMAシナリオにおいて,BSIが集中型スケジューラの性能に与える影響について検討する。 資源にuesを割り当てる大きな組合せ空間を扱うため,bsiを組み込んだアクタ-クリティック強化学習に基づく新しいスケジューラを提案する。 Nokia の "wireless suite" を使用して,トレーニングと評価を行う。 我々は、トレーニングの安定化とスピードアップを両立させる様々な新しい手法を提案する。 提案するスケジューラはベンチマークスケジューラを上回る。

For orthogonal multiple access (OMA) systems, the number of served user equipments (UEs) is limited to the number of available orthogonal resources. On the other hand, non-orthogonal multiple access (NOMA) schemes allow multiple UEs to use the same orthogonal resource. This extra degree of freedom introduces new challenges for resource allocation. Buffer state information (BSI), like the size and age of packets waiting for transmission, can be used to improve scheduling in OMA systems. In this paper, we investigate the impact of BSI on the performance of a centralized scheduler in an uplink multi-carrier NOMA scenario with UEs having various data rate and latency requirements. To handle the large combinatorial space of allocating UEs to the resources, we propose a novel scheduler based on actor-critic reinforcement learning incorporating BSI. Training and evaluation are carried out using Nokia's "wireless suite". We propose various novel techniques to both stabilize and speed up training. The proposed scheduler outperforms benchmark schedulers.
翻訳日:2022-09-01 13:57:31 公開日:2022-08-31
# ベイズ最適化に基づく組合せ割り当て

Bayesian Optimization-based Combinatorial Assignment ( http://arxiv.org/abs/2208.14698v1 )

ライセンス: Link先を確認
Jakob Weissteiner, Jakob Heiss, Julien Siems, Sven Seuken(参考訳) 本稿では,組み合わせオークションとコースアロケーションを含む組合せ代入ドメインについて検討する。 この領域の主な課題は、バンドル空間がアイテム数で指数関数的に増加することである。 これを解決するために、いくつかの論文が最近、エージェントから最も重要な情報のみを引き出すことを目的とした機械学習に基づく選好推論アルゴリズムを提案している。 しかし、この先行研究の主な欠点は、まだ帰納バンドルの値に対するメカニズムの不確かさをモデル化していないことである。 本稿では,ベイズ最適化に基づく Combinatorial Assignment (BOCA) 機構を提案することで,この問題に対処する。 我々の重要な技術的貢献は、モデル不確かさを反復的組合せオークション機構に統合することである。 具体的には,エージェントに対する次のクエリを決定するための取得関数として使用できる上不確実性境界を推定する新しい手法を考案する。 これにより、この機構はその選好帰納相の間、バンドル空間を適切に探索する(かつ単に活用する)ことができる。 いくつかのスペクトルオークション領域で計算実験を行い,BOCAの性能評価を行った。 以上の結果から,BOCAは最先端のアプローチよりも高い割当効率を実現することが示された。

We study the combinatorial assignment domain, which includes combinatorial auctions and course allocation. The main challenge in this domain is that the bundle space grows exponentially in the number of items. To address this, several papers have recently proposed machine learning-based preference elicitation algorithms that aim to elicit only the most important information from agents. However, the main shortcoming of this prior work is that it does not model a mechanism's uncertainty over values for not yet elicited bundles. In this paper, we address this shortcoming by presenting a Bayesian Optimization-based Combinatorial Assignment (BOCA) mechanism. Our key technical contribution is to integrate a method for capturing model uncertainty into an iterative combinatorial auction mechanism. Concretely, we design a new method for estimating an upper uncertainty bound that can be used as an acquisition function to determine the next query to the agents. This enables the mechanism to properly explore (and not just exploit) the bundle space during its preference elicitation phase. We run computational experiments in several spectrum auction domains to evaluate BOCA's performance. Our results show that BOCA achieves higher allocative efficiency than state-of-the-art approaches.
翻訳日:2022-09-01 13:57:18 公開日:2022-08-31
# pytorchの画像品質: 画像品質評価のための指標

PyTorch Image Quality: Metrics for Image Quality Assessment ( http://arxiv.org/abs/2208.14818v1 )

ライセンス: Link先を確認
Sergey Kastryulin and Jamil Zakirov and Denis Prokopenko and Dmitry V. Dylov(参考訳) 画像品質評価(IQA)メトリクスは、何らかの形成、復元、変換、あるいは拡張アルゴリズムの後の画像劣化の程度を定量的に推定するために広く使用されている。 PyTorch Image Quality (PIQ) は、最新のIQAアルゴリズムを含むユーザビリティ中心のライブラリであり、元の提案に従って正しく実装され、徹底的に検証されている。 本稿では,ライブラリの基礎の背景にある原則を詳述するとともに,信頼性の高い評価戦略を記述し,パフォーマンス・タイムトレードオフを示すベンチマークを提供し,PyTorchバックエンドで使用するGPUアクセラレーションのメリットを概説する。 PyTorch Image Qualityは、オープンソースのソフトウェアである。

Image Quality Assessment (IQA) metrics are widely used to quantitatively estimate the extent of image degradation following some forming, restoring, transforming, or enhancing algorithms. We present PyTorch Image Quality (PIQ), a usability-centric library that contains the most popular modern IQA algorithms, guaranteed to be correctly implemented according to their original propositions and thoroughly verified. In this paper, we detail the principles behind the foundation of the library, describe the evaluation strategy that makes it reliable, provide the benchmarks that showcase the performance-time trade-offs, and underline the benefits of GPU acceleration given the library is used within the PyTorch backend. PyTorch Image Quality is an open source software: https://github.com/photosynthesis-team/piq/.
翻訳日:2022-09-01 13:54:33 公開日:2022-08-31
# NestedFormer:Nested Modality-Aware Transformer for Brain tumor Segmentation

NestedFormer: Nested Modality-Aware Transformer for Brain Tumor Segmentation ( http://arxiv.org/abs/2208.14876v1 )

ライセンス: Link先を確認
Zhaohu Xing and Lequan Yu and Liang Wan and Tong Han and Lei Zhu(参考訳) マルチモーダルMR画像は、豊富な補完情報を提供することで、脳腫瘍を診断し、調査するための臨床実践で日常的に使用される。 従来のマルチモーダルmriセグメンテーション法は通常、ネットワークの早期/中期にマルチモーダルmriを結合することでモーダル融合を行うが、モダリティ間の非線形依存性をほとんど探さない。 本研究では,脳腫瘍分割のためのマルチモーダルmriのモーダル内およびモダリティ間関係を明示的に探究する,nestedformer (nestedformer) を提案する。 トランスベースのマルチエンコーダとシングルデコーダ構造に基づいて,異なるモダリティの高レベル表現のためのネスト型マルチモーダル融合を行い,より効果的なスキップ接続のためにモダリティセンシティブゲーティング(msg)を低いスケールで適用する。 具体的には,提案するnested modality-aware feature aggregation (nmafa) モジュールでマルチモーダル融合を行い,三方向空間対応トランスフォーマによって個々のモダリティの長期的な依存性を高め,さらにクロスモーダリティアテンショントランスフォーマによるモダリティ間の重要なコンテクスト情報を補完する。 BraTS2020ベンチマークとプライベートな髄膜腫セグメンテーション(MeniSeg)データセットの大規模な実験は、NestedFormerが明らかに最先端技術を上回っていることを示している。 コードはhttps://github.com/920232796/NestedFormerで入手できる。

Multi-modal MR imaging is routinely used in clinical practice to diagnose and investigate brain tumors by providing rich complementary information. Previous multi-modal MRI segmentation methods usually perform modal fusion by concatenating multi-modal MRIs at an early/middle stage of the network, which hardly explores non-linear dependencies between modalities. In this work, we propose a novel Nested Modality-Aware Transformer (NestedFormer) to explicitly explore the intra-modality and inter-modality relationships of multi-modal MRIs for brain tumor segmentation. Built on the transformer-based multi-encoder and single-decoder structure, we perform nested multi-modal fusion for high-level representations of different modalities and apply modality-sensitive gating (MSG) at lower scales for more effective skip connections. Specifically, the multi-modal fusion is conducted in our proposed Nested Modality-aware Feature Aggregation (NMaFA) module, which enhances long-term dependencies within individual modalities via a tri-orientated spatial-attention transformer, and further complements key contextual information among modalities via a cross-modality attention transformer. Extensive experiments on BraTS2020 benchmark and a private meningiomas segmentation (MeniSeg) dataset show that the NestedFormer clearly outperforms the state-of-the-arts. The code is available at https://github.com/920232796/NestedFormer.
翻訳日:2022-09-01 13:54:20 公開日:2022-08-31
# オントロジーを用いたドライバ疲労のモデル化と検出

Modelling and Detection of Driver's Fatigue using Ontology ( http://arxiv.org/abs/2208.14694v1 )

ライセンス: Link先を確認
Alexandre Lambert, Manolo Dulva Hina, Celine Barth, Assia Soukane and Amar Ramdane-Cherif(参考訳) 交通事故は世界の8大死因となっている。 これらの事故の多くは、疲労によるドライバーの不注意や集中力の欠如によるものである。 様々な要因がドライバーの疲労を引き起こす。 本稿では,運転者の疲労を呈する計測可能なデータ,すなわち運転中の計測可能なデータおよび運転者の身体的および生理的データについて考察する。 3つの主要な要素は、さらに細部に分かれている。 例えば、車両のデータは、ハンドルの角度、ヨー角、車線上の位置、移動中の車両の速度と加速度から得られる値で構成されている。 ドライバの疲労検出に関するオントロジー知識とルールをインテリジェントシステムに統合して、危険レベルの疲労の最初の兆候を検出すると、警告通知をドライバに送信する。 この作業は安全な道路運転に貢献することを目的としている。

Road accidents have become the eight leading cause of death all over the world. Lots of these accidents are due to a driver's inattention or lack of focus, due to fatigue. Various factors cause driver's fatigue. This paper considers all the measureable data that manifest driver's fatigue, namely those manifested in the vehicle measureable data while driving as well as the driver's physical and physiological data. Each of the three main factors are further subdivided into smaller details. For example, the vehicle's data is composed of the values obtained from the steering wheel's angle, yaw angle, the position on the lane, and the speed and acceleration of the vehicle while moving. Ontological knowledge and rules for driver fatigue detection are to be integrated into an intelligent system so that on the first sign of dangerous level of fatigue is detected, a warning notification is sent to the driver. This work is intended to contribute to safe road driving.
翻訳日:2022-09-01 13:53:34 公開日:2022-08-31
# 音楽メタクリエーションにおけるオープンチャレンジ

Open Challenges in Musical Metacreation ( http://arxiv.org/abs/2208.14734v1 )

ライセンス: Link先を確認
Filippo Carnovalini(参考訳) 音楽メタクリエーションは、音楽を構成するコンピュータアルゴリズムから創造的な行動を得ようとする。 本稿では,この分野が創造性探索に焦点をあてるアルゴリズム構成からどのように進化したかを簡単に分析し,その目標を追求する上での問題点を指摘する。 最後に、アルゴリズムのハイブリダイゼーションは研究に有用な方向であると論じます。

Musical Metacreation tries to obtain creative behaviors from computers algorithms composing music. In this paper I briefly analyze how this field evolved from algorithmic composition to be focused on the search for creativity, and I point out some issues in pursuing this goal. Finally, I argue that hybridization of algorithms can be a useful direction for research.
翻訳日:2022-09-01 13:53:20 公開日:2022-08-31
# 個人情報を含む複数データセットの可読識別データ協調解析

Non-readily identifiable data collaboration analysis for multiple datasets including personal information ( http://arxiv.org/abs/2208.14611v1 )

ライセンス: Link先を確認
Akira Imakura, Tetsuya Sakurai, Yukihiko Okada, Tomoya Fujii, Teppei Sakamoto, Hiroyuki Abe(参考訳) 複数のデータソースを共同分析して改良された情報を得るマルチソースデータ融合は、かなりの研究の注目を集めている。 複数の医療機関のデータセットでは、データの機密性と相互通信が重要である。 このような場合、反復的相互通信を伴わない次元再現型中間表現の共有によるデータ協調(DC)解析が適切であろう。 個人情報を含むデータの解析には共有データの識別性が不可欠である。 本研究では,直流解析の同定可能性について検討した。 その結果、共有中間表現は教師付き学習のために元のデータと容易に識別できることが分かった。 そこで本研究では,個人情報を含む複数の医療データセットに対して,非可読識別データのみを共有できる非可読識別DC解析を提案する。 提案手法は, ランダムなサンプル置換, 解釈可能なDC解析の概念, 再構成不能な関数の利用に基づく識別可能性に関する懸念を解決する。 医学データセットの数値実験において,提案手法は従来のDC解析の高認識性能を維持しつつ,非可読性を示す。 病院データセットに対して,提案手法は,ローカルデータセットのみを使用するローカル解析よりも認識性能が9ポイント向上することを示す。

Multi-source data fusion, in which multiple data sources are jointly analyzed to obtain improved information, has considerable research attention. For the datasets of multiple medical institutions, data confidentiality and cross-institutional communication are critical. In such cases, data collaboration (DC) analysis by sharing dimensionality-reduced intermediate representations without iterative cross-institutional communications may be appropriate. Identifiability of the shared data is essential when analyzing data including personal information. In this study, the identifiability of the DC analysis is investigated. The results reveals that the shared intermediate representations are readily identifiable to the original data for supervised learning. This study then proposes a non-readily identifiable DC analysis only sharing non-readily identifiable data for multiple medical datasets including personal information. The proposed method solves identifiability concerns based on a random sample permutation, the concept of interpretable DC analysis, and usage of functions that cannot be reconstructed. In numerical experiments on medical datasets, the proposed method exhibits a non-readily identifiability while maintaining a high recognition performance of the conventional DC analysis. For a hospital dataset, the proposed method exhibits a nine percentage point improvement regarding the recognition performance over the local analysis that uses only local dataset.
翻訳日:2022-09-01 13:52:44 公開日:2022-08-31
# 対角線形ネットワークにおけるインクリメンタル学習

Incremental Learning in Diagonal Linear Networks ( http://arxiv.org/abs/2208.14673v1 )

ライセンス: Link先を確認
Rapha\"el Berthier(参考訳) 対角線ネットワーク(Diagonal linear network,DLN)は、人工知能ニューラルネットワークのおもちゃの単純化であり、疎い暗黙の正規化を誘導する線形回帰の二次的再パラメータ化から構成される。 本稿では,dlnの微小初期化限界における勾配流れの軌跡について述べる。 逐次的学習は, 座標を逐次活性化するのに対して, 反復的学習は, 活性座標のみをサポートするよう制約された損失の最小化要因であることを示す。 このことは, DLNの希薄な正則化が時間とともに減少することを示している。 この作業は、技術的な理由から、反相関的な特徴を持つ非パラメトリライズド・レジームに限定されている。

Diagonal linear networks (DLNs) are a toy simplification of artificial neural networks; they consist in a quadratic reparametrization of linear regression inducing a sparse implicit regularization. In this paper, we describe the trajectory of the gradient flow of DLNs in the limit of small initialization. We show that incremental learning is effectively performed in the limit: coordinates are successively activated, while the iterate is the minimizer of the loss constrained to have support on the active coordinates only. This shows that the sparse implicit regularization of DLNs decreases with time. This work is restricted to the underparametrized regime with anti-correlated features for technical reasons.
翻訳日:2022-09-01 13:52:27 公開日:2022-08-31
# 古典的量子畳み込みニューラルネットワーク伝達学習

Classical-to-quantum convolutional neural network transfer learning ( http://arxiv.org/abs/2208.14708v1 )

ライセンス: Link先を確認
Juhyeon Kim, Joonsuk Huh, Daniel K. Park(参考訳) 量子畳み込みニューラルネットワーク(qcnns)を用いた機械学習は、量子データ分類と古典データ分類の両方で成功した。 以前の研究では、QCNNは、数パラメータの条件で同じトレーニング条件下で、従来のものよりも高い分類精度を達成した。 しかし、近い将来に確実に実装できる量子回路のサイズが限られているため、大規模量子モデルの一般的な性能を調べることは困難である。 雑音の多い中規模量子時代のQCNNを最大限活用するための効果的な方法として転送学習を提案する。 古典的量子移動学習フレームワークにおいて、QCNNは、事前訓練された古典畳み込みニューラルネットワーク(CNN)を利用することで、大規模量子回路を必要としない複雑な分類問題を解くことができる。 我々は,古典的CNNをFashion-MNISTデータで訓練したMNISTデータ分類のための,様々な量子畳み込みとプーリング操作を備えたQCNNモデルの数値シミュレーションを行う。 その結果、古典的から量子的cnnへの転送学習は、同様の訓練条件下で純粋に古典的転送学習モデルよりもかなり優れていることがわかった。

Machine learning using quantum convolutional neural networks (QCNNs) has demonstrated success in both quantum and classical data classification. In previous studies, QCNNs attained a higher classification accuracy than their classical counterparts under the same training conditions in the few-parameter regime. However, the general performance of large-scale quantum models is difficult to examine because of the limited size of quantum circuits, which can be reliably implemented in the near future. We propose transfer learning as an effective strategy for utilizing small QCNNs in the noisy intermediate-scale quantum era to the full extent. In the classical-to-quantum transfer learning framework, a QCNN can solve complex classification problems without requiring a large-scale quantum circuit by utilizing a pre-trained classical convolutional neural network (CNN). We perform numerical simulations of QCNN models with various sets of quantum convolution and pooling operations for MNIST data classification under transfer learning, in which a classical CNN is trained with Fashion-MNIST data. The results show that transfer learning from classical to quantum CNN performs considerably better than purely classical transfer learning models under similar training conditions.
翻訳日:2022-09-01 13:52:16 公開日:2022-08-31
# 薬物応答予測のためのマルチオミクスの潜在表現のためのニューラルネットワークアーキテクチャの公正な比較

A Fair Experimental Comparison of Neural Network Architectures for Latent Representations of Multi-Omics for Drug Response Prediction ( http://arxiv.org/abs/2208.14822v1 )

ライセンス: Link先を確認
Tony Hauptmann and Stefan Kramer(参考訳) 近年、予測のためのマルチオミクスデータの統合のための新しいニューラルネットワークアーキテクチャが急増している。 ほとんどのアーキテクチャには、エンコーダ単独またはエンコーダとデコーダ、すなわち様々な種類のオートエンコーダが含まれ、マルチオミクスデータを潜在表現に変換する。 重要なパラメータの1つは積分の深さであり、潜在表現が計算またはマージされる点であり、これは初期、中間、または後期のいずれかである。 積分法に関する文献は着実に成長しているが、公平な実験条件下での相対的な性能や、異なる用途を考慮しては、ほとんど知られていない。 等価条件下でのマルチオミクス統合手法の訓練と最適化を行う比較フレームワークを開発した。 早期統合と最近発表された4つのディープラーニング手法:MOLI, Super.FELT, OmiEmbed, MOMA。 さらに,中間積分と遅延積分の利点を組み合わせた新しい手法であるomics stackingを考案した。 細胞株,患者由来のキセノグラフト,患者試料から得られた複数のオミクスデータ(体細胞点変異,体細胞コピー数プロファイル,遺伝子発現プロファイル)を用いた薬剤応答データセットを用いて実験を行った。 実験の結果,早期統合は予測性能が低いことがわかった。 全体として、三重項損失を統合するアーキテクチャは、最高の結果を得た。 しかし、平均的なメソッドのランクでは、統計的な違いはほとんど見られず、Super.FELTはクロスバリデーション設定で、Omics Stackingは外部テストセットで、一貫して最高のパフォーマンスを保っている。 すべての実験のソースコードは \url{https://github.com/kramerlab/Multi-Omics_analysis} で入手できる。

Recent years have seen a surge of novel neural network architectures for the integration of multi-omics data for prediction. Most of the architectures include either encoders alone or encoders and decoders, i.e., autoencoders of various sorts, to transform multi-omics data into latent representations. One important parameter is the depth of integration: the point at which the latent representations are computed or merged, which can be either early, intermediate, or late. The literature on integration methods is growing steadily, however, close to nothing is known about the relative performance of these methods under fair experimental conditions and under consideration of different use cases. We developed a comparison framework that trains and optimizes multi-omics integration methods under equal conditions. We incorporated early integration and four recently published deep learning methods: MOLI, Super.FELT, OmiEmbed, and MOMA. Further, we devised a novel method, Omics Stacking, that combines the advantages of intermediate and late integration. Experiments were conducted on a public drug response data set with multiple omics data (somatic point mutations, somatic copy number profiles and gene expression profiles) that was obtained from cell lines, patient-derived xenografts, and patient samples. Our experiments confirmed that early integration has the lowest predictive performance. Overall, architectures that integrate triplet loss achieved the best results. Statistical differences can, overall, rarely be observed, however, in terms of the average ranks of methods, Super.FELT is consistently performing best in a cross-validation setting and Omics Stacking best in an external test set setting. The source code of all experiments is available under \url{https://github.com/kramerlab/Multi-Omics_analysis}
翻訳日:2022-09-01 13:51:55 公開日:2022-08-31
# ロボット制御のための後見体験リプレイにおけるクラスタベースサンプリング

Cluster-based Sampling in Hindsight Experience Replay for Robot Control ( http://arxiv.org/abs/2208.14741v1 )

ライセンス: Link先を確認
Taeyoung Kim, Dongsoo Har(参考訳) エージェントは,環境とのインタラクションから得られた経験を用いて,複数の目標を達成するための方針を学習する。 わずかなバイナリ報酬で、トレーニングエージェントは、成功した経験が不足しているため、特に難しい。 この問題を解決するため、hindsight experience replay (her) は成功した経験から成功した経験を生成する。 しかし、達成された目標の特性を考慮せずに成功した経験を生み出すことは、効率が低下する。 本稿では,達成目標の特性を生かした新しいクラスタベースサンプリング戦略を提案する。 提案した抽出戦略群は,HERの方法で達成された目標とサンプル経験の異なるエピソードである。 グループ化にはK平均クラスタリングアルゴリズムを用いる。 クラスタのセンタロイドは、元の目標が達成できないと定義された失敗目標の分布から得られる。 提案手法は,OpenAI Gymの3つのロボット制御タスクを用いた実験により検証された。 実験の結果,提案手法は3つのタスクのうち2つにおいて,収束に必要なエポック数を大幅に削減し,残りのタスクの成功率をわずかに増加させることが示された。 また,提案手法を他のサンプリング戦略と組み合わせることも可能であることを示した。

In multi-goal reinforcement learning in an environment, agents learn policies to achieve multiple goals by using experiences gained from interactions with the environment. With a sparse binary reward, training agents is particularly challenging, due to a lack of successful experiences. To solve this problem, hindsight experience replay (HER) generates successful experiences from unsuccessful experiences. However, generating successful experiences without consideration of the property of achieved goals is less efficient. In this paper, a novel cluster-based sampling strategy exploiting the property of achieved goals is proposed. The proposed sampling strategy groups episodes with different achieved goals and samples experiences in the manner of HER. For the grouping, K-means clustering algorithm is used. The centroids of the clusters are obtained from the distribution of failed goals defined as the original goals not achieved. The proposed method is validated by experiments with three robotic control tasks of the OpenAI Gym. The results of experiments demonstrate that the proposed method significantly reduces the number of epochs required for convergence in two of the three tasks and marginally increases the success rates in the remaining one. It is also shown that the proposed method can be combined with other sampling strategies for HER.
翻訳日:2022-09-01 13:48:49 公開日:2022-08-31
# AI支援による胸部X線写真における早期肺癌検出の促進 : マルチリーダーによる検討

Enhancing Early Lung Cancer Detection on Chest Radiographs with AI-assistance: A Multi-Reader Study ( http://arxiv.org/abs/2208.14742v1 )

ライセンス: Link先を確認
Gaetan Dissez, Nicole Tay, Tom Dyer, Matthew Tam, Richard Dittrich, David Doyne, James Hoare, Jackson J. Pat, Stephanie Patterson, Amanda Stockham, Qaiser Malik, Tom Naunton Morgan, Paul Williams, Liliana Garcia-Mondragon, Jordan Smith, George Pearse, Simon Rasalingham(参考訳) 目的: 本研究は, 臨床医が肺がんを同定する能力を胸部X線(CXR)に増強する上で, 市販のAIアルゴリズムが与える影響を評価した。 デザイン: 胸部X線写真から肺がんを検出する臨床医11名について, CXRから肺がんの疑いを予測できる市販のAIアルゴリズム(赤点, Behold.ai)の助けなしに評価した。 臨床的に確認された診断に対して臨床成績を評価した。 このデータセットは、2020年にCXRを施行した成人患者(18歳以上)の胸部X線写真400枚からなり、対応する臨床文献が報告された。 参加者:11名の臨床医(Consultant Radioologist, Radioologist Trainee, reporting radiographers)からなる読者パネルが本研究に参加した。 主な成果は、ai入力の有無に関わらず、臨床医がcxrで肺がんを検出するための全体的な正確性、感度、特異性、正確性である。 aiインプットの有無に関わらず,臨床医とパフォーマンス標準偏差の一致率も評価した。 結果: 臨床医によるAIアルゴリズムの使用により、肺腫瘍検出の全体的なパフォーマンスが向上し、CXRで確認された肺がんの17.4%が失われていたこと、より小さな腫瘍の検出の全体的な増加、ステージ1とステージ2の肺がんのそれぞれ24%と13%が検出されたこと、および臨床医のパフォーマンスの標準化が達成された。 結論: 本研究は, 下流画像資源に影響を及ぼすことなく, 早期肺癌診断の改善と, 読取能力の向上を通じて, 健康への配慮を促進するためのAIアルゴリズムの臨床的有用性に大きな可能性を示唆した。

Objectives: The present study evaluated the impact of a commercially available explainable AI algorithm in augmenting the ability of clinicians to identify lung cancer on chest X-rays (CXR). Design: This retrospective study evaluated the performance of 11 clinicians for detecting lung cancer from chest radiographs, with and without assistance from a commercially available AI algorithm (red dot, Behold.ai) that predicts suspected lung cancer from CXRs. Clinician performance was evaluated against clinically confirmed diagnoses. Setting: The study analysed anonymised patient data from an NHS hospital; the dataset consisted of 400 chest radiographs from adult patients (18 years and above) who had a CXR performed in 2020, with corresponding clinical text reports. Participants: A panel of readers consisting of 11 clinicians (consultant radiologists, radiologist trainees and reporting radiographers) participated in this study. Main outcome measures: Overall accuracy, sensitivity, specificity and precision for detecting lung cancer on CXRs by clinicians, with and without AI input. Agreement rates between clinicians and performance standard deviation were also evaluated, with and without AI input. Results: The use of the AI algorithm by clinicians led to an improved overall performance for lung tumour detection, achieving an overall increase of 17.4% of lung cancers being identified on CXRs which would have otherwise been missed, an overall increase in detection of smaller tumours, a 24% and 13% increased detection of stage 1 and stage 2 lung cancers respectively, and standardisation of clinician performance. Conclusions: This study showed great promise in the clinical utility of AI algorithms in improving early lung cancer diagnosis and promoting health equity through overall improvement in reader performances, without impacting downstream imaging resources.
翻訳日:2022-09-01 13:48:34 公開日:2022-08-31
# 長期的なAI安全と規制の基盤としての否定的人権

Negative Human Rights as a Basis for Long-term AI Safety and Regulation ( http://arxiv.org/abs/2208.14788v1 )

ライセンス: Link先を確認
Ondrej Bajgar and Jan Horenovsky(参考訳) 将来のAIシステムが新しい状況で確実に安全であるためには、どの結果や行動が有害であるかを確実に認識するための一般的な原則を取り入れなければならない。 このような原則は規制の拘束システムによって支持される必要があり、基礎となる原則が広く受け入れられる必要がある。 技術的な実装にも十分特化すべきである。 この記事では、法律からインスピレーションを得て、否定的な人権がそのような原則の役割を果たし、国際規制システムと将来のaiシステムのための技術的安全制約を構築するための基盤となるかを説明します。

If future AI systems are to be reliably safe in novel situations, they will need to incorporate general principles guiding them to robustly recognize which outcomes and behaviours would be harmful. Such principles may need to be supported by a binding system of regulation, which would need the underlying principles to be widely accepted. They should also be specific enough for technical implementation. Drawing inspiration from law, this article explains how negative human rights could fulfil the role of such principles and serve as a foundation both for an international regulatory system and for building technical safety constraints for future AI systems.
翻訳日:2022-09-01 13:48:00 公開日:2022-08-31
# 高速かつスケーラブルなガウス過程(MuyGPs)を用いた光曲線の完備化と予測

Light curve completion and forecasting using fast and scalable Gaussian processes (MuyGPs) ( http://arxiv.org/abs/2208.14592v1 )

ライセンス: Link先を確認
Im\`ene R. Goumiri, Alec M. Dunton, Amanda L. Muyskens, Benjamin W. Priest, Robert E. Armstrong(参考訳) 光度曲線と呼ばれる視等級の時間変化は、長期にわたって望遠鏡が捉えた関心の観測統計である。 光曲線は、オブジェクトの識別やポーズ推定といった空間領域認識(SDA)の目的を潜在変数推論問題として探究することができる。 商用オフ・ザ・シェルフ(COTS)カメラからの地上観測は、高精度な機器に比べて安価に保たれているが、ノイズの多い観測と組み合わせたセンサーの可用性は、モデル化が難しいような散在する時系列データを生成することができる。 これらの外部要因は光曲線の自動利用と矛盾し、光曲線予測と外挿がアプリケーションにとって重要な問題となる。 伝統的に、画像や時系列の完了問題は拡散に基づく手法や模範的な手法によってアプローチされてきた。 近年のDeep Neural Networks(DNN)は、複雑な非線形埋め込みを学習する経験的成功によって、選択のツールとなっている。 しかし、DNNは単一の衛星の光度曲線のユニークな特徴を見る際に必ずしも利用できない大規模なトレーニングデータを必要とすることが多い。 本稿では,ガウス過程(GP)を用いて,光曲線の欠落と将来のデータポイントを予測する新しい手法を提案する。 GPは、関数上の後続分布を推測し、不確実性を自然に定量化する非線形確率モデルである。 しかし、GP推論とトレーニングの立方体スケーリングは、アプリケーションで採用する上で大きな障壁となる。 特に、単一光曲線は数十万の観測を特徴付けることができ、これは1台のマシン上の従来のgpの実用上の限界をはるかに超える。 その結果,最寄りのスパシフィケーションと局所的クロスバリデーションを用いたGPモデルのハイパーパラメータ推定のためのスケーラブルなフレームワークであるMuyGPsを採用している。 MuyGP。

Temporal variations of apparent magnitude, called light curves, are observational statistics of interest captured by telescopes over long periods of time. Light curves afford the exploration of Space Domain Awareness (SDA) objectives such as object identification or pose estimation as latent variable inference problems. Ground-based observations from commercial off the shelf (COTS) cameras remain inexpensive compared to higher precision instruments, however, limited sensor availability combined with noisier observations can produce gappy time-series data that can be difficult to model. These external factors confound the automated exploitation of light curves, which makes light curve prediction and extrapolation a crucial problem for applications. Traditionally, image or time-series completion problems have been approached with diffusion-based or exemplar-based methods. More recently, Deep Neural Networks (DNNs) have become the tool of choice due to their empirical success at learning complex nonlinear embeddings. However, DNNs often require large training data that are not necessarily available when looking at unique features of a light curve of a single satellite. In this paper, we present a novel approach to predicting missing and future data points of light curves using Gaussian Processes (GPs). GPs are non-linear probabilistic models that infer posterior distributions over functions and naturally quantify uncertainty. However, the cubic scaling of GP inference and training is a major barrier to their adoption in applications. In particular, a single light curve can feature hundreds of thousands of observations, which is well beyond the practical realization limits of a conventional GP on a single machine. Consequently, we employ MuyGPs, a scalable framework for hyperparameter estimation of GP models that uses nearest neighbors sparsification and local cross-validation. MuyGPs...
翻訳日:2022-09-01 13:47:49 公開日:2022-08-31
# elsr: モバイルデバイス用の超低消費電力超解像ネットワーク

ELSR: Extreme Low-Power Super Resolution Network For Mobile Devices ( http://arxiv.org/abs/2208.14600v1 )

ライセンス: Link先を確認
Tianyu Xu, Zhuang Jia, Yijian Zhang, Long Bao, Heng Sun(参考訳) スマートフォンやウェアラブルデバイスなどのモバイルデバイスの普及に伴い、より軽量で高速なモデルがビデオスーパー解像度の応用に不可欠である。 しかし、以前のほとんどの軽量モデルは、現在のモバイルデバイスではエネルギー効率が良くないデスクトップgpuでのモデル推論のlantencyの低減に集中する傾向がある。 本稿では,モバイル端末で少量のエネルギーしか消費しないELSR(Extreme Low-Power Super Resolution)ネットワークを提案する。 極小モデルの性能を高めるために, プレトレーニング法と微調整法を適用した。 広範な実験により,本手法は復元品質と消費電力のバランスが良好であることが判明した。 最後に,PSNR 27.34 dBで90.9点,ターゲットとなるMediaTek Dimensity 9000の出力0.09W/30FPSを達成し,Mobile AI & AIM 2022 Real-Time Video Super-Resolution Challengeで1位となった。

With the popularity of mobile devices, e.g., smartphone and wearable devices, lighter and faster model is crucial for the application of video super resolution. However, most previous lightweight models tend to concentrate on reducing lantency of model inference on desktop GPU, which may be not energy efficient in current mobile devices. In this paper, we proposed Extreme Low-Power Super Resolution (ELSR) network which only consumes a small amount of energy in mobile devices. Pretraining and finetuning methods are applied to boost the performance of the extremely tiny model. Extensive experiments show that our method achieves a excellent balance between restoration quality and power consumption. Finally, we achieve a competitive score of 90.9 with PSNR 27.34 dB and power 0.09 W/30FPS on the target MediaTek Dimensity 9000 plantform, ranking 1st place in the Mobile AI & AIM 2022 Real-Time Video Super-Resolution Challenge.
翻訳日:2022-09-01 13:47:01 公開日:2022-08-31
# 構造ガイドによる3次元高密度点雲のブラインド品質評価

Blind Quality Assessment of 3D Dense Point Clouds with Structure Guided Resampling ( http://arxiv.org/abs/2208.14603v1 )

ライセンス: Link先を確認
Wei Zhou, Qi Yang, Qiuping Jiang, Guangtao Zhai, Weisi Lin(参考訳) 3Dポイントクラウドの客観的品質評価は、実世界のアプリケーションにおける没入型マルチメディアシステムの開発に不可欠である。 2D画像やビデオの知覚的品質評価の成功にもかかわらず、大規模に不規則に分散した3Dポイントクラウドでは、盲目/非参照のメトリクスは依然として不足している。 そこで本論文では,SGR(Structure Guided Resampling)を用いた目的点雲品質指標を提案し,三次元高密度点雲の知覚的視覚的品質を自動評価する。 提案するSGRは,参照情報の不要な汎用ブラインド品質評価手法である。 具体的には、人体視覚システム(HVS)が構造情報に非常に敏感であることを考慮し、まず点雲の特異な正規ベクトルを利用して、キーポイント再サンプリングと局所領域構築からなる地域前処理を実行する。 次に,品質関連特徴の3つのグループを抽出する。 1) 幾何学的密度の特徴 2) 色自然性の特徴 3) angular一貫性機能。 人間の脳の認知特性と自然性規則性の両方が、歪んだ3Dポイントの雲の最も重要な側面を捉えることができるデザインされた品質認識機能に関与している。 公開されている複数の主観的クラウド品質データベースに対する大規模な実験により、提案したSGRが、最先端のフル参照、縮小参照、非参照品質評価アルゴリズムと競合できることを確認した。

Objective quality assessment of 3D point clouds is essential for the development of immersive multimedia systems in real-world applications. Despite the success of perceptual quality evaluation for 2D images and videos, blind/no-reference metrics are still scarce for 3D point clouds with large-scale irregularly distributed 3D points. Therefore, in this paper, we propose an objective point cloud quality index with Structure Guided Resampling (SGR) to automatically evaluate the perceptually visual quality of 3D dense point clouds. The proposed SGR is a general-purpose blind quality assessment method without the assistance of any reference information. Specifically, considering that the human visual system (HVS) is highly sensitive to structure information, we first exploit the unique normal vectors of point clouds to execute regional pre-processing which consists of keypoint resampling and local region construction. Then, we extract three groups of quality-related features, including: 1) geometry density features; 2) color naturalness features; 3) angular consistency features. Both the cognitive peculiarities of the human brain and naturalness regularity are involved in the designed quality-aware features that can capture the most vital aspects of distorted 3D point clouds. Extensive experiments on several publicly available subjective point cloud quality databases validate that our proposed SGR can compete with state-of-the-art full-reference, reduced-reference, and no-reference quality assessment algorithms.
翻訳日:2022-09-01 13:46:42 公開日:2022-08-31
# 音声レポート用オーディオグラムデジタル化ツール

Audiogram Digitization Tool for Audiological Reports ( http://arxiv.org/abs/2208.14621v1 )

ライセンス: Link先を確認
Fran\c{c}ois Charih and James R. Green(参考訳) 多くの民間・公共保険会社は、職場の騒音への過度な曝露によって直接的に聴覚障害を負う労働者を補う。 クレーム評価のプロセスは一般的に長く、人間が録音したオーディオグラムを解釈しなければならず、しばしばfaxまたは同等のもの経由で送信される。 本研究は,オンタリオ州の職場安全保険委員会と共同で開発し,裁定プロセスを合理化するソリューションを提案する。 特に,スキャンまたはファックスした音声学レポートから聴力閾値を自動的に抽出できる最初のオーディオグラムデジタル化アルゴリズムを概念実証として提示する。 このアルゴリズムは5dBの精度でほとんどの閾値を抽出し、オーディオグラムを半教師付き方式でデジタルフォーマットに変換するのに必要な時間を大幅に短縮し、偏見処理の自動化に向けた第一歩となる。 デジタル化アルゴリズムのソースコードとNIHLアノテーションポータルのデスクトップベースの実装はGitHubで公開されている(https://github.com/GreenCUBIC/AudiogramDigitization)。

A number of private and public insurers compensate workers whose hearing loss can be directly attributed to excessive exposure to noise in the workplace. The claim assessment process is typically lengthy and requires significant effort from human adjudicators who must interpret hand-recorded audiograms, often sent via fax or equivalent. In this work, we present a solution developed in partnership with the Workplace Safety Insurance Board of Ontario to streamline the adjudication process. In particular, we present the first audiogram digitization algorithm capable of automatically extracting the hearing thresholds from a scanned or faxed audiology report as a proof-of-concept. The algorithm extracts most thresholds within 5 dB accuracy, allowing to substantially lessen the time required to convert an audiogram into digital format in a semi-supervised fashion, and is a first step towards the automation of the adjudication process. The source code for the digitization algorithm and a desktop-based implementation of our NIHL annotation portal is publicly available on GitHub (https://github.com/GreenCUBIC/AudiogramDigitization).
翻訳日:2022-09-01 13:46:17 公開日:2022-08-31
# XCAT -- 異種群畳み込みと交差結合を用いた軽量量子化単一画像超解法

XCAT -- Lightweight Quantized Single Image Super-Resolution using Heterogeneous Group Convolutions and Cross Concatenation ( http://arxiv.org/abs/2208.14655v1 )

ライセンス: Link先を確認
Mustafa Ayazoglu, Bahri Batuhan Bilecen(参考訳) 我々は,XCATという,モバイルデバイス用の軽量で単一画像超解像ネットワークを提案する。 XCATは、HXBlock (Heterogeneous Group Convolution Blocks with Cross Concatenations)を導入した。 群畳み込みブロックへの入力チャネルの不均一な分割は演算数を減少させ、クロス連結はカスケードhxブロックの中間入力テンソル間の情報フローを可能にする。 HXBlocks内のクロスコンカニオンは、1x1コンボリューションのような高価な操作を避けることもできる。 XCATは、高価なテンソルコピー操作に先立って、トレーニング不能な畳み込みカーネルを使用してサンプリング操作を適用する。 XCATは整数量子化を念頭に設計されており、強度ベースのデータ拡張のようなトレーニング技術も活用している。 Integer Quantized XCATは、320msのMali-G71 MP2 GPUと30ms(NCHW)と8.8ms(NHWC)のSynaptics Dolphin NPUでリアルタイムに動作する。

We propose a lightweight, single image super-resolution network for mobile devices, named XCAT. XCAT introduces Heterogeneous Group Convolution Blocks with Cross Concatenations (HXBlock). The heterogeneous split of the input channels to the group convolution blocks reduces the number of operations, and cross concatenation allows for information flow between the intermediate input tensors of cascaded HXBlocks. Cross concatenations inside HXBlocks can also avoid using more expensive operations like 1x1 convolutions. To further prev ent expensive tensor copy operations, XCAT utilizes non-trainable convolution kernels to apply up sampling operations. Designed with integer quantization in mind, XCAT also utilizes several techniques on training, like intensity-based data augmentation. Integer quantized XCAT operates in real time on Mali-G71 MP2 GPU with 320ms, and on Synaptics Dolphin NPU with 30ms (NCHW) and 8.8ms (NHWC), suitable for real-time applications.
翻訳日:2022-09-01 13:45:59 公開日:2022-08-31
# EViT:クラウドコンピューティングにおける暗号化ビジョントランスフォーマーによるプライバシ保護画像検索

EViT: Privacy-Preserving Image Retrieval via Encrypted Vision Transformer in Cloud Computing ( http://arxiv.org/abs/2208.14657v1 )

ライセンス: Link先を確認
Qihua Feng, Peiya Li, Zhixun Lu, Chaozhuo Li, Zefang Wang, Zhiquan Liu, Chunhui Duan, Feiran Huang(参考訳) 画像検索システムは、ユーザが広範囲な画像のブラウズと検索をリアルタイムで行えるようにする。 クラウドコンピューティングの普及に伴い、検索タスクは通常、クラウドサーバにアウトソースされる。 しかし、クラウドのシナリオは、クラウドサーバーが完全に信頼できないため、プライバシー保護の恐ろしい課題をもたらす。 この目的のために,まず暗号画像から特徴を抽出し,それらの特徴に基づく検索モデルを構築する,画像暗号化に基づくプライバシー保存画像検索方式が開発されている。 しかし、既存のほとんどのアプローチは浅い特徴と設計の自明な検索モデルを取り出すため、暗号画像の表現性は不十分である。 本稿では,暗号画像の識別表現能力を向上させる新しい手法である暗号化視覚トランスフォーマ(evit)を提案する。 まず, JPEG圧縮処理中にストリーム暗号によって暗号化された暗号画像から, 多レベル局所長シーケンスとグローバルハフマン符号の周波数特徴を抽出する。 第2に,多レベル特徴を結合する視覚トランスフォーマティブに基づく検索モデルの設計を行い,検索モデルの表現力を向上させるための2つの適応データ拡張手法を提案する。 提案手法は,自己指導型コントラスト学習手法により,教師なし,教師なしの設定に容易に適応できる。 大規模な実験により、EViTは優れた暗号化と検索性能を達成し、画像のプライバシーを効果的に保護しながら、検索精度において現在のスキームよりも優れていることが判明した。 コードは \url{https://github.com/onlinehuazai/EViT} で公開されている。

Image retrieval systems help users to browse and search among extensive images in real-time. With the rise of cloud computing, retrieval tasks are usually outsourced to cloud servers. However, the cloud scenario brings a daunting challenge of privacy protection as cloud servers cannot be fully trusted. To this end, image-encryption-based privacy-preserving image retrieval schemes have been developed, which first extract features from cipher-images, and then build retrieval models based on these features. Yet, most existing approaches extract shallow features and design trivial retrieval models, resulting in insufficient expressiveness for the cipher-images. In this paper, we propose a novel paradigm named Encrypted Vision Transformer (EViT), which advances the discriminative representations capability of cipher-images. First, in order to capture comprehensive ruled information, we extract multi-level local length sequence and global Huffman-code frequency features from the cipher-images which are encrypted by stream cipher during JPEG compression process. Second, we design the Vision Transformer-based retrieval model to couple with the multi-level features, and propose two adaptive data augmentation methods to improve representation power of the retrieval model. Our proposal can be easily adapted to unsupervised and supervised settings via self-supervised contrastive learning manner. Extensive experiments reveal that EViT achieves both excellent encryption and retrieval performance, outperforming current schemes in terms of retrieval accuracy by large margins while protecting image privacy effectively. Code is publicly available at \url{https://github.com/onlinehuazai/EViT}.
翻訳日:2022-09-01 13:45:39 公開日:2022-08-31
# 中国語名前付きエンティティ認識におけるデータ暗号化の適用

Application of Data Encryption in Chinese Named Entity Recognition ( http://arxiv.org/abs/2208.14627v1 )

ライセンス: Link先を確認
Kaifang Long, Jikun Dong, Shengyu Fan, Yanfang Geng, Yang Cao, Han Zhao, Hui Yu, Weizhi Xu(参考訳) 近年,ディープラーニングの継続的な開発により,名前付きエンティティ認識タスクの性能が劇的に向上している。 しかし、バイオメディカルや軍事などの特定の分野におけるデータのプライバシーと機密性は、ディープニューラルネットワークのトレーニングを支援するために不十分なデータを引き起こす。 本稿では,特定の領域における機密データの漏洩と不都合な開示の問題に対処するための暗号学習フレームワークを提案する。 名前付きエンティティ認識タスクでトレーニングデータを暗号化するために,複数の暗号化アルゴリズムを導入する。 言い換えれば、暗号化されたデータを使ってディープニューラルネットワークを訓練する。 6つの中国データセットについて実験を行い,そのうち3つを自身で構築した。 実験結果から, 暗号化手法は良好な結果が得られることがわかった。 暗号化されたデータでトレーニングされた一部のモデルの性能は、暗号化されていない方法のパフォーマンスを超え、導入した暗号化手法の有効性を検証し、データ漏洩の問題をある程度解決する。

Recently, with the continuous development of deep learning, the performance of named entity recognition tasks has been dramatically improved. However, the privacy and the confidentiality of data in some specific fields, such as biomedical and military, cause insufficient data to support the training of deep neural networks. In this paper, we propose an encryption learning framework to address the problems of data leakage and inconvenient disclosure of sensitive data in certain domains. We introduce multiple encryption algorithms to encrypt training data in the named entity recognition task for the first time. In other words, we train the deep neural network using the encrypted data. We conduct experiments on six Chinese datasets, three of which are constructed by ourselves. The experimental results show that the encryption method achieves satisfactory results. The performance of some models trained with encrypted data even exceeds the performance of the unencrypted method, which verifies the effectiveness of the introduced encryption method and solves the problem of data leakage to a certain extent.
翻訳日:2022-09-01 13:40:07 公開日:2022-08-31
# 強化学習による深部異常検出と探索

Deep Anomaly Detection and Search via Reinforcement Learning ( http://arxiv.org/abs/2208.14834v1 )

ライセンス: Link先を確認
Chao Chen, Dawei Wang, Feng Mao, Zongzhang Zhang, Yang Yu(参考訳) 半教師付き異常検出(Semi-supervised Anomaly Detection, AD)は、部分的にラベル付けされたデータセットから機能を学ぶことを目的としたデータマイニングタスクの一種である。 本稿では,既存の半教師付き広告手法を,教師なし広告と教師なし広告の2つのカテゴリに分類し,ラベル付きデータの活用不足とラベルなしデータの過密化に苦しむことを指摘する。 このような問題に対処するために, 強化学習(Reinforcement Learning, RL)を応用したDADS(Deep Anomaly Detection and Search)を提案する。 トレーニングプロセス中、エージェントは階層的に構造化されたデータセットで可能な異常を検索し、検索された異常を使用してパフォーマンスを向上させる。 実験では,他の既知の異常と未知の異常の両方を検出するためにラベル付き既知の異常を利用する設定において,DADSと最先端のいくつかの手法を比較した。 その結果,DADSはラベルのないデータから異常を効率よく正確に検索し,そこから学習し,良好な性能が得られることがわかった。

Semi-supervised Anomaly Detection (AD) is a kind of data mining task which aims at learning features from partially-labeled datasets to help detect outliers. In this paper, we classify existing semi-supervised AD methods into two categories: unsupervised-based and supervised-based, and point out that most of them suffer from insufficient exploitation of labeled data and under-exploration of unlabeled data. To tackle these problems, we propose Deep Anomaly Detection and Search (DADS), which applies Reinforcement Learning (RL) to balance exploitation and exploration. During the training process, the agent searches for possible anomalies with hierarchically-structured datasets and uses the searched anomalies to enhance performance, which in essence draws lessons from the idea of ensemble learning. Experimentally, we compare DADS with several state-of-the-art methods in the settings of leveraging labeled known anomalies to detect both other known anomalies and unknown anomalies. Results show that DADS can efficiently and precisely search anomalies from unlabeled data and learn from them, thus achieving good performance.
翻訳日:2022-09-01 13:38:25 公開日:2022-08-31
# バンディットのフェデレーションオンラインクラスタリング

Federated Online Clustering of Bandits ( http://arxiv.org/abs/2208.14865v1 )

ライセンス: Link先を確認
Xutong Liu, Haoru Zhao, Tong Yu, Shuai Li, John C.S. Lui(参考訳) コンテキスト多重武装バンディット(MAB)はレコメンデーションシステムにおいて重要な意思決定問題である。 CLUB(Clustering of bandits)と呼ばれる一連の作業は、ユーザに対する協調的な効果を活用し、推奨品質を劇的に改善する。 アプリケーションの規模が拡大し、プライバシに関する公の関心が高まる中、ユーザデータの分散化と、ローカルサーバ側へのバンディット学習のプッシュが求められている。 しかし、既存のCLUBアルゴリズムは、中央サーバでデータが利用できる集中型環境下で設計されている。 我々は,プライバシやコミュニケーションの考慮事項を満足しつつ,全体の後悔を最小限に抑えることを目的とした,FCLUB(Bandit)問題の連合的オンラインクラスタリングの研究に焦点をあてる。 本稿では,クラスタ検出のための新しいフェーズベーススキームと,協調バンディット学習のための新しい非同期通信プロトコルを提案する。 ユーザのプライバシを保護するため,従来の差分プライバシー(DP)定義はあまり適切ではなく,ユーザクラスタレベルで機能する新しいDP概念を提案する。 本稿では,このアルゴリズムがDP,サブ線形通信複雑性,サブ線形後悔を同時に達成することを示す厳密な証明を提供する。 最後に,ベンチマークアルゴリズムよりも優れた性能を示す実験評価を行った。

Contextual multi-armed bandit (MAB) is an important sequential decision-making problem in recommendation systems. A line of works, called the clustering of bandits (CLUB), utilize the collaborative effect over users and dramatically improve the recommendation quality. Owing to the increasing application scale and public concerns about privacy, there is a growing demand to keep user data decentralized and push bandit learning to the local server side. Existing CLUB algorithms, however, are designed under the centralized setting where data are available at a central server. We focus on studying the federated online clustering of bandit (FCLUB) problem, which aims to minimize the total regret while satisfying privacy and communication considerations. We design a new phase-based scheme for cluster detection and a novel asynchronous communication protocol for cooperative bandit learning for this problem. To protect users' privacy, previous differential privacy (DP) definitions are not very suitable, and we propose a new DP notion that acts on the user cluster level. We provide rigorous proofs to show that our algorithm simultaneously achieves (clustered) DP, sublinear communication complexity and sublinear regret. Finally, experimental evaluations show our superior performance compared with benchmark algorithms.
翻訳日:2022-09-01 13:38:06 公開日:2022-08-31
# 概念グラディエント: 線形推定のない概念に基づく解釈

Concept Gradient: Concept-based Interpretation Without Linear Assumption ( http://arxiv.org/abs/2208.14966v1 )

ライセンス: Link先を確認
Andrew Bai, Chih-Kuan Yeh, Pradeep Ravikumar, Neil Y. C. Lin, Cho-Jui Hsieh(参考訳) ブラックボックスモデルの概念に基づく解釈は、人間にとって理解しやすいことが多い。 概念に基づく解釈の最も広く採用されているアプローチは概念活性化ベクトル(cav)である。 CAVは与えられたモデルと概念の潜在表現の間の線形関係を学ぶことに依存する。 線型分離性は通常暗黙的に仮定されるが、一般には成り立たない。 本研究では,概念ベース解釈の本来の意図から始まり,概念ベース解釈を線形概念関数を超えて拡張する概念グラディエント(CG)を提案する。 一般の(潜在的に非線形な)概念に対して、モデルの予測に影響を及ぼす概念の小さな変化がいかにして、勾配に基づく解釈を概念空間に拡張するかを数学的に評価できることを示した。 cgがおもちゃの例と現実世界のデータセットの両方でcavを上回っていることを実証した。

Concept-based interpretations of black-box models are often more intuitive for humans to understand. The most widely adopted approach for concept-based interpretation is Concept Activation Vector (CAV). CAV relies on learning a linear relation between some latent representation of a given model and concepts. The linear separability is usually implicitly assumed but does not hold true in general. In this work, we started from the original intent of concept-based interpretation and proposed Concept Gradient (CG), extending concept-based interpretation beyond linear concept functions. We showed that for a general (potentially non-linear) concept, we can mathematically evaluate how a small change of concept affecting the model's prediction, which leads to an extension of gradient-based interpretation to the concept space. We demonstrated empirically that CG outperforms CAV in both toy examples and real world datasets.
翻訳日:2022-09-01 13:37:45 公開日:2022-08-31
# Hinge Pairwise Distance Loss と Orthogonal Representation を用いた一級勧告システム

One-class Recommendation Systems with the Hinge Pairwise Distance Loss and Orthogonal Representations ( http://arxiv.org/abs/2208.14594v1 )

ライセンス: Link先を確認
Ramin Raziperchikolaei, Young-joo Chung(参考訳) 一クラスレコメンデーションシステムでは、対話されたユーザとアイテムの小さなセットからモデルを学習し、未知のインタラクションを持つ多数のペアのうち、肯定的に関連するユーザとイテムのペアを特定する。 これまでの損失関数のほとんどは、未知のインタラクションを持つユーザから選択されたユーザとアイテムの相似ペアに依存して、より良い予測性能を得る。 この戦略では、トレーニング時間の増加や、"未知の相互作用を持つ類似のペア"を類似のペアとして選択することでパフォーマンスを損なうなど、いくつかの課題が導入されている。 本稿では,モデルトレーニングに類似したセットのみを使用することが目的である。 モデルが類似のペアでのみ訓練されたときに収束する3つの自明な解(崩壊、部分的に崩壊、縮小)を指摘する。 これらの解を避けるために,文献の目的関数に追加できる用語を2つ提案する。 1つ目はヒンジの対角距離損失であり、全ての表現の平均対角距離をマージンよりも大きいものにすることで、縮小および崩壊した解を避ける。 2つ目は直交項であり、表現の次元間の相関を最小化し、部分的に崩壊した解を避ける。 公開および実世界のデータセット上で、さまざまなタスクの実験を行います。 その結果, 類似のペアのみを用いた手法は, 類似のペアと多数の異種ペアを用いた最先端手法よりも優れていた。

In one-class recommendation systems, the goal is to learn a model from a small set of interacted users and items and then identify the positively-related user-item pairs among a large number of pairs with unknown interactions. Most previous loss functions rely on dissimilar pairs of users and items, which are selected from the ones with unknown interactions, to obtain better prediction performance. This strategy introduces several challenges such as increasing training time and hurting the performance by picking "similar pairs with the unknown interactions" as dissimilar pairs. In this paper, the goal is to only use the similar set to train the models. We point out three trivial solutions that the models converge to when they are trained only on similar pairs: collapsed, partially collapsed, and shrinking solutions. We propose two terms that can be added to the objective functions in the literature to avoid these solutions. The first one is a hinge pairwise distance loss that avoids the shrinking and collapsed solutions by keeping the average pairwise distance of all the representations greater than a margin. The second one is an orthogonality term that minimizes the correlation between the dimensions of the representations and avoids the partially collapsed solution. We conduct experiments on a variety of tasks on public and real-world datasets. The results show that our approach using only similar pairs outperforms state-of-the-art methods using similar pairs and a large number of dissimilar pairs.
翻訳日:2022-09-01 13:37:32 公開日:2022-08-31
# 知識ベース更新のためのトピック対応グラフニューラルネットワークモデル

A topic-aware graph neural network model for knowledge base updating ( http://arxiv.org/abs/2208.14601v1 )

ライセンス: Link先を確認
Jiajun Tong, Zhixiao Wang, Xiaobin Rui(参考訳) オープンドメインの知識基盤は非常に重要です。 典型的には百科事典のウェブサイトから抽出され、知識検索システム、質問応答システム、レコメンデーションシステムで広く利用されている。 実際、重要な課題は、最新の知識ベースを維持することです。 Unwieldyが百科事典のダンプからすべてのデータをフェッチするのと異なり、無効なフェッチを避けながら、可能な限り知識ベースの鮮度を拡大するため、現在の知識ベース更新方法は通常、予測モデルを構築してエンティティを更新する必要があるかどうかを判断する。 しかし、これらの手法は特定のフィールドでのみ定義することができ、その結果、データソースやデータ構造の問題により明らかなバイアスとなることが判明した。 ユーザのクエリ意図はオープンドメインの知識に関して多様であり,ユーザクエリログに基づいた知識更新のためのトピック対応グラフネットワークを構築している。 我々の手法は次のように要約できる。 1. ユーザのログからエンティティを抽出し、種として選択する 2. 百科事典ウェブサイトにおける種実体の属性を抽出し、各エンティティの属性グラフを自己管理的に構築する。 3. エンティティ属性グラフを使用して、GNNエンティティ更新モデルをトレーニングし、エンティティを同期する必要があるかどうかを判断する。 4. 最小編集時間アルゴリズムにより、百科事典知識を用いて、フィルタリングされたエンティティを知識ベース内のエンティティとマッチングして更新する。

The open domain knowledge base is very important. It is usually extracted from encyclopedia websites and is widely used in knowledge retrieval systems, question answering systems, or recommendation systems. In practice, the key challenge is to maintain an up-to-date knowledge base. Different from Unwieldy fetching all of the data from the encyclopedia dumps, to enlarge the freshness of the knowledge base as big as possible while avoiding invalid fetching, the current knowledge base updating methods usually determine whether entities need to be updated by building a prediction model. However, these methods can only be defined in some specific fields and the result turns out to be obvious bias, due to the problem of data source and data structure. The users' query intentions are often diverse as to the open domain knowledge, so we construct a topic-aware graph network for knowledge updating based on the user query log. Our methods can be summarized as follow: 1. Extract entities through the user's log and select them as seeds 2. Scrape the attributes of seed entities in the encyclopedia website, and self-supervised construct the entity attribute graph for each entity. 3. Use the entity attribute graph to train the GNN entity update model to determine whether the entity needs to be synchronized. 4.Use the encyclopedia knowledge to match and update the filtered entity with the entity in the knowledge base according to the minimum edit times algorithm.
翻訳日:2022-09-01 13:37:08 公開日:2022-08-31
# 3DLG-detector:局所的特徴学習による3次元物体検出

3DLG-Detector: 3D Object Detection via Simultaneous Local-Global Feature Learning ( http://arxiv.org/abs/2208.14796v1 )

ライセンス: Link先を確認
Baian Chen, Liangliang Nan, Haoran Xie, Dening Lu, Fu Lee Wang and Mingqiang Wei(参考訳) 不規則点雲の局所的特徴と大域的特徴の捕獲は、3次元物体検出(3OD)に不可欠である。 しかし、VoteNetなどの主流の3D検出器は、プール操作中にかなりの局所的な特徴を放棄するか、シーン全体のグローバルな特徴を無視している。 本稿では,3odを正に利用するシーンポイント雲の局所的グローバル特徴を同時に学習するモジュールについて検討する。 そこで本研究では,局所的特徴学習(3DLG-Detector)による効果的な3ODネットワークを提案する。 3DLG-Detectorには2つの重要な貢献がある。 まず、プール中の効果的なローカル機能を保存するDynamic Points Interaction (DPI)モジュールを開発する。 さらにDPIは分離可能で、既存の3ODネットワークに組み込んでパフォーマンスを向上させることができる。 第二に、エンコーダの異なるレイヤからマルチスケール機能を集約してシーンコンテキスト認識を実現するGlobal Context Aggregationモジュールを開発する。 本手法は,SUN RGB-DデータセットとScanNetデータセットの両方において,検出精度とロバスト性の観点から,13の競合に対して改善を示す。 ソースコードは公開時に入手できる。

Capturing both local and global features of irregular point clouds is essential to 3D object detection (3OD). However, mainstream 3D detectors, e.g., VoteNet and its variants, either abandon considerable local features during pooling operations or ignore many global features in the whole scene context. This paper explores new modules to simultaneously learn local-global features of scene point clouds that serve 3OD positively. To this end, we propose an effective 3OD network via simultaneous local-global feature learning (dubbed 3DLG-Detector). 3DLG-Detector has two key contributions. First, it develops a Dynamic Points Interaction (DPI) module that preserves effective local features during pooling. Besides, DPI is detachable and can be incorporated into existing 3OD networks to boost their performance. Second, it develops a Global Context Aggregation module to aggregate multi-scale features from different layers of the encoder to achieve scene context-awareness. Our method shows improvements over thirteen competitors in terms of detection accuracy and robustness on both the SUN RGB-D and ScanNet datasets. Source code will be available upon publication.
翻訳日:2022-09-01 13:34:25 公開日:2022-08-31
# 超分解能のためのQuantNAS : 量子化ノイズに対する効率的な量子化フレンドリなアーキテクチャの探索

QuantNAS for super resolution: searching for efficient quantization-friendly architectures against quantization noise ( http://arxiv.org/abs/2208.14839v1 )

ライセンス: Link先を確認
Egor Shvetsov, Dmitry Osin, Alexey Zaytsev, Ivan Koryakovskiy, Valentin Buchnev, Ilya Trofimov, Evgeny Burnaev(参考訳) 低容量デバイスでよく使用される画像超解像(SR)に対して、高性能で計算効率のよいニューラルネットワークモデルが常に必要である。 そのようなモデルを得る一つの方法は、例えば量子化のような既存のアーキテクチャを圧縮することである。 別の選択肢として、新しい効率的なソリューションを発見するニューラルネットワーク検索(nas)がある。 本稿では,SR探索空間を具体的に設計した新しい量子化対応NAS手法を提案する。 我々の手法は、量子化フレンドリなSRモデルを見つけるためにNASを実行する。 探索はパラメータを直接量子化するのではなく、パラメータやアクティベーションに量子化ノイズを加えることに依存する。 固定アーキテクチャの均一または混合精度量子化よりもpsnr/bitopsトレードオフの優れたアーキテクチャを見出した。 さらに,重みを直接定量化するよりも,雑音に対する探索が最大30%高速である。

There is a constant need for high-performing and computationally efficient neural network models for image super-resolution (SR) often used on low-capacity devices. One way to obtain such models is to compress existing architectures, e.g. quantization. Another option is a neural architecture search (NAS) that discovers new efficient solutions. We propose a novel quantization-aware NAS procedure for a specifically designed SR search space. Our approach performs NAS to find quantization-friendly SR models. The search relies on adding quantization noise to parameters and activations instead of quantizing parameters directly. Our QuantNAS finds architectures with better PSNR/BitOps trade-off than uniform or mixed precision quantization of fixed architectures. Additionally, our search against noise procedure is up to 30% faster than directly quantizing weights.
翻訳日:2022-09-01 13:34:07 公開日:2022-08-31
# グループ活動認識のための注意プール

Attentive pooling for Group Activity Recognition ( http://arxiv.org/abs/2208.14847v1 )

ライセンス: Link先を確認
Ding Li, Yuan Xie, Wensheng Zhang, Yongqiang Tang and Zhizhong Zhang(参考訳) グループアクティビティ認識では、階層的フレームワークが個人とそのグループ間の関係を表現するために広く採用され、有望なパフォーマンスを達成している。 しかし, 従来の手法では, グループ活動認識に対する個人差が無視され, 最大/平均プール方式が採用されていた。 本稿では,個々の行動からグループ活動への重み付け情報移行を可能にする,注意プーリングと呼ばれる新しい文脈プーリングスキームを提案する。 注意機構を利用することで、注意プーリングは本質的に解釈可能であり、既存の階層モデルにメンバーコンテキストを組み込むことができる。 提案手法の有効性を検証するため,大域的注意プール (GAP) と階層的注意プール (HAP) の2つの具体的な注意プール法を設計した。 GAPはグループ活動に重要な個人に報酬を与える一方、HAPはサブグループ構造を導入することで階層的区分をさらに考慮する。 ベンチマークデータセットにおける実験結果は,提案手法がベースラインよりも著しく優れ,最先端手法に匹敵することを示した。

In group activity recognition, hierarchical framework is widely adopted to represent the relationships between individuals and their corresponding group, and has achieved promising performance. However, the existing methods simply employed max/average pooling in this framework, which ignored the distinct contributions of different individuals to the group activity recognition. In this paper, we propose a new contextual pooling scheme, named attentive pooling, which enables the weighted information transition from individual actions to group activity. By utilizing the attention mechanism, the attentive pooling is intrinsically interpretable and able to embed member context into the existing hierarchical model. In order to verify the effectiveness of the proposed scheme, two specific attentive pooling methods, i.e., global attentive pooling (GAP) and hierarchical attentive pooling (HAP) are designed. GAP rewards the individuals that are significant to group activity, while HAP further considers the hierarchical division by introducing subgroup structure. The experimental results on the benchmark dataset demonstrate that our proposal is significantly superior beyond the baseline and is comparable to the state-of-the-art methods.
翻訳日:2022-09-01 13:33:57 公開日:2022-08-31
# Dual-Space NeRF: 異なる空間におけるアニマタブルアバターとシーンライティングの学習

Dual-Space NeRF: Learning Animatable Avatars and Scene Lighting in Separate Spaces ( http://arxiv.org/abs/2208.14851v1 )

ライセンス: Link先を確認
Yihao Zhi, Shenhan Qian, Xinhao Yan, Shenghua Gao(参考訳) 人体をカノニカルな空間でモデリングすることは、キャプチャとアニメーションの一般的なプラクティスである。 しかし、神経放射野(nerf)が関与する場合は、場面の照明が一定であっても体の動きが変化するため、正準空間で静的なnerfを学ぶだけでは不十分である。 従来の方法はフレームごとの埋め込みを学習することで照明の不整合を緩和するが、この操作は目に見えないポーズに一般化しない。 人間の体は正準空間に一貫しているが、照明条件は世界空間において静的であるので、2つの異なる空間に2つのmlpを持つシーン照明と人体をモデル化する二重空間nerfを提案する。 これら2つの空間を橋渡しするために、以前の手法は主に線形ブレンドスキニング(lbs)アルゴリズムに依存している。 しかし、動的ニューラルネットワークのLBSのブレンディングウェイトは難易度が高く、通常は他のMLPと記憶されるため、新しいポーズには一般化されない。 SMPLのようなパラメトリックメッシュのブレンディングウェイトを借用することは可能であるが、補間操作はより多くのアーティファクトを導入する。 本稿では,非知覚姿勢に直接一般化でき,ニューラルネットワークのブレンド重みを持つlbsよりも驚くほど優れた結果が得られるbarycentric mappingの利用を提案する。 Human3.6MとZJU-MoCapデータセットの定量的および定性的な結果から,本手法の有効性が示された。

Modeling the human body in a canonical space is a common practice for capturing and animation. But when involving the neural radiance field (NeRF), learning a static NeRF in the canonical space is not enough because the lighting of the body changes when the person moves even though the scene lighting is constant. Previous methods alleviate the inconsistency of lighting by learning a per-frame embedding, but this operation does not generalize to unseen poses. Given that the lighting condition is static in the world space while the human body is consistent in the canonical space, we propose a dual-space NeRF that models the scene lighting and the human body with two MLPs in two separate spaces. To bridge these two spaces, previous methods mostly rely on the linear blend skinning (LBS) algorithm. However, the blending weights for LBS of a dynamic neural field are intractable and thus are usually memorized with another MLP, which does not generalize to novel poses. Although it is possible to borrow the blending weights of a parametric mesh such as SMPL, the interpolation operation introduces more artifacts. In this paper, we propose to use the barycentric mapping, which can directly generalize to unseen poses and surprisingly achieves superior results than LBS with neural blending weights. Quantitative and qualitative results on the Human3.6M and the ZJU-MoCap datasets show the effectiveness of our method.
翻訳日:2022-09-01 13:33:38 公開日:2022-08-31
# 半教師付き時間行動定位のための効果的なスコアリング機能付きアクティブラーニング

Active Learning with Effective Scoring Functions for Semi-Supervised Temporal Action Localization ( http://arxiv.org/abs/2208.14856v1 )

ライセンス: Link先を確認
Ding Li, Xuebing Yang, Yongqiang Tang, Chenyang Zhang and Wensheng Zhang(参考訳) 時間的アクションローカライゼーション(TAL)は、未トリミングビデオ(開始時間と終了時間)におけるアクションのカテゴリと時間的境界の両方を予測することを目的としている。 完全な教師付き解は、通常、ほとんどの既存の作品で採用され、効果的であることが証明されている。 これらのソリューションの現実的なボトルネックのひとつは、大量のラベル付きトレーニングデータを必要とすることだ。 人為的ラベルコストの低減を図るため,半教師型talという課題に焦点をあて,AL-STALという効果的なアクティブラーニング手法を提案する。 我々は,高情報度ビデオサンプルを積極的に選択する4つのステップを活用し,ローカライズモデルである \emph{train, query, annotate, append} を訓練する。 ローカライゼーションモデルの不確実性を考慮した2つのスコアリング関数をAL-STALに装備することにより,ビデオサンプルのランクと選択を容易にする。 予測ラベル分布のエントロピーは、TPE(Temporal Proposal Entropy)と呼ばれる不確実性の尺度である。 また,隣接する行動提案間の相互情報に基づく新たな指標を導入し,tci(temporal context inconsistency)と呼ばれるビデオサンプルのインフォメーション性を評価する。 提案手法の有効性を検証するため、2つのベンチマークデータセットTHUMOS'14とActivityNet 1.3について広範な実験を行った。 実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。

Temporal Action Localization (TAL) aims to predict both action category and temporal boundary of action instances in untrimmed videos, i.e., start and end time. Fully-supervised solutions are usually adopted in most existing works, and proven to be effective. One of the practical bottlenecks in these solutions is the large amount of labeled training data required. To reduce expensive human label cost, this paper focuses on a rarely investigated yet practical task named semi-supervised TAL and proposes an effective active learning method, named AL-STAL. We leverage four steps for actively selecting video samples with high informativeness and training the localization model, named \emph{Train, Query, Annotate, Append}. Two scoring functions that consider the uncertainty of localization model are equipped in AL-STAL, thus facilitating the video sample rank and selection. One takes entropy of predicted label distribution as measure of uncertainty, named Temporal Proposal Entropy (TPE). And the other introduces a new metric based on mutual information between adjacent action proposals and evaluates the informativeness of video samples, named Temporal Context Inconsistency (TCI). To validate the effectiveness of proposed method, we conduct extensive experiments on two benchmark datasets THUMOS'14 and ActivityNet 1.3. Experiment results show that AL-STAL outperforms the existing competitors and achieves satisfying performance compared with fully-supervised learning.
翻訳日:2022-09-01 13:33:13 公開日:2022-08-31
# DenseNet と Gaussian プロセスに基づく石炭・岩・ガングの自動同定

Automatic Identification of Coal and Rock/Gangue Based on DenseNet and Gaussian Process ( http://arxiv.org/abs/2208.14871v1 )

ライセンス: Link先を確認
Yufan Li(参考訳) 石炭の純度を向上し、石炭採掘機の損傷を防止するためには、地下炭鉱における石炭と岩石の同定が必要である。 同時に、採掘された石炭は、岩や溝を取り除くために浄化する必要がある。 これら2つの手順は、ほとんどの炭鉱の労働者が手動で行う。 自動識別と浄化の実現は、炭鉱の自動化に寄与するだけでなく、労働者の安全を確保する。 画像に基づく手法による識別の可能性について議論する。 どちらのシナリオでも使用可能な解を見出すため,dungnet が抽出した画像特徴をgaussian プロセスに転送するモデルを提案し,地表で撮影された画像に基づいてトレーニングを行い,地下で撮影された画像の高精度化を実現する。 本手法は,石炭の同定や岩石・ガングの同定など,数発学習において強力であり,炭鉱の自動化を実現する上で有用であると考えられる。

To improve the purity of coal and prevent damage to the coal mining machine, it is necessary to identify coal and rock in underground coal mines. At the same time, the mined coal needs to be purified to remove rock and gangue. These two procedures are manually operated by workers in most coal mines. The realization of automatic identification and purification is not only conducive to the automation of coal mines, but also ensures the safety of workers. We discuss the possibility of using image-based methods to distinguish them. In order to find a solution that can be used in both scenarios, a model that forwards image feature extracted by DenseNet to Gaussian process is proposed, which is trained on images taken on surface and achieves high accuracy on images taken underground. This indicates our method is powerful in few-shot learning such as identification of coal and rock/gangue and might be beneficial for realizing automation in coal mines.
翻訳日:2022-09-01 13:32:48 公開日:2022-08-31
# 共同パーソナライズされたスパースハッシュによるバイナリ表現

Binary Representation via Jointly Personalized Sparse Hashing ( http://arxiv.org/abs/2208.14883v1 )

ライセンス: Link先を確認
Xiaoqin Wang, Chen Chen, Rushi Lan, Licheng Liu, Zhenbing Liu, Huiyu Zhou and Xiaonan Luo(参考訳) 教師なしハッシュは、経済的記憶とバイナリコードの効率が要求されるため、バイナリ表現学習に大きな注目を集めている。 ハムミング空間の高次元特徴を、インスタンス間の類似性保存でエンコードすることを目的としている。 しかし、既存のほとんどのメソッドは多様体ベースのアプローチでハッシュ関数を学習する。 これらの手法はデータの局所的な幾何学的構造(すなわちペア関係)を捉え、異なる意味情報で類似した特徴(色と形)を生成する現実世界のシナリオを扱うのに十分な性能を欠いている。 この課題に対処するため,本研究では,バイナリ表現学習のための効果的な非教師なし手法,すなわちjpsh(jointly personal sparse hashing)を提案する。 まず,パーソナライズされたパーソナライズされたハッシュモジュール,すなわちパーソナライズされたスパースハッシュ(PSH)を提案する。 異なるパーソナライズされたサブスペースは、異なるクラスタのカテゴリ固有の属性を反映するように構成され、同一クラスタ内のインスタンスを同じハミング空間に適応的にマッピングする。 さらに、異なるパーソナライズされたサブスペースに対するスパース制約をデプロイし、重要な機能を選択する。 PSHモジュールを構築するために,他のクラスタの強度も収集しています。 そして,JPSHにおける意味的・対の類似性を同時に保存するために,PSHと多様体に基づくハッシュ学習をシームレスな定式化に組み込む。 そのため、JPSHはインスタンスを異なるクラスタから区別するだけでなく、クラスタ内の局所的な近傍構造も保持する。 最後に、jpshモデルの解析解を反復的に捉えるために交互最適化アルゴリズムを採用する。 4つのベンチマークデータセットに対する大規模な実験により、JPSHは類似性検索タスクにおいていくつかのハッシュアルゴリズムより優れていることが確認された。

Unsupervised hashing has attracted much attention for binary representation learning due to the requirement of economical storage and efficiency of binary codes. It aims to encode high-dimensional features in the Hamming space with similarity preservation between instances. However, most existing methods learn hash functions in manifold-based approaches. Those methods capture the local geometric structures (i.e., pairwise relationships) of data, and lack satisfactory performance in dealing with real-world scenarios that produce similar features (e.g. color and shape) with different semantic information. To address this challenge, in this work, we propose an effective unsupervised method, namely Jointly Personalized Sparse Hashing (JPSH), for binary representation learning. To be specific, firstly, we propose a novel personalized hashing module, i.e., Personalized Sparse Hashing (PSH). Different personalized subspaces are constructed to reflect category-specific attributes for different clusters, adaptively mapping instances within the same cluster to the same Hamming space. In addition, we deploy sparse constraints for different personalized subspaces to select important features. We also collect the strengths of the other clusters to build the PSH module with avoiding over-fitting. Then, to simultaneously preserve semantic and pairwise similarities in our JPSH, we incorporate the PSH and manifold-based hash learning into the seamless formulation. As such, JPSH not only distinguishes the instances from different clusters, but also preserves local neighborhood structures within the cluster. Finally, an alternating optimization algorithm is adopted to iteratively capture analytical solutions of the JPSH model. Extensive experiments on four benchmark datasets verify that the JPSH outperforms several hashing algorithms on the similarity search task.
翻訳日:2022-09-01 13:32:31 公開日:2022-08-31
# マルチスケール局所線形変換学習によるRGB-Dポイントクラウド登録の改善

Improving RGB-D Point Cloud Registration by Learning Multi-scale Local Linear Transformation ( http://arxiv.org/abs/2208.14893v1 )

ライセンス: Link先を確認
Ziming Wang, Xiaoliang Huo, Zhenghao Chen, Jing Zhang, Lu Sheng, Dong Xu(参考訳) 点クラウド登録は、2点クラウドスキャン間の幾何学的変換を推定することを目的としており、点対応推定がその成功の鍵となる。 近年,手作り・学習した幾何学的特徴による対応を求める従来の手法に加えて,RGB-Dデータを用いてより正確な対応を試みている。 しかし、これらの2つの特異なモード、特に登録問題から幾何学的および視覚的情報を効果的に解き放つことは容易ではない。 本研究では,多スケールの局所線形変換を用いて,深度データからの幾何学的特徴を幾何依存畳み込み核として作用させ,rgbデータから視覚的特徴を変換する,新たな幾何認識型視覚特徴抽出器(gave)を提案する。 結果として得られる視覚幾何学的特徴は、幾何学的変化による視覚的相違を緩和した標準的特徴空間にあり、より信頼性の高い対応が達成できる。 提案されたGAVEモジュールは、最新のRGB-Dポイントクラウド登録フレームワークに簡単にプラグインできる。 3D Match と ScanNet の大規模な実験により,我々の手法は通信やポーズの監督なしに,最先端のクラウド登録方法よりも優れていることが示された。 コードはhttps://github.com/514dna/llt。

Point cloud registration aims at estimating the geometric transformation between two point cloud scans, in which point-wise correspondence estimation is the key to its success. In addition to previous methods that seek correspondences by hand-crafted or learnt geometric features, recent point cloud registration methods have tried to apply RGB-D data to achieve more accurate correspondence. However, it is not trivial to effectively fuse the geometric and visual information from these two distinctive modalities, especially for the registration problem. In this work, we propose a new Geometry-Aware Visual Feature Extractor (GAVE) that employs multi-scale local linear transformation to progressively fuse these two modalities, where the geometric features from the depth data act as the geometry-dependent convolution kernels to transform the visual features from the RGB data. The resultant visual-geometric features are in canonical feature spaces with alleviated visual dissimilarity caused by geometric changes, by which more reliable correspondence can be achieved. The proposed GAVE module can be readily plugged into recent RGB-D point cloud registration framework. Extensive experiments on 3D Match and ScanNet demonstrate that our method outperforms the state-of-the-art point cloud registration methods even without correspondence or pose supervision. The code is available at: https://github.com/514DNA/LLT.
翻訳日:2022-09-01 13:32:02 公開日:2022-08-31
# ペアワイド深層学習機能を用いた弱可視環境微生物画像のセグメンテーション

Segmentation of Weakly Visible Environmental Microorganism Images Using Pair-wise Deep Learning Features ( http://arxiv.org/abs/2208.14957v1 )

ライセンス: Link先を確認
Frank Kulwa, Chen Li, Marcin Grzegorzek, Md Mamunur Rahaman, Kimiaki Shirahama, Sergey Kosov(参考訳) 環境微生物(EM)の使用は、汚染物質のモニタリングと分解によって、環境汚染に対する高効率で低コストで無害な対策を提供する。 これは、EMが正しくセグメント化され、識別される方法に依存する。 本研究では,透明でノイズが少なく,コントラストの少ない弱可視EM画像のセグメンテーションを強化することを目的として,Pairwise Deep Learning Feature Network (PDLF-Net)を提案する。 PDLFを使用することで、各画像の対角深層学習機能をベースモデルのSegNetの異なるブロックに結合することにより、ネットワークはフォアグラウンド(EM)にもっと集中することができる。 また,shiおよびtomasディスクリプタを利用して,vgg-16モデルを用いて各ディスクリプタを中心に,パッチ上の各イメージの深い特徴を抽出する。 そして、記述子間の中間特性を学習するために、デラウネー三角定理に基づいて特徴のペアリングを行い、ペアワイズ深層学習特徴を形成する。 この実験でpdlf-netは89.24%, 63.20%, 77.27%, 35.15%, 89.72%, 91.44%, voe, 感度, 精度, 特異性において, 優れたセグメンテーション結果を得た。

The use of Environmental Microorganisms (EMs) offers a highly efficient, low cost and harmless remedy to environmental pollution, by monitoring and decomposing of pollutants. This relies on how the EMs are correctly segmented and identified. With the aim of enhancing the segmentation of weakly visible EM images which are transparent, noisy and have low contrast, a Pairwise Deep Learning Feature Network (PDLF-Net) is proposed in this study. The use of PDLFs enables the network to focus more on the foreground (EMs) by concatenating the pairwise deep learning features of each image to different blocks of the base model SegNet. Leveraging the Shi and Tomas descriptors, we extract each image's deep features on the patches, which are centered at each descriptor using the VGG-16 model. Then, to learn the intermediate characteristics between the descriptors, pairing of the features is performed based on the Delaunay triangulation theorem to form pairwise deep learning features. In this experiment, the PDLF-Net achieves outstanding segmentation results of 89.24%, 63.20%, 77.27%, 35.15%, 89.72%, 91.44% and 89.30% on the accuracy, IoU, Dice, VOE, sensitivity, precision and specificity, respectively.
翻訳日:2022-09-01 13:31:39 公開日:2022-08-31
# MotionDiffuse:拡散モデルを用いたテキスト駆動型ヒューマンモーション生成

MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model ( http://arxiv.org/abs/2208.15001v1 )

ライセンス: Link先を確認
Mingyuan Zhang, Zhongang Cai, Liang Pan, Fangzhou Hong, Xinying Guo, Lei Yang, Ziwei Liu(参考訳) 人間の動作モデリングは、プロのスキルを必要とする多くの現代のグラフィックアプリケーションにとって重要である。 在職者のスキル障壁を取り除くために,近年のモーション生成手法では,自然言語に基づく人間の動きを直接生成することができる。 しかし、様々なテキスト入力で多種多様な微粒な動き生成を実現することは依然として困難である。 この問題に対処するため、我々は、既存の手法よりもいくつかの望ましい特性を示す最初の拡散モデルに基づくテキスト駆動モーション生成フレームワークであるMotionDiffuseを提案する。 1)確率的マッピング。 決定論的言語と動きのマッピングの代わりに、motiondiffuseは変動が注入される一連の分節ステップを通して動きを生成する。 2)リアルな合成。 MotionDiffuseは複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成する。 3)マルチレベル操作。 motiondiffuseは身体部位の細かな指示に応答し、時間変化のあるテキストプロンプトで任意の長さの動き合成を行う。 本実験は,テキスト駆動型モーション生成と動作条件付きモーション生成において,既存のSoTA手法よりも優れていることを示す。 定性解析により、総合的な動き生成に対するmotiondiffuseの制御性がさらに示される。 ホームページ:https://mingyuan-zhang.github.io/projects/MotionDiffuse.html

Human motion modeling is important for many modern graphics applications, which typically require professional skills. In order to remove the skill barriers for laymen, recent motion generation methods can directly generate human motions conditioned on natural languages. However, it remains challenging to achieve diverse and fine-grained motion generation with various text inputs. To address this problem, we propose MotionDiffuse, the first diffusion model-based text-driven motion generation framework, which demonstrates several desired properties over existing methods. 1) Probabilistic Mapping. Instead of a deterministic language-motion mapping, MotionDiffuse generates motions through a series of denoising steps in which variations are injected. 2) Realistic Synthesis. MotionDiffuse excels at modeling complicated data distribution and generating vivid motion sequences. 3) Multi-Level Manipulation. MotionDiffuse responds to fine-grained instructions on body parts, and arbitrary-length motion synthesis with time-varied text prompts. Our experiments show MotionDiffuse outperforms existing SoTA methods by convincing margins on text-driven motion generation and action-conditioned motion generation. A qualitative analysis further demonstrates MotionDiffuse's controllability for comprehensive motion generation. Homepage: https://mingyuan-zhang.github.io/projects/MotionDiffuse.html
翻訳日:2022-09-01 13:31:14 公開日:2022-08-31
# SIM-Trans:微細視覚分類のための構造情報モデリング変換器

SIM-Trans: Structure Information Modeling Transformer for Fine-grained Visual Categorization ( http://arxiv.org/abs/2208.14607v1 )

ライセンス: Link先を確認
Hongbo Sun, Xiangteng He, Yuxin Peng(参考訳) 細粒度視覚分類(FGVC)は、人間の正確な自動認識のニーズに対して困難かつ実用的な、類似の下位カテゴリから物体を認識することを目的としている。 多くのFGVCアプローチは、相互依存を無視しながら、識別領域のマイニングのための注意機構の研究に重点を置いており、モデルの識別情報ローカライゼーションと理解能力に不可欠な全体的対象構造を構成している。 上記の制約に対処するために,オブジェクト構造情報を変換器に組み込む構造情報モデリング変換器(SIM-Trans)を提案し,その外観情報と構造情報の両方を含む識別表現学習を強化する。 具体的には、イメージをパッチトークンのシーケンスにエンコードし、2つのよく設計されたモジュールで強力なビジョントランスフォーマーフレームワークを構築する。 (i)構造情報学習(sil)モジュールは、トランスの自己付着重みの助けを借りて、対象範囲内の重要なパッチの空間的文脈関係を発掘するために提案され、さらに構造情報をインポートするためのモデルに注入される。 (II)マルチレベル特徴増強(MFB)モジュールを導入し,マルチレベル特徴の相補性とクラス間のコントラスト学習を活用し,特徴の堅牢性を高める。 提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークに差し込むことができ、訓練されたエンドツーエンドを容易に行うことができる。 広汎な実験と解析により、SIM-Transは、きめ細かい視覚分類ベンチマークで最先端の性能を達成することを示した。 コードはhttps://github.com/PKU-ICST-MIPL/SIM-Trans_ACMMM2022で公開されている。

Fine-grained visual categorization (FGVC) aims at recognizing objects from similar subordinate categories, which is challenging and practical for human's accurate automatic recognition needs. Most FGVC approaches focus on the attention mechanism research for discriminative regions mining while neglecting their interdependencies and composed holistic object structure, which are essential for model's discriminative information localization and understanding ability. To address the above limitations, we propose the Structure Information Modeling Transformer (SIM-Trans) to incorporate object structure information into transformer for enhancing discriminative representation learning to contain both the appearance information and structure information. Specifically, we encode the image into a sequence of patch tokens and build a strong vision transformer framework with two well-designed modules: (i) the structure information learning (SIL) module is proposed to mine the spatial context relation of significant patches within the object extent with the help of the transformer's self-attention weights, which is further injected into the model for importing structure information; (ii) the multi-level feature boosting (MFB) module is introduced to exploit the complementary of multi-level features and contrastive learning among classes to enhance feature robustness for accurate recognition. The proposed two modules are light-weighted and can be plugged into any transformer network and trained end-to-end easily, which only depends on the attention weights that come with the vision transformer itself. Extensive experiments and analyses demonstrate that the proposed SIM-Trans achieves state-of-the-art performance on fine-grained visual categorization benchmarks. The code is available at https://github.com/PKU-ICST-MIPL/SIM-Trans_ACMMM2022.
翻訳日:2022-09-01 13:28:46 公開日:2022-08-31
# CLIPの機能空間に画像詳細を注入する

Injecting Image Details into CLIP's Feature Space ( http://arxiv.org/abs/2208.14649v1 )

ライセンス: Link先を確認
Zilun Zhang, Cuifeng Shen, Yuan Shen, Huixin Xiong, Xinyu Zhou(参考訳) CLIPライクなVisual Language Modelは、画像とテキストのための機能的なジョイント特徴空間を提供するが、CILPライクなモデルのイメージ入力サイズ(例:224)の制限により、高解像度画像(例:2240)を入力すると、特徴表現に微妙な詳細が失われる。 本研究では,画像の詳細を注入し,元のCLIPと同じ意味空間を共有する高解像度画像に対して,単一の特徴表現を生成できる効率的なフレームワークを提案する。 このフレームワークでは,任意のスケールのオブジェクトをカバーできる慎重に設計されたイメージパッチ法から抽出したCLIP機能に基づいて,機能融合モデルを訓練する。 実世界および合成データセット上でのクラストリガークエリから画像を取得することで,我々のフレームワークを検証し,これらのタスクの大幅な性能向上を示す。 さらに,我々のフレームワークの詳細な検索能力を十分に実証するために,CLVER-DSと呼ばれるCLEVRに似た合成データセットを構築した。

Although CLIP-like Visual Language Models provide a functional joint feature space for image and text, due to the limitation of the CILP-like model's image input size (e.g., 224), subtle details are lost in the feature representation if we input high-resolution images (e.g., 2240). In this work, we introduce an efficient framework that can produce a single feature representation for a high-resolution image that injects image details and shares the same semantic space as the original CLIP. In the framework, we train a feature fusing model based on CLIP features extracted from a carefully designed image patch method that can cover objects of any scale, weakly supervised by image-agnostic class prompted queries. We validate our framework by retrieving images from class prompted queries on the real world and synthetic datasets, showing significant performance improvement on these tasks. Furthermore, to fully demonstrate our framework's detail retrieval ability, we construct a CLEVR-like synthetic dataset called CLVER-DS, which is fully annotated and has a controllable object scale.
翻訳日:2022-09-01 13:28:16 公開日:2022-08-31
# AWADA:オブジェクト検出のための注意重み付き対向ドメイン適応

AWADA: Attention-Weighted Adversarial Domain Adaptation for Object Detection ( http://arxiv.org/abs/2208.14662v1 )

ライセンス: Link先を確認
Maximilian Menke, Thomas Wenzel, Andreas Schwung(参考訳) オブジェクト検出ネットワークは印象的なパフォーマンスレベルに達したが、特定のアプリケーションに適切なデータが欠如しているため、実際には制限されることが多い。 通常、トレーニングタスクをサポートするために追加のデータソースが使用される。 しかし、これらでは、異なるデータソース間のドメイン間ギャップがディープラーニングにおいて課題となる。 ganベースの画像から画像へのスタイル変換は、一般的にドメインギャップを縮小するために適用されるが、不安定であり、オブジェクト検出タスクから切り離される。 本稿では,スタイル変換と検出タスク間のフィードバックループを作成するための,注意重み付け型ドメイン適応フレームワーク awada を提案する。 物体検出器の提案から前景オブジェクト注意マップを構築することにより,前景オブジェクト領域への変換に着目し,スタイル移行トレーニングを安定化する。 広範囲な実験とアブレーション実験において, 合成から現実への適応, 悪天候, クロスカメラ適応などのタスクのベンチマークにおいて, 安和田は最先端の非教師なし領域適応オブジェクト検出性能に到達した。

Object detection networks have reached an impressive performance level, yet a lack of suitable data in specific applications often limits it in practice. Typically, additional data sources are utilized to support the training task. In these, however, domain gaps between different data sources pose a challenge in deep learning. GAN-based image-to-image style-transfer is commonly applied to shrink the domain gap, but is unstable and decoupled from the object detection task. We propose AWADA, an Attention-Weighted Adversarial Domain Adaptation framework for creating a feedback loop between style-transformation and detection task. By constructing foreground object attention maps from object detector proposals, we focus the transformation on foreground object regions and stabilize style-transfer training. In extensive experiments and ablation studies, we show that AWADA reaches state-of-the-art unsupervised domain adaptation object detection performance in the commonly used benchmarks for tasks such as synthetic-to-real, adverse weather and cross-camera adaptation.
翻訳日:2022-09-01 13:27:57 公開日:2022-08-31
# 擬似面画像品質ラベルの反復最適化

Iterative Optimization of Pseudo Ground-Truth Face Image Quality Labels ( http://arxiv.org/abs/2208.14683v1 )

ライセンス: Link先を確認
\v{Z}iga Babnik, Vitomir \v{S}truc(参考訳) 最近の顔認識(fr)システムは、多くのデプロイシナリオで優れた成果を上げているが、実際の設定に挑戦する性能はまだ疑問が残っている。 このため、顔画像品質評価(FIQA)技術はFRシステムをサポートすることを目的としており、認識目的に適さない品質の悪いデータを削除するのに使用できるサンプル品質情報を提供する。 異なる概念に依存するfiqa手法のいくつかのグループは文献で提案されており、それら全ては疑似基底(品質)ラベルとして機能し、トレーニング(回帰ベース)品質推定モデルに活用できる顔画像の品質スコアを生成するのに使うことができる。 いくつかのFIQA近似は、顔マーカで生成された類似度スコア分布からかなりの量のサンプル品質情報を抽出できることを示している。 そこで本研究では,既成の既成のオフザシェルフFIQA技術の品質予測に,マットペアの類似点からのサンプル品質情報を組み込んだ品質ラベル最適化手法を提案する。 提案手法は3つの多様なデータセットに対して3つの最先端FIQA手法を用いて評価する。 実験の結果,提案手法は実行された最適化回数に大きく依存することがわかった。 10回の反復で、この手法は実験のために選択された3つのFIQA法の基本品質スコアを一貫して上回っている。

While recent face recognition (FR) systems achieve excellent results in many deployment scenarios, their performance in challenging real-world settings is still under question. For this reason, face image quality assessment (FIQA) techniques aim to support FR systems, by providing them with sample quality information that can be used to reject poor quality data unsuitable for recognition purposes. Several groups of FIQA methods relying on different concepts have been proposed in the literature, all of which can be used for generating quality scores of facial images that can serve as pseudo ground-truth (quality) labels and can be exploited for training (regression-based) quality estimation models. Several FIQA appro\-aches show that a significant amount of sample-quality information can be extracted from mated similarity-score distributions generated with some face matcher. Based on this insight, we propose in this paper a quality label optimization approach, which incorporates sample-quality information from mated-pair similarities into quality predictions of existing off-the-shelf FIQA techniques. We evaluate the proposed approach using three state-of-the-art FIQA methods over three diverse datasets. The results of our experiments show that the proposed optimization procedure heavily depends on the number of executed optimization iterations. At ten iterations, the approach seems to perform the best, consistently outperforming the base quality scores of the three FIQA methods, chosen for the experiments.
翻訳日:2022-09-01 13:27:12 公開日:2022-08-31
# TRUST:分割型変換器を用いたテーブル構造認識器

TRUST: An Accurate and End-to-End Table structure Recognizer Using Splitting-based Transformers ( http://arxiv.org/abs/2208.14687v1 )

ライセンス: Link先を確認
Zengyuan Guo, Yuechen Yu, Pengyuan Lv, Chengquan Zhang, Haojie Li, Zhihui Wang, Kun Yao, Jingtuo Liu, Jingdong Wang(参考訳) 表構造認識は文書画像解析領域の重要な部分である。 その難しさは、各セルの物理的座標と論理指標を同時に解析する必要性にある。 しかし,これらの目的,特にテーブル分割線がぼやけたり傾いたりする場合に,既存の手法は達成が困難である。 本稿では,TRUSTと呼ばれる高精度かつエンドツーエンドなテーブル構造認識手法を提案する。 変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。 Transformerベースのクエリベースの分割モジュールとVertexベースのマージモジュールを導入することで、テーブル構造認識問題は2つの共同最適化サブタスクに分離される。 クエリベースのSplitting Moduleは、Transformerネットワークを介して長い依存関係から強いコンテキスト情報を学び、マルチ指向テーブル行/カラムセパレータを正確に予測し、それに従ってテーブルの基本グリッドを取得する。 頂点ベースのマージモジュールは、隣接する基本グリッド間で局所的なコンテキスト情報を集約し、同じスパンディングセルに属する基本桁を正確にマージする機能を提供する。 我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。 特に、TRUSTはPubTabNet上で10 FPSで動作し、以前のメソッドをはるかに上回っている。

Table structure recognition is a crucial part of document image analysis domain. Its difficulty lies in the need to parse the physical coordinates and logical indices of each cell at the same time. However, the existing methods are difficult to achieve both these goals, especially when the table splitting lines are blurred or tilted. In this paper, we propose an accurate and end-to-end transformer-based table structure recognition method, referred to as TRUST. Transformers are suitable for table structure recognition because of their global computations, perfect memory, and parallel computation. By introducing novel Transformer-based Query-based Splitting Module and Vertex-based Merging Module, the table structure recognition problem is decoupled into two joint optimization sub-tasks: multi-oriented table row/column splitting and table grid merging. The Query-based Splitting Module learns strong context information from long dependencies via Transformer networks, accurately predicts the multi-oriented table row/column separators, and obtains the basic grids of the table accordingly. The Vertex-based Merging Module is capable of aggregating local contextual information between adjacent basic grids, providing the ability to merge basic girds that belong to the same spanning cell accurately. We conduct experiments on several popular benchmarks including PubTabNet and SynthTable, our method achieves new state-of-the-art results. In particular, TRUST runs at 10 FPS on PubTabNet, surpassing the previous methods by a large margin.
翻訳日:2022-09-01 13:26:47 公開日:2022-08-31
# ELMformer:局所乗算変換器を用いた効率的な生画像復元

ELMformer: Efficient Raw Image Restoration with a Locally Multiplicative Transformer ( http://arxiv.org/abs/2208.14704v1 )

ライセンス: Link先を確認
Jiaqi Ma, Shengyuan Yan, Lefei Zhang, Guoli Wang, Qian Zhang(参考訳) 本稿では, 下流画像信号処理(ISP)の高品質な原画像を得るために, ELMformer と呼ばれる効率的な局所多重変換器を提案する。 ELMformerは、特にプリミティブ属性がシングルチャネルである生画像のための2つのコア設計を含んでいる。 最初の設計は双方向核融合(BFP)モジュールで、原画像の色特性と単一チャネルの空間構造の両方を考慮する。 2つめは,局所的な乗法的自己アテンション(l-msa)スキームを提案し,局所空間から関連部分へ情報を効果的に伝達する。 ELMformerは、効率よく計算消費を削減し、生画像復元タスクでよく機能する。 これら2つのコア設計によって強化されたelmformerは、最先端のベンチマークと比較して、最も高いパフォーマンスを達成し、生のデノイジングと生のデブラリングベンチマークで最低のフラップを保持する。 ELMformerの優位性と一般化能力を示す実験が盛んである。 SIDD ベンチマークでは,ISP ベースの手法よりも,さらに多くの sRGB トレーニング画像を必要とする性能が向上している。 コードはhttps://github.com/leonmakise/elmformerでリリースされる。

In order to get raw images of high quality for downstream Image Signal Process (ISP), in this paper we present an Efficient Locally Multiplicative Transformer called ELMformer for raw image restoration. ELMformer contains two core designs especially for raw images whose primitive attribute is single-channel. The first design is a Bi-directional Fusion Projection (BFP) module, where we consider both the color characteristics of raw images and spatial structure of single-channel. The second one is that we propose a Locally Multiplicative Self-Attention (L-MSA) scheme to effectively deliver information from the local space to relevant parts. ELMformer can efficiently reduce the computational consumption and perform well on raw image restoration tasks. Enhanced by these two core designs, ELMformer achieves the highest performance and keeps the lowest FLOPs on raw denoising and raw deblurring benchmarks compared with state-of-the-arts. Extensive experiments demonstrate the superiority and generalization ability of ELMformer. On SIDD benchmark, our method has even better denoising performance than ISP-based methods which need huge amount of additional sRGB training images. The codes are release at https://github.com/leonmakise/ELMformer.
翻訳日:2022-09-01 13:26:20 公開日:2022-08-31
# ドメイン適応のための低周波特性の転送

Transfering Low-Frequency Features for Domain Adaptation ( http://arxiv.org/abs/2208.14706v1 )

ライセンス: Link先を確認
Zhaowen Li, Xu Zhao, Chaoyang Zhao, Ming Tang and Jinqiao Wang(参考訳) 従来の教師なし領域適応法はコンピュータビジョンの周波数の観点からはクロスドメイン問題を扱わなかった。 異なる領域の画像や特徴マップは、低周波成分と高周波成分に分解することができる。 本稿では,低周波情報がドメイン情報を含む一方で,低周波情報がドメイン不変であるという仮定を提案する。 そこで我々は,低周波モジュール (LFM) と呼ばれるアプローチを導入し,ドメイン不変の特徴表現を抽出する。 lfmはデジタルガウス低域通過フィルタで構成されている。 本手法は実装が容易で,余分なハイパーパラメータは導入しない。 我々は,LFMをドメイン適応に利用するための2つの効果的な手法を設計し,本手法は他の既存手法と相補的であり,これらの手法と組み合わせることができるプラグアンドプレイユニットとして定式化されている。 実験の結果,LFMは画像分類や物体検出など,様々なコンピュータビジョンタスクにおける最先端の手法よりも優れていた。

Previous unsupervised domain adaptation methods did not handle the cross-domain problem from the perspective of frequency for computer vision. The images or feature maps of different domains can be decomposed into the low-frequency component and high-frequency component. This paper proposes the assumption that low-frequency information is more domain-invariant while the high-frequency information contains domain-related information. Hence, we introduce an approach, named low-frequency module (LFM), to extract domain-invariant feature representations. The LFM is constructed with the digital Gaussian low-pass filter. Our method is easy to implement and introduces no extra hyperparameter. We design two effective ways to utilize the LFM for domain adaptation, and our method is complementary to other existing methods and formulated as a plug-and-play unit that can be combined with these methods. Experimental results demonstrate that our LFM outperforms state-of-the-art methods for various computer vision tasks, including image classification and object detection.
翻訳日:2022-09-01 13:26:00 公開日:2022-08-31
# 空間における散乱点:多視点単眼画像からの3次元検出

Scatter Points in Space: 3D Detection from Multi-view Monocular Images ( http://arxiv.org/abs/2208.14738v1 )

ライセンス: Link先を確認
Jianlin Liu, Zhuofei Huang, Dihe Huang, Shang Xu, Ying Chen, and Yong Liu(参考訳) 単眼画像からの3次元物体検出は,コンピュータビジョンの課題であり,長年の課題である。 様々な視点からの情報を組み合わせるために,近年の手法では,空間に密集した通常の3Dグリッドをサンプリングすることで,多面的特徴を集約する傾向にある。 本稿では,3次元空間で擬似表面点を散乱する学習可能なキーポイントサンプリング手法を提案することにより,データのスパーシティを保ちながら,多視点特徴の集約性を向上させることを試みる。 多視点の幾何学的制約と視覚的特徴によって拡張された散乱点を用いて、シーン内の物体の位置と形状を推測する。 単一フレームとモデル多視点形状の制約を明示的に補うために,さらにノイズ抑圧のためのサーフェスフィルタモジュールを提案する。 実験の結果,従来の3次元検出法に比べ,精度は有意に向上した(scannetのカテゴリによっては0.1 ap以上の改善が見られた)。 コードは公開される予定だ。

3D object detection from monocular image(s) is a challenging and long-standing problem of computer vision. To combine information from different perspectives without troublesome 2D instance tracking, recent methods tend to aggregate multiview feature by sampling regular 3D grid densely in space, which is inefficient. In this paper, we attempt to improve multi-view feature aggregation by proposing a learnable keypoints sampling method, which scatters pseudo surface points in 3D space, in order to keep data sparsity. The scattered points augmented by multi-view geometric constraints and visual features are then employed to infer objects location and shape in the scene. To make up the limitations of single frame and model multi-view geometry explicitly, we further propose a surface filter module for noise suppression. Experimental results show that our method achieves significantly better performance than previous works in terms of 3D detection (more than 0.1 AP improvement on some categories of ScanNet). The code will be publicly available.
翻訳日:2022-09-01 13:25:45 公開日:2022-08-31
# SimpleRecon: 3Dコンボリューションのない3Dレコンストラクション

SimpleRecon: 3D Reconstruction Without 3D Convolutions ( http://arxiv.org/abs/2208.14743v1 )

ライセンス: Link先を確認
Mohamed Sayed, John Gibson, Jamie Watson, Victor Prisacariu, Michael Firman, Cl\'ement Godard(参考訳) 伝統的に、ポーズ画像からの3次元屋内シーンの再構築は、画像ごとの深度推定と、深度統合と表面再構成の2段階で行われる。 近年,最後の3次元ボリューム特徴空間で直接再構成を行う手法が出現している。 これらの手法は印象的な再構築結果を示しているが、高価な3D畳み込み層に依存しており、リソース制約のある環境での利用を制限する。 本研究は,従来の経路に戻り,高品質な多視点深度予測に焦点を合わせることで,単純なオフザシェルフ深度融合による高精度な3次元再構成を実現することを示す。 本稿では,2つの主な貢献点を持つ簡易な多視点深度推定器を提案する。 1)平面スウィープ特徴量と幾何学的損失とを併用した強画像を用いた注意深く設計された2次元cnn 2)鍵フレームと幾何学メタデータの統合により,情報深度面のスコアリングが可能となる。 提案手法は, ScanNet と 7-Scenes の3次元再構成において, 深度推定と近接的あるいは高精度な3次元再構成を実現する上で, リアルタイムな低メモリ再構成を実現している。 コード、モデル、結果はhttps://nianticlabs.github.io/simplereconで入手できる。

Traditionally, 3D indoor scene reconstruction from posed images happens in two phases: per-image depth estimation, followed by depth merging and surface reconstruction. Recently, a family of methods have emerged that perform reconstruction directly in final 3D volumetric feature space. While these methods have shown impressive reconstruction results, they rely on expensive 3D convolutional layers, limiting their application in resource-constrained environments. In this work, we instead go back to the traditional route, and show how focusing on high quality multi-view depth prediction leads to highly accurate 3D reconstructions using simple off-the-shelf depth fusion. We propose a simple state-of-the-art multi-view depth estimator with two main contributions: 1) a carefully-designed 2D CNN which utilizes strong image priors alongside a plane-sweep feature volume and geometric losses, combined with 2) the integration of keyframe and geometric metadata into the cost volume which allows informed depth plane scoring. Our method achieves a significant lead over the current state-of-the-art for depth estimation and close or better for 3D reconstruction on ScanNet and 7-Scenes, yet still allows for online real-time low-memory reconstruction. Code, models and results are available at https://nianticlabs.github.io/simplerecon
翻訳日:2022-09-01 13:25:29 公開日:2022-08-31
# リー群とその同次空間上の定常核とガウス過程 i:コンパクトケース

Stationary Kernels and Gaussian Processes on Lie Groups and their Homogeneous Spaces I: the Compact Case ( http://arxiv.org/abs/2208.14960v1 )

ライセンス: Link先を確認
Iskander Azangulov, Andrei Smolensky, Alexander Terenin, and Viacheslav Borovitskiy(参考訳) ガウス過程は空間統計学においておそらく最も重要なモデルクラスである。 彼らはモデル化された関数に関する事前情報を符号化し、ベイズ予想を正確にあるいは近似することができる。 多くの応用、特に物理科学や工学において、地球統計学や神経科学などの分野において、対称性への不変性は考慮できる最も基本的な情報形式の一つである。 そのような対称性に対するガウス過程の共分散の不変性は、そのような空間に対する定常性の概念の最も自然な一般化をもたらす。 本研究では,対称性の文脈で生じる非ユークリッド空間の非常に大きなクラス上に,定常ガウス過程を構築するための構築的および実践的手法を開発する。 私たちの技術はそれを可能にします i)共分散カーネルを計算し、 (ii)そのような空間上で定義される前ガウス過程及び後ガウス過程からのサンプルは、実際的に両方ある。 この研究は、それぞれ異なる技術的な考察を含む2つの部分に分けられる: 第一部はコンパクト空間、第二部は特定の構造を持つ非コンパクト空間を研究する。 我々のコントリビューションは、標準ガウスプロセスソフトウェアパッケージで利用可能なよく理解された計算技術と互換性のある非ユークリッドガウスプロセスモデルを作成し、実践者が利用できるようにします。

Gaussian processes are arguably the most important model class in spatial statistics. They encode prior information about the modeled function and can be used for exact or approximate Bayesian inference. In many applications, particularly in physical sciences and engineering, but also in areas such as geostatistics and neuroscience, invariance to symmetries is one of the most fundamental forms of prior information one can consider. The invariance of a Gaussian process' covariance to such symmetries gives rise to the most natural generalization of the concept of stationarity to such spaces. In this work, we develop constructive and practical techniques for building stationary Gaussian processes on a very large class of non-Euclidean spaces arising in the context of symmetries. Our techniques make it possible to (i) calculate covariance kernels and (ii) sample from prior and posterior Gaussian processes defined on such spaces, both in a practical manner. This work is split into two parts, each involving different technical considerations: part I studies compact spaces, while part II studies non-compact spaces possessing certain structure. Our contributions make the non-Euclidean Gaussian process models we study compatible with well-understood computational techniques available in standard Gaussian process software packages, thereby making them accessible to practitioners.
翻訳日:2022-09-01 13:23:16 公開日:2022-08-31
# 自然言語生成におけるガラスシーリングと自動評価

The Glass Ceiling of Automatic Evaluation in Natural Language Generation ( http://arxiv.org/abs/2208.14585v1 )

ライセンス: Link先を確認
Pierre Colombo, Maxime Peyrard, Nathan Noiry, Robert West, Pablo Piantanida(参考訳) 人間の判断を置き換えられる自動評価指標は、新しい手法の迅速な開発を可能にするために重要である。 このように、多くの研究がこのようなメトリクスの作成に焦点を合わせてきた。 本研究では,既存の自動測定値と人的測定値のボディを比較して,最近の進歩を一歩引いて分析する。 システムランキングの方法に基づいてメトリクスを使用するため、システムランキングの空間におけるメトリクスを比較する。 当社の広範な統計分析によって驚くべき結果が明らかになった。 自動メトリクス(旧値と新値)は、人間よりも互いに非常に似ている。 自動メトリクスは相補的ではなく、ランクシステムも同様である。 驚くべきことに、ヒューマンメトリックは、ヒューマンメトリックを予測するのに使用されるすべての自動メトリックの組み合わせよりもはるかに優れた相互を予測する。 人間のメトリクスは、コンテンツの忠実さや可読性など、品質の異なる側面を捉えるために、しばしば独立して設計されるため、驚きである。 本稿では,これらの知見と今後の評価分野への提言について述べる。

Automatic evaluation metrics capable of replacing human judgments are critical to allowing fast development of new methods. Thus, numerous research efforts have focused on crafting such metrics. In this work, we take a step back and analyze recent progress by comparing the body of existing automatic metrics and human metrics altogether. As metrics are used based on how they rank systems, we compare metrics in the space of system rankings. Our extensive statistical analysis reveals surprising findings: automatic metrics -- old and new -- are much more similar to each other than to humans. Automatic metrics are not complementary and rank systems similarly. Strikingly, human metrics predict each other much better than the combination of all automatic metrics used to predict a human metric. It is surprising because human metrics are often designed to be independent, to capture different aspects of quality, e.g. content fidelity or readability. We provide a discussion of these findings and recommendations for future work in the field of evaluation.
翻訳日:2022-09-01 13:22:16 公開日:2022-08-31
# 顧客サービス対話のための統一知識プロンプト事前学習

Unified Knowledge Prompt Pre-training for Customer Service Dialogues ( http://arxiv.org/abs/2208.14652v1 )

ライセンス: Link先を確認
Keqing He, Jingang Wang, Chaobo Sun, Wei Wu(参考訳) 対話ボットは、タイムリーでユーザフレンドリーなエクスペリエンスを提供するために、カスタマサービスシナリオに広く適用されています。 これらのボットは対話の適切なドメインを分類し、ユーザの意図を理解し、適切な応答を生成する必要がある。 既存の対話事前学習モデルは、いくつかの対話タスクのためにのみ設計され、顧客サービス対話における弱い監督された専門家知識を無視する。 本稿では,顧客サービス対話のための新しい統一知識プロンプト事前学習フレームワーク ufa (\textbf{u}nified model \textbf{f}or \textbf{a}ll tasks) を提案する。 顧客サービス対話の全てのタスクを統一されたテキスト対テキスト生成タスクとして定式化し、異なる対話タスクの混合から共同学習するための知識駆動のプロンプト戦略を導入する。 実践シナリオから収集した大規模中国語カスタマサービスコーパスにufaを事前トレーニングし,自然言語理解(nlu)と自然言語生成(nlg)のベンチマークで大幅な改善を行った。

Dialogue bots have been widely applied in customer service scenarios to provide timely and user-friendly experience. These bots must classify the appropriate domain of a dialogue, understand the intent of users, and generate proper responses. Existing dialogue pre-training models are designed only for several dialogue tasks and ignore weakly-supervised expert knowledge in customer service dialogues. In this paper, we propose a novel unified knowledge prompt pre-training framework, UFA (\textbf{U}nified Model \textbf{F}or \textbf{A}ll Tasks), for customer service dialogues. We formulate all the tasks of customer service dialogues as a unified text-to-text generation task and introduce a knowledge-driven prompt strategy to jointly learn from a mixture of distinct dialogue tasks. We pre-train UFA on a large-scale Chinese customer service corpus collected from practical scenarios and get significant improvements on both natural language understanding (NLU) and natural language generation (NLG) benchmarks.
翻訳日:2022-09-01 13:22:03 公開日:2022-08-31
# シームズニューラルネットワークを用いた臨床自然言語処理のためのFew-Shot Learning

Few-Shot Learning for Clinical Natural Language Processing Using Siamese Neural Networks ( http://arxiv.org/abs/2208.14923v1 )

ライセンス: Link先を確認
David Oniani, Sonish Sivarajkumar, Yanshan Wang(参考訳) 臨床自然言語処理(NLP)は、電子健康記録(EHR)に大量の自由テキストデータを活用し、患者のケアを改善し、臨床決定を支援し、臨床および翻訳科学研究を促進する医療の新興技術となっている。 深層学習は多くの臨床NLPタスクで最先端のパフォーマンスを達成した。 しかし、ディープラーニングモデルのトレーニングには、通常、公開されていない大きな注釈付きデータセットが必要であり、臨床ドメインを構築するのに時間がかかります。 より小さなアノテートデータセットを扱うことは、臨床NLPでは典型的であるため、ディープラーニングモデルの性能が向上することが、実際のアプリケーションで使用されるモデルにとって極めて重要である。 広く採用されているアプローチは、既存の事前学習言語モデル(plm)の微調整であるが、トレーニングデータセットにいくつかの注釈付きサンプルが含まれている場合、これらの試みは不足する。 FSL(Few-Shot Learning)は近年,この問題に対処するために研究されている。 シームズニューラルネットワーク(SNN)はコンピュータビジョンにおいてFSLアプローチとして広く利用されているが、NLPではよく研究されていない。 さらに、臨床領域におけるその応用に関する文献は少ない。 本稿では,2次埋め込み (SOE-SNN) を用いた事前訓練SNN (PT-SNN) と2次埋め込み (SOE-SNN) を含む臨床NLPのための2つのSNNベースのFSLアプローチを提案する。 臨床テキスト分類と臨床名称認識の2つの臨床課題について,提案手法の評価を行った。 4ショット、8ショット、16ショットの学習を含む3つの数ショット設定をテストしました。 どちらのNLPタスクもBERT、BioBERT、BioClinicalBERTを含む3つのPLMを用いてベンチマークした。 両NLPタスクにおける提案したSNNベースのFSLアプローチの有効性を実験的に検証した。

Clinical Natural Language Processing (NLP) has become an emerging technology in healthcare that leverages a large amount of free-text data in electronic health records (EHRs) to improve patient care, support clinical decisions, and facilitate clinical and translational science research. Deep learning has achieved state-of-the-art performance in many clinical NLP tasks. However, training deep learning models usually require large annotated datasets, which are normally not publicly available and can be time-consuming to build in clinical domains. Working with smaller annotated datasets is typical in clinical NLP and therefore, ensuring that deep learning models perform well is crucial for the models to be used in real-world applications. A widely adopted approach is fine-tuning existing Pre-trained Language Models (PLMs), but these attempts fall short when the training dataset contains only a few annotated samples. Few-Shot Learning (FSL) has recently been investigated to tackle this problem. Siamese Neural Network (SNN) has been widely utilized as an FSL approach in computer vision, but has not been studied well in NLP. Furthermore, the literature on its applications in clinical domains is scarce. In this paper, we propose two SNN-based FSL approaches for clinical NLP, including pre-trained SNN (PT-SNN) and SNN with second-order embeddings (SOE-SNN). We evaluated the proposed approaches on two clinical tasks, namely clinical text classification and clinical named entity recognition. We tested three few-shot settings including 4-shot, 8-shot, and 16-shot learning. Both clinical NLP tasks were benchmarked using three PLMs, including BERT, BioBERT, and BioClinicalBERT. The experimental results verified the effectiveness of the proposed SNN-based FSL approaches in both clinical NLP tasks.
翻訳日:2022-09-01 13:21:45 公開日:2022-08-31
# 段階的パターン抽出のためのantコロニー最適化

Ant Colony Optimization for Mining Gradual Patterns ( http://arxiv.org/abs/2208.14795v1 )

ライセンス: Link先を確認
Dickson Odhiambo Owuor and Thomas Runkler and Anne Laurent and Joseph Orero and Edmond Menya(参考訳) グラデーショナルパターン抽出(Gradual pattern extract)は、データセットの属性間の相関関係を段階的依存関係としてマッピングするデータベースの知識発見(KDD)分野である。 段階的依存は「より多くの属性K、より少ない属性L」の形をとることができる。 本稿では,確率論的手法を用いて頻繁な漸進パターンの学習と抽出を行うアリコロニー最適化手法を提案する。 実世界のデータセットの計算実験を通じて,既存の段階的項目集合抽出アルゴリズムと比較し,特に大規模データセットを扱う場合,アルゴリズムは後者よりも優れていることを示した。

Gradual pattern extraction is a field in (KDD) Knowledge Discovery in Databases that maps correlations between attributes of a data set as gradual dependencies. A gradual dependency may take a form of "the more Attribute K , the less Attribute L". In this paper, we propose an ant colony optimization technique that uses a probabilistic approach to learn and extract frequent gradual patterns. Through computational experiments on real-world data sets, we compared the performance of our ant-based algorithm to an existing gradual item set extraction algorithm and we found out that our algorithm outperforms the later especially when dealing with large data sets.
翻訳日:2022-09-01 13:21:16 公開日:2022-08-31
# 解集合プログラミングにおけるオートマトンに基づく複合イベントパターンの学習

Learning Automata-Based Complex Event Patterns in Answer Set Programming ( http://arxiv.org/abs/2208.14820v1 )

ライセンス: Link先を確認
Nikos Katzouris and Georgios Paliouras(参考訳) 複雑なイベント認識および予測(cer/f)技術は、事前定義されたイベントパターンを使用してストリーミング入力で発生したイベントを検出したり予測したりする。 このようなパターンは常に事前には知られておらず、時間とともに頻繁に変化し、cer/fで非常に望ましいデータからそのようなパターンを抽出することができる機械学習技術を作る。 このようなパターンを表現するために、多くのcer/fシステムはシンボリックオートマトンを使用するため、aspとシンボリックラーニングの強いつながりにより、データから直接学習可能な、asp(response set programming)ルールによってトランジッションエナリング条件が定義されるようなオートマトンファミリを提案する。 本稿では、aspにおけるこのような学習アプローチと、その最適化を効率性に転換し、大規模データセットにスケール可能なインクリメンタルバージョンを提案する。 このアプローチを2つのcerデータセット上で評価し,最先端オートマトン学習手法と比較し,予測精度とスケーラビリティの両面で,実証的に優れた性能を示す。

Complex Event Recognition and Forecasting (CER/F) techniques attempt to detect, or even forecast ahead of time, event occurrences in streaming input using predefined event patterns. Such patterns are not always known in advance, or they frequently change over time, making machine learning techniques, capable of extracting such patterns from data, highly desirable in CER/F. Since many CER/F systems use symbolic automata to represent such patterns, we propose a family of such automata where the transition-enabling conditions are defined by Answer Set Programming (ASP) rules, and which, thanks to the strong connections of ASP to symbolic learning, are directly learnable from data. We present such a learning approach in ASP and an incremental version thereof that trades optimality for efficiency and is capable to scale to large datasets. We evaluate our approach on two CER datasets and compare it to state-of-the-art automata learning techniques, demonstrating empirically a superior performance, both in terms of predictive accuracy and scalability.
翻訳日:2022-09-01 13:21:02 公開日:2022-08-31
# 細粒度分布依存学習曲線

Fine-Grained Distribution-Dependent Learning Curves ( http://arxiv.org/abs/2208.14615v1 )

ライセンス: Link先を確認
Olivier Bousquet, Steve Hanneke, Shay Moran, Jonathan Shafer, Ilya Tolstikhin(参考訳) 学習曲線はラベル付き入力サンプル数の関数として学習アルゴリズムの期待誤差をプロットする。 機械学習の実践者がアルゴリズムのパフォーマンスの尺度として広く使われているが、古典的なPAC学習理論ではそれらの振る舞いを説明できない。 本稿では, Bousquet et al. (2021) の最近の結果を改善し, 改良する VCL 次元と呼ばれる新しい組合せ的特徴について述べる。 細粒度境界を提供することで学習曲線の構造に新たな光を当て、有限のvclを持つクラスでは、減衰率を仮説クラスのみに依存する線形成分と、対象分布に依存する指数成分に分解できることを示した。 特に、VCL次元のより細かいニュアンスは、Bousquet et al. (2021) の境界よりも定量的に強く、古典的な「無料ランチ」の下限よりも質的に強い下限を意味する。 VCL の特徴付けは、アントスとルゴシ (1998) によって研究された開問題を解く。 corollary として、$\mathbb{R}^d$ の半空間に対する下界を回復し、他のケースにも適用できるような原則化された方法でそれを行う。 最後に,我々の研究に対する別の視点と,従来のpac学習境界との比較について述べるために,pac設定に近い言語で結果の代替的な定式化も提示する。

Learning curves plot the expected error of a learning algorithm as a function of the number of labeled input samples. They are widely used by machine learning practitioners as a measure of an algorithm's performance, but classic PAC learning theory cannot explain their behavior. In this paper we introduce a new combinatorial characterization called the VCL dimension that improves and refines the recent results of Bousquet et al. (2021). Our characterization sheds new light on the structure of learning curves by providing fine-grained bounds, and showing that for classes with finite VCL, the rate of decay can be decomposed into a linear component that depends only on the hypothesis class and an exponential component that depends also on the target distribution. In particular, the finer nuance of the VCL dimension implies lower bounds that are quantitatively stronger than the bounds of Bousquet et al. (2021) and qualitatively stronger than classic 'no free lunch' lower bounds. The VCL characterization solves an open problem studied by Antos and Lugosi (1998), who asked in what cases such lower bounds exist. As a corollary, we recover their lower bound for half-spaces in $\mathbb{R}^d$, and we do so in a principled way that should be applicable to other cases as well. Finally, to provide another viewpoint on our work and how it compares to traditional PAC learning bounds, we also present an alternative formulation of our results in a language that is closer to the PAC setting.
翻訳日:2022-09-01 13:16:40 公開日:2022-08-31
# 多型スパンニング林による磁化ラプラシアンのスカラー化

Sparsification of the regularized magnetic Laplacian with multi-type spanning forests ( http://arxiv.org/abs/2208.14797v1 )

ライセンス: Link先を確認
Micha\"el Fanuel and R\'emi Bardenet(参考訳) 本稿では,各向きのエッジに,単純に向きのフリップの下で共役する単位モジュラー複素数を与えるグラフについて,${\rm U}(1)$-connection graphを考える。 組合せラプラシアンの自然な置換は、グラフの接続に関する情報を含むエルミート行列と呼ばれる磁気ラプラシアンのものである。 例えば角同期問題において、接続グラフと磁気ラプラシアンが現れる。 大規模で密度の高いグラフの文脈では、磁気ラプラシアンのスペーサー、すなわち、エッジの少ない部分グラフに基づくスペクトル近似について研究する。 提案手法は,多種間伐採林(MTSF)を,多様性を優先するエッジ上の分布であるカスタム決定点プロセスを用いてサンプリングすることに依存する。 言い換えると、mtsfは、連結されたコンポーネントが木またはサイクルルート木のいずれかであるスパンディングサブグラフである。 後者は接続グラフの角の不一致を部分的に捉え、接続に含まれる情報を圧縮する方法を提供する。 興味深いことに、この連結グラフが不整合なサイクルを持つ場合、この分布のサンプルはランダムウォークとサイクルポップアップを用いて得られる。 ラプラシアン接続の自然推定器の選択に関する統計的保証を提供し、2つの応用におけるスペーサーの実践的応用について検討する。

In this paper, we consider a ${\rm U}(1)$-connection graph, that is, a graph where each oriented edge is endowed with a unit modulus complex number which is simply conjugated under orientation flip. A natural replacement for the combinatorial Laplacian is then the so-called magnetic Laplacian, an Hermitian matrix that includes information about the graph's connection. Connection graphs and magnetic Laplacians appear, e.g., in the problem of angular synchronization. In the context of large and dense graphs, we study here sparsifiers of the magnetic Laplacian, i.e., spectral approximations based on subgraphs with few edges. Our approach relies on sampling multi-type spanning forests (MTSFs) using a custom determinantal point process, a distribution over edges that favours diversity. In a word, an MTSF is a spanning subgraph whose connected components are either trees or cycle-rooted trees. The latter partially capture the angular inconsistencies of the connection graph, and thus provide a way to compress information contained in the connection. Interestingly, when this connection graph has weakly inconsistent cycles, samples of this distribution can be obtained by using a random walk with cycle popping. We provide statistical guarantees for a choice of natural estimators of the connection Laplacian, and investigate the practical application of our sparsifiers in two applications.
翻訳日:2022-09-01 13:16:14 公開日:2022-08-31
# 時系列データを用いたマルチスケール非定常因果構造学習

Multiscale Non-stationary Causal Structure Learning from Time Series Data ( http://arxiv.org/abs/2208.14989v1 )

ライセンス: Link先を確認
Gabriele D'Acunto, Gianmarco De Francisci Morales, Paolo Bajardi and Francesco Bonchi(参考訳) 本稿では,DAGを時間周波数領域に一般化する新しいタイプの因果構造,すなわちマルチスケール非定常非巡回グラフ(MN-DAG)を提案する。 私たちの貢献は2倍です。 まず,スペクトル理論と因果関係理論の結果を活用することで,因果グラフの時間依存性と多スケール性に関するユーザの特定事前条件に従ってmn-dagをサンプリング可能な,新しい確率論的生成モデルを公開する。 次に,マルチスケール非定常因果構造学習器(MN-CASTLE)と呼ばれる確率的変分推論(SVI)を用いて,MN-DAGの推定のためのベイズ的手法を提案する。 直接観測の他に、MN-CASTLEは時系列の総パワースペクトルの分解から異なる時間解像度で情報を利用する。 実験では,提案モデルを用いて潜在性mn-dagに基づく合成データを生成し,異なる領域の時系列の既知の特徴を再現することを示す。 そこで本研究では,マルチスケールおよび非定常環境で生成された合成データのベースラインモデルとmn-castleの学習法を比較し,mn-castleの性能を確認した。 最後に,MN-CASTLEを用いて,コビッド19のパンデミックにおける7つのグローバルエクイティ市場の因果構造を解明する。

This paper introduces a new type of causal structure, namely multiscale non-stationary directed acyclic graph (MN-DAG), that generalizes DAGs to the time-frequency domain. Our contribution is twofold. First, by leveraging results from spectral and causality theories, we expose a novel probabilistic generative model, which allows to sample an MN-DAG according to user-specified priors concerning the time-dependence and multiscale properties of the causal graph. Second, we devise a Bayesian method for the estimation of MN-DAGs, by means of stochastic variational inference (SVI), called Multiscale Non-Stationary Causal Structure Learner (MN-CASTLE). In addition to direct observations, MN-CASTLE exploits information from the decomposition of the total power spectrum of time series over different time resolutions. In our experiments, we first use the proposed model to generate synthetic data according to a latent MN-DAG, showing that the data generated reproduces well-known features of time series in different domains. Then we compare our learning method MN-CASTLE against baseline models on synthetic data generated with different multiscale and non-stationary settings, confirming the good performance of MN-CASTLE. Finally, we show some insights derived from the application of MN-CASTLE to study the causal structure of 7 global equity markets during the Covid-19 pandemic.
翻訳日:2022-09-01 13:15:38 公開日:2022-08-31
# サイクル一貫性生成対向ネットワークを用いた多デバイス網膜光コヒーレンストモグラフィーの分割誘導領域適応とデータ調和

Segmentation-guided Domain Adaptation and Data Harmonization of Multi-device Retinal Optical Coherence Tomography using Cycle-Consistent Generative Adversarial Networks ( http://arxiv.org/abs/2208.14635v1 )

ライセンス: Link先を確認
Shuo Chen and Da Ma and Sieun Lee and Timothy T.L. Yu and Gavin Xu and Donghuan Lu and Karteek Popuri and Myeong Jin Ju and Marinko V. Sarunic and Mirza Faisal Beg(参考訳) 光コヒーレンス・トモグラフィ(OCT)は、微小メートル分解能で網膜の断面領域を捉える非侵襲的手法である。 視線関連疾患の検出と,疾患の特徴の経時的進行を予測する補助画像基準として広く用いられている。 網膜層セグメンテーションは、網膜層の厚さの変化と流体の存在による網膜層の変形が、糖尿病網膜症(DR)や加齢に伴う黄斑変性(AMD)などの多発性眼疾患と高い相関関係を持つ重要な特徴抽出手法の1つである。 しかし、これらの画像は異なる強度分布を持つ異なるデバイスから取得され、言い換えれば異なる画像領域に属する。 本稿では,複数のデバイスからの画像を単一の画像領域に適応させるためのセグメンテーション誘導型ドメイン適応手法を提案する。 来るべき新しいデータセットに対する手動ラベリングの時間消費と、既存のネットワークの再トレーニングを回避する。 ネットワークのセマンティック一貫性とグローバルな特徴一貫性は、多くの研究者がCycleGAN(Cycle-Consistent Generative Adversarial Networks)アーキテクチャについて報告した幻覚効果を最小化する。

Optical Coherence Tomography(OCT) is a non-invasive technique capturing cross-sectional area of the retina in micro-meter resolutions. It has been widely used as a auxiliary imaging reference to detect eye-related pathology and predict longitudinal progression of the disease characteristics. Retina layer segmentation is one of the crucial feature extraction techniques, where the variations of retinal layer thicknesses and the retinal layer deformation due to the presence of the fluid are highly correlated with multiple epidemic eye diseases like Diabetic Retinopathy(DR) and Age-related Macular Degeneration (AMD). However, these images are acquired from different devices, which have different intensity distribution, or in other words, belong to different imaging domains. This paper proposes a segmentation-guided domain-adaptation method to adapt images from multiple devices into single image domain, where the state-of-art pre-trained segmentation model is available. It avoids the time consumption of manual labelling for the upcoming new dataset and the re-training of the existing network. The semantic consistency and global feature consistency of the network will minimize the hallucination effect that many researchers reported regarding Cycle-Consistent Generative Adversarial Networks(CycleGAN) architecture.
翻訳日:2022-09-01 13:14:34 公開日:2022-08-31
# 次元性低減によるディープアンロールネットワークの高速化

Accelerating Deep Unrolling Networks via Dimensionality Reduction ( http://arxiv.org/abs/2208.14784v1 )

ライセンス: Link先を確認
Junqi Tang, Subhadip Mukherjee, Carola-Bibiane Sch\"onlieb(参考訳) 本研究では,ミニバッチ勾配近似や演算子スケッチを含む次元低減スキームを用いて,効率的なディープアンロールネットワークを設計するための新しいパラダイムを提案する。 ディープアンロールネットワークは現在、逆問題を画像化するための最先端のソリューションである。 しかし、高次元イメージングタスク、特にX線CTとMRIでは、高次元のフォワードおよびアジョイント演算子を複数回計算する必要があるため、ディープ・アンローリング・スキームはメモリと計算の両方で非効率になる。 近年の研究者らは、確率的一階最適化の成功に触発された確率勾配降下(SGD)を解き放つことで、そのような制限に部分的に対処できることを発見した。 そこで本研究では,まず,最先端学習型プライマル・デュアル(lpd)ネットワークに基づく,より表現豊かで実用的な確率的プライマル・デュアル・アンロールングを提案し,さらに,高次元画像空間における製品近似のためのスケッチ技術を用いて,確率的プライマル・デュアル・アンロールングを加速する。 オペレータのスケッチは、最高の加速度および圧縮性能のために確率的アンロールと共同で適用することができる。 X線CT画像再構成に関する数値実験により,加速アンロール方式の有効性が示された。

In this work we propose a new paradigm for designing efficient deep unrolling networks using dimensionality reduction schemes, including minibatch gradient approximation and operator sketching. The deep unrolling networks are currently the state-of-the-art solutions for imaging inverse problems. However, for high-dimensional imaging tasks, especially X-ray CT and MRI imaging, the deep unrolling schemes typically become inefficient both in terms of memory and computation, due to the need of computing multiple times the high-dimensional forward and adjoint operators. Recently researchers have found that such limitations can be partially addressed by unrolling the stochastic gradient descent (SGD), inspired by the success of stochastic first-order optimization. In this work, we explore further this direction and propose first a more expressive and practical stochastic primal-dual unrolling, based on the state-of-the-art Learned Primal-Dual (LPD) network, and also a further acceleration upon stochastic primal-dual unrolling, using sketching techniques to approximate products in the high-dimensional image space. The operator sketching can be jointly applied with stochastic unrolling for the best acceleration and compression performance. Our numerical experiments on X-ray CT image reconstruction demonstrate the remarkable effectiveness of our accelerated unrolling schemes.
翻訳日:2022-09-01 13:14:09 公開日:2022-08-31
# 時相文接地のための階層的局所的グローバルトランスフォーマ

Hierarchical Local-Global Transformer for Temporal Sentence Grounding ( http://arxiv.org/abs/2208.14882v1 )

ライセンス: Link先を確認
Xiang Fang, Daizong Liu, Pan Zhou, Zichuan Xu and Ruixuan Li(参考訳) 本稿では,時間的文のグラウンドリング(TSG)のマルチメディア問題について検討し,与えられた文問合せに基づいてビデオ中の特定のビデオセグメントを正確に判定することを目的とする。 従来のTSGメソッドは主にトップダウンまたはボトムアップフレームワークに従っており、エンドツーエンドではない。 彼らは接地結果を洗練するために、時間を要する事後処理を厳しく頼りにしている。 近年,映像と問合せの細かな意味的アライメントを効率的かつ効果的にモデル化するトランスフォーマティブ・アプローチが提案されている。 これらの手法はある程度大きな性能を発揮するが、ビデオのフレームとクエリの単語を関連づけるためのトランスフォーマティブ入力として等しく捉え、異なる意味を持つ異なるレベルの粒度を捉えることができない。 この問題に対処するために,本稿では,この階層情報を活用し,より微細なマルチモーダル表現を学習するための異なる粒度と異なるモダリティ間の相互作用をモデル化する,新しい階層型局所グラフ変換器(HLGT)を提案する。 具体的には、まずビデオとクエリを個々のクリップとフレーズに分割して、時間的トランスフォーマによるローカルコンテキスト(隣接依存性)とグローバル相関(長距離依存性)を学ぶ。 次に,グローバル・ローカル・トランスフォーマーを導入し,局所レベルとグローバルレベルのセマンティクス間の相互作用を学習し,マルチモーダル推論を改善する。 さらに,2つのモード間の相互作用を強制し,それら間のセマンティックアライメントを促進するために,新たなクロスモーダルサイクル整合性損失を開発する。 最後に,新しいクロスモーダル並列トランスフォーマーデコーダを設計し,符号化された視覚特徴とテキスト特徴を統合して最終接地を行う。 3つの挑戦的なデータセットに対する大規模な実験により、提案したHLGTは、新しい最先端のパフォーマンスを実現する。

This paper studies the multimedia problem of temporal sentence grounding (TSG), which aims to accurately determine the specific video segment in an untrimmed video according to a given sentence query. Traditional TSG methods mainly follow the top-down or bottom-up framework and are not end-to-end. They severely rely on time-consuming post-processing to refine the grounding results. Recently, some transformer-based approaches are proposed to efficiently and effectively model the fine-grained semantic alignment between video and query. Although these methods achieve significant performance to some extent, they equally take frames of the video and words of the query as transformer input for correlating, failing to capture their different levels of granularity with distinct semantics. To address this issue, in this paper, we propose a novel Hierarchical Local-Global Transformer (HLGT) to leverage this hierarchy information and model the interactions between different levels of granularity and different modalities for learning more fine-grained multi-modal representations. Specifically, we first split the video and query into individual clips and phrases to learn their local context (adjacent dependency) and global correlation (long-range dependency) via a temporal transformer. Then, a global-local transformer is introduced to learn the interactions between the local-level and global-level semantics for better multi-modal reasoning. Besides, we develop a new cross-modal cycle-consistency loss to enforce interaction between two modalities and encourage the semantic alignment between them. Finally, we design a brand-new cross-modal parallel transformer decoder to integrate the encoded visual and textual features for final grounding. Extensive experiments on three challenging datasets show that our proposed HLGT achieves a new state-of-the-art performance.
翻訳日:2022-09-01 13:10:18 公開日:2022-08-31
# ブリッジの構築 - 拡散生成モデルを理解し拡張する

Let us Build Bridges: Understanding and Extending Diffusion Generative Models ( http://arxiv.org/abs/2208.14699v1 )

ライセンス: Link先を確認
Xingchao Liu, Lemeng Wu, Mao Ye, Qiang Liu(参考訳) 拡散に基づく生成モデルは最近、有望な結果を得たが、概念理解、理論的解析、アルゴリズムの改善、離散的、構造化されていない非ユークリッド領域への拡張という観点から、多くのオープン質問を提起した。 この研究は、理論的な理解を深め、任意のドメインのデータに対するアルゴリズム拡張を開発するために、フレームワーク全体の再検討を試みる。 拡散モデルを非観測拡散軌跡を持つ潜時変動モデルとみなし、補助分布から誘導される潜時軌跡を持つ最大誤差推定(MLE)を適用し、そのモデル構築と潜時軌跡の計算の両方を、終点における決定論的値と制約を達成する拡散ブリッジプロセスの構築に用いて、系統的な研究とツールのスーツを提供する。 フレームワークを活用して、提示する 1)拡散生成モデル学習のための第1理論誤差解析,及び 2)異なる離散領域と制約領域からのデータを学ぶための単純で統一的なアプローチ。 実験により,提案手法は画像,セマンティクスセグメント,および3dポイントクラウドの生成に優れた効果を示す。

Diffusion-based generative models have achieved promising results recently, but raise an array of open questions in terms of conceptual understanding, theoretical analysis, algorithm improvement and extensions to discrete, structured, non-Euclidean domains. This work tries to re-exam the overall framework, in order to gain better theoretical understandings and develop algorithmic extensions for data from arbitrary domains. By viewing diffusion models as latent variable models with unobserved diffusion trajectories and applying maximum likelihood estimation (MLE) with latent trajectories imputed from an auxiliary distribution, we show that both the model construction and the imputation of latent trajectories amount to constructing diffusion bridge processes that achieve deterministic values and constraints at end point, for which we provide a systematic study and a suit of tools. Leveraging our framework, we present 1) a first theoretical error analysis for learning diffusion generation models, and 2) a simple and unified approach to learning on data from different discrete and constrained domains. Experiments show that our methods perform superbly on generating images, semantic segments and 3D point clouds.
翻訳日:2022-09-01 13:09:46 公開日:2022-08-31
# スタイル非依存強化学習

Style-Agnostic Reinforcement Learning ( http://arxiv.org/abs/2208.14863v1 )

ライセンス: Link先を確認
Juyong Lee, Seokjun Ahn, Jaesik Park(参考訳) 強化学習フレームワークにおけるスタイル伝達と逆学習の両方を用いたスタイル認識表現の新しい手法を提案する。 ここでのスタイルは、背景の色などのタスク非関連の詳細を指し、異なるスタイルの環境にまたがって学習ポリシーを一般化することは依然として課題である。 学習スタイルに依存しない表現に焦点をあてて,本手法では,データ強化の専門知識を必要とせずに,アクタとジェネレータ間のmin-maxゲームを行う固有対向型摂動生成器から生成された多様な画像スタイルを訓練する。 本稿では,提案手法がProcgen and Distracting Control Suiteベンチマークの最先端手法よりも競争力や性能を向上することを検証するとともに,モデルから抽出した特徴を更に検討し,モデルが不変量をよりよく捕捉し,シフトしたスタイルに注意を払わないことを示す。 コードはhttps://github.com/POSTECH-CVLab/style-agnostic-RLで公開されている。

We present a novel method of learning style-agnostic representation using both style transfer and adversarial learning in the reinforcement learning framework. The style, here, refers to task-irrelevant details such as the color of the background in the images, where generalizing the learned policy across environments with different styles is still a challenge. Focusing on learning style-agnostic representations, our method trains the actor with diverse image styles generated from an inherent adversarial style perturbation generator, which plays a min-max game between the actor and the generator, without demanding expert knowledge for data augmentation or additional class labels for adversarial training. We verify that our method achieves competitive or better performances than the state-of-the-art approaches on Procgen and Distracting Control Suite benchmarks, and further investigate the features extracted from our model, showing that the model better captures the invariants and is less distracted by the shifted style. The code is available at https://github.com/POSTECH-CVLab/style-agnostic-RL.
翻訳日:2022-09-01 13:09:27 公開日:2022-08-31
# 非教師なし領域適応のための不確実性と自己訓練による特徴調整

Feature Alignment by Uncertainty and Self-Training for Source-Free Unsupervised Domain Adaptation ( http://arxiv.org/abs/2208.14888v1 )

ライセンス: Link先を確認
JoonHo Lee and Gyemin Lee(参考訳) ほとんどの教師なし領域適応(UDA)手法は、ラベル付きソースイメージがモデル適応中に利用できると仮定する。 しかし、この仮定は、モバイルデバイスの機密性問題やメモリ制限のため、しばしば実現不可能である。 これらの問題に対処するために,事前学習したソースモデルと未ラベルのターゲット画像のみを用いる,シンプルで効果的なソースフリーなUDA手法を提案する。 本手法は,データ拡張を取り入れ,特徴発生器を2つの整合性目標で訓練することにより,アレタリック不確実性を捉える。 特徴生成器は、頭部分類器の決定境界から一貫した視覚的特徴を学習することを推奨する。 自己教師あり学習に触発されて,予測空間と特徴空間との空間間アライメントを促進するとともに,特徴空間内に空間内一貫性を組み込んで,ソース領域と対象領域の間のドメイン間ギャップを低減する。 また,モデルの適応性を高めるために認識の不確かさも考慮する。 一般的なUDAベンチマークの大規模な実験により、我々のアプローチは、ソースイメージやネットワーク修正を使わずに、バニラUDA手法と同等か、あるいは同等であることが示された。

Most unsupervised domain adaptation (UDA) methods assume that labeled source images are available during model adaptation. However, this assumption is often infeasible owing to confidentiality issues or memory constraints on mobile devices. To address these problems, we propose a simple yet effective source-free UDA method that uses only a pre-trained source model and unlabeled target images. Our method captures the aleatoric uncertainty by incorporating data augmentation and trains the feature generator with two consistency objectives. The feature generator is encouraged to learn consistent visual features away from the decision boundaries of the head classifier. Inspired by self-supervised learning, our method promotes inter-space alignment between the prediction space and the feature space while incorporating intra-space consistency within the feature space to reduce the domain gap between the source and target domains. We also consider epistemic uncertainty to boost the model adaptation performance. Extensive experiments on popular UDA benchmarks demonstrate that the performance of our approach is comparable or even superior to vanilla UDA methods without using source images or network modifications.
翻訳日:2022-09-01 13:09:07 公開日:2022-08-31
# SAPIENシミュレータにおける汎用マニピュレーションスキルの学習に関する実証的研究

An Empirical Study and Analysis of Learning Generalizable Manipulation Skill in the SAPIEN Simulator ( http://arxiv.org/abs/2208.14646v1 )

ライセンス: Link先を確認
Kun Liu, Huiyuan Fu, Zheng Zhang, Huanpu Yin(参考訳) 本稿では,sapien maniskill challenge 2021のno interaction trackへの提案の概要について述べる。 まず、複数のオブジェクトのポイントクラウド機能を抽出する。次に、これらの機能を採用して、深く広いトランスフォーマーベースのネットワークを介してロボットシミュレータの動作スコアを予測します。 さらに, 今後の作業への指導として, 学習操作スキルの活用への道を開くために, 技の袋や中途半端な試みを含む経験的研究を行った。 最後に,提案手法はリーダボード上で有望なランキングを得る。 私たちのソリューションのすべてのコードは、https://github.com/liu6666/bigfish\_codesで利用可能です。

This paper provides a brief overview of our submission to the no interaction track of SAPIEN ManiSkill Challenge 2021. Our approach follows an end-to-end pipeline which mainly consists of two steps: we first extract the point cloud features of multiple objects; then we adopt these features to predict the action score of the robot simulators through a deep and wide transformer-based network. More specially, %to give guidance for future work, to open up avenues for exploitation of learning manipulation skill, we present an empirical study that includes a bag of tricks and abortive attempts. Finally, our method achieves a promising ranking on the leaderboard. All code of our solution is available at https://github.com/liu666666/bigfish\_codes.
翻訳日:2022-09-01 13:08:48 公開日:2022-08-31
# 収束点推定に基づくガウスサンプリングによる微分進化の高速化

Accelerating differential evolution algorithm with Gaussian sampling based on estimating the convergence points ( http://arxiv.org/abs/2208.14619v1 )

ライセンス: Link先を確認
Rui Zhong and Masaharu Munetomo(参考訳) 本稿では,エリート人口を平均化し,収束点を推定する簡単な手法を提案する。 この考え方に基づき,通常の平均化戦略と重み付け平均化戦略という2つの手法を導出する。 また、ある標準偏差を持つ推定収束点の平均を持つガウスサンプリング演算子を設計する。 この演算子は、収束を加速するために従来の微分進化アルゴリズム(DE)と組み合わせられる。 数値実験により,提案手法はCEC2013 Suite上の28個の低次元テスト関数のほとんどでDEを高速化することができ,提案手法を他の集団に基づく進化的アルゴリズムと簡単に組み合わせることができることがわかった。

In this paper, we propose a simple strategy for estimating the convergence point approximately by averaging the elite sub-population. Based on this idea, we derive two methods, which are ordinary averaging strategy, and weighted averaging strategy. We also design a Gaussian sampling operator with the mean of the estimated convergence point with a certain standard deviation. This operator is combined with the traditional differential evolution algorithm (DE) to accelerate the convergence. Numerical experiments show that our proposal can accelerate the DE on most functions of 28 low-dimensional test functions on the CEC2013 Suite, and our proposal can easily be extended to combine with other population-based evolutionary algorithms with a simple modification.
翻訳日:2022-09-01 13:08:36 公開日:2022-08-31
# prescriptive learning analyticsフレームワーク:prescriptive analyticsによる予測モデリングと説明可能なai

A Prescriptive Learning Analytics Framework: Beyond Predictive Modelling and onto Explainable AI with Prescriptive Analytics ( http://arxiv.org/abs/2208.14582v1 )

ライセンス: Link先を確認
Teo Susnjak(参考訳) 学習分析の分野での最近の重要な研究は、リスクの高い学生を予測し、タイムリーな介入を開始し、保持と終了率を高めるために機械学習のアプローチを活用することに焦点を当てている。 これらの研究の大部分の全体的な特徴は予測の科学にのみ向けられている。 モデルの内部を解釈し、個々のケースの予測を利害関係者に説明することに関する予測分析の構成要素は、ほとんど無視されている。 さらに、データ駆動型規範分析を使用して、リスクのある学習者に対するエビデンスベースの修正アドバイスを自動的に生成しようとする研究が、その初期段階にある。 eXplainable AIは、最近出現した分野であり、透明な予測分析とリスクの高い学生に適切なアドバイスを生成する技術をサポートする最先端のツールを提供している。 本研究では、透過的な機械学習と規範分析を可能にする技術の両方を統合する新しいフレームワークを提案する。 本研究は,プログラム非補完のリスク学習者を特定するための予測モデルを用いて提案手法を実演する。 この研究は、リスクを抱えている人に対して、人間の読みやすい規範的フィードバックを生成するために、2つのケーススタディにおける規範的分析によって予測モデリングをどのように強化できるかをさらに示す。

A significant body of recent research in the field of Learning Analytics has focused on leveraging machine learning approaches for predicting at-risk students in order to initiate timely interventions and thereby elevate retention and completion rates. The overarching feature of the majority of these research studies has been on the science of prediction only. The component of predictive analytics concerned with interpreting the internals of the models and explaining their predictions for individual cases to stakeholders has largely been neglected. Additionally, works that attempt to employ data-driven prescriptive analytics to automatically generate evidence-based remedial advice for at-risk learners are in their infancy. eXplainable AI is a field that has recently emerged providing cutting-edge tools which support transparent predictive analytics and techniques for generating tailored advice for at-risk students. This study proposes a novel framework that unifies both transparent machine learning as well as techniques for enabling prescriptive analytics. This work practically demonstrates the proposed framework using predictive models for identifying at-risk learners of programme non-completion. The study then further demonstrates how predictive modelling can be augmented with prescriptive analytics on two case studies in order to generate human-readable prescriptive feedback for those who are at risk.
翻訳日:2022-09-01 13:08:06 公開日:2022-08-31
# 機械学習安全モニタの統一評価

Unifying Evaluation of Machine Learning Safety Monitors ( http://arxiv.org/abs/2208.14660v1 )

ライセンス: Link先を確認
Joris Guerin and Raul Sena Ferreira and Kevin Delmas and J\'er\'emie Guiochet(参考訳) 重要な自律システムにおける機械学習(ML)の利用の増加に伴い、予測エラーを検出し、運用中にシステムを安全な状態に保つランタイムモニタが開発された。 多様な知覚タスクやMLモデルを含むさまざまなアプリケーションに対してモニタが提案され、異なるコンテキストに対して特定の評価手順とメトリクスが使用される。 本稿では、監視装置の安全性向上(セーフティゲイン)、使用後の残りの安全ギャップ(Residual Hazard)、およびシステム性能(アベイラビリティコスト)に悪影響を与える3つの統合安全指向メトリクスを紹介する。 これらのメトリクスを計算するには、与えられたml予測が将来の報酬やハザードにどのように影響するかを表す、2つの戻り関数を定義する必要がある。 3つのユースケース(分類、ドローン着陸、自律運転)は、文献からのメトリクスが提案されたメトリクスでどのように表現できるかを示すために使用される。 これらの実験結果から、異なる評価選択がモニターの性能に与える影響が示された。 私たちの形式主義は、明示的な安全仮定を定式化する必要があるので、高いレベルのシステム要件に合致した評価を保証できます。

With the increasing use of Machine Learning (ML) in critical autonomous systems, runtime monitors have been developed to detect prediction errors and keep the system in a safe state during operations. Monitors have been proposed for different applications involving diverse perception tasks and ML models, and specific evaluation procedures and metrics are used for different contexts. This paper introduces three unified safety-oriented metrics, representing the safety benefits of the monitor (Safety Gain), the remaining safety gaps after using it (Residual Hazard), and its negative impact on the system's performance (Availability Cost). To compute these metrics, one requires to define two return functions, representing how a given ML prediction will impact expected future rewards and hazards. Three use-cases (classification, drone landing, and autonomous driving) are used to demonstrate how metrics from the literature can be expressed in terms of the proposed metrics. Experimental results on these examples show how different evaluation choices impact the perceived performance of a monitor. As our formalism requires us to formulate explicit safety assumptions, it allows us to ensure that the evaluation conducted matches the high-level system requirements.
翻訳日:2022-09-01 13:04:39 公開日:2022-08-31
# 次世代スーパービジョンによるNLI中間ステップの生成

Generating Intermediate Steps for NLI with Next-Step Supervision ( http://arxiv.org/abs/2208.14641v1 )

ライセンス: Link先を確認
Deepanway Ghosal and Somak Aditya and Monojit Choudhury(参考訳) 自然言語推論(NLI)タスクは、結論に達するために、しばしば複数のステップの推論を必要とする。 このような中間段階を生成する必要性(要約説明の代わりに)は広く支持されているが、エンド・ツー・エンドの完全な監督なしにどうやって生成するか、どのように生成されたステップをさらに活用するかは明らかでない。 本研究では,nliの前提と仮説のペア(および前段階)が与えられた次のステップのみを生成するシーケンス・ツー・シーケンスモデルを訓練し,外部知識と記号探索によって拡張し,次のステップのみの中間ステップを生成する。 自動検証と人的検証によって生成したステップの正しさを示す。 さらに、このようなステップは、複数のパブリックNLIデータセットをまたいだ単純なデータ拡張戦略を用いて、エンドツーエンドのNLIタスクパフォーマンスを改善するのに役立つことを示す。

The Natural Language Inference (NLI) task often requires reasoning over multiple steps to reach the conclusion. While the necessity of generating such intermediate steps (instead of a summary explanation) has gained popular support, it is unclear how to generate such steps without complete end-to-end supervision and how such generated steps can be further utilized. In this work, we train a sequence-to-sequence model to generate only the next step given an NLI premise and hypothesis pair (and previous steps); then enhance it with external knowledge and symbolic search to generate intermediate steps with only next-step supervision. We show the correctness of such generated steps through automated and human verification. Furthermore, we show that such generated steps can help improve end-to-end NLI task performance using simple data augmentation strategies, across multiple public NLI datasets.
翻訳日:2022-09-01 13:03:53 公開日:2022-08-31
# GRILLBot: ニューラルネットワークによる構文解析とグラフベース表現による実世界のタスク支援

GRILLBot: An Assistant for Real-World Tasks with Neural Semantic Parsing and Graph-Based Representations ( http://arxiv.org/abs/2208.14884v1 )

ライセンス: Link先を確認
Carlos Gemmell, Iain Mackie, Paul Owoicho, Federico Rossetto, Sophie Fischer, Jeffrey Dalton(参考訳) grillbotは、2022年のalexa prize taskbot challengeで優勝したシステムであり、次世代のマルチモーダルタスクアシスタントへと向かっている。 音声アシスタントは、料理と家庭改善の領域における複雑な現実世界のタスクを通じてユーザーをガイドする。 これらは、フレキシブルな調整と適応を必要とする長くて複雑なタスクです。 デモでは、コンテキスト化されたセマンティックパーシングのための新しいニューラル決定パーサ、条件付き実行をサポートする新しい"TaskGraph"状態表現、知識ベースのチャット、イメージとビデオによるタスクの自動強化など、中核的な側面を強調した。

GRILLBot is the winning system in the 2022 Alexa Prize TaskBot Challenge, moving towards the next generation of multimodal task assistants. It is a voice assistant to guide users through complex real-world tasks in the domains of cooking and home improvement. These are long-running and complex tasks that require flexible adjustment and adaptation. The demo highlights the core aspects, including a novel Neural Decision Parser for contextualized semantic parsing, a new "TaskGraph" state representation that supports conditional execution, knowledge-grounded chit-chat, and automatic enrichment of tasks with images and videos.
翻訳日:2022-09-01 13:03:38 公開日:2022-08-31
# カメラトトラップ画像における野生動物のオープンセット長期認識のための時流マスク注意

Temporal Flow Mask Attention for Open-Set Long-Tailed Recognition of Wild Animals in Camera-Trap Images ( http://arxiv.org/abs/2208.14625v1 )

ライセンス: Link先を確認
Jeongsoo Kim, Sangmin Woo, Byeongjun Park, Changick Kim(参考訳) カメラトラップ、無人観測装置、ディープラーニングベースの画像認識システムは、野生動物画像の収集と分析における人間の労力を大幅に削減した。 しかし 上記装置で収集したデータは 1)長い尾と 2) 開放分布問題 オープンセットのロングテール認識問題に取り組むために,3つのキービルディングブロックからなるテンポラルフローマスクアテンションネットワークを提案する。 1)光フローモジュール、 2) 注意残余モジュール,及び 3)メタ埋め込み分類器。 光フローモジュールを用いて逐次フレームの時間的特徴を抽出し,注意残差ブロックを用いて情報表現を学習する。 さらに,メタ埋め込み技術の適用により,オープンセット長周期認識における手法の性能が向上することを示す。 この手法を韓国非武装地帯(dmz)データセットに適用する。 提案手法が未知のクラスに頑健なまま,オープンセットのロングテール認識問題に効果的に取り組むことを証明するため,広範囲な実験と定量的・定性的な分析を行った。

Camera traps, unmanned observation devices, and deep learning-based image recognition systems have greatly reduced human effort in collecting and analyzing wildlife images. However, data collected via above apparatus exhibits 1) long-tailed and 2) open-ended distribution problems. To tackle the open-set long-tailed recognition problem, we propose the Temporal Flow Mask Attention Network that comprises three key building blocks: 1) an optical flow module, 2) an attention residual module, and 3) a meta-embedding classifier. We extract temporal features of sequential frames using the optical flow module and learn informative representation using attention residual blocks. Moreover, we show that applying the meta-embedding technique boosts the performance of the method in open-set long-tailed recognition. We apply this method on a Korean Demilitarized Zone (DMZ) dataset. We conduct extensive experiments, and quantitative and qualitative analyses to prove that our method effectively tackles the open-set long-tailed recognition problem while being robust to unknown classes.
翻訳日:2022-09-01 13:03:19 公開日:2022-08-31
# LANIT: ラベルなしデータのための言語駆動型画像変換

LANIT: Language-Driven Image-to-Image Translation for Unlabeled Data ( http://arxiv.org/abs/2208.14889v1 )

ライセンス: Link先を確認
Jihye Park, Soohyun Kim, Sunwoo Kim, Jaejun Yoo, Youngjung Uh, Seungryong Kim(参考訳) 既存の画像から画像への翻訳技術は、サンプル単位のドメインアノテーションへの依存度と、画像ごとに複数の属性を扱うことができないという2つの重大な問題に悩まされている。 最近の手法ではクラスタリングアプローチを採用して、教師なしの方法でサンプル単位のアノテーションを容易に提供している。 しかし、実世界の設定は説明できない。あるサンプルには複数の属性があるかもしれない。 加えて、クラスタのセマンティクスは人間の理解と簡単には結合されない。 これらを克服するために、LANITと呼ばれるLANguage-driven Image-to-image Translationモデルを提案する。 データセットのテキストで与えられる候補ドメインアノテーションを利用して、トレーニング中に共同で最適化します。 ターゲットスタイルは、マルチホットドメイン割り当てに従ってマルチドメインスタイルのベクターを集約することで指定される。 初期候補ドメインテキストが不正確である可能性があるため、候補ドメインテキストを学習可能とし、トレーニング中に共同で微調整する。 さらに、候補ドメインでカバーされていないサンプルをカバーするために、slackドメインを導入する。 いくつかの標準ベンチマークの実験では、LANITは既存のモデルに匹敵する、あるいは優れた性能を達成している。

Existing techniques for image-to-image translation commonly have suffered from two critical problems: heavy reliance on per-sample domain annotation and/or inability of handling multiple attributes per image. Recent methods adopt clustering approaches to easily provide per-sample annotations in an unsupervised manner. However, they cannot account for the real-world setting; one sample may have multiple attributes. In addition, the semantics of the clusters are not easily coupled to human understanding. To overcome these, we present a LANguage-driven Image-to-image Translation model, dubbed LANIT. We leverage easy-to-obtain candidate domain annotations given in texts for a dataset and jointly optimize them during training. The target style is specified by aggregating multi-domain style vectors according to the multi-hot domain assignments. As the initial candidate domain texts might be inaccurate, we set the candidate domain texts to be learnable and jointly fine-tune them during training. Furthermore, we introduce a slack domain to cover samples that are not covered by the candidate domains. Experiments on several standard benchmarks demonstrate that LANIT achieves comparable or superior performance to the existing model.
翻訳日:2022-09-01 13:03:02 公開日:2022-08-31
# クロスドメインカットミクスを用いた少数の適応物体検出

Few-shot Adaptive Object Detection with Cross-Domain CutMix ( http://arxiv.org/abs/2208.14586v1 )

ライセンス: Link先を確認
Yuzuru Nakamura, Yasunori Ishii, Yuki Maruyama, Takayoshi Yamashita(参考訳) オブジェクト検出では、データ量とコストはトレードオフであり、特定の領域における大量のデータ収集は労働集約的である。 そのため、既存の大規模データセットは事前トレーニングに使用される。 しかし、従来の転送学習やドメイン適応は、対象ドメインがソースドメインと大きく異なる場合にドメインギャップを埋めることはできない。 本稿では,大規模領域間隙問題を解決するデータ合成手法を提案する。 この方法では、対象画像の一部がソース画像に貼付され、被写体バウンディングボックスの情報を利用して被写体領域の位置が整列される。 また,本論文では,オリジナル領域とペースト領域を区別するために,逆学習を導入する。 提案手法では,多数のソースイメージと少数のターゲットドメインイメージをトレーニングする。 提案手法は,rgb画像がソース領域であり,熱赤外画像がターゲット領域である,まったく異なる領域問題設定において,従来の手法よりも高精度である。 同様に,提案手法は実画像に対するシミュレーション画像の精度を向上させる。

In object detection, data amount and cost are a trade-off, and collecting a large amount of data in a specific domain is labor intensive. Therefore, existing large-scale datasets are used for pre-training. However, conventional transfer learning and domain adaptation cannot bridge the domain gap when the target domain differs significantly from the source domain. We propose a data synthesis method that can solve the large domain gap problem. In this method, a part of the target image is pasted onto the source image, and the position of the pasted region is aligned by utilizing the information of the object bounding box. In addition, we introduce adversarial learning to discriminate whether the original or the pasted regions. The proposed method trains on a large number of source images and a few target domain images. The proposed method achieves higher accuracy than conventional methods in a very different domain problem setting, where RGB images are the source domain, and thermal infrared images are the target domain. Similarly, the proposed method achieves higher accuracy in the cases of simulation images to real images.
翻訳日:2022-09-01 13:02:45 公開日:2022-08-31
# ニューラルネットワークのための反事実説明のロバスト性に関する形式化

Formalising the Robustness of Counterfactual Explanations for Neural Networks ( http://arxiv.org/abs/2208.14878v1 )

ライセンス: Link先を確認
Junqi Jiang, Francesco Leofante, Antonio Rago, Francesca Toni(参考訳) 対物的説明(CFXs)の使用は、機械学習モデルの一般的な説明戦略である。 しかし、近年の研究では、これらの説明は、実際のアプリケーションにおける信頼性に関する疑問を提起する基礎となるモデル(再トレーニング後の変更など)の変化に対して堅牢ではない可能性があることが示されている。 この問題を解決する既存の試みはヒューリスティックであり、cfxのモデル変更に対する堅牢性は少数の再訓練されたモデルで評価され、徹底的な保証を提供していない。 そこで本研究では,ニューラルネットワークのためのcfxのロバスト性(モデル変更)を形式的かつ決定論的に評価する最初の概念を提案する。 本稿では,時間間隔ニューラルネットワークに基づく抽象化フレームワークを導入し,モデルパラメータ,すなわち重みと偏りの無限セットに対するCFXの破壊性を検証する。 次に、このアプローチの有用性を2つの異なる方法で示す。 まず、文献から多くのCFX生成手法の「Delta}-robustness」を分析し、この点において重要な欠陥を全会一致で担っていることを示す。 第2に、既存のメソッドに {\Delta}-robustnessを組み込むことで、確実に堅牢なCFXを実現できることを示す。

The use of counterfactual explanations (CFXs) is an increasingly popular explanation strategy for machine learning models. However, recent studies have shown that these explanations may not be robust to changes in the underlying model (e.g., following retraining), which raises questions about their reliability in real-world applications. Existing attempts towards solving this problem are heuristic, and the robustness to model changes of the resulting CFXs is evaluated with only a small number of retrained models, failing to provide exhaustive guarantees. To remedy this, we propose the first notion to formally and deterministically assess the robustness (to model changes) of CFXs for neural networks, that we call {\Delta}-robustness. We introduce an abstraction framework based on interval neural networks to verify the {\Delta}-robustness of CFXs against a possibly infinite set of changes to the model parameters, i.e., weights and biases. We then demonstrate the utility of this approach in two distinct ways. First, we analyse the {\Delta}-robustness of a number of CFX generation methods from the literature and show that they unanimously host significant deficiencies in this regard. Second, we demonstrate how embedding {\Delta}-robustness within existing methods can provide CFXs which are provably robust.
翻訳日:2022-09-01 13:02:28 公開日:2022-08-31
# 細胞フリーの遅延 Go-Explore

Cell-Free Latent Go-Explore ( http://arxiv.org/abs/2208.14928v1 )

ライセンス: Link先を確認
Quentin Gallou\'edec and Emmanuel Dellandr\'ea(参考訳) 本稿では、強化学習(RL)における探索のためのGo-Exploreパラダイムに基づく、単純かつ一般的なアプローチであるLatent Go-Explore(LGE)を紹介する。 Go-Exploreは当初、状態空間をセルに分割するための強力なドメイン知識制約とともに導入された。 しかし、現実世界のほとんどのシナリオでは、生の観測からドメイン知識を引き出すのは複雑で面倒である。 細胞分割が十分な情報を持っていなければ、Go-Exploreは環境の探索に完全に失敗する可能性がある。 Go-Exploreのアプローチは、学習された潜在表現を活用すれば、ドメイン知識やセルなしで任意の環境に一般化できると論じる。 したがって,lgeは潜在表現を学習するための任意の戦略と柔軟に結合できることを示す。 LGEは、Go-Exploreよりシンプルだが、より堅牢で、複数のハード探索環境における純粋探索の観点から、最先端のアルゴリズムよりも優れていることを示す。 LGEの実装はhttps://github.com/qgallouedec/lgeでオープンソースとして公開されている。

In this paper, we introduce Latent Go-Explore (LGE), a simple and general approach based on the Go-Explore paradigm for exploration in reinforcement learning (RL). Go-Explore was initially introduced with a strong domain knowledge constraint for partitioning the state space into cells. However, in most real-world scenarios, drawing domain knowledge from raw observations is complex and tedious. If the cell partitioning is not informative enough, Go-Explore can completely fail to explore the environment. We argue that the Go-Explore approach can be generalized to any environment without domain knowledge and without cells by exploiting a learned latent representation. Thus, we show that LGE can be flexibly combined with any strategy for learning a latent representation. We show that LGE, although simpler than Go-Explore, is more robust and outperforms all state-of-the-art algorithms in terms of pure exploration on multiple hard-exploration environments. The LGE implementation is available as open-source at https://github.com/qgallouedec/lge.
翻訳日:2022-09-01 13:02:07 公開日:2022-08-31
# NeurIPS'22 クロスドメインメタDLコンペティション:設計とベースライン結果

NeurIPS'22 Cross-Domain MetaDL competition: Design and baseline results ( http://arxiv.org/abs/2208.14686v1 )

ライセンス: Link先を確認
Dustin Carri\'on-Ojeda (LISN, TAU), Hong Chen (CST), Adrian El Baz, Sergio Escalera (CVC), Chaoyu Guan (CST), Isabelle Guyon (LISN, TAU), Ihsan Ullah (LISN, TAU), Xin Wang (CST), Wenwu Zhu (CST)(参考訳) 我々は、NeurIPS'22で受け入れられたChaLearnメタラーニングシリーズにおいて、"クロスドメイン"メタラーニングに焦点を当てた新しい課題の設計とベースライン結果を示す。 メタラーニングは、以前のタスクから得られた経験を活用して、新しいタスクを効率的に解決することを目的としている(すなわち、パフォーマンスの向上、トレーニングデータ不足、および/または控え目な計算リソース)。 シリーズの以前の課題は、効果的にNウェイのkショットタスク(例えば、kトレーニングの例によるNクラス分類問題)を学習することを目的として、ドメイン内の数ショットの学習問題に焦点を当てていたが、この競争は、様々なドメイン(医療、生態、生物学、製造など)から引き出された「あらゆる」問題と「あらゆるショット」問題を、その人道的および社会的影響のために参加者に解決させることに挑戦した。 そのためにMeta-Albumという,10ドメインの40の画像分類データセットのメタデータセットを作成しました。そこからは,任意の数の"way"(範囲2~20)と任意の数の"shots"(範囲1~20)でタスクを実行します。 競争相手はコード提出で、CodaLabチャレンジプラットフォームで完全に盲目的にテストされている。 勝者のコードはオープンソース化され、複数のドメインにまたがる数ショットの画像分類のための自動機械学習ソリューションがデプロイされる。

We present the design and baseline results for a new challenge in the ChaLearn meta-learning series, accepted at NeurIPS'22, focusing on "cross-domain" meta-learning. Meta-learning aims to leverage experience gained from previous tasks to solve new tasks efficiently (i.e., with better performance, little training data, and/or modest computational resources). While previous challenges in the series focused on within-domain few-shot learning problems, with the aim of learning efficiently N-way k-shot tasks (i.e., N class classification problems with k training examples), this competition challenges the participants to solve "any-way" and "any-shot" problems drawn from various domains (healthcare, ecology, biology, manufacturing, and others), chosen for their humanitarian and societal impact. To that end, we created Meta-Album, a meta-dataset of 40 image classification datasets from 10 domains, from which we carve out tasks with any number of "ways" (within the range 2-20) and any number of "shots" (within the range 1-20). The competition is with code submission, fully blind-tested on the CodaLab challenge platform. The code of the winners will be open-sourced, enabling the deployment of automated machine learning solutions for few-shot image classification across several domains.
翻訳日:2022-09-01 12:58:53 公開日:2022-08-31
# ARMA細胞:ニューラル自己回帰モデリングのためのモジュール的で効果的なアプローチ

ARMA Cell: A Modular and Effective Approach for Neural Autoregressive Modeling ( http://arxiv.org/abs/2208.14919v1 )

ライセンス: Link先を確認
Philipp Schiele and Christoph Berninger and David R\"ugamer(参考訳) 自己回帰移動平均(ARMA)モデルは古典的であり、おそらく時系列データに対する最も研究されているアプローチの1つである。 説得力のある理論的性質を持ち、実践者の間で広く利用されている。 近年のディープラーニングアプローチでは、リカレントニューラルネットワーク(RNN)や、特に、ニューラルネットワーク時系列モデリングにおいて最もパフォーマンスが高く、最も一般的なビルディングブロックの1つである長期記憶(LSTM)細胞が普及している。 時系列データや長期効果のあるシーケンスに有利であるが、複雑なRNN細胞は必ずしも必須ではなく、単純な再帰的アプローチよりも劣ることもある。 本稿では,ニューラルネットワークにおける時系列モデリングのための,よりシンプルでモジュール化された効果的なアプローチであるARMAセルを紹介する。 このセルは、リカレント構造が存在する任意のニューラルネットワークアーキテクチャで使用することができ、ベクトル自己回帰を用いて自然に多変量時系列を処理する。 また,空間的関連時系列の自然な後継としてConvARMA細胞を導入する。 実験の結果,提案手法は性能面では一般的な代替手段と競合するが,単純さからより堅牢で説得力があることがわかった。

The autoregressive moving average (ARMA) model is a classical, and arguably one of the most studied approaches to model time series data. It has compelling theoretical properties and is widely used among practitioners. More recent deep learning approaches popularize recurrent neural networks (RNNs) and, in particular, long short-term memory (LSTM) cells that have become one of the best performing and most common building blocks in neural time series modeling. While advantageous for time series data or sequences with long-term effects, complex RNN cells are not always a must and can sometimes even be inferior to simpler recurrent approaches. In this work, we introduce the ARMA cell, a simpler, modular, and effective approach for time series modeling in neural networks. This cell can be used in any neural network architecture where recurrent structures are present and naturally handles multivariate time series using vector autoregression. We also introduce the ConvARMA cell as a natural successor for spatially-correlated time series. Our experiments show that the proposed methodology is competitive with popular alternatives in terms of performance while being more robust and compelling due to its simplicity.
翻訳日:2022-09-01 12:58:22 公開日:2022-08-31
# 効率的なスパース活性変圧器

Efficient Sparsely Activated Transformers ( http://arxiv.org/abs/2208.14580v1 )

ライセンス: Link先を確認
Salar Latifi, Saurav Muralidharan, Michael Garland(参考訳) トランスフォーマーベースのニューラルネットワークは、自然言語処理やコンピュータビジョンなど、多くの機械学習領域で最先端のタスクパフォーマンスを達成している。 さらに精度を向上させるため、最近の研究は、mixing-of-expert(moe)層という形で、これらのネットワークへの動的動作の統合を探求している。 本稿では,異なるメトリクスを最適化するためのmoe層の導入について検討する。 我々は,既存のTransformerベースのネットワークとユーザ定義のレイテンシターゲットを取り入れたPLANERという新しいシステムを導入し,ベースライン精度を維持しつつ,レイテンシターゲットを満たそうとするオリジナルネットワークの最適化された,疎活性化版を生成する。 我々は,transformer-xlネットワークを用いた2つの実世界の言語モデリングタスクのプランナーを評価し,iso精度で2倍以上の遅延低減を実現する。

Transformer-based neural networks have achieved state-of-the-art task performance in a number of machine learning domains including natural language processing and computer vision. To further improve their accuracy, recent work has explored the integration of dynamic behavior into these networks in the form of mixture-of-expert (MoE) layers. In this paper, we explore the introduction of MoE layers to optimize a different metric: inference latency. We introduce a novel system named PLANER that takes an existing Transformer-based network and a user-defined latency target and produces an optimized, sparsely-activated version of the original network that tries to meet the latency target while maintaining baseline accuracy. We evaluate PLANER on two real-world language modeling tasks using the Transformer-XL network and achieve inference latency reductions of over 2x at iso-accuracy.
翻訳日:2022-09-01 12:57:45 公開日:2022-08-31
# 階層的プロンプトを用いた質問応答のための生涯学習

Lifelong Learning for Question Answering with Hierarchical Prompts ( http://arxiv.org/abs/2208.14602v1 )

ライセンス: Link先を確認
Yi Dai, Hao Lang, Yinhe Zheng, Fei Huang, Luo Si, Yongbin Li(参考訳) 生涯学習能力を持つQAモデルは実践的なQAアプリケーションにとって重要であり、アーキテクチャベースのLLメソッドはこれらのモデルに効果的な実装であると報告されている。 しかし、テストフェーズでタスクの同一性にアクセスするか、目に見えないタスクからのサンプルを明示的にモデル化しないため、以前のアプローチをQAタスクに拡張するのは簡単ではない。 本稿では,動的アーキテクチャに基づくQAモデルであるDianaを提案する。 階層的に整理された4つのプロンプトは、異なる粒度からQA知識を取得するためにダイアナで使用される。 具体的には、タスク固有の知識をキャプチャして高いLL性能を維持するためのタスクレベルのプロンプトと、異なる入力サンプル間で共有される知識をインスタンスレベルのプロンプトで学習し、モデルの一般化性能を改善する。 さらに,未知のタスクを明示的にモデル化するための個別のプロンプトと,タスク間の知識共有を容易にするための一連のプロンプトキーベクタを導入する。 大規模な実験により、Dianaは最先端のQAモデルよりも優れており、特に目に見えないタスクを処理している。

QA models with lifelong learning (LL) abilities are important for practical QA applications, and architecture-based LL methods are reported to be an effective implementation for these models. However, it is non-trivial to extend previous approaches to QA tasks since they either require access to task identities in the testing phase or do not explicitly model samples from unseen tasks. In this paper, we propose Diana: a dynamic architecture-based lifelong QA model that tries to learn a sequence of QA tasks with a prompt enhanced language model. Four types of hierarchically organized prompts are used in Diana to capture QA knowledge from different granularities. Specifically, we dedicate task-level prompts to capture task-specific knowledge to retain high LL performances and maintain instance-level prompts to learn knowledge shared across different input samples to improve the model's generalization performance. Moreover, we dedicate separate prompts to explicitly model unseen tasks and introduce a set of prompt key vectors to facilitate knowledge sharing between tasks. Extensive experiments demonstrate that Diana outperforms state-of-the-art lifelong QA models, especially in handling unseen tasks.
翻訳日:2022-09-01 12:57:29 公開日:2022-08-31
# 確率的トリガーアームと独立アームを併用したコンビニアルセミバンドのバッチサイズ独立レグレットバウンド

Batch-Size Independent Regret Bounds for Combinatorial Semi-Bandits with Probabilistically Triggered Arms or Independent Arms ( http://arxiv.org/abs/2208.14837v1 )

ライセンス: Link先を確認
Xutong Liu, Jinhang Zuo, Siwei Wang, Carlee Joe-Wong, John C.S. Lui, Wei Chen(参考訳) 本稿では,組合わせ型半バンド(cmab)について検討し,各ラウンドにおいて引き起こしたり引き起こしたりできるアームの総数を$k$とする,後悔の限界におけるバッチサイズ$k$の依存性の低減に着目する。 まず,確率的に引き起こされるアーム(CMAB-T)を用いたCMABの設定において,カスケードバンド,オンラインネットワーク探索,オンライン影響の最大化など,従来使用されていたスムーズな条件に取って代わる,新しい(方向性)トリガの確率と分散変調(TPVM)条件を発見する。 この新たな条件下では,分散認識信頼区間を有するbcccb-tアルゴリズムを提案し,後悔度解析を行い,後悔度境界の$o(\log k)$ または $o(\log^2 k)$ を減少させ,上記のアプリケーションに対する後悔度を大幅に向上させる。 第2に,非トリガリングCMABを独立したアームで設定するために,TPVM条件の非トリガバージョンを利用したSESCBアルゴリズムを提案する。 貴重な副産物として,本論文で使用する後悔分析は,いくつかの既存結果をo(\log k)$で改善することができる。 最後に, 評価実験により, 異なるアプリケーションにおけるベンチマークアルゴリズムよりも優れた性能を示した。

In this paper, we study the combinatorial semi-bandits (CMAB) and focus on reducing the dependency of the batch-size $K$ in the regret bound, where $K$ is the total number of arms that can be pulled or triggered in each round. First, for the setting of CMAB with probabilistically triggered arms (CMAB-T), we discover a novel (directional) triggering probability and variance modulated (TPVM) condition that can replace the previously-used smoothness condition for various applications, such as cascading bandits, online network exploration and online influence maximization. Under this new condition, we propose a BCUCB-T algorithm with variance-aware confidence intervals and conduct regret analysis which reduces the $O(K)$ factor to $O(\log K)$ or $O(\log^2 K)$ in the regret bound, significantly improving the regret bounds for the above applications. Second, for the setting of non-triggering CMAB with independent arms, we propose a SESCB algorithm which leverages on the non-triggering version of the TPVM condition and completely removes the dependency on $K$ in the leading regret. As a valuable by-product, the regret analysis used in this paper can improve several existing results by a factor of $O(\log K)$. Finally, experimental evaluations show our superior performance compared with benchmark algorithms in different applications.
翻訳日:2022-09-01 12:56:48 公開日:2022-08-31
# LiDAR点雲生成のためのリアリズムメトリック

A Realism Metric for Generated LiDAR Point Clouds ( http://arxiv.org/abs/2208.14958v1 )

ライセンス: Link先を確認
Larissa T. Triess, Christoph B. Rist, David Peter, J. Marius Z\"ollner(参考訳) かなりの量の研究が、現実的なセンサーデータの生成に関係している。 LiDAR点雲は複雑なシミュレーションや学習された生成モデルによって生成される。 生成されたデータは、通常、下流認識アルゴリズムを有効にまたは改善するために利用される。 第一に、生成されたデータのリアリズムをどのように評価するか? 第二に、よりリアルなデータは、より良い知覚性能をもたらすか? 本稿では,両問題に対処し,LiDAR点雲のリアリズムを定量化する新しい指標を提案する。 関連する機能は、プロキシ分類タスクのトレーニングによって、現実世界と合成ポイントクラウドから学習される。 一連の実験において,生成lidarデータのリアリズムを判定するための測定器の適用を実証し,計測器のリアリズム推定とセグメンテーションモデルの性能を比較した。 我々の測定値が下流セグメンテーション性能を示すことを確認します。

A considerable amount of research is concerned with the generation of realistic sensor data. LiDAR point clouds are generated by complex simulations or learned generative models. The generated data is usually exploited to enable or improve downstream perception algorithms. Two major questions arise from these procedures: First, how to evaluate the realism of the generated data? Second, does more realistic data also lead to better perception performance? This paper addresses both questions and presents a novel metric to quantify the realism of LiDAR point clouds. Relevant features are learned from real-world and synthetic point clouds by training on a proxy classification task. In a series of experiments, we demonstrate the application of our metric to determine the realism of generated LiDAR data and compare the realism estimation of our metric to the performance of a segmentation model. We confirm that our metric provides an indication for the downstream segmentation performance.
翻訳日:2022-09-01 12:55:55 公開日:2022-08-31
# 2次元顕微鏡画像から3次元形状を予測する拡散モデル

A Diffusion Model Predicts 3D Shapes from 2D Microscopy Images ( http://arxiv.org/abs/2208.14125v2 )

ライセンス: Link先を確認
Dominik J. E. Waibel, Ernst R\"oell, Bastian Rieck, Raja Giryes, Carsten Marr(参考訳) 拡散モデルは生成モデルの一種であり、自然画像データセットでトレーニングされた場合の現実的な画像の作成において、他の生成モデルと比較して優れた性能を示す。 2次元(2次元)単細胞顕微鏡画像から3次元(3次元)細胞形状予測の逆問題を解く拡散モデルであるdisPRを導入する。 従来の2次元顕微鏡画像を用いて,現実的な3次元形状復元の予測を行う。 特徴量に基づく単一細胞分類タスクにおけるデータ拡張ツールとしての DISPR の適用性を示すため、6つの高度不均衡クラスに分類された細胞から形態的特徴を抽出した。 DISPRの予測を3つのマイノリティクラスに追加することで、マクロF1スコアは$F1_\text{macro} = 55.2 \pm 4.6\%$から$F1_\text{macro} = 72.2 \pm 4.9\%$に改善された。 この文脈で拡散モデルを用いた最初の手法として、拡散モデルが3次元の逆問題に適用可能であること、そして2次元顕微鏡画像から現実的な形態的特徴を持つ3次元形状を再構築できることを実証した。

Diffusion models are a class of generative models, showing superior performance as compared to other generative models in creating realistic images when trained on natural image datasets. We introduce DISPR, a diffusion-based model for solving the inverse problem of three-dimensional (3D) cell shape prediction from two-dimensional (2D) single cell microscopy images. Using the 2D microscopy image as a prior, DISPR is conditioned to predict realistic 3D shape reconstructions. To showcase the applicability of DISPR as a data augmentation tool in a feature-based single cell classification task, we extract morphological features from the cells grouped into six highly imbalanced classes. Adding features from predictions of DISPR to the three minority classes improved the macro F1 score from $F1_\text{macro} = 55.2 \pm 4.6\%$ to $F1_\text{macro} = 72.2 \pm 4.9\%$. With our method being the first to employ a diffusion-based model in this context, we demonstrate that diffusion models can be applied to inverse problems in 3D, and that they learn to reconstruct 3D shapes with realistic morphological features from 2D microscopy images.
翻訳日:2022-09-01 11:19:51 公開日:2022-08-31
# 因果推論のための経験的ガトー微分

Empirical Gateaux Derivatives for Causal Inference ( http://arxiv.org/abs/2208.13701v2 )

ライセンス: Link先を確認
Michael I. Jordan, Yixin Wang, Angela Zhou(参考訳) 有限ディフ参照による統計的汎関数のガトー微分を近似する構成的アルゴリズムを,因果推論関数に焦点をあてて検討する。 確率分布が事前に分かっていないがデータから推定する必要がある場合を考える。 これらの推定分布は, 経験的ガトー誘導体につながり, 経験的, 数値的および解析的ガトー誘導体の関係について検討する。 まず, 平均電位効果(hence average treatment effect)を推定するケーススタディから, 有限差分と解析的ガトー微分の正確な関係をインスタンス化する。 次に、摂動および平滑化における数値近似の速度に関する要件を導出し、レート・ダブル・ロバストネスのような一段階調整の統計的利点を保存する。 次に,無限ホリゾンマルコフ決定過程における動的処理レジームや線形計画法などのより複雑な機能について検討する。 任意制約の存在下でバイアス調整を近似する新たな発見は、ガトー微分に対する構成的アプローチの有用性を示している。 また, 関数(レートダブルロバスト性)の統計構造は, 有限差分近似の保存率を低くできることがわかった。 しかし、この性質は特定の機能に特有であり、例えば、平均ポテンシャル効果(平均処理効果)に対して発生するが、無限水平 MDP のポリシー値ではない。

We study a constructive algorithm that approximates Gateaux derivatives for statistical functionals by finite-differencing, with a focus on causal inference functionals. We consider the case where probability distributions are not known a priori but also need to be estimated from data. These estimated distributions lead to empirical Gateaux derivatives, and we study the relationships between empirical, numerical, and analytical Gateaux derivatives. Starting with a case study of estimating the mean potential outcome (hence average treatment effect), we instantiate the exact relationship between finite-differences and the analytical Gateaux derivative. We then derive requirements on the rates of numerical approximation in perturbation and smoothing that preserve the statistical benefits of one-step adjustments, such as rate-double-robustness. We then study more complicated functionals such as dynamic treatment regimes and the linear-programming formulation for policy optimization in infinite-horizon Markov decision processes. The newfound ability to approximate bias adjustments in the presence of arbitrary constraints illustrates the usefulness of constructive approaches for Gateaux derivatives. We also find that the statistical structure of the functional (rate-double robustness) can permit less conservative rates of finite-difference approximation. This property, however, can be specific to particular functionals, e.g. it occurs for the mean potential outcome (hence average treatment effect) but not the infinite-horizon MDP policy value.
翻訳日:2022-09-01 11:19:28 公開日:2022-08-31
# ロバスト音響誘導画像マニピュレーション

Robust Sound-Guided Image Manipulation ( http://arxiv.org/abs/2208.14114v2 )

ライセンス: Link先を確認
Seung Hyun Lee, Chanyoung Kim, Wonmin Byeon, Gyeongrok Oh, Jooyoung Lee, Sang Ho Yoon, Jinkyu Kim, Sangpil Kim(参考訳) 最近の成功は、例えば、晴れた日に風景シーンが、テキスト入力「レイニング」によって駆動される雨の日に同じシーンに操作されるように、テキストプロンプトで画像を操作できることを示唆している。 これらのアプローチはしばしば、マルチモーダル(テキストとイメージ)埋め込み空間を利用するStyleCLIPベースのイメージジェネレータを利用する。 しかし,このようなテキスト入力は,降雨時の豪雨と雷雨の区別など,リッチなセマンティック・キューの提供と合成においてしばしばボトルネックとなる。 この問題に対処するために、テキストよりも多様な意味的手がかり(生き生きとした感情や自然界のダイナミックな表現)を伝達できるため、画像操作において顕著な優位性を持つ追加のモダリティ、音の活用を提唱する。 本稿では,まず画像とテキストの組込み空間を音で拡張し,例えば雨音など,音声入力に基づいて画像を操作するための直接潜在最適化手法を提案する。 当社の音響誘導画像操作手法は,最先端のテキストや音声誘導画像操作手法よりも,意味的かつ視覚的に正確な操作結果が得られることを示す。 ダウンストリームタスク評価では,学習した画像-テキスト-音声統合埋め込み空間が音響入力を効果的に符号化することを示す。

Recent successes suggest that an image can be manipulated by a text prompt, e.g., a landscape scene on a sunny day is manipulated into the same scene on a rainy day driven by a text input "raining". These approaches often utilize a StyleCLIP-based image generator, which leverages multi-modal (text and image) embedding space. However, we observe that such text inputs are often bottlenecked in providing and synthesizing rich semantic cues, e.g., differentiating heavy rain from rain with thunderstorms. To address this issue, we advocate leveraging an additional modality, sound, which has notable advantages in image manipulation as it can convey more diverse semantic cues (vivid emotions or dynamic expressions of the natural world) than texts. In this paper, we propose a novel approach that first extends the image-text joint embedding space with sound and applies a direct latent optimization method to manipulate a given image based on audio input, e.g., the sound of rain. Our extensive experiments show that our sound-guided image manipulation approach produces semantically and visually more plausible manipulation results than the state-of-the-art text and sound-guided image manipulation methods, which are further confirmed by our human evaluations. Our downstream task evaluations also show that our learned image-text-sound joint embedding space effectively encodes sound inputs.
翻訳日:2022-09-01 11:19:04 公開日:2022-08-31
# PanorAMS: 都市環境における物体検出のための自動アノテーション

PanorAMS: Automatic Annotation for Detecting Objects in Urban Context ( http://arxiv.org/abs/2208.14295v2 )

ライセンス: Link先を確認
Inske Groenen, Stevan Rudinac and Marcel Worring(参考訳) 地理的参照パノラマ画像の大規模なコレクションは、世界中の都市で自由に利用でき、また様々な都市オブジェクトの位置情報やメタデータを含む詳細な地図も利用できる。 都市オブジェクトに関する豊富な情報を提供するが、オブジェクト検出のための手動アノテーションは費用がかかり、手間がかかり、難しい。 このようなマルチメディアソースを使って、手動ラベリングに代わる安価な代用として、街路レベルの画像を自動的にアノテートできるだろうか? panoramsフレームワークでは,都市環境情報に基づくパノラマ画像のバウンディングボックスアノテーションを自動生成する手法を導入する。 提案手法に従えば,オープンなデータソースのみを高速かつ自動で,大規模かつノイズの多い都市データセットのアノテーションを得ることができる。 このデータセットはアムステルダム市をカバーし、771,299パノラマ画像に含まれる22のオブジェクトカテゴリの1400万以上のノイズ境界ボックスアノテーションを含んでいる。 多くのオブジェクトに対して、構築値、関数、平均表面積などの地理空間メタデータから得られる詳細な情報も利用できる。 このような情報は、不可能ではないとしても、画像のみに基づいた手動ラベリングによって入手することは困難だっただろう。 詳細な評価のために,panorams-cleanデータセットである7,348イメージのサブセットに対して,147,075個の接地オブジェクトアノテーションを取得するためにデプロイする,パノラマ画像のバウンディングボックスアノテーションのための効率的なクラウドソーシングプロトコルを提案する。 PanorAMS-Noisyデータセットでは、ノイズの広範な分析と、異なる種類のノイズが画像分類と物体検出性能に与える影響について述べる。 我々は、この論文で提示されたデータセット、PanorAMSノイズとPanorAMSクリーン、ベンチマークとツールの両方を公開しています。

Large collections of geo-referenced panoramic images are freely available for cities across the globe, as well as detailed maps with location and meta-data on a great variety of urban objects. They provide a potentially rich source of information on urban objects, but manual annotation for object detection is costly, laborious and difficult. Can we utilize such multimedia sources to automatically annotate street level images as an inexpensive alternative to manual labeling? With the PanorAMS framework we introduce a method to automatically generate bounding box annotations for panoramic images based on urban context information. Following this method, we acquire large-scale, albeit noisy, annotations for an urban dataset solely from open data sources in a fast and automatic manner. The dataset covers the City of Amsterdam and includes over 14 million noisy bounding box annotations of 22 object categories present in 771,299 panoramic images. For many objects further fine-grained information is available, obtained from geospatial meta-data, such as building value, function and average surface area. Such information would have been difficult, if not impossible, to acquire via manual labeling based on the image alone. For detailed evaluation, we introduce an efficient crowdsourcing protocol for bounding box annotations in panoramic images, which we deploy to acquire 147,075 ground-truth object annotations for a subset of 7,348 images, the PanorAMS-clean dataset. For our PanorAMS-noisy dataset, we provide an extensive analysis of the noise and how different types of noise affect image classification and object detection performance. We make both datasets, PanorAMS-noisy and PanorAMS-clean, benchmarks and tools presented in this paper openly available.
翻訳日:2022-09-01 11:18:38 公開日:2022-08-31
# 量子化による正規化最適輸送の収束速度

Convergence Rates for Regularized Optimal Transport via Quantization ( http://arxiv.org/abs/2208.14391v2 )

ライセンス: Link先を確認
Stephan Eckstein, Marcel Nutz(参考訳) 正規化パラメータが消失するときに発散正規化最適輸送の収束について検討する。 相対エントロピーや$L^{p}$正規化,一般輸送コスト,マルチマルジナル問題を含む一般分散系のシャープレートを求める。 量子化とマルティンゲールカップリングを用いた新しい手法は、非コンパクトな辺数に適しており、特に、有限の$(2+\delta)$-momentを持つすべての辺数に対して、エントロピー正規化された2-wasserstein距離の鋭い前次項を達成する。

We study the convergence of divergence-regularized optimal transport as the regularization parameter vanishes. Sharp rates for general divergences including relative entropy or $L^{p}$ regularization, general transport costs and multi-marginal problems are obtained. A novel methodology using quantization and martingale couplings is suitable for non-compact marginals and achieves, in particular, the sharp leading-order term of entropically regularized 2-Wasserstein distance for all marginals with finite $(2+\delta)$-moment.
翻訳日:2022-09-01 11:18:06 公開日:2022-08-31