このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220705となっている論文です。

PDF登録状況(公開日: 20220705)

TitleAuthorsAbstract論文公表日・翻訳日
# コンテンツベース画像検索のための学習テスト時間拡張

Learning Test-time Augmentation for Content-based Image Retrieval ( http://arxiv.org/abs/2002.01642v5 )

ライセンス: Link先を確認
Osman Tursun, Simon Denman, Sridha Sridharan and Clinton Fookes(参考訳) オフザシェルフ畳み込みニューラルネットワークは、多くの画像検索タスクにおいて優れた結果をもたらす。 しかしながら、ターゲットデータに対する不変性は、ネットワークアーキテクチャとトレーニングデータによって事前に定義されている。 既存の画像検索手法では、ターゲットデータ特有のバリエーションに適応するために、事前訓練されたネットワークを微調整または修正する必要がある。 対照的に,本手法は,テスト時に強調した画像から抽出した特徴を,強化学習を通じて学習したポリシーで導くことで,オフザシェルフ特徴の不変性を高める。 学習されたポリシーは、画像変換のリストから選択された変換に異なる大きさと重みを割り当てる。 最適ポリシーを学習するために、メトリック学習プロトコルを用いてポリシーを評価する。 モデルが急速に収束し,各ポリシーイテレーションのコストは最小限であり,拡張画像から特徴を抽出する計算コストを大幅に削減するオフラインキャッシュ手法を提案する。 大規模商標検索(METU商標データセット)およびランドマーク検索(ROxford5kおよびRParis6kシーンデータセット)タスクの実験結果は,変換の学習アンサンブルが性能向上に極めて有効であり,実用的かつ伝達可能であることを示している。

Off-the-shelf convolutional neural network features achieve outstanding results in many image retrieval tasks. However, their invariance to target data is pre-defined by the network architecture and training data. Existing image retrieval approaches require fine-tuning or modification of pre-trained networks to adapt to variations unique to the target data. In contrast, our method enhances the invariance of off-the-shelf features by aggregating features extracted from images augmented at test-time, with augmentations guided by a policy learned through reinforcement learning. The learned policy assigns different magnitudes and weights to the selected transformations, which are selected from a list of image transformations. Policies are evaluated using a metric learning protocol to learn the optimal policy. The model converges quickly and the cost of each policy iteration is minimal as we propose an off-line caching technique to greatly reduce the computational cost of extracting features from augmented images. Experimental results on large trademark retrieval (METU trademark dataset) and landmark retrieval (ROxford5k and RParis6k scene datasets) tasks show that the learned ensemble of transformations is highly effective for improving performance, and is practical, and transferable.
翻訳日:2023-01-03 21:38:16 公開日:2022-07-05
# グラフニューラルネットワークによるグラフクラスタリング

Graph Clustering with Graph Neural Networks ( http://arxiv.org/abs/2006.16904v2 )

ライセンス: Link先を確認
Anton Tsitsulin, John Palowitch, Bryan Perozzi, Emmanuel M\"uller(参考訳) グラフニューラルネットワーク(GNN)は,ノード分類やリンク予測といった多くのグラフ解析タスクにおいて,最先端の結果を得た。 しかし、グラフクラスタリングのようなグラフ上の重要な教師なしの問題は、GNNの進歩に抵抗性があることが証明されている。 グラフクラスタリングはGNNのノードプーリングと同じ目標を持っていますが、これはGNNプーリングメソッドがクラスタリンググラフでうまく機能することを意味していますか? 現在のGNNプーリングメソッドは、学習した表現に適用されるk-meansのような単純なベースラインがうまく機能する場合、クラスタ構造を回復できないことが多い。 グラフ構造と属性データの両方において異なる信号対雑音のシナリオを研究するための一連の実験を慎重に設計してさらに検討する。 クラスタリングにおけるこれらの手法の貧弱な性能に対処するため,クラスタリング品質のモジュラリティ尺度にインスパイアされた教師なしプーリング手法であるDeep Modularity Networks (DMoN)を導入し,実際のグラフのクラスタリング構造の回復にどのように取り組むかを示す。 同様に、実世界のデータでは、DMoNは、地上の真理ラベルと強く相関する高品質なクラスタを生成し、異なるメトリクスにわたる他のプール手法よりも40%以上改善された最先端の結果を達成する。

Graph Neural Networks (GNNs) have achieved state-of-the-art results on many graph analysis tasks such as node classification and link prediction. However, important unsupervised problems on graphs, such as graph clustering, have proved more resistant to advances in GNNs. Graph clustering has the same overall goal as node pooling in GNNs - does this mean that GNN pooling methods do a good job at clusterings graphs? Surprisingly, the answer is no - current GNN pooling methods often fail to recover the cluster structure in cases where simple baselines, such as k-means applied on learned representations, work well. We investigate further by carefully designing a set of experiments to study different signal-to-noise scenarios both in graph structure and attribute data. To address these methods' poor performance in clustering, we introduce Deep Modularity Networks (DMoN), an unsupervised pooling method inspired by the modularity measure of clustering quality, and show how it tackles recovery of the challenging clustering structure of real-world graphs. Similarly, on real-world data, we show that DMoN produces high quality clusters which correlate strongly with ground truth labels, achieving state-of-the-art results with over 40% improvement over other pooling methods across different metrics.
翻訳日:2022-11-15 05:21:46 公開日:2022-07-05
# 適応型取引型マルチエージェントシステムによる分散スケジューリング

Decentralized scheduling through an adaptive, trading-based multi-agent system ( http://arxiv.org/abs/2207.11172v1 )

ライセンス: Link先を確認
Michael K\"olle, Lennart Rietdorf, Kyrill Schmid(参考訳) 多エージェント強化学習システムでは、あるエージェントのアクションが他のエージェントの報酬に悪影響を及ぼす可能性がある。 この問題に対処する一つの方法は、エージェントが互いに報酬を交換することです。 このことに動機づけられたこの研究は、エージェントが計算コアへの入ってくるジョブの割り当てに責任を持つシミュレートされたスケジューリング環境にトレーディングアプローチを適用する。 この環境では、強化学習エージェントはうまく取引することを学ぶ。 エージェントは計算コアの使用権を交換して、低優先度で低報酬のジョブよりも早く、高利益のジョブを処理できる。 しかし、組合せ効果により、この環境における単純な強化学習エージェントの動作と観察空間は、問題サイズの重要なパラメータと指数関数的にスケールする。 しかし、指数的スケーリングの振る舞いは、エージェントが複数の独立したサブユニットに分割された場合に線形に変換できる。 我々はエージェント-内部パラメータ共有を用いて分散アーキテクチャをさらに改善する。 さらに、取引価格を自律的に設定できるように拡張することもできる。 スケジューリング環境では、分散エージェントアーキテクチャの利点が、より集約されたアプローチよりも明らかに優れていることを示す。 エージェント-内部パラメータ共有を用いて分散エージェントアーキテクチャがさらに高性能になることを示す。 最後に、2つの報酬関数が自律価格と対応するスケジューリングに与える影響について検討する。

In multi-agent reinforcement learning systems, the actions of one agent can have a negative impact on the rewards of other agents. One way to combat this problem is to let agents trade their rewards amongst each other. Motivated by this, this work applies a trading approach to a simulated scheduling environment, where the agents are responsible for the assignment of incoming jobs to compute cores. In this environment, reinforcement learning agents learn to trade successfully. The agents can trade the usage right of computational cores to process high-priority, high-reward jobs faster than low-priority, low-reward jobs. However, due to combinatorial effects, the action and observation spaces of a simple reinforcement learning agent in this environment scale exponentially with key parameters of the problem size. However, the exponential scaling behavior can be transformed into a linear one if the agent is split into several independent sub-units. We further improve this distributed architecture using agent-internal parameter sharing. Moreover, it can be extended to set the exchange prices autonomously. We show that in our scheduling environment, the advantages of a distributed agent architecture clearly outweigh more aggregated approaches. We demonstrate that the distributed agent architecture becomes even more performant using agent-internal parameter sharing. Finally, we investigate how two different reward functions affect autonomous pricing and the corresponding scheduling.
翻訳日:2022-07-31 14:43:48 公開日:2022-07-05
# Cov3d:3D ResNetを用いたCTスキャンによるCOVID-19の存在と重症度の検出

Cov3d: Detection of the presence and severity of COVID-19 from CT scans using 3D ResNets ( http://arxiv.org/abs/2207.12218v1 )

ライセンス: Link先を確認
Robert Turnbull(参考訳) 深層学習は医療画像解析の補助として用いられている。 そのような用途の1つは、被験者のCOVID-19を検出する際のCTスキャンの分類である。 胸部CTからCOVID19の存在と重症度を検出するための3次元畳み込みニューラルネットワークであるCov3dを提案する。 人間の専門家アノテーションを用いたCOV19-CT-DBデータセットに基づいて、COVID19の存在を検出するタスクの検証セットにおいて、マクロf1スコア0.9476を達成する。 COVID19の重症度を分類する作業では、マクロf1スコアが0.7552に達する。 2022年の「AI対応医用画像分析ワークショップとコビッド-19診断コンペティション」(MIA-COV19D)のベースライン結果を改善した。

Deep learning has been used to assist in the analysis of medical imaging. One such use is the classification of Computed Tomography (CT) scans when detecting for COVID-19 in subjects. This paper presents Cov3d, a three dimensional convolutional neural network for detecting the presence and severity of COVID19 from chest CT scans. Trained on the COV19-CT-DB dataset with human expert annotations, it achieves a macro f1 score of 0.9476 on the validation set for the task of detecting the presence of COVID19. For the task of classifying the severity of COVID19, it achieves a macro f1 score of 0.7552. Both results improve on the baseline results of the `AI-enabled Medical Image Analysis Workshop and Covid-19 Diagnosis Competition' (MIA-COV19D) in 2022.
翻訳日:2022-07-31 14:42:51 公開日:2022-07-05
# 1100万ツイートに基づくCOVID-19ワクチンの多変量と感性の変化パターンをディープラーニングが明らかに

Deep Learning Reveals Patterns of Diverse and Changing Sentiments Towards COVID-19 Vaccines Based on 11 Million Tweets ( http://arxiv.org/abs/2207.10641v1 )

ライセンス: Link先を確認
Hanyin Wang, Meghan R. Hutch, Yikuan Li, Adrienne S. Kline, Sebastian Otero, Leena B. Mithal, Emily S. Miller, Andrew Naidech, Yuan Luo(参考訳) 新型コロナウイルスワクチンは、執筆時点で120億回以上投与されている。 しかし、ワクチンに対する一般の認識は複雑である。 我々はcovid-19ワクチンに関するツイートを分析し、covid-19ワクチンの進化的な認識を理解する。 最先端モデルであるxlnetを使って、ディープラーニングの分類器を微調整し、各ツイートの感情を自動的に検出した。 ユーザプロファイルから、人種、民族、性別、年齢、地理的位置を抽出する検証された手法を採用した。 複数のデータソースを組み込んで,サブ集団間の感情パターンを評価し,ワクチン摂取データを用いてインタラクティブなパターンを解き放つ。 11,211,672人の新型コロナウイルス関連ツイートを2年間で2,203,681人を対象に分析した。 感情分類のための微調整モデルでは、テストセットで 0.92 の精度が得られた。 さまざまな集団のユーザーは、新型コロナウイルスワクチンに対する感情の異なるパターンを示した。 時間とともにユーザ感情はより肯定的になり、人口レベルのワクチン摂取の増加が観察された。 ポジティブな感情が表れる日を囲んで,ワクチン開発や流通に関する奨励的なニュースやイベントを検出した。 妊娠関連ツイートの肯定的な感情は、一般人口の傾向と比較して遅れたパターンを示し、ワクチン接種後の傾向を示した。 サブポピュレーションにまたがる識別パターンは、適切な戦略の必要性を示唆している。 グローバルニュースやイベントは、ソーシャルメディア上でユーザーの考えを形作ることに深く関わっている。 妊娠などの追加の懸念を持つ集団は、タイムリーな推奨がないため、より実質的なためらった。 特徴分析の結果, 臨床試験の論理, リスクと合併症, 科学的証拠の緊急性に起因した種々のサブポピュレーションのヘシタンシーが明らかになった。

Over 12 billion doses of COVID-19 vaccines have been administered at the time of writing. However, public perceptions of vaccines have been complex. We analyzed COVID-19 vaccine-related tweets to understand the evolving perceptions of COVID-19 vaccines. We finetuned a deep learning classifier using a state-of-the-art model, XLNet, to detect each tweet's sentiment automatically. We employed validated methods to extract the users' race or ethnicity, gender, age, and geographical locations from user profiles. Incorporating multiple data sources, we assessed the sentiment patterns among subpopulations and juxtaposed them against vaccine uptake data to unravel their interactive patterns. 11,211,672 COVID-19 vaccine-related tweets corresponding to 2,203,681 users over two years were analyzed. The finetuned model for sentiment classification yielded an accuracy of 0.92 on testing set. Users from various demographic groups demonstrated distinct patterns in sentiments towards COVID-19 vaccines. User sentiments became more positive over time, upon which we observed subsequent upswing in the population-level vaccine uptake. Surrounding dates where positive sentiments crest, we detected encouraging news or events regarding vaccine development and distribution. Positive sentiments in pregnancy-related tweets demonstrated a delayed pattern compared with trends in general population, with postponed vaccine uptake trends. Distinctive patterns across subpopulations suggest the need of tailored strategies. Global news and events profoundly involved in shaping users' thoughts on social media. Populations with additional concerns, such as pregnancy, demonstrated more substantial hesitancy since lack of timely recommendations. Feature analysis revealed hesitancies of various subpopulations stemmed from clinical trial logics, risks and complications, and urgency of scientific evidence.
翻訳日:2022-07-24 11:51:26 公開日:2022-07-05
# グラフニューラルネットワークを用いたRydberg原子の自己組織臨界性学習に向けて

Towards Learning Self-Organized Criticality of Rydberg Atoms using Graph Neural Networks ( http://arxiv.org/abs/2207.08927v1 )

ライセンス: Link先を確認
Simon Ohler and Daniel Brady and Winfried L\"otzsch and Michael Fleischhauer and Johannes S. Otterbach(参考訳) SOC(Self-Organized Criticality)は、森林火災、ウイルス拡散、原子励起ダイナミクスなど、一見無関係と思われる多くのシステムにおいて、普遍的なスケール不変の振る舞いの出現に寄与していると考えられている、ユビキタスな力学現象である。 SOCは局所的な相互作用と散逸のみの結果、大規模および長距離の時空間相関の蓄積を記述している。 SOC力学のシミュレーションは典型的にはモンテカルロ法(MC)に基づいているが、数値的には高価であり、特定のシステムサイズを超えない。 グラフニューラルネットワーク(gnns)を効果的なサロゲートモデルとして使用して,実験可能な物理例である駆動型rydberg原子に触発された,パラダイム的socシステムのダイナミクス演算子を学ぶ。 そこで我々は既存のGNNシミュレーション手法を一般化し,ノードの内部状態のダイナミクスを予測する。 粒子数と粒子密度の2つの重要な軸に沿って一般化するだけでなく,mcダイナミクスを正確に再現できることを示す。 これにより、従来のMCメソッドの限界を超えて、はるかに大きなシステムをモデル化できる。 正確な系はライドバーグ原子の力学に着想を得ているが、アプローチは非常に一般的であり、他の系にも容易に適用できる。

Self-Organized Criticality (SOC) is a ubiquitous dynamical phenomenon believed to be responsible for the emergence of universal scale-invariant behavior in many, seemingly unrelated systems, such as forest fires, virus spreading or atomic excitation dynamics. SOC describes the buildup of large-scale and long-range spatio-temporal correlations as a result of only local interactions and dissipation. The simulation of SOC dynamics is typically based on Monte-Carlo (MC) methods, which are however numerically expensive and do not scale beyond certain system sizes. We investigate the use of Graph Neural Networks (GNNs) as an effective surrogate model to learn the dynamics operator for a paradigmatic SOC system, inspired by an experimentally accessible physics example: driven Rydberg atoms. To this end, we generalize existing GNN simulation approaches to predict dynamics for the internal state of the node. We show that we can accurately reproduce the MC dynamics as well as generalize along the two important axes of particle number and particle density. This paves the way to model much larger systems beyond the limits of traditional MC methods. While the exact system is inspired by the dynamics of Rydberg atoms, the approach is quite general and can readily be applied to other systems.
翻訳日:2022-07-24 11:51:02 公開日:2022-07-05
# (参考訳) AVDDPG:フェデレーション強化学習の自律小隊制御への応用

AVDDPG: Federated reinforcement learning applied to autonomous platoon control ( http://arxiv.org/abs/2207.03484v1 )

ライセンス: CC BY 4.0
Christian Boin and Lei Lei and Simon X. Yang(参考訳) 2016年以降、フェデレーション・ラーニング(FL)は人工知能(AI)研究コミュニティにおける議論の進化のトピックとなっている。 FLの応用は、連合強化学習(FRL)の開発と研究につながった。 自律走行車(AV)プラトンに適用されるFRLに関する研究はほとんどない。 加えて、ほとんどのFRL研究は単一の集約法(通常は重みまたは勾配の集約)を選択する。 AV小隊環境上でのFRLフレームワークの設計と実装により、AV小隊化を改善する手段としてFRLの有効性を検討する。 AVプラトン化におけるFRLの適用は,(1)プラトン間FRL(Inter-FRL),(2)プラトン間FRL(Intra-FRL),(2)プラトン間FRL(Intra-FRL)の2つのシナリオで研究される。 In-FRLとIntra-FRLの両方を、勾配と重み付けの両方を用いてカスタムのAV小隊環境に適用し、FRLなしで訓練されたAV小隊環境と比較して、FRLがAV小隊に与える影響を観察する。 Intra-FRLWA (Intra-FRLWA) を用いたFRLは, AV小隊の制御に最適である。 さらに, AV小隊におけるFRLの重み凝集は, 勾配凝集に対する性能向上をもたらすことがわかった。 最後に,長さ3,4,5両の小隊に対してFRLのない小隊環境に対して,FRLWA内における性能解析を行った。 FRLWAはFRLを使わずに訓練された小隊環境よりも優れていた。

Since 2016 federated learning (FL) has been an evolving topic of discussion in the artificial intelligence (AI) research community. Applications of FL led to the development and study of federated reinforcement learning (FRL). Few works exist on the topic of FRL applied to autonomous vehicle (AV) platoons. In addition, most FRL works choose a single aggregation method (usually weight or gradient aggregation). We explore FRL's effectiveness as a means to improve AV platooning by designing and implementing an FRL framework atop a custom AV platoon environment. The application of FRL in AV platooning is studied under two scenarios: (1) Inter-platoon FRL (Inter-FRL) where FRL is applied to AVs across different platoons; (2) Intra-platoon FRL (Intra-FRL) where FRL is applied to AVs within a single platoon. Both Inter-FRL and Intra-FRL are applied to a custom AV platooning environment using both gradient and weight aggregation to observe the performance effects FRL can have on AV platoons relative to an AV platooning environment trained without FRL. It is concluded that Intra-FRL using weight aggregation (Intra-FRLWA) provides the best performance for controlling an AV platoon. In addition, we found that weight aggregation in FRL for AV platooning provides increases in performance relative to gradient aggregation. Finally, a performance analysis is conducted for Intra-FRLWA versus a platooning environment without FRL for platoons of length 3, 4 and 5 vehicles. It is concluded that Intra-FRLWA largely out-performs the platooning environment that is trained without FRL.
翻訳日:2022-07-17 18:17:13 公開日:2022-07-05
# 画像検索のための階層的平均精度トレーニング

Hierarchical Average Precision Training for Pertinent Image Retrieval ( http://arxiv.org/abs/2207.04873v1 )

ライセンス: Link先を確認
Elias Ramzi (CNAM), Nicolas Audebert (CNAM), Nicolas Thome (CNAM), Cl\'ement Rambour (CNAM), Xavier Bitot(参考訳) Image Retrievalは、平均精度(AP)またはRecall@kで一般的に評価される。 しかし、これらのメトリクスはバイナリラベルに限定されており、エラーの深刻さを考慮していない。 本稿では,連続画像検索(HAP-PIER)のための階層型APトレーニング手法を提案する。 HAPPIERは、新しいH-APメトリックに基づいており、このメトリクスは、概念階層を利用して、エラーの重要度を統合することによってAPを洗練し、ランキングを評価する。 H-APを用いた深層モデルの学習には,問題の構造を慎重に検討し,スムーズな下界サロゲートとクラスタリング損失を組み合わせ,一貫した順序付けを保証する。 6つのデータセットに対する大規模な実験により、HAPPIERは階層的検索の最先端手法を著しく上回り、微粒なランキング性能の評価では最新の手法と同等であることがわかった。 最後に,HAPPIERが組込み空間の組織化を向上し,非階層的手法の最も深刻な障害発生を防ぐことを示す。 私たちのコードは、https://github.com/elias-ramzi/HAPPIER.comで公開されています。

Image Retrieval is commonly evaluated with Average Precision (AP) or Recall@k. Yet, those metrics, are limited to binary labels and do not take into account errors' severity. This paper introduces a new hierarchical AP training method for pertinent image retrieval (HAP-PIER). HAPPIER is based on a new H-AP metric, which leverages a concept hierarchy to refine AP by integrating errors' importance and better evaluate rankings. To train deep models with H-AP, we carefully study the problem's structure and design a smooth lower bound surrogate combined with a clustering loss that ensures consistent ordering. Extensive experiments on 6 datasets show that HAPPIER significantly outperforms state-of-the-art methods for hierarchical retrieval, while being on par with the latest approaches when evaluating fine-grained ranking performances. Finally, we show that HAPPIER leads to better organization of the embedding space, and prevents most severe failure cases of non-hierarchical methods. Our code is publicly available at: https://github.com/elias-ramzi/HAPPIER.
翻訳日:2022-07-17 16:05:09 公開日:2022-07-05
# 置換型進化アルゴリズムのランタイム解析

Runtime Analysis for Permutation-based Evolutionary Algorithms ( http://arxiv.org/abs/2207.04045v1 )

ライセンス: Link先を確認
Benjamin Doerr, Yassine Ghannane, Marouane Ibn Brahim(参考訳) 進化的アルゴリズム(EA)の理論解析は、過去25年間に擬ブール最適化問題において大きな進歩を遂げてきたが、EAが置換に基づく問題を解決する方法に関する散発的な理論的な結果のみが存在する。 置換に基づくベンチマークの欠如を克服するため,従来の擬似ブールベンチマークを置換集合上で定義されたベンチマークに変換する一般的な方法を提案する。 次に、Scharnow, Tinnefeld, and Wegener (2004) によって提案された置換に基づく $(1+1)$ EA の厳密なランタイム解析を、 \textsc{LeadingOnes} と \textsc{Jump} ベンチマークの類似性に基づいて行う。 後者は、ビットストリングと異なり、置換を$\sigma$を別の$\tau$に変換するのがどれほど難しいかを決定するハミング距離だけでなく、$\sigma \tau^{-1}$の正確なサイクル構造も示している。 このため、より対称的なスクランブル変異演算子も考慮する。 私たちは、それがより単純な証明につながるだけでなく、ジャンプ関数のランタイムを奇なジャンプサイズで$\thetaで減少させるのを観察する。 (n)$。 最後に、ビットストリングの場合のように、スクランブル演算子の重み付きバージョンが$m^{\Thetaの高速化につながることを示す。 (m)}$ on jump function with jump size~$m$ %

While the theoretical analysis of evolutionary algorithms (EAs) has made significant progress for pseudo-Boolean optimization problems in the last 25 years, only sporadic theoretical results exist on how EAs solve permutation-based problems. To overcome the lack of permutation-based benchmark problems, we propose a general way to transfer the classic pseudo-Boolean benchmarks into benchmarks defined on sets of permutations. We then conduct a rigorous runtime analysis of the permutation-based $(1+1)$ EA proposed by Scharnow, Tinnefeld, and Wegener (2004) on the analogues of the \textsc{LeadingOnes} and \textsc{Jump} benchmarks. The latter shows that, different from bit-strings, it is not only the Hamming distance that determines how difficult it is to mutate a permutation $\sigma$ into another one $\tau$, but also the precise cycle structure of $\sigma \tau^{-1}$. For this reason, we also regard the more symmetric scramble mutation operator. We observe that it not only leads to simpler proofs, but also reduces the runtime on jump functions with odd jump size by a factor of $\Theta(n)$. Finally, we show that a heavy-tailed version of the scramble operator, as in the bit-string case, leads to a speed-up of order $m^{\Theta(m)}$ on jump functions with jump size~$m$.%
翻訳日:2022-07-17 16:04:51 公開日:2022-07-05
# (参考訳) student-ai creative writing: 学校における自然言語生成の教育戦略

Student-AI Creative Writing: Pedagogical Strategies for Applying Natural Language Generation in Schools ( http://arxiv.org/abs/2207.01484v2 )

ライセンス: CC BY 4.0
David James Woo, Yanzhi Wang, Hengky Susanto(参考訳) AI自然言語生成(AI natural Language generation、NLG)は、コンピュータシステムが情報から人間の理解可能な言語テキストを生成するプロセスである。 これは人間の創造的な執筆プロセスの不可欠な部分となる。 重要なことは、若者はNLGをメインストリームの教育に応用することを学び、AIに強化された筆記職や他の筆記作業への準備がより良くなることである。 学生がNLGを創造的著作に適用する方法を探るため,香港の中学校で第1回人間AI創造的著作コンテストを設計・実施した。 このコンテストでは、各学生がコンピュータが生成し、オープンソースの言語モデルに基づいて構築した生徒自身の言葉と単語を用いて、最大500語までの短い物語を書いた。 コンテスト用の4つのテキストジェネレータをコンピュータのテキスト入力として設計した。 さらに,学生が4つのテキストジェネレータで書き書きを学習し,リフレクション質問に答える7つのワークショップを開発した。 4人の児童生徒の短話と副詞の得点を分析した結果,学生が用いた数字とテキスト生成語の種類によって異なる戦略が得られた。 いくつかの戦略は他の戦略よりも洗練されたように見える。 学生の振り返りを分析した結果,テキスト生成器の入力と出力を思考単位として記述できることがわかった。 また、学生はテキスト生成器の好みを示し、テキスト生成器で書くときに様々な感情を表わした。 この結果から,NLG の学校教育への応用だけでなく,AI カリキュラムの教育戦略も示唆された。

AI natural language generation (NLG) is a process where computer systems generate human-comprehensible language texts from information. It can become an integral part of a human's creative writing process. Importantly, youths can learn to apply NLG in mainstream education and become better prepared for AI-enhanced writing jobs and other writing endeavors. To explore how students apply NLG to creative writing, we designed and implemented the 1st Human-AI Creative Writing Contest in a Hong Kong secondary school. In this contest, each student participant wrote a short story of up to 500-words using the student's own words and words generated by a computer and built on open-source language models. We designed four text generators for the contest as the computer's text entry. Additionally, using design-based research, we developed seven workshops where students learned to write with the four text generators and answered reflection questions. In analyzing four students' short stories and adjudicators' scores for the stories, we found different strategies in terms of the number and the type of text generator words that students used. Some strategies appeared more sophisticated than others. In analyzing students' reflections, we found students could describe text generator input and output as units of thought. Besides, students showed preferences for text generators; and they expressed a range of feelings when writing with text generators. The findings provide design implications not only for NLG applications in formal schooling but also suggest pedagogical strategies for AI curriculum.
翻訳日:2022-07-10 17:59:13 公開日:2022-07-05
# (参考訳) AALのためのオーディオおよびビデオベースソリューションの現状

State of the Art of Audio- and Video-Based Solutions for AAL ( http://arxiv.org/abs/2207.01487v2 )

ライセンス: CC BY 4.0
Slavisa Aleksic, Michael Atanasov, Jean Calleja Agius, Kenneth Camilleri, Anto Cartolovni, Pau Climent-Peerez, Sara Colantonio, Stefania Cristina, Vladimir Despotovic, Hazim Kemal Ekenel, Ekrem Erakin, Francisco Florez-Revuelta, Danila Germanese, Nicole Grech, Steinunn Gr\'oa Sigur{\dh}ard\'ottir, Murat Emirzeoglu, Ivo Iliev, Mladjan Jovanovic, Martin Kampel, William Kearns, Andrzej Klimczuk, Lambros Lambrinos, Jennifer Lumetzberger, Wiktor Mucha, Sophie Noiret, Zada Pajalic, Rodrigo Rodriguez Peerez, Galidiya Petrova, Sintija Petrovica, Peter Pocta, Angelica Poli, Mara Pudane, Susanna Spinsante, Albert Ali Salah, Maria Jose Santofimia, Anna Sigridur Islind, Lacramioara Stoicu-Tivadar, Hilda Tellioglu and Andrej Zgank(参考訳) このレポートは、最も成功したAALアプリケーションと、オーディオおよびビデオデータ、すなわち、機能の現状を説明している。 (i)ライフログと自己監視 (ii)バイタルサインの遠隔監視 (iii)情緒的状態認識 (iv)食品摂取モニタリング、行動、行動認識 (v)活動及び個人的援助 (vi)ジェスチャー認識 (vii)転倒の検出・防止 (viii)移動度評価と弱体化認識、及び (6)認知と運動のリハビリテーション。 これらのアプリケーションシナリオについて、このレポートは科学的進歩、利用可能な製品、研究プロジェクトの観点からプレーの現状を説明している。 オープンチャレンジも強調されている。

The report illustrates the state of the art of the most successful AAL applications and functions based on audio and video data, namely (i) lifelogging and self-monitoring, (ii) remote monitoring of vital signs, (iii) emotional state recognition, (iv) food intake monitoring, activity and behaviour recognition, (v) activity and personal assistance, (vi) gesture recognition, (vii) fall detection and prevention, (viii) mobility assessment and frailty recognition, and (ix) cognitive and motor rehabilitation. For these application scenarios, the report illustrates the state of play in terms of scientific advances, available products and research project. The open challenges are also highlighted.
翻訳日:2022-07-10 13:45:31 公開日:2022-07-05
# 転送可能なグラフバックドア攻撃

Transferable Graph Backdoor Attack ( http://arxiv.org/abs/2207.00425v3 )

ライセンス: Link先を確認
Shuiqiao Yang, Bao Gia Doan, Paul Montague, Olivier De Vel, Tamas Abraham, Seyit Camtepe, Damith C. Ranasinghe, Salil S. Kanhere(参考訳) グラフニューラルネットワーク(GNN)は、グラフ表現学習を改善するために、ローカル構造とノード機能を融合させるメッセージパッシング戦略の恩恵を受け、多くのグラフマイニングタスクで大きな成功を収めている。 GNNの成功や、他のタイプのディープニューラルネットワークと同様に、GNNはグラフ構造とノードの特徴の両方において、目立たない摂動に弱いことがわかっている。 多くの敵攻撃は、異なる摂動戦略の下でGNNの脆弱性を明らかにするために提案されている。 しかし、バックドア攻撃の成功に対するGNNの脆弱性は、最近しか示されなかった。 本稿では,TRAP攻撃,Transferable GRAPhバックドア攻撃について述べる。 コアアタックの原則は、トレーニングデータセットを摂動ベースのトリガーで中毒させることで、効果的で転送可能なバックドアアタックにつながる。 グラフの摂動トリガーは、サロゲートモデルから勾配ベースのスコア行列を介してグラフ構造上で摂動作用を行うことによって生成される。 以前の作業と比較すると、TRAP攻撃はいくつかの点で異なる。 一 グラフ畳み込みネットワーク(GCN)モデルを利用して、ブラックボックスベースのバックドア攻撃に対する摂動トリガを生成すること。 二 固定パターンを持たない試料特異的摂動トリガーを発生すること。 三 攻撃は、GNNの文脈で初めて、偽毒訓練データセットで訓練した際、異なるGNNモデルに転送する。 4つの実世界のデータセットに対する広範な評価を通じて、4つの実世界のデータセットを使用して、4つの人気のあるGNNで転送可能なバックドアを構築するTRAP攻撃の有効性を実証する。

Graph Neural Networks (GNNs) have achieved tremendous success in many graph mining tasks benefitting from the message passing strategy that fuses the local structure and node features for better graph representation learning. Despite the success of GNNs, and similar to other types of deep neural networks, GNNs are found to be vulnerable to unnoticeable perturbations on both graph structure and node features. Many adversarial attacks have been proposed to disclose the fragility of GNNs under different perturbation strategies to create adversarial examples. However, vulnerability of GNNs to successful backdoor attacks was only shown recently. In this paper, we disclose the TRAP attack, a Transferable GRAPh backdoor attack. The core attack principle is to poison the training dataset with perturbation-based triggers that can lead to an effective and transferable backdoor attack. The perturbation trigger for a graph is generated by performing the perturbation actions on the graph structure via a gradient based score matrix from a surrogate model. Compared with prior works, TRAP attack is different in several ways: i) it exploits a surrogate Graph Convolutional Network (GCN) model to generate perturbation triggers for a blackbox based backdoor attack; ii) it generates sample-specific perturbation triggers which do not have a fixed pattern; and iii) the attack transfers, for the first time in the context of GNNs, to different GNN models when trained with the forged poisoned training dataset. Through extensive evaluations on four real-world datasets, we demonstrate the effectiveness of the TRAP attack to build transferable backdoors in four different popular GNNs using four real-world datasets.
翻訳日:2022-07-10 11:58:08 公開日:2022-07-05
# 予測脳ネットワーク同定のための特徴選択型グラフ空間注意ネットワーク

Feature-selected Graph Spatial Attention Network for Addictive Brain-Networks Identification ( http://arxiv.org/abs/2207.00583v2 )

ライセンス: Link先を確認
Changwei Gong, Changhong Jing, Junren Pan, Shuqiang Wang(参考訳) 関連する神経回路の機能的変化は、ある期間にわたって薬物依存から生じる。 また、fMRIを解析することで、これらの大きな変化が明らかになる。 しかし、fMRIの高次元比と低信号-雑音比のため、グラフレベルの識別と、ニコチン依存症(NA)と健康制御(HC)グループ間の領域レベルのバイオマーカー検出の両方において、効率的で堅牢な脳局所埋め込みを符号化することは困難である。 本研究では,ラット脳のfMRIを生物学的特性を持つグラフとして表現し,これらの脳ネットワークから中毒のバイオマーカーを抽出し同定するための特徴選択グラフ空間注意ネットワーク(FGSAN)を提案する。 特に,空間情報を用いた時空間脳ネットワークの特徴を捉えるために,グラフ空間注意エンコーダを用いる。 ベイズ特徴選択戦略を同時に採用し、モデルを最適化し、特徴を制約して分類タスクを改善する。 中毒関連ニューラルイメージングデータセットの実験により,提案モデルが優れた性能を示し,中毒関連ニューラルサーキットに関連する解釈可能なバイオマーカーを検出することができた。

Functional alterations in the relevant neural circuits occur from drug addiction over a certain period. And these significant alterations are also revealed by analyzing fMRI. However, because of fMRI's high dimensionality and poor signal-to-noise ratio, it is challenging to encode efficient and robust brain regional embeddings for both graph-level identification and region-level biomarkers detection tasks between nicotine addiction (NA) and healthy control (HC) groups. In this work, we represent the fMRI of the rat brain as a graph with biological attributes and propose a novel feature-selected graph spatial attention network(FGSAN) to extract the biomarkers of addiction and identify from these brain networks. Specially, a graph spatial attention encoder is employed to capture the features of spatiotemporal brain networks with spatial information. The method simultaneously adopts a Bayesian feature selection strategy to optimize the model and improve classification task by constraining features. Experiments on an addiction-related neural imaging dataset show that the proposed model can obtain superior performance and detect interpretable biomarkers associated with addiction-relevant neural circuits.
翻訳日:2022-07-10 11:40:46 公開日:2022-07-05
# (参考訳) ハイパーパラメータが知識グラフの埋め込み品質に及ぼす影響の評価

Assessing the Effects of Hyperparameters on Knowledge Graph Embedding Quality ( http://arxiv.org/abs/2207.00473v3 )

ライセンス: CC BY 4.0
Oliver Lloyd, Yi Liu, Tom Gaunt(参考訳) 知識グラフを低次元空間に埋め込むことは、これらのデータベースにリンク予測やノード分類のようなアプローチを適用する一般的な方法である。 この埋め込みプロセスは計算時間と空間の両方において非常にコストがかかる。 この理由の1つはハイパーパラメータの最適化であり、これは大きなハイパーパラメータ空間からランダム、ガイド、またはブルートフォースの選択を繰り返しサンプリングし、その結果の埋め込みを品質のためにテストするものである。 しかし、この探索空間のすべてのハイパーパラメータが等しく重要であるわけではない。 実際、ハイパーパラメータの相対的重要性に関する事前の知識により、出力された埋め込みの全体的な品質に大きな影響を与えることなく、探索から完全に排除することができる。 そこで我々は,様々なハイパーパラメータのチューニングが組込み品質のばらつきに及ぼす影響を評価するため,sobol感度解析を行った。 これは、異なるハイパーパラメータ構成によって生成された埋め込みの質を測定するために、数千の埋め込み試験を実行することで達成された。 このモデルを用いて,各ハイパーパラメータに対するソボ感度指標を生成することにより,これらのハイパーパラメータ構成への埋め込み品質を低下させた。 ソボの指標間の相関性を評価することにより,知識グラフ間のハイパーパラメータ感性において,これらの不整合の原因となる可能性のあるデータセット特性が相違点であることを示す。 この研究のさらなる貢献として、逆関係によるデータ漏洩を引き起こす可能性のあるUMLS知識グラフ内のいくつかの関係を特定し、そのグラフの漏洩ロス不変量であるUMLS-43を導出した。

Embedding knowledge graphs into low-dimensional spaces is a popular method for applying approaches, such as link prediction or node classification, to these databases. This embedding process is very costly in terms of both computational time and space. Part of the reason for this is the optimisation of hyperparameters, which involves repeatedly sampling, by random, guided, or brute-force selection, from a large hyperparameter space and testing the resulting embeddings for their quality. However, not all hyperparameters in this search space will be equally important. In fact, with prior knowledge of the relative importance of the hyperparameters, some could be eliminated from the search altogether without significantly impacting the overall quality of the outputted embeddings. To this end, we ran a Sobol sensitivity analysis to evaluate the effects of tuning different hyperparameters on the variance of embedding quality. This was achieved by performing thousands of embedding trials, each time measuring the quality of embeddings produced by different hyperparameter configurations. We regressed the embedding quality on those hyperparameter configurations, using this model to generate Sobol sensitivity indices for each of the hyperparameters. By evaluating the correlation between Sobol indices, we find substantial variability in the hyperparameter sensitivities between knowledge graphs, with differing dataset characteristics being the probable cause of these inconsistencies. As an additional contribution of this work we identify several relations in the UMLS knowledge graph that may cause data leakage via inverse relations, and derive and present UMLS-43, a leakage-robust variant of that graph.
翻訳日:2022-07-09 15:05:22 公開日:2022-07-05
# (参考訳) ソフトマックスフリーリニアトランス

Softmax-free Linear Transformers ( http://arxiv.org/abs/2207.03341v1 )

ライセンス: CC BY 4.0
Jiachen Lu, Li Zhang, Junge Zhang, Xiatian Zhu, Hang Xu, Jianfeng Feng(参考訳) 視覚変換器(ViT)は、パッチワイド画像トークン化と積み重ねられた自己注意操作によって、様々な視覚認識タスクの最先端を推し進めている。 自己アテンションモジュールを使用すると、計算とメモリ使用の両方で二次的な複雑さが発生する。 線形複雑度で自己注意計算を近似する様々な試みが自然言語処理で行われている。 しかし、本研究の詳細な分析により、それらが理論的に欠陥があるか、あるいは視覚認識に実験的に効果がないことが判明した。 これらの制限は近似中にソフトマックスの自己注意を維持することに根ざしている。 具体的には、トークン特徴ベクトル間の拡張ドット積を正規化することにより、従来の自己注意を計算する。 ソフトマックス操作を維持することは、その後の線形化の取り組みに挑戦する。 この知見に基づき、SOftmax-Free Transformer(SOFT)が最初に提案される。 セルフアテンションにおけるソフトマックス演算子をなくすために、ドット生成の類似性を置き換えるためにガウス核関数を採用する。 これにより、全自己着行列は低ランク行列分解によって近似することができる。 この近似のロバスト性は、newton-raphson法によるムーア・ペンローズ逆計算によって達成される。 さらに, モデル一般化性と伝達性を高めるために, 低ランク自己着脱に効率的な対称正規化を導入する。 ImageNet, COCO, ADE20K の大規模な実験により, 我々の SOFT は既存の ViT 変種の計算効率を大幅に向上することが示された。 重要なことに、線形複雑性では、より長いトークンシーケンスがSOFTで認められ、精度と複雑さのトレードオフが優れている。

Vision transformers (ViTs) have pushed the state-of-the-art for various visual recognition tasks by patch-wise image tokenization followed by stacked self-attention operations. Employing self-attention modules results in a quadratic complexity in both computation and memory usage. Various attempts on approximating the self-attention computation with linear complexity have thus been made in Natural Language Processing. However, an in-depth analysis in this work reveals that they are either theoretically flawed or empirically ineffective for visual recognition. We identify that their limitations are rooted in retaining the softmax self-attention during approximations. Specifically, conventional self-attention is computed by normalizing the scaled dot-product between token feature vectors. Preserving the softmax operation challenges any subsequent linearization efforts. Under this insight, a SOftmax-Free Transformer (abbreviated as SOFT) is proposed for the first time. To eliminate the softmax operator in self-attention, a Gaussian kernel function is adopted to replace the dot-product similarity. This enables a full self-attention matrix to be approximated via a low-rank matrix decomposition. The robustness of our approximation is achieved by calculating its Moore-Penrose inverse using a Newton-Raphson method. Further, an efficient symmetric normalization is introduced on the low-rank self-attention for enhancing model generalizability and transferability. Extensive experiments on ImageNet, COCO and ADE20K show that our SOFT significantly improves the computational efficiency of existing ViT variants. Crucially, with a linear complexity, much longer token sequences are permitted in SOFT, resulting in superior trade-off between accuracy and complexity.
翻訳日:2022-07-09 08:27:04 公開日:2022-07-05
# (参考訳) 機械学習モデルのサイズとパラメータギャップ

Machine Learning Model Sizes and the Parameter Gap ( http://arxiv.org/abs/2207.02852v1 )

ライセンス: CC BY 4.0
Pablo Villalobos, Jaime Sevilla, Tamay Besiroglu, Lennart Heim, Anson Ho, Marius Hobbhahn(参考訳) 本研究では,データセットを用いて,機械学習システムのモデルサイズに関するトレンドを時間とともに調査する。 1950年から2018年にかけて、言語モデルのモデルサイズは7桁に着実に増加した。 この傾向はその後加速し、モデルのサイズは2018年から2022年までのわずか4年でさらに5桁大きくなった。 ビジョンモデルはより一定のペースで成長し、1950年から2022年の間に7桁の成長を遂げた。 また,2020年以降,20bパラメータ以下の言語モデルが多数存在し,70bパラメータを超えるモデルが多数存在するが,20~70bパラメータの範囲ではモデルの不足が確認された。 私たちはこの不足をパラメータギャップと呼びます。 パラメータギャップに関するスタイライズされた事実を提案し,それを説明するための仮説を提案する。 私たちが好む説明は (a) 20Bパラメータを超えるモデルサイズの増加には、異なる並列化手法を採用する必要がある。 (b) GPT-3は従来の言語モデルよりも1桁大きく、その後研究者はそれを上回る性能を示すために主により大きなモデルを試した。 これらのダイナミクスはおそらく存在しており、ギャップを生み出すのに何らかの役割を果たしていると信じていますが、他の、より重要なダイナミクスが役に立たないという確信はありません。

We study trends in model size of notable machine learning systems over time using a curated dataset. From 1950 to 2018, model size in language models increased steadily by seven orders of magnitude. The trend then accelerated, with model size increasing by another five orders of magnitude in just 4 years from 2018 to 2022. Vision models grew at a more constant pace, totaling 7 orders of magnitude of growth between 1950 and 2022. We also identify that, since 2020, there have been many language models below 20B parameters, many models above 70B parameters, but a scarcity of models in the 20-70B parameter range. We refer to that scarcity as the parameter gap. We provide some stylized facts about the parameter gap and propose a few hypotheses to explain it. The explanations we favor are: (a) increasing model size beyond 20B parameters requires adopting different parallelism techniques, which makes mid-sized models less cost-effective, (b) GPT-3 was one order of magnitude larger than previous language models, and researchers afterwards primarily experimented with bigger models to outperform it. While these dynamics likely exist, and we believe they play some role in generating the gap, we don't have high confidence that there are no other, more important dynamics at play.
翻訳日:2022-07-09 07:54:40 公開日:2022-07-05
# 純現値最大化のためのプロジェクトスケジューリングアルゴリズムの実証評価

Empirical Evaluation of Project Scheduling Algorithms for Maximization of the Net Present Value ( http://arxiv.org/abs/2207.03330v1 )

ライセンス: Link先を確認
Isac M. Lacerda, Eber A. Schmitz, Jayme L. Szwarcfiter, Rosiane de Freitas(参考訳) 本稿では,制約のない資源でプロジェクトの提示価値を最大化する3つのプロジェクトスケジューリングアルゴリズムの実証的性能解析を行う。 この文献で最近引用されたアルゴリズムは、Recursive Search (RS)、Steepest Ascent Approach (SAA)、Hybrid Search (HS)である。 この研究の主な動機は、rsアルゴリズム、saaアルゴリズム、hsアルゴリズムの計算複雑性に関する知識の欠如である。 さらに、これまでに行われた経験的分析では、一方のアルゴリズム(HS)が二重探索戦略を使用しているという事実を考慮せず、他方のアルゴリズムの性能は著しく改善されている。 本研究では,2つのアルゴリズム (RS と SAA) に2つの探索戦略を実装し,新たなアルゴリズムをRecursive Search Forward-Backward (RSFB) と Steepest Ascent Approach Forward-Backward (SAAFB) と呼ぶ。 RSFB, SAAFB, HSのアルゴリズムは, 3つの異なるプロジェクトネットワークサンプリング特性を持つ因子実験を行った。 一般化線形モデル (glm) の統計モデリング手法を用いて, 以下の結果を得た。 a) RSFB,SAAFB及びHSの一般計算コスト b) アルゴリズムの総コストの一部として,スパンツリーの検索を再開するコスト c) アルゴリズムの結果の分布と統計的に有意な差。

This paper presents an empirical performance analysis of three project scheduling algorithms dealing with maximizing projects' net present value with unrestricted resources. The selected algorithms, being the most recently cited in the literature, are: Recursive Search (RS), Steepest Ascent Approach (SAA) and Hybrid Search (HS). The main motivation for this research is the lack of knowledge about the computational complexities of the RS, SAA, and HS algorithms, since all studies to date show some gaps in the analysis. Furthermore, the empirical analysis performed to date does not consider the fact that one algorithm (HS) uses a dual search strategy, which markedly improved the algorithm's performance, while the others don't. In order to obtain a fair performance comparison, we implemented the dual search strategy into the other two algorithms (RS and SAA), and the new algorithms were called Recursive Search Forward-Backward (RSFB) and Steepest Ascent Approach Forward-Backward (SAAFB). The algorithms RSFB, SAAFB, and HS were submitted to a factorial experiment with three different project network sampling characteristics. The results were analyzed using the Generalized Linear Models (GLM) statistical modeling technique that showed: a) the general computational costs of RSFB, SAAFB, and HS; b) the costs of restarting the search in the spanning tree as part of the total cost of the algorithms; c) and statistically significant differences between the distributions of the algorithms' results.
翻訳日:2022-07-08 14:10:29 公開日:2022-07-05
# 機械学習データセット記述のためのドメイン固有言語

A domain-specific language for describing machine learning dataset ( http://arxiv.org/abs/2207.02848v1 )

ライセンス: Link先を確認
Joan Giner-Miguelez, Abel G\'omez and Jordi Cabot(参考訳) データセットは機械学習(ML)モデルのトレーニングと評価において中心的な役割を果たす。 しかしそれらは、バイアス付き予測など、多くの望ましくないモデル行動の根本原因でもある。 この状況を克服するため、MLコミュニティは、データ問題にふさわしい注意を払って、データセットの収集と処理に関するより標準的なプラクティスが議論され、確立される、データ中心の文化シフトを提案しています。 これまでのところ、これらの提案は主に自然言語で記述されたハイレベルなガイドラインであり、特定のデータセットに対して形式化や適用が難しい。 この意味では、これらの提案に触発されて、機械学習データセットをその構造、データ証明、社会的関心事の観点から正確に記述する新しいドメイン固有言語(DSL)を定義します。 このDSLは、MLのこのデータ中心のシフト(例えば、新しいプロジェクトに適したデータセットを選択する、あるいは他のML結果のより優れた複製など)を活用し、利益を得るためのMLイニシアチブを促進します。 DSLはVisual Studio Codeプラグインとして実装されており、オープンソースライセンスで公開されている。

Datasets play a central role in the training and evaluation of machine learning (ML) models. But they are also the root cause of many undesired model behaviors, such as biased predictions. To overcome this situation, the ML community is proposing a data-centric cultural shift where data issues are given the attention they deserve, and more standard practices around the gathering and processing of datasets start to be discussed and established. So far, these proposals are mostly high-level guidelines described in natural language and, as such, they are difficult to formalize and apply to particular datasets. In this sense, and inspired by these proposals, we define a new domain-specific language (DSL) to precisely describe machine learning datasets in terms of their structure, data provenance, and social concerns. We believe this DSL will facilitate any ML initiative to leverage and benefit from this data-centric shift in ML (e.g., selecting the most appropriate dataset for a new project or better replicating other ML results). The DSL is implemented as a Visual Studio Code plugin, and it has been published under an open source license.
翻訳日:2022-07-08 13:34:07 公開日:2022-07-05
# Betty: マルチレベル最適化のための自動微分ライブラリ

Betty: An Automatic Differentiation Library for Multilevel Optimization ( http://arxiv.org/abs/2207.02849v1 )

ライセンス: Link先を確認
Sang Keun Choe, Willie Neiswanger, Pengtao Xie, Eric Xing(参考訳) マルチレベル最適化は、ハイパーパラメータ最適化、メタラーニング、強化学習など、多数の機械学習問題の数学的基礎として広く採用されている。 それでも、多レベル最適化プログラムの実装には、数学とプログラミングの両方の専門知識が必要である。 勾配に基づくマルチレベル最適化のためのハイレベルなソフトウェアライブラリであるbettyを導入することで、このギャップを埋めるための最初の一歩を踏み出します。 そこで本研究では,データフローグラフとしてのマルチレベル最適化の新しい解釈に基づく自動微分手法を開発した。 さらに、Pythonクラスとしてマルチレベル最適化の主要なコンポーネントを抽象化して、簡単でモジュール化され、メンテナンス可能なプログラミングを可能にします。 我々は,マルチレベル最適化プログラム群のための高レベルプログラミングインタフェースとしてベティを活用できることを示すとともに,テスト精度が最大11\%向上し,gpuメモリ使用率が14\%低下し,複数のベンチマークで既存の実装よりも20\%削減されていることを実証した。 コードはhttp://github.com/leopard-ai/bettyで入手できる。

Multilevel optimization has been widely adopted as a mathematical foundation for a myriad of machine learning problems, such as hyperparameter optimization, meta-learning, and reinforcement learning, to name a few. Nonetheless, implementing multilevel optimization programs oftentimes requires expertise in both mathematics and programming, stunting research in this field. We take an initial step towards closing this gap by introducing Betty, a high-level software library for gradient-based multilevel optimization. To this end, we develop an automatic differentiation procedure based on a novel interpretation of multilevel optimization as a dataflow graph. We further abstract the main components of multilevel optimization as Python classes, to enable easy, modular, and maintainable programming. We empirically demonstrate that Betty can be used as a high-level programming interface for an array of multilevel optimization programs, while also observing up to 11\% increase in test accuracy, 14\% decrease in GPU memory usage, and 20\% decrease in wall time over existing implementations on multiple benchmarks. The code is available at http://github.com/leopard-ai/betty .
翻訳日:2022-07-08 13:32:38 公開日:2022-07-05
# コンセンサス判別グラフを用いた局所サンプル重み付きマルチカーネルクラスタリング

Local Sample-weighted Multiple Kernel Clustering with Consensus Discriminative Graph ( http://arxiv.org/abs/2207.02846v1 )

ライセンス: Link先を確認
Liang Li and Siwei Wang and Xinwang Liu and En Zhu and Li Shen and Kenli Li and Keqin Li(参考訳) マルチカーネルクラスタリング(MKC)は、ベースカーネルの集合から最適な情報融合を実現するためにコミットされる。 正確で局所的なカーネル行列を構成することは、信頼できない距離距離類似度推定がアフォーアンス毎にクラスタリングを劣化させるため、アプリケーションにおいて重要な意味を持つ。 既存のローカライズmkcアルゴリズムは、グローバルに設計されたcompeti-torに比べて性能が向上しているが、そのほとんどは、kn機構を採用してカーネルマトリックスをローカライズしている。 しかし、このような粗末なやり方は、異なる隣人のランク付けの重要性が等しいという不合理な戦略に従っている。 このような問題を緩和するため,本稿では,新しい局所的サンプル重み付きマルチカーネルクラスタリング(lswmkc)モデルを提案する。 まず、カーネル空間におけるコンセンサス判別アフィニティグラフを構築し、潜在局所構造を明らかにする。 さらに、学習親和性グラフの最適近傍カーネルを自然にスパース特性とクリアブロック対角構造で出力する。 さらに、LSWMKCは、各近傍の適応重量を対応するサンプルで即時最適化する。 実験により, LSWMKCはより優れた局所多様体表現を有し, 既存のカーネルやグラフベースのクラスタリングアルゴリズムよりも優れていた。 LSWMKCのソースコードはhttps://github.com/liliangnudt/LSWMKCから公開されている。

Multiple kernel clustering (MKC) is committed to achieving optimal information fusion from a set of base kernels. Constructing precise and local kernel matrices is proved to be of vital significance in applications since the unreliable distant-distance similarity estimation would degrade clustering per-formance. Although existing localized MKC algorithms exhibit improved performance compared to globally-designed competi-tors, most of them widely adopt KNN mechanism to localize kernel matrix by accounting for {\tau} -nearest neighbors. However, such a coarse manner follows an unreasonable strategy that the ranking importance of different neighbors is equal, which is impractical in applications. To alleviate such problems, this paper proposes a novel local sample-weighted multiple kernel clustering (LSWMKC) model. We first construct a consensus discriminative affinity graph in kernel space, revealing the latent local structures. Further, an optimal neighborhood kernel for the learned affinity graph is output with naturally sparse property and clear block diagonal structure. Moreover, LSWMKC im-plicitly optimizes adaptive weights on different neighbors with corresponding samples. Experimental results demonstrate that our LSWMKC possesses better local manifold representation and outperforms existing kernel or graph-based clustering algo-rithms. The source code of LSWMKC can be publicly accessed from https://github.com/liliangnudt/LSWMKC.
翻訳日:2022-07-08 12:50:33 公開日:2022-07-05
# 実効二進予測のためのスコアリングルール

Scoring Rules for Performative Binary Prediction ( http://arxiv.org/abs/2207.02847v1 )

ライセンス: Link先を確認
Alan Chan(参考訳) 予測が世界の状況に影響を与えるような,専門家による予測モデルを構築した。 このモデルでは、適切なスコアリングルールが専門家に予測で世界を操作するインセンティブを与えるという理論的および数値的な結果を示す。 また、この問題を回避するための単純なスコアリングルールも構築する。

We construct a model of expert prediction where predictions can influence the state of the world. Under this model, we show through theoretical and numerical results that proper scoring rules can incentivize experts to manipulate the world with their predictions. We also construct a simple class of scoring rules that avoids this problem.
翻訳日:2022-07-08 12:50:06 公開日:2022-07-05
# (参考訳) 効率的な生成リハーサルのためのプログレッシブ潜在リプレイ

Progressive Latent Replay for efficient Generative Rehearsal ( http://arxiv.org/abs/2207.01562v2 )

ライセンス: CC BY 4.0
Stanis{\l}aw Pawlak, Filip Szatkowski, Micha{\l} Bortkiewicz, Jan Dubi\'nski, Tomasz Trzci\'nski(参考訳) 本稿では,ネットワークの深さに基づいてリハーサルの頻度を変調する新しい内部再生法を提案する。 リプレイ戦略は、ニューラルネットワークにおける破滅的な忘れ方の影響を緩和するが、ジェネレーティブリプレイに関する最近の研究は、ネットワークの深い層でのみリハーサルを行うことで、継続的な学習のパフォーマンスが向上することを示している。 しかし、生成的アプローチは計算オーバーヘッドを増加させ、アプリケーションを制限する。 ニューラルネットワークの初期の層が突然の遅延をあまり忘れないという観察に触発されて、リプレイ中の中間レベル特徴を用いて様々な周波数でネットワーク層を更新することを提案する。 これにより、ジェネレータの深い層とメインモデルの前の層の両方の計算を省略することで、計算負担を低減することができる。 我々は,提案手法をProgressive Latent Replayと命名し,リソースを著しく減らしながら内部リプレイより優れていることを示す。

We introduce a new method for internal replay that modulates the frequency of rehearsal based on the depth of the network. While replay strategies mitigate the effects of catastrophic forgetting in neural networks, recent works on generative replay show that performing the rehearsal only on the deeper layers of the network improves the performance in continual learning. However, the generative approach introduces additional computational overhead, limiting its applications. Motivated by the observation that earlier layers of neural networks forget less abruptly, we propose to update network layers with varying frequency using intermediate-level features during replay. This reduces the computational burden by omitting computations for both deeper layers of the generator and earlier layers of the main model. We name our method Progressive Latent Replay and show that it outperforms Internal Replay while using significantly fewer resources.
翻訳日:2022-07-08 08:45:55 公開日:2022-07-05
# (参考訳) 整形予測セットを用いた画像診断におけるAI病重症度評価の信頼性向上

Improving Trustworthiness of AI Disease Severity Rating in Medical Imaging with Ordinal Conformal Prediction Sets ( http://arxiv.org/abs/2207.02238v1 )

ライセンス: CC BY 4.0
Charles Lu, Anastasios N. Angelopoulos, Stuart Pomerantz(参考訳) 規制の承認と医療aiの広範な臨床展開は、ディープラーニングモデルが予測不能で破滅的な方法で失敗するという認識によって妨げられている。 統計的に厳密な不確実性定量化の欠如は、AI結果の信頼を損なう重要な要因である。 分布のない不確実性定量化の最近の進展は、任意のデータ分布上のブラックボックスモデルの信頼性保証を形式的に有効な有限サンプル予測間隔として提供することで、これらの問題に対して実用的な解決策を提供する。 我々の研究は、腰椎MRIにおける脊柱狭窄の重症度を評価するためのディープラーニングモデルに、これらの新しい不確実性定量化手法(特に共形予測)を適用した。 ユーザ定義確率(信頼区間)内に適切な狭窄度を含むことを保証された順序予測セットを形成する手法を示す。 ディープラーニングモデルによって処理された409個のMRI検査のデータセットにおいて、コンフォメーション法は小さな予測セットサイズで厳密なカバレッジを提供する。 また,不確かさの高い症例 (大きな予測セット) に対して, ランダムな症例と比較して予測性能の信頼性を低下させる重要な画像異常(例えば, モーションアーティファクト, メタルアーティファクト, 腫瘍)の出現率を定量化し, 臨床応用の可能性を検討した。

The regulatory approval and broad clinical deployment of medical AI have been hampered by the perception that deep learning models fail in unpredictable and possibly catastrophic ways. A lack of statistically rigorous uncertainty quantification is a significant factor undermining trust in AI results. Recent developments in distribution-free uncertainty quantification present practical solutions for these issues by providing reliability guarantees for black-box models on arbitrary data distributions as formally valid finite-sample prediction intervals. Our work applies these new uncertainty quantification methods -- specifically conformal prediction -- to a deep-learning model for grading the severity of spinal stenosis in lumbar spine MRI. We demonstrate a technique for forming ordinal prediction sets that are guaranteed to contain the correct stenosis severity within a user-defined probability (confidence interval). On a dataset of 409 MRI exams processed by the deep-learning model, the conformal method provides tight coverage with small prediction set sizes. Furthermore, we explore the potential clinical applicability of flagging cases with high uncertainty predictions (large prediction sets) by quantifying an increase in the prevalence of significant imaging abnormalities (e.g. motion artifacts, metallic artifacts, and tumors) that could degrade confidence in predictive performance when compared to a random sample of cases.
翻訳日:2022-07-08 08:00:30 公開日:2022-07-05
# (参考訳) 心理物理学による機械知覚の誘導

Guiding Machine Perception with Psychophysics ( http://arxiv.org/abs/2207.02241v1 )

ライセンス: CC0 1.0
Justin Dulay, Sonia Poltoratski, Till S. Hartmann, Samuel E. Anthony, Walter J. Scheirer(参考訳) g}{ustav} フェヒナーの1860年の精神物理学の描写、その刺激に関連した感覚の測定は、現代の心理学の出現であると広く考えられている。 心理物理学では、研究者は刺激のいくつかの側面をパラメトリックに変化させ、その刺激に対する人間の経験の変化を測定する。 このアプローチは、信号検出、閾値測定、理想観察分析などの知覚領域で広く使われている。 視覚科学のような科学分野は、常に精神物理学の手法や手順に重点を置いているが、今では、生物と人工の知覚の重なりを拡げることによって引き起こされた機械学習研究者による評価が増加している。 行動測定によって導かれる機械知覚は、任意に割り当てられた人間のラベルに制限されるガイダンスとは対照的に、人工知能のさらなる進歩を促進する大きな可能性を持っている。

{G}{ustav} Fechner's 1860 delineation of psychophysics, the measurement of sensation in relation to its stimulus, is widely considered to be the advent of modern psychological science. In psychophysics, a researcher parametrically varies some aspects of a stimulus, and measures the resulting changes in a human subject's experience of that stimulus; doing so gives insight to the determining relationship between a sensation and the physical input that evoked it. This approach is used heavily in perceptual domains, including signal detection, threshold measurement, and ideal observer analysis. Scientific fields like vision science have always leaned heavily on the methods and procedures of psychophysics, but there is now growing appreciation of them by machine learning researchers, sparked by widening overlap between biological and artificial perception \cite{rojas2011automatic, scheirer2014perceptual,escalera2014chalearn,zhang2018agil, grieggs2021measuring}. Machine perception that is guided by behavioral measurements, as opposed to guidance restricted to arbitrarily assigned human labels, has significant potential to fuel further progress in artificial intelligence.
翻訳日:2022-07-08 07:48:34 公開日:2022-07-05
# (参考訳) 物理対応変換器を用いたアレイカメラ画像融合

Array Camera Image Fusion using Physics-Aware Transformers ( http://arxiv.org/abs/2207.02250v1 )

ライセンス: CC BY-SA 4.0
Qian Huang, Minghao Hu and David Jones Brady(参考訳) 我々は,様々な解像度,色空間,焦点平面,焦点距離,露光を有するカメラから特徴量に基づくデータ融合を行う物理認識トランスフォーマーを実演する。 また,オープンソースコンピュータグラフィックスソフトウェアを用いたトランスフォーマの合成学習データ生成のためのスケーラブルなソリューションを示す。 本研究では,様々なスペクトル応答,瞬時視野,フレームレートを有するアレイ上に画像合成を行う。

We demonstrate a physics-aware transformer for feature-based data fusion from cameras with diverse resolution, color spaces, focal planes, focal lengths, and exposure. We also demonstrate a scalable solution for synthetic training data generation for the transformer using open-source computer graphics software. We demonstrate image synthesis on arrays with diverse spectral responses, instantaneous field of view and frame rate.
翻訳日:2022-07-08 07:36:43 公開日:2022-07-05
# (参考訳) OpenLDN: オープンワールドセミスーパービジョンラーニングのための新しいクラスを学習する

OpenLDN: Learning to Discover Novel Classes for Open-World Semi-Supervised Learning ( http://arxiv.org/abs/2207.02261v1 )

ライセンス: CC BY-SA 4.0
Mamshad Nayeem Rizve, Navid Kardan, Salman Khan, Fahad Shahbaz Khan, Mubarak Shah(参考訳) 半教師付き学習(SSL)は教師付き学習のアノテーションボトルネックに対処する主要なアプローチの1つである。 最近のSSLメソッドは、ラベルなしデータの大規模なリポジトリを有効活用して、ラベル付きデータの小さなセットに依存しながら、パフォーマンスを向上させることができる。 ほとんどのSSLメソッドでは、ラベル付きデータとラベルなしデータは、同じ基盤となるデータ分布から来ているという仮定が一般的である。 しかし、現実のシナリオの多くでは、適用性に制限があるため、これはほとんどない。 そこで本研究では,最近提案されたオープンワールドSSL問題に対して,そのような仮定をしない解決法を提案する。 オープンワールドSSL問題では、既知のクラスのサンプルを認識し、ラベルなしデータに存在する新しいクラスに属するサンプルを同時に検出し、クラスタ化する。 この研究は、ペアの類似性損失を利用して新しいクラスを発見するOpenLDNを導入する。 このペアワイズ類似性損失は、ラベル付きセットで利用可能な情報を悪用して、既知のクラスからのサンプルを同時に認識しながら、新しいクラスサンプルを暗黙的にクラスタ化する。 新たなクラスを発見した後、OpenLDNはオープンワールドSSL問題を標準SSL問題に変換し、既存のSSLメソッドを使用してさらなるパフォーマンス向上を実現する。 大規模な実験により、OpenLDNは、複数の一般的な分類ベンチマークにおいて、最先端の手法よりも優れた精度/トレーニング時間トレードオフを提供することを示した。

Semi-supervised learning (SSL) is one of the dominant approaches to address the annotation bottleneck of supervised learning. Recent SSL methods can effectively leverage a large repository of unlabeled data to improve performance while relying on a small set of labeled data. One common assumption in most SSL methods is that the labeled and unlabeled data are from the same underlying data distribution. However, this is hardly the case in many real-world scenarios, which limits their applicability. In this work, instead, we attempt to solve the recently proposed challenging open-world SSL problem that does not make such an assumption. In the open-world SSL problem, the objective is to recognize samples of known classes, and simultaneously detect and cluster samples belonging to novel classes present in unlabeled data. This work introduces OpenLDN that utilizes a pairwise similarity loss to discover novel classes. Using a bi-level optimization rule this pairwise similarity loss exploits the information available in the labeled set to implicitly cluster novel class samples, while simultaneously recognizing samples from known classes. After discovering novel classes, OpenLDN transforms the open-world SSL problem into a standard SSL problem to achieve additional performance gains using existing SSL methods. Our extensive experiments demonstrate that OpenLDN outperforms the current state-of-the-art methods on multiple popular classification benchmarks while providing a better accuracy/training time trade-off.
翻訳日:2022-07-08 07:21:10 公開日:2022-07-05
# (参考訳) プリトレーニングトランスを用いた超低ビット音声符号化

Ultra-Low-Bitrate Speech Coding with Pretrained Transformers ( http://arxiv.org/abs/2207.02262v1 )

ライセンス: CC BY 4.0
Ali Siahkoohi and Michael Chinen and Tom Denton and W. Bastiaan Kleijn and Jan Skoglund(参考訳) 音声符号化は低帯域幅ネットワーク上での音声伝送を最小限の歪みで容易に行う。 ニューラルネットワークベースの音声コーデックは、最近、従来のアプローチよりも品質が大幅に向上している。 この新世代のコーデックは高忠実度音声を合成できるが、再帰層や畳み込み層を用いると、効果的な受容場が制限され、効率よく音声を圧縮できない。 本稿では,入力信号の帰納バイアスによる長距離依存性を活用可能な事前学習トランスフォーマを用いて,ニューラル音声コーデックのビットレートをさらに削減することを提案する。 そこで我々は,タンデムで事前学習したトランスフォーマーと畳み込みエンコーダを,量子化器と生成逆数ネットデコーダでエンドツーエンドに訓練する。 数値実験により,トランスフォーマー音声埋め込みによるニューラルネットワークコーデックの畳み込みエンコーダの補足により,同じビットレートで学習した場合に合成音声品質において,元のニューラルネットワークコーデックよりも優れるビットレート600\,\mathrm{bps}$の音声コーデックが得られることを示した。 主観的な人間の評価では、結果のコーデックの品質は従来のコーデックの3倍から4倍の速さで動作している。

Speech coding facilitates the transmission of speech over low-bandwidth networks with minimal distortion. Neural-network based speech codecs have recently demonstrated significant improvements in quality over traditional approaches. While this new generation of codecs is capable of synthesizing high-fidelity speech, their use of recurrent or convolutional layers often restricts their effective receptive fields, which prevents them from compressing speech efficiently. We propose to further reduce the bitrate of neural speech codecs through the use of pretrained Transformers, capable of exploiting long-range dependencies in the input signal due to their inductive bias. As such, we use a pretrained Transformer in tandem with a convolutional encoder, which is trained end-to-end with a quantizer and a generative adversarial net decoder. Our numerical experiments show that supplementing the convolutional encoder of a neural speech codec with Transformer speech embeddings yields a speech codec with a bitrate of $600\,\mathrm{bps}$ that outperforms the original neural speech codec in synthesized speech quality when trained at the same bitrate. Subjective human evaluations suggest that the quality of the resulting codec is comparable or better than that of conventional codecs operating at three to four times the rate.
翻訳日:2022-07-08 07:03:20 公開日:2022-07-05
# (参考訳) リアルなセミスーパーバイザラーニングを目指して

Towards Realistic Semi-Supervised Learning ( http://arxiv.org/abs/2207.02269v1 )

ライセンス: CC BY-SA 4.0
Mamshad Nayeem Rizve, Navid Kardan, Mubarak Shah(参考訳) ディープラーニングは多くのコンピュータビジョンアプリケーションにおいて最先端の技術を推し進めている。 しかし、これは大規模な注釈付きデータリポジトリに依存しており、実世界のデータの制約のない性質を捉えることは、まだ解決されていない。 半教師付き学習(SSL)は、アノテーションコストを削減するために、注釈付きトレーニングデータを大量のラベル付きデータで補完する。 標準SSLアプローチでは、ラベルなしデータはアノテーション付きデータと同じディストリビューションから来ていると仮定している。 最近、ORCA[9]は、未注釈データに未知のクラスからのサンプルが含まれていると仮定して、Open-world SSLと呼ばれるより現実的なSSL問題を導入しています。 オープンワールド環境でSSLに取り組み、未知のクラスと未知のクラスを同時に分類する新しいアプローチを提案する。 本手法の核となるものは,サンプルの不確実性を利用し,クラス分布に関する事前知識を取り入れ,既知クラスと未知クラスの両方に属するラベルなしデータに対して信頼性の高い擬似ラベルを生成する。 CIFAR-100 (17.6%)、ImageNet-100 (5.7%)、Tiny ImageNet (9.9%)を含む7つの多様なデータセットで、既存の最先端のデータセットを著しく上回っている。

Deep learning is pushing the state-of-the-art in many computer vision applications. However, it relies on large annotated data repositories, and capturing the unconstrained nature of the real-world data is yet to be solved. Semi-supervised learning (SSL) complements the annotated training data with a large corpus of unlabeled data to reduce annotation cost. The standard SSL approach assumes unlabeled data are from the same distribution as annotated data. Recently, ORCA [9] introduce a more realistic SSL problem, called open-world SSL, by assuming that the unannotated data might contain samples from unknown classes. This work proposes a novel approach to tackle SSL in open-world setting, where we simultaneously learn to classify known and unknown classes. At the core of our method, we utilize sample uncertainty and incorporate prior knowledge about class distribution to generate reliable pseudo-labels for unlabeled data belonging to both known and unknown classes. Our extensive experimentation showcases the effectiveness of our approach on several benchmark datasets, where it substantially outperforms the existing state-of-the-art on seven diverse datasets including CIFAR-100 (17.6%), ImageNet-100 (5.7%), and Tiny ImageNet (9.9%).
翻訳日:2022-07-08 06:49:11 公開日:2022-07-05
# (参考訳) 地価表現学習のためのインタラクションの事前学習

Pretraining on Interactions for Learning Grounded Affordance Representations ( http://arxiv.org/abs/2207.02272v1 )

ライセンス: CC BY 4.0
Jack Merullo, Dylan Ebert, Carsten Eickhoff, Ellie Pavlick(参考訳) 語彙的意味論と認知科学は、名詞や動詞の理解と表現に欠かせないもの(すなわち、対象が支持する行動)を指す。 しかし、これらの意味的特徴の研究は、現在言語表現研究を支配している「基礎」モデルとはまだ統合されていない。 我々は、オブジェクトの状態の予測モデリングが、オブジェクトの許容情報を「無料で」エンコードする表現をもたらすと仮定する。 シミュレーションによって物体の軌跡を予測するためにニューラルネットワークを訓練し、ネットワークの潜在表現が観測値と観測値の両方で区別されることを示す。 SPATIALデータセットから3次元シミュレーションを用いて訓練されたモデルは、類似したタスクで訓練された従来の2次元コンピュータビジョンモデルより優れており、初期検査では、概念間の差異が期待される特徴(例えば、ロールエンコレーション)に対応することが判明した。 以上の結果から,現代的深層学習が語彙表現の形式的意味概念と統合できる可能性が示唆された。

Lexical semantics and cognitive science point to affordances (i.e. the actions that objects support) as critical for understanding and representing nouns and verbs. However, study of these semantic features has not yet been integrated with the "foundation" models that currently dominate language representation research. We hypothesize that predictive modeling of object state over time will result in representations that encode object affordance information "for free". We train a neural network to predict objects' trajectories in a simulated interaction and show that our network's latent representations differentiate between both observed and unobserved affordances. We find that models trained using 3D simulations from our SPATIAL dataset outperform conventional 2D computer vision models trained on a similar task, and, on initial inspection, that differences between concepts correspond to expected features (e.g., roll entails rotation). Our results suggest a way in which modern deep learning approaches to grounded language learning can be integrated with traditional formal semantic notions of lexical representations.
翻訳日:2022-07-08 06:31:46 公開日:2022-07-05
# (参考訳) 歩行者映像異常検出のための軌道予測の活用

Leveraging Trajectory Prediction for Pedestrian Video Anomaly Detection ( http://arxiv.org/abs/2207.02279v1 )

ライセンス: CC BY 4.0
Asiegbu Miracle Kanu-Asiegbu, Ram Vasudevan, Xiaoxiao Du(参考訳) 映像異常検出は視覚の重要な問題である。 ビデオデータから歩行者の異常行動を正確に検出し識別することで、監視、活動監視、人間とロボットのインタラクションといった安全クリティカルな応用が可能になる。 本稿では,未監視歩行者異常事象検出における軌跡定位と予測の活用を提案する。 提案手法は, 従来の再建手法と異なり, 正常および異常な歩行者軌道の予測誤差に頼って, 空間的, 時間的に異常を検出する。 提案手法は,映像中の歩行者の異常行動を特定するのに有効かつ効率的にトラジェクトリ予測に基づく異常検出パイプラインを構築できることを示す。 コードはhttps://github.com/akanuasiegbu/Leveraging-Trajectory-Prediction-for-Pedestrian-Video-Anomaly-Detect ionで公開される。

Video anomaly detection is a core problem in vision. Correctly detecting and identifying anomalous behaviors in pedestrians from video data will enable safety-critical applications such as surveillance, activity monitoring, and human-robot interaction. In this paper, we propose to leverage trajectory localization and prediction for unsupervised pedestrian anomaly event detection. Different than previous reconstruction-based approaches, our proposed framework rely on the prediction errors of normal and abnormal pedestrian trajectories to detect anomalies spatially and temporally. We present experimental results on real-world benchmark datasets on varying timescales and show that our proposed trajectory-predictor-based anomaly detection pipeline is effective and efficient at identifying anomalous activities of pedestrians in videos. Code will be made available at https://github.com/akanuasiegbu/Leveraging-Trajectory-Prediction-for-Pedestrian-Video-Anomaly-Detect ion.
翻訳日:2022-07-08 06:12:15 公開日:2022-07-05
# (参考訳) BiPOCO: 歩行者異常検出のためのPose Constraintを用いた双方向軌道予測

BiPOCO: Bi-Directional Trajectory Prediction with Pose Constraints for Pedestrian Anomaly Detection ( http://arxiv.org/abs/2207.02281v1 )

ライセンス: CC BY 4.0
Asiegbu Miracle Kanu-Asiegbu, Ram Vasudevan, Xiaoxiao Du(参考訳) ビデオ中の歩行者の異常行動を検出するために,Pose COnstraintsを用いた双方向軌道予測器BiPOCOを提案する。 機能再構築に基づく以前の作業とは対照的に,将来の軌跡を予測し,予測と予測を比較して,歩行者異常事象を特定する。 本稿では,新しい合成ポーズに基づく損失を予測器に導入し,各関節の予測誤差を利用して歩行者異常検出を行う。 実験の結果,bipocoアプローチでは,歩行者の異常行動の検出率(最大87.0%)が高く,ポーズ制約を組み込むことで,正常なポーズと異常なポーズを識別できることがわかった。 この研究は、異常検出に予測に基づく手法を用いる現在の文献を拡張し、自動運転や監視のような安全クリティカルな応用に役立つ。 コードはhttps://github.com/akanuasiegbu/bipocoで入手できる。

We present BiPOCO, a Bi-directional trajectory predictor with POse COnstraints, for detecting anomalous activities of pedestrians in videos. In contrast to prior work based on feature reconstruction, our work identifies pedestrian anomalous events by forecasting their future trajectories and comparing the predictions with their expectations. We introduce a set of novel compositional pose-based losses with our predictor and leverage prediction errors of each body joint for pedestrian anomaly detection. Experimental results show that our BiPOCO approach can detect pedestrian anomalous activities with a high detection rate (up to 87.0%) and incorporating pose constraints helps distinguish normal and anomalous poses in prediction. This work extends current literature of using prediction-based methods for anomaly detection and can benefit safety-critical applications such as autonomous driving and surveillance. Code is available at https://github.com/akanuasiegbu/BiPOCO.
翻訳日:2022-07-08 05:53:13 公開日:2022-07-05
# (参考訳) jsd上界を用いた協調分布アライメント

Cooperative Distribution Alignment via JSD Upper Bound ( http://arxiv.org/abs/2207.02286v1 )

ライセンス: CC BY 4.0
Wonwoong Cho, Ziyu Gong, David I. Inouye(参考訳) 教師なし分布アライメントは、2つ以上のソース分布を各ディストリビューションからのサンプルのみを与えられた共有整列分布にマッピングする変換を推定する。 このタスクには、生成モデリング、教師なしドメイン適応、社会的に認識された学習など、多くのアプリケーションがあります。 ほとんどの先行研究は、最適化と評価が困難である逆学習(すなわちmin-max最適化)を使用している。 いくつかの最近の研究は非逆流(すなわち可逆性)アプローチを探求しているが、統一的な視点を持たず、複数の分布を効率的に整列させることに制限がある。 そこで我々は,jensen-shannon divergence (jsd) 上の上限を最小化することと同値である,単一の非敵対的枠組みの下でのフローベースアプローチの統一化と一般化を提案する。 重要なことは、我々の問題はミンミン、すなわち協力的問題に還元され、教師なし分布アライメントの自然な評価指標を提供することができる。 シミュレーションと実世界の両方のデータセット上で,我々のフレームワークの実証実験結果を示し,アプローチのメリットを実証する。

Unsupervised distribution alignment estimates a transformation that maps two or more source distributions to a shared aligned distribution given only samples from each distribution. This task has many applications including generative modeling, unsupervised domain adaptation, and socially aware learning. Most prior works use adversarial learning (i.e., min-max optimization), which can be challenging to optimize and evaluate. A few recent works explore non-adversarial flow-based (i.e., invertible) approaches, but they lack a unified perspective and are limited in efficiently aligning multiple distributions. Therefore, we propose to unify and generalize previous flow-based approaches under a single non-adversarial framework, which we prove is equivalent to minimizing an upper bound on the Jensen-Shannon Divergence (JSD). Importantly, our problem reduces to a min-min, i.e., cooperative, problem and can provide a natural evaluation metric for unsupervised distribution alignment. We present empirical results of our framework on both simulated and real-world datasets to demonstrate the benefits of our approach.
翻訳日:2022-07-08 05:18:13 公開日:2022-07-05
# (参考訳) マルコフ連鎖のスペクトル理論に関するチュートリアル

A Tutorial on the Spectral Theory of Markov Chains ( http://arxiv.org/abs/2207.02296v1 )

ライセンス: CC BY 4.0
Eddie Seabrook and Laurenz Wiskott(参考訳) マルコフ連鎖(Markov chain)は、定量的科学に広く応用された確率モデルの一種である。 これは部分的には汎用性のためであるが、分析的に観測できる容易さによって複合化される。 このチュートリアルはマルコフ連鎖の詳細な紹介を提供し、グラフとランダムウォークとの関係を探る。 線形代数やグラフ理論のツールを用いて、異なる種類のマルコフ連鎖の遷移行列を記述し、特にこれらの行列に対応する固有値と固有ベクトルの性質の探索に焦点をあてる。 その結果,機械学習とデータマイニングのいくつかの手法が,様々な段階で述べられている。 このテキストは、それ自体が斬新な学術研究ではなく、いくつかの新しい概念とともに、既知の結果のコレクションを示している。 さらに、このチュートリアルは、形式的な理解よりも読者に直観を提供することに焦点を当てており、線形代数や確率論の概念への基本的な露出を前提としている。 そのため、様々な分野の学生や研究者が利用できる。

Markov chains are a class of probabilistic models that have achieved widespread application in the quantitative sciences. This is in part due to their versatility, but is compounded by the ease with which they can be probed analytically. This tutorial provides an in-depth introduction to Markov chains, and explores their connection to graphs and random walks. We utilize tools from linear algebra and graph theory to describe the transition matrices of different types of Markov chains, with a particular focus on exploring properties of the eigenvalues and eigenvectors corresponding to these matrices. The results presented are relevant to a number of methods in machine learning and data mining, which we describe at various stages. Rather than being a novel academic study in its own right, this text presents a collection of known results, together with some new concepts. Moreover, the tutorial focuses on offering intuition to readers rather than formal understanding, and only assumes basic exposure to concepts from linear algebra and probability theory. It is therefore accessible to students and researchers from a wide variety of disciplines.
翻訳日:2022-07-08 04:45:41 公開日:2022-07-05
# (参考訳) 中高分解能衛星画像からの土地被覆分類向上のための超解像畳み込みニューラルネットワークの効果

Effectivity of super resolution convolutional neural network for the enhancement of land cover classification from medium resolution satellite images ( http://arxiv.org/abs/2207.02301v1 )

ライセンス: CC BY 4.0
Pritom Bose, Debolina Halder, Oliur Rahman, Turash Haque Pial(参考訳) 現代の世界では、衛星画像は森林管理と劣化モニタリングにおいて重要な役割を果たす。 森林被覆の変化を正確に定量化するためには,空間分解能データの利用が不可欠である。 1972年以降、nasaのランドサット衛星は地球の全角をカバーする地上画像を提供しており、地球の変化分析に非常に有用な資源であることが証明され、他の多くの分野で使用されている。 しかし、自由アクセス可能な衛星画像は一般に、解析の精度に大きな障害となる中から低解像度のものである。 そこで我々は,超解像畳み込みニューラルネットワーク(SRCNN)による解像度向上が,確立された認識手法の下でも,画素の誤分類の可能性を減少させるという,総合的な研究を行った。 本研究では,スンダルバンの異なる領域のランドサット7画像と,バイリニア補間法,ビキュービック補間法,srcnn法で生成した拡張版について実験を行い,srcnnが他の領域をかなり上回っていることを発見した。

In the modern world, satellite images play a key role in forest management and degradation monitoring. For a precise quantification of forest land cover changes, the availability of spatially fine resolution data is a necessity. Since 1972, NASAs LANDSAT Satellites are providing terrestrial images covering every corner of the earth, which have been proved to be a highly useful resource for terrestrial change analysis and have been used in numerous other sectors. However, freely accessible satellite images are, generally, of medium to low resolution which is a major hindrance to the precision of the analysis. Hence, we performed a comprehensive study to prove our point that, enhancement of resolution by Super-Resolution Convolutional Neural Network (SRCNN) will lessen the chance of misclassification of pixels, even under the established recognition methods. We tested the method on original LANDSAT-7 images of different regions of Sundarbans and their upscaled versions which were produced by bilinear interpolation, bicubic interpolation, and SRCNN respectively and it was discovered that SRCNN outperforms the others by a significant amount.
翻訳日:2022-07-08 04:44:23 公開日:2022-07-05
# (参考訳) TractoFormer: スペクトル埋め込みと視覚変換器を用いた新しいファイバーレベル全脳トラクトグラフィー解析フレームワーク

TractoFormer: A Novel Fiber-level Whole Brain Tractography Analysis Framework Using Spectral Embedding and Vision Transformers ( http://arxiv.org/abs/2207.02327v1 )

ライセンス: CC BY 4.0
Fan Zhang, Tengfei Xue, Weidong Cai, Yogesh Rathi, Carl-Fredrik Westin, Lauren J O'Donnell(参考訳) diffusion mri tractographyは、脳の構造接続の定量的マッピングのための高度なイメージング技術である。 ブレイントラクトグラフィー(WBT)データには数十万以上の個々のファイバーの流線(推定脳接続)が含まれており、このデータは疾患分類などのデータ解析アプリケーションのためのコンパクトな表現を作成するために通常パーセル化されている。 本稿では,個々の繊維流線レベルでの気道情報を活用し,トランスフォーマの注意機構を用いて結果を解釈するための自然なメカニズムを提供する,新しいセルフリーなwbt分析フレームワーク tractoformerを提案する。 TractoFormerには2つの主な貢献がある。 まず,WBTの3次元空間関係と,個々のファイバー(FAやMDなど)から計算可能な興味の特徴をエンコードするための,新規でシンプルな2次元画像表現であるTractoEmbeddingを提案する。 第2に、視覚変換器(ViT)に基づくネットワークを設計する。 1)小規模データセットのモデルオーバーフィットを克服するためのデータ拡張 2結果の解釈のための識別繊維の識別、及び 3)異なる脳領域の線維情報を活用するアンサンブル学習。 合成データ実験において、tratoformerはグループ差を模擬した識別繊維の同定に成功した。 いくつかの方法を比較した疾患分類実験において、TractoFormerは統合失調症とコントロールの分類において最も高い精度を達成する。 識別繊維は、左半球前頭葉および頭頂表層白質領域で同定され、これまで統合失調症患者に影響を与えていることが示されている。

Diffusion MRI tractography is an advanced imaging technique for quantitative mapping of the brain's structural connectivity. Whole brain tractography (WBT) data contains over hundreds of thousands of individual fiber streamlines (estimated brain connections), and this data is usually parcellated to create compact representations for data analysis applications such as disease classification. In this paper, we propose a novel parcellation-free WBT analysis framework, TractoFormer, that leverages tractography information at the level of individual fiber streamlines and provides a natural mechanism for interpretation of results using the attention mechanism of transformers. TractoFormer includes two main contributions. First, we propose a novel and simple 2D image representation of WBT, TractoEmbedding, to encode 3D fiber spatial relationships and any feature of interest that can be computed from individual fibers (such as FA or MD). Second, we design a network based on vision transformers (ViTs) that includes: 1) data augmentation to overcome model overfitting on small datasets, 2) identification of discriminative fibers for interpretation of results, and 3) ensemble learning to leverage fiber information from different brain regions. In a synthetic data experiment, TractoFormer successfully identifies discriminative fibers with simulated group differences. In a disease classification experiment comparing several methods, TractoFormer achieves the highest accuracy in classifying schizophrenia vs control. Discriminative fibers are identified in left hemispheric frontal and parietal superficial white matter regions, which have previously been shown to be affected in schizophrenia patients.
翻訳日:2022-07-08 04:35:36 公開日:2022-07-05
# (参考訳) ビジョンランゲージ変換器におけるVQAの弱教師付きグラウンド化

Weakly Supervised Grounding for VQA in Vision-Language Transformers ( http://arxiv.org/abs/2207.02334v1 )

ライセンス: CC BY 4.0
Aisha Urooj Khan, Hilde Kuehne, Chuang Gan, Niels Da Vitoria Lobo, Mubarak Shah(参考訳) 視覚言語表現学習のためのトランスフォーマーは、多くの関心を集めており、視覚質問応答(vqa)と接地において大きなパフォーマンスを示している。 しかし、これらのタスクの優れたパフォーマンスを示すほとんどのシステムは、トレーニング中にトレーニング済みのオブジェクト検出器に依存している。 この制限を緩和するために、変圧器における視覚的質問応答の文脈における弱教師付き接地の問題に焦点を当てた。 このアプローチでは、視覚エンコーダ内の各ビジュアルトークンをグループ化し、テキストガイドによる選択モジュールとして言語自己アテンション層からのアクティベーションを使用して、カプセルを次のレイヤに転送する前にマスクする。 我々は、挑戦的なGQAとVQAグラウンドリングのためのVQA-HATデータセットに対するアプローチを評価した。 標準トランスアーキテクチャからマスク対象の情報を除去すると性能が大幅に低下するのに対し,カプセルの統合はそのようなシステムの接地能力を大幅に向上させ,現場の他の手法と比較して新たな最先端の成果をもたらす。

Transformers for visual-language representation learning have been getting a lot of interest and shown tremendous performance on visual question answering (VQA) and grounding. But most systems that show good performance of those tasks still rely on pre-trained object detectors during training, which limits their applicability to the object classes available for those detectors. To mitigate this limitation, the following paper focuses on the problem of weakly supervised grounding in context of visual question answering in transformers. The approach leverages capsules by grouping each visual token in the visual encoder and uses activations from language self-attention layers as a text-guided selection module to mask those capsules before they are forwarded to the next layer. We evaluate our approach on the challenging GQA as well as VQA-HAT dataset for VQA grounding. Our experiments show that: while removing the information of masked objects from standard transformer architectures leads to a significant drop in performance, the integration of capsules significantly improves the grounding ability of such systems and provides new state-of-the-art results compared to other approaches in the field.
翻訳日:2022-07-08 04:23:51 公開日:2022-07-05
# (参考訳) トランスフォーマーを用いた多層網膜疾患分類

Multi-Label Retinal Disease Classification using Transformers ( http://arxiv.org/abs/2207.02335v1 )

ライセンス: CC BY 4.0
M. A. Rodriguez, H. AlMarzouqi and P. Liatsis (Department of Electrical Engineering and Computer Science, Khalifa University)(参考訳) 網膜疾患の早期発見は、患者の部分的または永久的盲点を防ぐ最も重要な手段の1つである。 本研究では,様々なソースから収集した眼底画像を用いて,複数の網膜疾患を検出するための新しい多ラベル分類システムを提案する。 まず, 眼底疾患分類に利用可能なデータセットを多数使用し, 網膜多層疾患データセットであるmured datasetを構築した。 次に、データセットに存在する画像データの品質と疾患の範囲を確保するために、一連の後処理ステップを適用する。 ファンダス・マルチラベル病の分類では、画像解析と意思決定に広範囲な実験により最適化されたトランスフォーマーモデルが初めて用いられる。 提案システムの構成を最適化するために,多数の実験を行った。 この手法は, 疾患検出のためのAUCスコア, 疾患分類におけるAUCスコアの7.9%と8.1%と, 同じ課題における最先端の作業よりも優れていた。 得られた結果は、医療画像分野におけるトランスベースアーキテクチャの潜在的な応用をさらに支援する。

Early detection of retinal diseases is one of the most important means of preventing partial or permanent blindness in patients. In this research, a novel multi-label classification system is proposed for the detection of multiple retinal diseases, using fundus images collected from a variety of sources. First, a new multi-label retinal disease dataset, the MuReD dataset, is constructed, using a number of publicly available datasets for fundus disease classification. Next, a sequence of post-processing steps is applied to ensure the quality of the image data and the range of diseases, present in the dataset. For the first time in fundus multi-label disease classification, a transformer-based model optimized through extensive experimentation is used for image analysis and decision making. Numerous experiments are performed to optimize the configuration of the proposed system. It is shown that the approach performs better than state-of-the-art works on the same task by 7.9% and 8.1% in terms of AUC score for disease detection and disease classification, respectively. The obtained results further support the potential applications of transformer-based architectures in the medical imaging field.
翻訳日:2022-07-08 04:22:39 公開日:2022-07-05
# (参考訳) 連帯学習と転校学習--逆境と防衛機構に関する調査研究

Federated and Transfer Learning: A Survey on Adversaries and Defense Mechanisms ( http://arxiv.org/abs/2207.02337v1 )

ライセンス: CC BY 4.0
Ehsan Hallaji, Roozbeh Razavi-Far, Mehrdad Saif(参考訳) 連合学習の出現は、プライバシを維持しながら、機械学習モデル間の大規模なデータ交換を促進する。 その短い歴史にもかかわらず、連合学習は急速に進化し、より実用的になった。 この領域における最も重要な進歩の1つは、特にセキュリティの観点から、初等連合学習の基本的な制約を克服する連合学習への転校学習の導入である。 本章では,セキュリティの観点から,連帯学習と転校学習の交点に関する総合的な調査を行う。 この研究の主な目標は、連合学習と転送学習を使用するシステムのプライバシーとパフォーマンスを損なう可能性のある脆弱性と防御メカニズムを明らかにすることである。

The advent of federated learning has facilitated large-scale data exchange amongst machine learning models while maintaining privacy. Despite its brief history, federated learning is rapidly evolving to make wider use more practical. One of the most significant advancements in this domain is the incorporation of transfer learning into federated learning, which overcomes fundamental constraints of primary federated learning, particularly in terms of security. This chapter performs a comprehensive survey on the intersection of federated and transfer learning from a security point of view. The main goal of this study is to uncover potential vulnerabilities and defense mechanisms that might compromise the privacy and performance of systems that use federated and transfer learning.
翻訳日:2022-07-08 03:56:12 公開日:2022-07-05
# (参考訳) 翻訳シフトの一般化:アーキテクチャと拡張に関する研究

Generalization to translation shifts: a study in architectures and augmentations ( http://arxiv.org/abs/2207.02349v1 )

ライセンス: CC BY 4.0
Suriya Gunasekar(参考訳) 本稿では,様々な画像分類アーキテクチャ(畳み込み,視覚トランスフォーマー,完全接続mlpネットワーク)の詳細な評価と,大きな空間的変換シフトへの一般化に向けたデータ拡張技術を提案する。 以下の観察を行う。 (a)データ拡張がない場合、畳み込みネットワークを含む全てのアーキテクチャは、翻訳されたテスト分布を評価すると性能が低下する。 当然のことながら、分散の正確さとシフトの劣化は、非畳み込みアーキテクチャでは著しく悪化する。 (b)すべてのアーキテクチャにおいて、最小4ドル(約4万4000円)のランダムなクロップの増量でさえ、テストデータにおける最大1/4ドル(約1万2000円)のイメージサイズ(約1万7000円)というはるかに大きなスケールシフトまでのパフォーマンスの堅牢性を改善する。 非畳み込みアーキテクチャでは、絶対精度はまだ低いが、大きな変換シフトに対する堅牢性の劇的な改善が見られる。 (c) 十分な高度な拡張(4$ピクチャー+RandAugmentation+Erasing+MixUp)パイプラインにより、すべてのアーキテクチャは、分配精度と大規模な翻訳シフトへの一般化の両方の観点から、競争性能を持つように訓練することができる。

We provide a detailed evaluation of various image classification architectures (convolutional, vision transformer, and fully connected MLP networks) and data augmentation techniques towards generalization to large spacial translation shifts. We make the following observations: (a) In the absence of data augmentation, all architectures, including convolutional networks suffer degradation in performance when evaluated on translated test distributions. Understandably, both the in-distribution accuracy as well as degradation to shifts is significantly worse for non-convolutional architectures. (b) Across all architectures, even a minimal augmentation of $4$ pixel random crop improves the robustness of performance to much larger magnitude shifts of up to $1/4$ of image size ($8$-$16$ pixels) in the test data -- suggesting a form of meta generalization from augmentation. For non-convolutional architectures, while the absolute accuracy is still low, we see dramatic improvements in robustness to large translation shifts. (c) With sufficiently advanced augmentation ($4$ pixel crop+RandAugmentation+Erasing+MixUp) pipeline all architectures can be trained to have competitive performance, both in terms of in-distribution accuracy as well as generalization to large translation shifts.
翻訳日:2022-07-08 03:34:43 公開日:2022-07-05
# (参考訳) リニアジャミングバンド:非コヒーレントデジタルジャミングのためのサンプル効率学習

Linear Jamming Bandits: Sample-Efficient Learning for Non-Coherent Digital Jamming ( http://arxiv.org/abs/2207.02365v1 )

ライセンス: CC0 1.0
Charles E. Thornton and R. Michael Buehrer(参考訳) オンライン学習アルゴリズムは,被害者の送信戦略を事前に知ることなく,デジタル変調スキームを妨害するための最適な物理層パラメータを効果的に選択できることが示されている(Amuruら)。 しかし、この学習問題は、非常に大きく成長できる混合作用空間で、多武装のバンディット問題を解決することを伴う。 その結果、特に被害者とジャマーのシンボルが完全に同期していない場合、最適なジャミング戦略への収束が遅くなる。 本研究では,アクション間の固有類似性を考慮した線形バンディットアルゴリズムを導入することで,サンプル効率問題を改善する。 さらに,非コヒーレントジャミング問題の統計的特徴に適する文脈特徴を提案し,先行技術と比較して収束挙動が著しく改善されたことを示す。 さらに,被害者の送信に関する事前知識が,学習フレームワークにシームレスに統合可能であることを示す。 我々は最終的に漸近体制の限界について議論する。

It has been shown (Amuru et al. 2015) that online learning algorithms can be effectively used to select optimal physical layer parameters for jamming against digital modulation schemes without a priori knowledge of the victim's transmission strategy. However, this learning problem involves solving a multi-armed bandit problem with a mixed action space that can grow very large. As a result, convergence to the optimal jamming strategy can be slow, especially when the victim and jammer's symbols are not perfectly synchronized. In this work, we remedy the sample efficiency issues by introducing a linear bandit algorithm that accounts for inherent similarities between actions. Further, we propose context features which are well-suited for the statistical features of the non-coherent jamming problem and demonstrate significantly improved convergence behavior compared to the prior art. Additionally, we show how prior knowledge about the victim's transmissions can be seamlessly integrated into the learning framework. We finally discuss limitations in the asymptotic regime.
翻訳日:2022-07-08 03:14:40 公開日:2022-07-05
# ストリーミングasr用計算コスト償却トランスフォーマ

Compute Cost Amortized Transformer for Streaming ASR ( http://arxiv.org/abs/2207.02393v1 )

ライセンス: Link先を確認
Yi Xie, Jonathan Macoskey, Martin Radfar, Feng-Ju Chang, Brian King, Ariya Rastrow, Athanasios Mouchtaris, Grant P. Strimel(参考訳) 本稿では,計算コストの償却による効率的なニューラル推論を実現する,トランスフォーマティブに基づくエンドツーエンド自動音声認識(asr)アーキテクチャを提案する。 私たちのアーキテクチャは、推論時に動的にスパース計算経路を作成し、デコード全体を通して計算リソースを選択的に使用し、精度への影響を最小限に抑えることができる。 完全微分可能なアーキテクチャは、フレームレベルで動作し、各入力で動的決定を行う軽量調停器機構と共にエンドツーエンドに訓練され、一方、チューニング可能な損失関数は、予測性能に対する計算全体のレベルを定式化する。 本稿では,LibriSpeechデータを用いたコンピュータ・アモータイズ・トランスデューサ(T-T)モデルによる実験結果について報告する。 我々の最善のモデルは、平均単語誤り率(wer)を3%増加させるだけで60%の計算コスト削減を達成できます。

We present a streaming, Transformer-based end-to-end automatic speech recognition (ASR) architecture which achieves efficient neural inference through compute cost amortization. Our architecture creates sparse computation pathways dynamically at inference time, resulting in selective use of compute resources throughout decoding, enabling significant reductions in compute with minimal impact on accuracy. The fully differentiable architecture is trained end-to-end with an accompanying lightweight arbitrator mechanism operating at the frame-level to make dynamic decisions on each input while a tunable loss function is used to regularize the overall level of compute against predictive performance. We report empirical results from experiments using the compute amortized Transformer-Transducer (T-T) model conducted on LibriSpeech data. Our best model can achieve a 60% compute cost reduction with only a 3% relative word error rate (WER) increase.
翻訳日:2022-07-07 14:23:09 公開日:2022-07-05
# 重症度評価のための肺ct分割法に対する深部アンサンブル学習法

A Deep Ensemble Learning Approach to Lung CT Segmentation for COVID-19 Severity Assessment ( http://arxiv.org/abs/2207.02322v1 )

ライセンス: Link先を確認
Tal Ben-Haim, Ron Moshe Sofer, Gal Ben-Arie, Ilan Shelef and Tammy Riklin-Raviv(参考訳) 新型コロナウイルス患者の肺CTの分類的セグメンテーションに対する新しい深層学習手法を提案する。 具体的には、スキャンを健康な肺組織、非lung領域、および2つの異なる、しかし視覚的に類似した病的肺組織、すなわちグラウンドグラス不透明性と固化に分割する。 これは、セグメンテーションに寄与し、セグメンテーションの不確実性の尺度を提供する、ユニークなエンドツーエンドの階層的ネットワークアーキテクチャとアンサンブル学習によって達成される。 提案するフレームワークは,3つのCOVID-19データセットの競合結果と優れた一般化機能を実現する。 本手法は, COVID-19 CT画像セグメンテーションのためのKaggleコンペティションで2位にランクされている。 さらに, セグメンテーションの不確実性領域は, 2つの異なる放射線学者の手動アノテーションの相違に対応していることが示された。 最後に, 症例の重症度スコア(臨床測定値に基づく)と, 分節肺病理組織との比較において, 予備的な有望な対応結果が得られた。 コードとデータは、私たちのリポジトリで利用可能です。

We present a novel deep learning approach to categorical segmentation of lung CTs of COVID-19 patients. Specifically, we partition the scans into healthy lung tissues, non-lung regions, and two different, yet visually similar, pathological lung tissues, namely, ground-glass opacity and consolidation. This is accomplished via a unique, end-to-end hierarchical network architecture and ensemble learning, which contribute to the segmentation and provide a measure for segmentation uncertainty. The proposed framework achieves competitive results and outstanding generalization capabilities for three COVID-19 datasets. Our method is ranked second in a public Kaggle competition for COVID-19 CT images segmentation. Moreover, segmentation uncertainty regions are shown to correspond to the disagreements between the manual annotations of two different radiologists. Finally, preliminary promising correspondence results are shown for our private dataset when comparing the patients' COVID-19 severity scores (based on clinical measures), and the segmented lung pathologies. Code and data are available at our repository: https://github.com/talbenha/covid-seg
翻訳日:2022-07-07 14:22:06 公開日:2022-07-05
# 関数制約構造グラフ変分オートエンコーダによる構造的および機能的コネクトームの統一埋め込み

Unified Embeddings of Structural and Functional Connectome via a Function-Constrained Structural Graph Variational Auto-Encoder ( http://arxiv.org/abs/2207.02328v1 )

ライセンス: Link先を確認
Carlo Amodeo, Igor Fortel, Olusola Ajilore, Liang Zhan, Alex Leow, Theja Tulabandhula(参考訳) グラフ理論解析は脳の機能的および解剖学的接続をモデル化する標準的なツールとなっている。 コネクトミクスの出現に伴い、主要なグラフや関心のネットワークは構造コネクトーム(DTIトラクトグラフィーに由来する)と機能コネクトーム(静止状態fMRIに由来する)である。 しかし、ほとんどのコネクトーム研究は構造的または機能的なコネクトームに焦点を当てているが、同じデータセットで利用可能な場合、脳の理解を改善するために共同で活用することができる。 この目的のために,機能的および構造的コネクトームからの情報を教師なしで組み込むことができる機能制約構造グラフ変分オートエンコーダ (FCS-GVAE) を提案する。 これにより、異なる被写体を比較するための統一的な空間座標系を確立するジョイント低次元埋め込みが導かれる。 OASIS-3 Alzheimer's disease (AD) データセットを用いて本手法の評価を行い, 機能的脳動態を最適にエンコードするには, 変分定式化が必要であることを示す。 さらに, 補体コネクトーム情報を使用しない方法よりも, 患者サブポピュレーションの差異をより正確に識別することができる。

Graph theoretical analyses have become standard tools in modeling functional and anatomical connectivity in the brain. With the advent of connectomics, the primary graphs or networks of interest are structural connectome (derived from DTI tractography) and functional connectome (derived from resting-state fMRI). However, most published connectome studies have focused on either structural or functional connectome, yet complementary information between them, when available in the same dataset, can be jointly leveraged to improve our understanding of the brain. To this end, we propose a function-constrained structural graph variational autoencoder (FCS-GVAE) capable of incorporating information from both functional and structural connectome in an unsupervised fashion. This leads to a joint low-dimensional embedding that establishes a unified spatial coordinate system for comparing across different subjects. We evaluate our approach using the publicly available OASIS-3 Alzheimer's disease (AD) dataset and show that a variational formulation is necessary to optimally encode functional brain dynamics. Further, the proposed joint embedding approach can more accurately distinguish different patient sub-populations than approaches that do not use complementary connectome information.
翻訳日:2022-07-07 14:17:38 公開日:2022-07-05
# 説明可能な高速MRIのためのスイニングデフォルマブルアテンションU-Net Transformer (SDAUT)

Swin Deformable Attention U-Net Transformer (SDAUT) for Explainable Fast MRI ( http://arxiv.org/abs/2207.02390v1 )

ライセンス: Link先を確認
Jiahao Huang, Xiaodan Xing, Zhifan Gao, Guang Yang(参考訳) 高速MRIは、部分的に観察された測定値から高忠実度画像を再構成することを目的としている。 近年,ディープラーニングを用いた高速MRIの開発が注目されている。 一方、トランスフォーマーベースのモデルのような新しいディープラーニングパラダイムは、自然言語処理において急速に成長し、コンピュータビジョンや医療画像解析のために急速に発展している。 しかし、Transformerの複雑さのため、高速MRIの応用は簡単ではないかもしれない。 主な障害は、トランスフォーマのコア部分であるセルフアテンション層の計算コストであり、高解像度mri入力には高価である。 そこで本研究では,高速mriによるシフト型windowsトランスフォーマーとu-netを結合し,ネットワークの複雑さを軽減する新しいトランスフォーマーアーキテクチャを提案する。 再構成モデルの説明可能性を理解するために変形可能な注意を組み込んだ。 我々は,この手法が高速MRIタスクにおいて一貫した優れた性能を実現することを実証的に実証した。 さらに,現状のトランスフォーマーモデルと比較して,本手法は説明可能性を示しながら,ネットワークパラメータが少ない。 コードはhttps://github.com/ayanglab/SDAUTで公開されている。

Fast MRI aims to reconstruct a high fidelity image from partially observed measurements. Exuberant development in fast MRI using deep learning has been witnessed recently. Meanwhile, novel deep learning paradigms, e.g., Transformer based models, are fast-growing in natural language processing and promptly developed for computer vision and medical image analysis due to their prominent performance. Nevertheless, due to the complexity of the Transformer, the application of fast MRI may not be straightforward. The main obstacle is the computational cost of the self-attention layer, which is the core part of the Transformer, can be expensive for high resolution MRI inputs. In this study, we propose a new Transformer architecture for solving fast MRI that coupled Shifted Windows Transformer with U-Net to reduce the network complexity. We incorporate deformable attention to construe the explainability of our reconstruction model. We empirically demonstrate that our method achieves consistently superior performance on the fast MRI task. Besides, compared to state-of-the-art Transformer models, our method has fewer network parameters while revealing explainability. The code is publicly available at https://github.com/ayanglab/SDAUT.
翻訳日:2022-07-07 13:18:23 公開日:2022-07-05
# 無線ネットワークにおける資源管理のための状態学習アルゴリズム

State-Augmented Learnable Algorithms for Resource Management in Wireless Networks ( http://arxiv.org/abs/2207.02242v1 )

ライセンス: Link先を確認
Navid NaderiAlizadeh, Mark Eisen, Alejandro Ribeiro(参考訳) ネットワーク全体の実用機能に最適化できるマルチユーザ無線ネットワークにおける資源管理の問題点を,ネットワーク全体のユーザの長期的平均性能の制約に照らして考察する。 本稿では,上記の無線資源管理(rrm)問題を解決するための状態提供アルゴリズムを提案する。即時ネットワーク状態と並行して,rrmポリシが制約に対応する2つの変数のセットを入力とし,実行中にどの程度の制約に違反しているかに応じて進化させる。 理論的には,提案した状態拡張アルゴリズムが実効的かつほぼ最適なRTM決定につながることを示す。 さらに,グラフニューラルネットワーク(GNN)パラメータ化を用いた無線電力制御の問題に焦点をあて,一連の数値実験において,ベースライン法よりもRTMアルゴリズムの方が優れていることを示す。

We consider resource management problems in multi-user wireless networks, which can be cast as optimizing a network-wide utility function, subject to constraints on the long-term average performance of users across the network. We propose a state-augmented algorithm for solving the aforementioned radio resource management (RRM) problems, where, alongside the instantaneous network state, the RRM policy takes as input the set of dual variables corresponding to the constraints, which evolve depending on how much the constraints are violated during execution. We theoretically show that the proposed state-augmented algorithm leads to feasible and near-optimal RRM decisions. Moreover, focusing on the problem of wireless power control using graph neural network (GNN) parameterizations, we demonstrate the superiority of the proposed RRM algorithm over baseline methods across a suite of numerical experiments.
翻訳日:2022-07-07 13:15:57 公開日:2022-07-05
# 多体局所化隠しボーンマシン

Many-body localized hidden Born machine ( http://arxiv.org/abs/2207.02346v1 )

ライセンス: Link先を確認
Weishun Zhong, Xun Gao, Susanne F. Yelin, Khadijeh Najafi(参考訳) ボルンマシンは量子状態の確率論的性質を利用する量子に触発された生成モデルである。 本稿では,MBLダイナミックスと隠れユニットの両方を学習資源として利用する多体ローカライズドマシン(MBL)という新しいアーキテクチャを提案する。 理論的には、MBL Bornマシンは古典モデルよりも表現力が高いことが証明され、隠れユニットの導入によって学習能力が向上する。 我々は,mnist手書き桁のパターン,量子多体状態から得られた量子データ,非局所パリティデータからなる玩具データセットをmblhidden born machineが学習できることを数値的に示す。 学習の背後にあるメカニズムを理解するため,学習中のフォン・ノイマンの絡み合いやハミング距離などの物理量を追跡し,MBL,熱,アンダーソンの局所化位相における学習結果を比較する。 MBL位相の優れた学習能力は、局所化と相互作用の両方に大きく依存していることを示す。 本手法は,量子多体系を学習資源として利用する新しい手法を提供し,無秩序,相互作用,学習の強力な関連を明らかにする。

Born Machines are quantum-inspired generative models that leverage the probabilistic nature of quantum states. Here, we present a new architecture called many-body localized (MBL) hidden Born machine that uses both MBL dynamics and hidden units as learning resources. We theoretically prove that MBL Born machines possess more expressive power than classical models, and the introduction of hidden units boosts its learning power. We numerically demonstrate that the MBL hidden Born machine is capable of learning a toy dataset consisting of patterns of MNIST handwritten digits, quantum data obtained from quantum many-body states, and non-local parity data. In order to understand the mechanism behind learning, we track physical quantities such as von Neumann entanglement entropy and Hamming distance during learning, and compare the learning outcomes in the MBL, thermal, and Anderson localized phases. We show that the superior learning power of the MBL phase relies importantly on both localization and interaction. Our architecture and algorithm provide novel strategies of utilizing quantum many-body systems as learning resources, and reveal a powerful connection between disorder, interaction, and learning in quantum systems.
翻訳日:2022-07-07 13:15:40 公開日:2022-07-05
# エンティティカバレッジ制御による抽象要約の忠実性の向上

Improving the Faithfulness of Abstractive Summarization via Entity Coverage Control ( http://arxiv.org/abs/2207.02263v1 )

ライセンス: Link先を確認
Haopeng Zhang, Semih Yavuz, Wojciech Kryscinski, Kazuma Hashimoto, Yingbo Zhou(参考訳) 事前学習言語モデルを活用した抽象要約システムは、ベンチマークデータセットにおいて優れた結果を得た。 しかし、そのようなモデルは入力コンテキストに不利な事実を暗示する傾向が強いことが示されている。 本稿では,エンティティカバレッジ制御(ECC)を用いたエンティティレベルの外部幻覚の治療法を提案する。 まず,学習段階における忠実度の内容を認識するためにモデルを暗黙的にガイドする,学習例ごとに対応する制御コードをプリペンドする。 さらに,ウィキペディアから抽出した大容量かつノイズの多いデータを中間微調整することで,ゼロショット要約を解き放つ手法を拡張した。 提案手法は,xsum,pubmed,samsumの3つのベンチマークデータセットにおける実験結果に基づき,教師付き微調整およびゼロショット設定において,より忠実で有意義な抽象的要約をもたらすことを示す。

Abstractive summarization systems leveraging pre-training language models have achieved superior results on benchmark datasets. However, such models have been shown to be more prone to hallucinate facts that are unfaithful to the input context. In this paper, we propose a method to remedy entity-level extrinsic hallucinations with Entity Coverage Control (ECC). We first compute entity coverage precision and prepend the corresponding control code for each training example, which implicitly guides the model to recognize faithfulness contents in the training phase. We further extend our method via intermediate fine-tuning on large but noisy data extracted from Wikipedia to unlock zero-shot summarization. We show that the proposed method leads to more faithful and salient abstractive summarization in supervised fine-tuning and zero-shot settings according to our experimental results on three benchmark datasets XSum, Pubmed, and SAMSum of very different domains and styles.
翻訳日:2022-07-07 13:15:02 公開日:2022-07-05
# イベントセマンティクスのゼロショットクロス言語学習

Zero-shot Cross-Linguistic Learning of Event Semantics ( http://arxiv.org/abs/2207.02356v1 )

ライセンス: Link先を確認
Malihe Alikhani, Thomas Kober, Bashar Alhafni, Yue Chen, Mert Inan, Elizabeth Nielsen, Shahab Raji, Mark Steedman, Matthew Stone(参考訳) タイプ論的に多様な言語は語彙的および文法的な側面のシステムを提供し、話し手は特定のコミュニケーション設定や会話の制約を満たした方法でイベント構造の対面に集中することができる。 本稿では,アラビア語,中国語,ファルシ語,ドイツ語,ロシア語,トルコ語の画像のキャプションに着目し,語彙的側面を予測するための計算モデルについて述べる。 これらの言語の多様性や、キャプションコーパス全体にわたる独特の言語資源の敬遠にもかかわらず、これらの言語の話者は、画像コンテンツの枠組みに驚くべき類似性を示している。 我々は,この観察をゼロショット言語間学習に活用し,アノテートされていない言語に対して語彙的側面が予測可能であることを示した。

Typologically diverse languages offer systems of lexical and grammatical aspect that allow speakers to focus on facets of event structure in ways that comport with the specific communicative setting and discourse constraints they face. In this paper, we look specifically at captions of images across Arabic, Chinese, Farsi, German, Russian, and Turkish and describe a computational model for predicting lexical aspects. Despite the heterogeneity of these languages, and the salient invocation of distinctive linguistic resources across their caption corpora, speakers of these languages show surprising similarities in the ways they frame image content. We leverage this observation for zero-shot cross-lingual learning and show that lexical aspects can be predicted for a given language despite not having observed any annotated data for this language at all.
翻訳日:2022-07-07 13:14:46 公開日:2022-07-05
# 強度に基づく議論の適応性:複雑さとアルゴリズム(証明付き拡張版)

Admissibility in Strength-based Argumentation: Complexity and Algorithms (Extended Version with Proofs) ( http://arxiv.org/abs/2207.02258v1 )

ライセンス: Link先を確認
Yohann Bacquey, Jean-Guy Mailly, Pavlos Moraitis, Julien Rossit(参考訳) 近年,ある程度の量的強度が議論に結びついている状況のモデル化のために,強度に基づくArgumentation Frameworks (StrAFs) が提案されている。 この設定では、accrualの概念は、引数を集合的に攻撃する引数の集合に対応する。 いくつかのセマンティクスはすでに定義されており、個々の要素が不可能である一方で、目標を総体的に破るアクルの存在に敏感である。 しかし、これまでこの枠組みと意味論の表面のみが研究されてきた。 実際、既存の文献は安定な意味論のStrAFへの適応に焦点を当てている。 本稿では,本研究を推進し,アクセシビリティに基づくセマンティクスの適応について検討する。 特に,文献で定義されている強い許容性は,ダングの基本補題という望ましい性質を満たさないことを示す。 そこで我々は,期待通りに振る舞うセマンティクスを誘発する代替定義を提案する。 次に,これらの新しい意味論の計算問題,特に推論の複雑さは,ほぼすべての場合において標準議論フレームワークの対応する決定問題の複雑さと類似していることを示す。 次に,計算(強みと弱さ)拡張に対する擬似ブーリアン制約による変換を提案する。 結論として,提案手法を実験的に評価し,拡張を1つ提供し,すべてを列挙することで解決できることを示す。

Recently, Strength-based Argumentation Frameworks (StrAFs) have been proposed to model situations where some quantitative strength is associated with arguments. In this setting, the notion of accrual corresponds to sets of arguments that collectively attack an argument. Some semantics have already been defined, which are sensitive to the existence of accruals that collectively defeat their target, while their individual elements cannot. However, until now, only the surface of this framework and semantics have been studied. Indeed, the existing literature focuses on the adaptation of the stable semantics to StrAFs. In this paper, we push forward the study and investigate the adaptation of admissibility-based semantics. Especially, we show that the strong admissibility defined in the literature does not satisfy a desirable property, namely Dung's fundamental lemma. We therefore propose an alternative definition that induces semantics that behave as expected. We then study computational issues for these new semantics, in particular we show that complexity of reasoning is similar to the complexity of the corresponding decision problems for standard argumentation frameworks in almost all cases. We then propose a translation in pseudo-Boolean constraints for computing (strong and weak) extensions. We conclude with an experimental evaluation of our approach which shows in particular that it scales up well for solving the problem of providing one extension as well as enumerating them all.
翻訳日:2022-07-07 13:12:39 公開日:2022-07-05
# 長期ツールトラッキングを用いたビデオによる手術スキル評価

Video-based Surgical Skills Assessment using Long term Tool Tracking ( http://arxiv.org/abs/2207.02247v1 )

ライセンス: Link先を確認
Mona Fathollahi, Mohammad Hasan Sarhan, Ramon Pena, Lela DiMonte, Anshu Gupta, Aishani Ataliwala, Jocelyn Barker(参考訳) 手術に必要な技術スキルを習得することは、非常に難しい課題です。 ビデオベースの評価により、外科医は技術スキルのフィードバックを受け取り、学習と開発を促進することができる。 現在、このフィードバックは主に手動のビデオレビューから得られており、これは時間集約的で、多くの場合、外科医の進捗を追跡する可能性を制限する。 本研究では,手術用ビデオフィードから手術スキルを自動的に評価するモーションベースアプローチを提案する。 提案するパイプラインは,まず手術用具を追跡して運動軌跡を作成し,その軌跡を用いて術技レベルを予測する。 トラッキングアルゴリズムは、他の最先端手法に比べてidスイッチを改善する単純かつ効果的な再識別モジュールを採用している。 これは、楽器が定期的に画面上や画面外を移動するときや、定期的にあいまいになるとき、信頼できるツール軌跡を作成するために重要である。 動きに基づく分類モデルは、最先端の自己認識型トランスフォーマーネットワークを用いて、スキル評価に不可欠な短期的および長期的な動きパターンをキャプチャする。 提案手法は,Calot Triangle Dissectionの専門家評価GOALSスキルアセスメントを定量的に評価した in-vivo (Cholec80) データセットを用いて評価する。 トランスフォーマティブに基づくスキルアセスメントを,提案手法と最先端追跡手法を用いて従来の機械学習手法と比較する。 以上の結果から,映像ストリームのみに基づく外科医のスキル評価には,信頼度の高いトラッキング手法による運動軌跡の利用が有用であることが示唆された。

Mastering the technical skills required to perform surgery is an extremely challenging task. Video-based assessment allows surgeons to receive feedback on their technical skills to facilitate learning and development. Currently, this feedback comes primarily from manual video review, which is time-intensive and limits the feasibility of tracking a surgeon's progress over many cases. In this work, we introduce a motion-based approach to automatically assess surgical skills from surgical case video feed. The proposed pipeline first tracks surgical tools reliably to create motion trajectories and then uses those trajectories to predict surgeon technical skill levels. The tracking algorithm employs a simple yet effective re-identification module that improves ID-switch compared to other state-of-the-art methods. This is critical for creating reliable tool trajectories when instruments regularly move on- and off-screen or are periodically obscured. The motion-based classification model employs a state-of-the-art self-attention transformer network to capture short- and long-term motion patterns that are essential for skill evaluation. The proposed method is evaluated on an in-vivo (Cholec80) dataset where an expert-rated GOALS skill assessment of the Calot Triangle Dissection is used as a quantitative skill measure. We compare transformer-based skill assessment with traditional machine learning approaches using the proposed and state-of-the-art tracking. Our result suggests that using motion trajectories from reliable tracking methods is beneficial for assessing surgeon skills based solely on video streams.
翻訳日:2022-07-07 13:12:21 公開日:2022-07-05
# osformer: トランスフォーマーを用いた1段カモフラージュインスタンスセグメンテーション

OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers ( http://arxiv.org/abs/2207.02255v1 )

ライセンス: Link先を確認
Jialun Pei and Tianyang Cheng and Deng-Ping Fan and He Tang and Chuanbo Chen and Luc Van Gool(参考訳) 我々は,CIS(camouflaged instance segmentation)のための最初のワンステージトランスフォーマーフレームワークであるOSFormerを紹介する。 OSFormerは2つの重要な設計に基づいている。 まず、位置検出変換器(LST)を設計し、位置誘導クエリとブレンド畳み込みフィードフォワードネットワークを導入することにより、位置ラベルとインスタンス認識パラメータを得る。 第2に、LSTエンコーダとCNNバックボーンから様々なコンテキスト情報を統合するための粗大粒核融合(CFF)を開発する。 これら2つのコンポーネントを結合することで、OSFormerはローカル機能と長期コンテキストの依存関係を効率的にブレンドして、camouflagedインスタンスを予測することができる。 2段階のフレームワークと比較して、OSFormerはAPが41%に達し、巨大なトレーニングデータを必要とすることなく、優れた収束効率を実現しています。 コードリンク:https://github.com/PJLallen/OSFormer。

We present OSFormer, the first one-stage transformer framework for camouflaged instance segmentation (CIS). OSFormer is based on two key designs. First, we design a location-sensing transformer (LST) to obtain the location label and instance-aware parameters by introducing the location-guided queries and the blend-convolution feedforward network. Second, we develop a coarse-to-fine fusion (CFF) to merge diverse context information from the LST encoder and CNN backbone. Coupling these two components enables OSFormer to efficiently blend local features and long-range context dependencies for predicting camouflaged instances. Compared with two-stage frameworks, our OSFormer reaches 41% AP and achieves good convergence efficiency without requiring enormous training data, i.e., only 3,040 samples under 60 epochs. Code link: https://github.com/PJLallen/OSFormer.
翻訳日:2022-07-07 13:11:55 公開日:2022-07-05
# SNeRF:3次元シーンのためのスティル化ニューラルインプシット表現

SNeRF: Stylized Neural Implicit Representations for 3D Scenes ( http://arxiv.org/abs/2207.02363v1 )

ライセンス: Link先を確認
Thu Nguyen-Phuoc, Feng Liu, Lei Xiao(参考訳) 本稿では,新しいビュー合成手法を提案する。 フレームごとに新しいビューフレームに最先端のスタイリング手法を適用すると、クロスビュー一貫性の欠如により、しばしば混乱するアーティファクトが発生する。 そこで本稿では,一貫性のある新しい視点合成のための強い帰納的バイアスを与える3次元シーンスタイライゼーションについて検討する。 具体的には,次世代のニューラルレイディアンス・フィールド(NeRF)を3次元シーン表現の選択として採用し,様々な場面で高品質なニューラルビューを描画する。 しかし、NeRFから新しいビューをレンダリングするには大量のサンプルを必要とするため、スタイリングされたNeRFをトレーニングするには、既製のGPU容量を超える大量のGPUメモリが必要である。 本稿では,nrfとスタイライゼーション最適化ステップを交互に行う新しい学習手法を提案する。 このような手法により,高解像度で画像を生成するハードウェアメモリ容量をフル活用し,より表現力のある画像スタイルの転送手法を採用することができる。 実験により,室内,屋外,動的シーンを含む多種多様なコンテンツに対してスタイリングされたNeRFを生成し,高画質な新規ビューをクロスビューで合成することを確認した。

This paper presents a stylized novel view synthesis method. Applying state-of-the-art stylization methods to novel views frame by frame often causes jittering artifacts due to the lack of cross-view consistency. Therefore, this paper investigates 3D scene stylization that provides a strong inductive bias for consistent novel view synthesis. Specifically, we adopt the emerging neural radiance fields (NeRF) as our choice of 3D scene representation for their capability to render high-quality novel views for a variety of scenes. However, as rendering a novel view from a NeRF requires a large number of samples, training a stylized NeRF requires a large amount of GPU memory that goes beyond an off-the-shelf GPU capacity. We introduce a new training method to address this problem by alternating the NeRF and stylization optimization steps. Such a method enables us to make full use of our hardware memory capacity to both generate images at higher resolution and adopt more expressive image style transfer methods. Our experiments show that our method produces stylized NeRFs for a wide range of content, including indoor, outdoor and dynamic scenes, and synthesizes high-quality novel views with cross-view consistency.
翻訳日:2022-07-07 13:11:38 公開日:2022-07-05
# 物理インフォームドニューラルネットワークにおけるサンプリングの重要性の再考

Rethinking the Importance of Sampling in Physics-informed Neural Networks ( http://arxiv.org/abs/2207.02338v1 )

ライセンス: Link先を確認
Arka Daw, Jie Bu, Sifan Wang, Paris Perdikaris, Anuj Karpatne(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、様々な領域で偏微分方程式(PDE)を解く強力なツールとして登場した。 PINNにおける従来の研究は、低最小化を避けるため、トレーニング中の損失関数の構築とバランスのバランスに重点を置いていたが、PINNの性能に対するコロケーション点のサンプリングの効果は概ね見過ごされている。 本研究では, PINNの性能は異なるサンプリング戦略で大きく変化し, 固定されたコロケーション点を用いると, PINNの正しい解への収束にかなり寄与することがわかった。 特に, PINNのトレーニングは, 初期および/または境界条件点から内部点への解の「伝播」に頼っていると仮定し, 「textit{propagation failures} が存在する場合, サンプリング戦略が不十分なPINNは, 自明な解で立ち往生する可能性があると仮定する。 2) 伝播不良は, 非常に狭い領域で非常に高い残差が観測される高度に不均衡なPDE残差場によって特徴づけられる。 (3) 伝搬不良を緩和するために, 高PDE残基の領域におけるコロケーション点を漸進的に蓄積できる新しい<textit{evolutionary sample} (Evo) 法を提案する。 さらに,時間依存型pdesを解きながら因果性の原理を尊重するevoの拡張も提供する。 種々のPDE問題において提案手法の有効性と効率を実証的に実証した。

Physics-informed neural networks (PINNs) have emerged as a powerful tool for solving partial differential equations (PDEs) in a variety of domains. While previous research in PINNs has mainly focused on constructing and balancing loss functions during training to avoid poor minima, the effect of sampling collocation points on the performance of PINNs has largely been overlooked. In this work, we find that the performance of PINNs can vary significantly with different sampling strategies, and using a fixed set of collocation points can be quite detrimental to the convergence of PINNs to the correct solution. In particular, (1) we hypothesize that training of PINNs rely on successful "propagation" of solution from initial and/or boundary condition points to interior points, and PINNs with poor sampling strategies can get stuck at trivial solutions if there are \textit{propagation failures}. (2) We demonstrate that propagation failures are characterized by highly imbalanced PDE residual fields where very high residuals are observed over very narrow regions. (3) To mitigate propagation failure, we propose a novel \textit{evolutionary sampling} (Evo) method that can incrementally accumulate collocation points in regions of high PDE residuals. We further provide an extension of Evo to respect the principle of causality while solving time-dependent PDEs. We empirically demonstrate the efficacy and efficiency of our proposed methods in a variety of PDE problems.
翻訳日:2022-07-07 12:50:51 公開日:2022-07-05
# コンテキストバンディットのインスタンス最適pacアルゴリズム

Instance-optimal PAC Algorithms for Contextual Bandits ( http://arxiv.org/abs/2207.02357v1 )

ライセンス: Link先を確認
Zhaoqi Li, Lillian Ratliff, Houssam Nassif, Kevin Jamieson, Lalit Jain(参考訳) 確率的文脈的バンディット設定では、後悔最小化アルゴリズムは広範囲に研究されてきたが、そのインスタンス最小化最善腕識別アルゴリズムはほとんど研究されていない。 この研究では、(\epsilon,\delta)$-$\textit{PAC}$設定における確率的バンディット問題に焦点をあてる: ポリシークラス$\Pi$を与えられた場合、学習者のゴールはポリシーを返却することである: $\pi\in \Pi$。 我々は、最初の$\textit{instance-dependent}$ PACサンプルの複雑さを$\rho_{\Pi}$で特徴づけ、Agnostic and linear contextual best-arm identification settingsに対して$\rho_{\Pi}$で一致した上と下の境界を提供する。 最良腕識別のための最小最小化とインスタンス依存PACを同時に行うアルゴリズムは存在しない。 我々の主な成果は、argmaxオラクルへの多項式数に依存する新しいインスタンス最適化および計算効率のアルゴリズムである。

In the stochastic contextual bandit setting, regret-minimizing algorithms have been extensively researched, but their instance-minimizing best-arm identification counterparts remain seldom studied. In this work, we focus on the stochastic bandit problem in the $(\epsilon,\delta)$-$\textit{PAC}$ setting: given a policy class $\Pi$ the goal of the learner is to return a policy $\pi\in \Pi$ whose expected reward is within $\epsilon$ of the optimal policy with probability greater than $1-\delta$. We characterize the first $\textit{instance-dependent}$ PAC sample complexity of contextual bandits through a quantity $\rho_{\Pi}$, and provide matching upper and lower bounds in terms of $\rho_{\Pi}$ for the agnostic and linear contextual best-arm identification settings. We show that no algorithm can be simultaneously minimax-optimal for regret minimization and instance-dependent PAC for best-arm identification. Our main result is a new instance-optimal and computationally efficient algorithm that relies on a polynomial number of calls to an argmax oracle.
翻訳日:2022-07-07 12:49:15 公開日:2022-07-05
# マルチエージェント強化学習におけるチームワーク適応のための学習タスク埋め込み

Learning Task Embeddings for Teamwork Adaptation in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2207.02249v1 )

ライセンス: Link先を確認
Lukas Sch\"afer, Filippos Christianos, Amos Storkey, Stefano V. Albrecht(参考訳) マルチエージェント強化学習を成功させるには,エージェントが行動に適応する必要がある場合が多い。 本稿では,エージェントのチームが,新しいタスクを微調整して解決するための方針を適応させる必要があるチームワーク適応の問題について議論する。 エージェントはタスクの動作を現在のタスクに適応させるためにタスクを識別し識別する必要があるという直感から、マルチエージェントタスクの埋め込み(MATE)を学ぶことを提案する。 これらのタスク埋め込みは、タスクを一意に識別するトランジッションと報酬関数の再構築に最適化されたエンコーダ-デコーダアーキテクチャを使って訓練される。 エージェントのチームは、タスク埋め込みが提供されたとき、新しいタスクに適応できることを示します。 本稿では,タスクエンコーディングに使用する情報によって異なる,独立したMATE,集中型MATE,混合MATEの3つの訓練パラダイムを提案する。 MATEが学習した埋め込みはタスクを特定し、新しいタスクへの適応中にエージェントが活用する有用な情報を提供する。

Successful deployment of multi-agent reinforcement learning often requires agents to adapt their behaviour. In this work, we discuss the problem of teamwork adaptation in which a team of agents needs to adapt their policies to solve novel tasks with limited fine-tuning. Motivated by the intuition that agents need to be able to identify and distinguish tasks in order to adapt their behaviour to the current task, we propose to learn multi-agent task embeddings (MATE). These task embeddings are trained using an encoder-decoder architecture optimised for reconstruction of the transition and reward functions which uniquely identify tasks. We show that a team of agents is able to adapt to novel tasks when provided with task embeddings. We propose three MATE training paradigms: independent MATE, centralised MATE, and mixed MATE which vary in the information used for the task encoding. We show that the embeddings learned by MATE identify tasks and provide useful information which agents leverage during adaptation to novel tasks.
翻訳日:2022-07-07 12:45:35 公開日:2022-07-05
# NVIDIA NICにおける強化学習データセンターの混雑制御の実装

Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs ( http://arxiv.org/abs/2207.02295v1 )

ライセンス: Link先を確認
Benjamin Fuhrer, Yuval Shpigelman, Chen Tessler, Shie Mannor, Gal Chechik, Eitan Zahavi, Gal Dalal(参考訳) クラウドデータセンタは、数とサイズの両方で指数関数的に成長しています。 この増加は、より混雑回避を保証できるネットワーク活動の急増をもたらす。 結果として生じる課題は2つあります。 (i)データセンターの複雑なトラフィックパターンに合わせてカスタマイズ可能なアルゴリズムを設計すると同時に (II) 効率的な渋滞制御(CC)に必要な低レイテンシで低レベルのハードウェア上で動作させる。 本研究では,特定のトラヒックシナリオから学習し,他への一般化に成功する強化学習(rl)ベースのccソリューションを提案する。 次に、RLニューラルネットワークポリシーをバイナリ決定木に蒸留し、RDMAによるリアルタイム推論に必要な$\mu$sec決定遅延を実現する。 実際のネットワーク上でNVIDIA NICに蒸留ポリシをデプロイし、最先端のパフォーマンスを示し、テストされたすべてのメトリクス(帯域幅、レイテンシ、公正性、パケットドロップ)を同時にバランスさせる。

Cloud datacenters are exponentially growing both in numbers and size. This increase results in a network activity surge that warrants better congestion avoidance. The resulting challenge is two-fold: (i) designing algorithms that can be custom-tuned to the complex traffic patterns of a given datacenter; but, at the same time (ii) run on low-level hardware with the required low latency of effective Congestion Control (CC). In this work, we present a Reinforcement Learning (RL) based CC solution that learns from certain traffic scenarios and successfully generalizes to others. We then distill the RL neural network policy into binary decision trees to achieve the desired $\mu$sec decision latency required for real-time inference with RDMA. We deploy the distilled policy on NVIDIA NICs in a real network and demonstrate state-of-the-art performance, balancing all tested metrics simultaneously: bandwidth, latency, fairness, and packet drops.
翻訳日:2022-07-07 12:45:19 公開日:2022-07-05
# ラテンハイパーキューブサンプリングに基づくクエリ効率の高い逆攻撃

Query-Efficient Adversarial Attack Based on Latin Hypercube Sampling ( http://arxiv.org/abs/2207.02391v1 )

ライセンス: Link先を確認
Dan Wang, Jiayu Lin, and Yuan-Gen Wang(参考訳) 実世界のシナリオに適用するために境界攻撃(bas)が提案され、決定情報だけで100パーセントの攻撃成功率を保証した。 しかし、既存のBA手法は、単純なランダムサンプリング(SRS)を利用して勾配を推定し、多数のモデルクエリを消費することで、逆例を作成する。 本稿では,srsの欠点を克服するために,ラテン系ハイパーキューブサンプリングベース境界攻撃(lhs-ba)を提案する。 SRSと比較すると、LHSは同じ数のランダムサンプルでより均一性が高い。 したがって、これらのランダムサンプルの平均は、SRSの推定値よりも真の勾配に近い。 MNIST、CIFAR、ImageNet-1Kなどのベンチマークデータセットで様々な実験が行われた。 提案手法は, クエリ効率の観点から, 最先端のBA法よりもLHS-BAの方が優れていることを示す実験結果を得た。 ソースコードはhttps://github.com/GZHU-DVL/LHS-BAで公開されている。

In order to be applicable in real-world scenario, Boundary Attacks (BAs) were proposed and ensured one hundred percent attack success rate with only decision information. However, existing BA methods craft adversarial examples by leveraging a simple random sampling (SRS) to estimate the gradient, consuming a large number of model queries. To overcome the drawback of SRS, this paper proposes a Latin Hypercube Sampling based Boundary Attack (LHS-BA) to save query budget. Compared with SRS, LHS has better uniformity under the same limited number of random samples. Therefore, the average on these random samples is closer to the true gradient than that estimated by SRS. Various experiments are conducted on benchmark datasets including MNIST, CIFAR, and ImageNet-1K. Experimental results demonstrate the superiority of the proposed LHS-BA over the state-of-the-art BA methods in terms of query efficiency. The source codes are publicly available at https://github.com/GZHU-DVL/LHS-BA.
翻訳日:2022-07-07 12:16:41 公開日:2022-07-05
# conをコンテキストとする:マフィアのゲームにおける騙された俳優の識別

Putting the Con in Context: Identifying Deceptive Actors in the Game of Mafia ( http://arxiv.org/abs/2207.02253v1 )

ライセンス: Link先を確認
Samee Ibraheem, Gaoyue Zhou, and John DeNero(参考訳) ニューラルネットワークは言語コンテンツをモデル化する驚くべき能力を示しているが、話者の会話的役割に関連する文脈情報をキャプチャすることは研究のオープン領域である。 本研究では,マフィアのゲームを通して話者の役割が言語利用に与える影響を分析する。 マフィアゲームレコードのデータセットを収集するフレームワークを構築することに加えて、異なる役割を持つプレイヤーが生成する言語に違いがあることを実証する。 分類モデルでは, 言語使用のみに基づいて, 偽装選手を正直な者よりも疑わしい者としてランク付けできることを確認した。 さらに,2つの補助タスクのトレーニングモデルが,標準のbertに基づくテキスト分類アプローチよりも優れていることを示す。 また,マフィアゲームにおいて,プレイヤーの役割を区別する特徴を識別するために,訓練したモデルを用いる手法を提案する。

While neural networks demonstrate a remarkable ability to model linguistic content, capturing contextual information related to a speaker's conversational role is an open area of research. In this work, we analyze the effect of speaker role on language use through the game of Mafia, in which participants are assigned either an honest or a deceptive role. In addition to building a framework to collect a dataset of Mafia game records, we demonstrate that there are differences in the language produced by players with different roles. We confirm that classification models are able to rank deceptive players as more suspicious than honest ones based only on their use of language. Furthermore, we show that training models on two auxiliary tasks outperforms a standard BERT-based text classification approach. We also present methods for using our trained models to identify features that distinguish between player roles, which could be used to assist players during the Mafia game.
翻訳日:2022-07-07 11:58:11 公開日:2022-07-05
# (参考訳) 光リモートセンシング画像における有意物体検出のための注意誘導ネットワーク

Attention Guided Network for Salient Object Detection in Optical Remote Sensing Images ( http://arxiv.org/abs/2207.01755v1 )

ライセンス: CC BY 4.0
Yuhan Lin, Han Sun, Ningzhong Liu, Yetong Bian, Jun Cen, Huiyu Zhou(参考訳) 光リモートセンシング画像(RSI-SOD)における、スケールと形状の極端な複雑さと予測された位置の不確実性のため、健全な物体検出は非常に難しい課題である。 既存のsod手法は自然シーン画像の検出性能を満足できるが、リモートセンシング画像における上記の画像特性のためrsi-sodにはあまり適合しない。 本稿では,光学RSIにおけるSODのための新しい注意誘導ネットワーク(AGNet)を提案する。 具体的には、位置強調段を意味的注意モジュールと文脈的注意モジュールとから構成し、突出した物体の近似位置を正確に記述する。 詳細精細化段階では,提案する自己精細化モジュールを用いて,注意と逆注意の指導の下で予測結果を段階的に精細化する。 さらに、ハイブリッド損失はネットワークのトレーニングを監督するために適用され、ピクセル、領域、統計の3つの観点からモデルのパフォーマンスを向上させることができる。 2つの人気のあるベンチマークに関する大規模な実験は、AGNetが他の最先端の手法と比較して競争力を発揮することを示した。 コードはhttps://github.com/NuaaYH/AGNet.comから入手できる。

Due to the extreme complexity of scale and shape as well as the uncertainty of the predicted location, salient object detection in optical remote sensing images (RSI-SOD) is a very difficult task. The existing SOD methods can satisfy the detection performance for natural scene images, but they are not well adapted to RSI-SOD due to the above-mentioned image characteristics in remote sensing images. In this paper, we propose a novel Attention Guided Network (AGNet) for SOD in optical RSIs, including position enhancement stage and detail refinement stage. Specifically, the position enhancement stage consists of a semantic attention module and a contextual attention module to accurately describe the approximate location of salient objects. The detail refinement stage uses the proposed self-refinement module to progressively refine the predicted results under the guidance of attention and reverse attention. In addition, the hybrid loss is applied to supervise the training of the network, which can improve the performance of the model from three perspectives of pixel, region and statistics. Extensive experiments on two popular benchmarks demonstrate that AGNet achieves competitive performance compared to other state-of-the-art methods. The code will be available at https://github.com/NuaaYH/AGNet.
翻訳日:2022-07-07 05:04:52 公開日:2022-07-05
# (参考訳) ユニバーサルドメイン適応物体検出器

Universal Domain Adaptive Object Detector ( http://arxiv.org/abs/2207.01756v1 )

ライセンス: CC BY 4.0
Wenxu Shi, Lei Zhang, Weijie Chen, Shiliang Pu(参考訳) ユニバーサルドメイン適応オブジェクト検出(UniDAOD)は、ソースドメインのラベル空間がターゲットと同じではない可能性があり、普遍シナリオにおけるオブジェクトのスケールが劇的に変化するため、ドメイン適応オブジェクト検出(DAOD)よりも難しい。 この目的のために,マルチラベル学習を用いたユニバーサルスケール・アウェア・ドメイン適応型高速RCNN(US-DAF)を提案する。 具体的には,2つのモジュールで実装する。 1) カテゴリーシフトによる負の移動を克服するためにフィルタ機構モジュールを設計し, 共通クラスの特徴的アライメントを促進し, プライベートクラスの干渉を抑制する。 2) 2つの領域に対応するスケール間で個別にアライメントを行うための,新しいマルチラベルスケールアウェアアダプタを導入することで,オブジェクト検出におけるスケールアウェア適応の空白を埋める。 実験の結果、US-DAFは3つのシナリオ(Open-Set、Partial-Set、Closed-Set)で最先端の結果が得られ、特にベンチマークデータセットであるClipart1kとWatercolorに対して7.1%と5.9%の改善が得られた。

Universal domain adaptive object detection (UniDAOD)is more challenging than domain adaptive object detection (DAOD) since the label space of the source domain may not be the same as that of the target and the scale of objects in the universal scenarios can vary dramatically (i.e, category shift and scale shift). To this end, we propose US-DAF, namely Universal Scale-Aware Domain Adaptive Faster RCNN with Multi-Label Learning, to reduce the negative transfer effect during training while maximizing transferability as well as discriminability in both domains under a variety of scales. Specifically, our method is implemented by two modules: 1) We facilitate the feature alignment of common classes and suppress the interference of private classes by designing a Filter Mechanism module to overcome the negative transfer caused by category shift. 2) We fill the blank of scale-aware adaptation in object detection by introducing a new Multi-Label Scale-Aware Adapter to perform individual alignment between the corresponding scale for two domains. Experiments show that US-DAF achieves state-of-the-art results on three scenarios (i.e, Open-Set, Partial-Set, and Closed-Set) and yields 7.1% and 5.9% relative improvement on benchmark datasets Clipart1k and Watercolor in particular.
翻訳日:2022-07-07 04:56:17 公開日:2022-07-05
# (参考訳) 第2回cov19dコンペティションにおけるfdvtsのソリューション : 新型コロナウイルスの検出と重症度分析

FDVTS's Solution for 2nd COV19D Competition on COVID-19 Detection and Severity Analysis ( http://arxiv.org/abs/2207.01758v1 )

ライセンス: CC BY 4.0
Junlin Hou, Jilan Xu, Rui Feng, and Yuejie Zhang(参考訳) 本稿では,欧州コンピュータビジョン会議(ECCV 2022)におけるAIIAワークショップの枠組みの中で発生した第2回COVID-19コンペティションの解決策について述べる。 提案手法では,造影表現学習とミックスアップ分類からなる胸部ct画像上での新型コロナウイルス診断に有効な3次元コントラストミックスアップ分類ネットワークを用いる。 新型コロナウイルス検出の課題では、484のCTスキャンで0.9245マクロF1スコアに達し、ベースライン法を16.5%上回る結果となった。 重症度検出の課題では,61検体に対して0.7186マクロF1スコアを達成し,ベースラインを8.86%上回る結果となった。

This paper presents our solution for the 2nd COVID-19 Competition, occurring in the framework of the AIMIA Workshop in the European Conference on Computer Vision (ECCV 2022). In our approach, we employ an effective 3D Contrastive Mixup Classification network for COVID-19 diagnosis on chest CT images, which is composed of contrastive representation learning and mixup classification. For the COVID-19 detection challenge, our approach reaches 0.9245 macro F1 score on 484 validation CT scans, which significantly outperforms the baseline method by 16.5%. In the COVID-19 severity detection challenge, our approach achieves 0.7186 macro F1 score on 61 validation samples, which also surpasses the baseline by 8.86%.
翻訳日:2022-07-07 04:42:14 公開日:2022-07-05
# (参考訳) gp22:自動車デザイナーのためのカースタイリングデータセット

GP22: A Car Styling Dataset for Automotive Designers ( http://arxiv.org/abs/2207.01760v1 )

ライセンス: CC BY 4.0
Gyunpyo Lee, Taesu Kim, Hyeon-Jeong Suk(参考訳) 自動設計データアーカイブは、設計者が創造的かつ効果的に作業するのに要する時間を削減できる。 自動車の外装の分類、検出、インスタンスセグメンテーションに関する多くのデータセットが存在するが、これらの大きなデータセットは、自動運転や車両の検証が主な目的であるため、設計プラクティスには関係しない。 そこで我々は,自動車デザイナーが定義したカースタイリング機能からなるGP22をリリースする。 データセットには、37のブランドと10の自動車セグメントによる1480のカーサイドプロフィール画像が含まれている。 また、自動車デザイナーの目に定義された自動車の外装デザインの特徴の分類に従うデザイン特徴のアノテーションも含んでいる。 データセットを用いた設計特徴検出モデルとして,YOLO v5を用いてベースラインモデルをトレーニングした。 その結果,mAPスコア0.995,リコール0.984が得られた。 さらに、スケッチにおけるモデル性能の探索と車体側面プロファイルのレンダリングは、設計目的のデータセットのスケーラビリティを暗示している。

An automated design data archiving could reduce the time wasted by designers from working creatively and effectively. Though many datasets on classifying, detecting, and instance segmenting on car exterior exist, these large datasets are not relevant for design practices as the primary purpose lies in autonomous driving or vehicle verification. Therefore, we release GP22, composed of car styling features defined by automotive designers. The dataset contains 1480 car side profile images from 37 brands and ten car segments. It also contains annotations of design features that follow the taxonomy of the car exterior design features defined in the eye of the automotive designer. We trained the baseline model using YOLO v5 as the design feature detection model with the dataset. The presented model resulted in an mAP score of 0.995 and a recall of 0.984. Furthermore, exploration of the model performance on sketches and rendering images of the car side profile implies the scalability of the dataset for design purposes.
翻訳日:2022-07-07 04:36:47 公開日:2022-07-05
# (参考訳) opPINN:演算子学習によるFokker-Planck-Landau方程式の解の近似

opPINN: Physics-Informed Neural Network with operator learning to approximate solutions to the Fokker-Planck-Landau equation ( http://arxiv.org/abs/2207.01765v1 )

ライセンス: CC BY 4.0
Jae Yong Lee, Juhi Jang, Hyung Ju Hwang(参考訳) 本稿では,Fokker-Planck-Landau(FPL)方程式の解を近似する演算子学習を用いた物理情報ニューラルネットワーク(PINN)を提案する。 opPINNフレームワークは、ステップ1とステップ2の2つのステップに分けられる。 演算子代理モデルをステップ1で訓練した後、PINNは事前訓練された代理モデルを用いてFPL方程式の解を効果的に近似することができる。 演算子シュロゲートモデルは計算コストを大幅に削減し、FPL方程式における複雑なランダウ衝突積分を近似することによりPINNを増強する。 演算子代理モデルも従来の数値スキームと組み合わせることができる。 速度モードの数が大きくなると計算時間の効率が向上する。 opPINNフレームワークを用いて、FPL方程式の様々な初期条件下でのニューラルネットワークソリューションと、2次元と3次元の相互作用モデルを提供する。 さらに, fpl方程式の理論的性質に基づいて, 近似ニューラルネットワーク解が事前定義された損失関数が減少するにつれて, fpl方程式の事前古典解に収束することを示す。

We propose a hybrid framework opPINN: physics-informed neural network (PINN) with operator learning for approximating the solution to the Fokker-Planck-Landau (FPL) equation. The opPINN framework is divided into two steps: Step 1 and Step 2. After the operator surrogate models are trained during Step 1, PINN can effectively approximate the solution to the FPL equation during Step 2 by using the pre-trained surrogate models. The operator surrogate models greatly reduce the computational cost and boost PINN by approximating the complex Landau collision integral in the FPL equation. The operator surrogate models can also be combined with the traditional numerical schemes. It provides a high efficiency in computational time when the number of velocity modes becomes larger. Using the opPINN framework, we provide the neural network solutions for the FPL equation under the various types of initial conditions, and interaction models in two and three dimensions. Furthermore, based on the theoretical properties of the FPL equation, we show that the approximated neural network solution converges to the a priori classical solution of the FPL equation as the pre-defined loss function is reduced.
翻訳日:2022-07-07 04:30:36 公開日:2022-07-05
# (参考訳) パーソナライズされた学習と推定のための生成フレームワーク--理論、アルゴリズム、プライバシー

A Generative Framework for Personalized Learning and Estimation: Theory, Algorithms, and Privacy ( http://arxiv.org/abs/2207.01771v1 )

ライセンス: CC BY 4.0
Kaan Ozkara, Antonious M. Girgis, Deepesh Data, Suhas Diggavi(参考訳) フェデレーション学習の特徴は、(ローカルな)クライアントデータが統計的に異質性を持つ可能性があることである。 この異質性は、個別の(個人化された)モデルがコラボレーションを通じてトレーニングされるパーソナライズされた学習の設計を動機付ける。 文献で提案されているパーソナライズ手法は,局所的な正規化やモデル補間に単一グローバルモデルを使用すること,パーソナライズされたクラスタリングに複数のグローバルモデルを使用すること,など,非常に異なる形態と手法を持つ。 この研究では、いくつかの異なるアルゴリズムを統一し、新しいアルゴリズムを提案する可能性のある生成フレームワークから始めます。 生成フレームワークをパーソナライズした推定に適用し,それを古典的経験的ベイズの方法論に結びつける。 この枠組みに基づいて個人別推定を行う。 そこで我々は,いくつかの既知のflアルゴリズムを統一し,新たなアルゴリズムを提案する,学習のための生成フレームワークを用いて,知識蒸留に基づく新たなアルゴリズムを提案する。 また、ユーザレベルのプライバシーと構成を保証するパーソナライズされた学習手法のプライバシを開発する。 提案手法の利点を実証し,推定問題と学習問題の両方に対するプライバシと性能を数値的に評価した。

A distinguishing characteristic of federated learning is that the (local) client data could have statistical heterogeneity. This heterogeneity has motivated the design of personalized learning, where individual (personalized) models are trained, through collaboration. There have been various personalization methods proposed in literature, with seemingly very different forms and methods ranging from use of a single global model for local regularization and model interpolation, to use of multiple global models for personalized clustering, etc. In this work, we begin with a generative framework that could potentially unify several different algorithms as well as suggest new algorithms. We apply our generative framework to personalized estimation, and connect it to the classical empirical Bayes' methodology. We develop private personalized estimation under this framework. We then use our generative framework for learning, which unifies several known personalized FL algorithms and also suggests new ones; we propose and study a new algorithm AdaPeD based on a Knowledge Distillation, which numerically outperforms several known algorithms. We also develop privacy for personalized learning methods with guarantees for user-level privacy and composition. We numerically evaluate the performance as well as the privacy for both the estimation and learning problems, demonstrating the advantages of our proposed methods.
翻訳日:2022-07-07 04:00:01 公開日:2022-07-05
# (参考訳) ビジョン・アンド・ランゲージ事前学習

Vision-and-Language Pretraining ( http://arxiv.org/abs/2207.01772v1 )

ライセンス: CC BY-SA 4.0
Thong Nguyen, Cong-Duy Nguyen, Xiaobao Wu, Anh Tuan Luu(参考訳) 画像テキストペアのデータ量の増加と視覚言語(v&l)タスクの多様性により、この研究領域ではディープラーニングモデルが数多く導入されている。 さらに近年,画像分類やオブジェクト検出などのタスクや自然言語による質問応答処理,機械翻訳などのタスクにおいて,移動学習はコンピュータビジョンにおいても大きな成功を収めている。 トランスファーラーニングの精神を継承したV&Lの研究は、下流タスクの性能を高めるために、大規模データセット上で複数の事前学習技術を開発した。 本論文の目的は,現代V&L事前学習モデルの包括的改訂を提供することである。 特に、最先端のビジョン・アンド・ランゲージ事前学習モデルの要約とともに、事前学習アプローチを分類・記述する。 さらに、V&L事前トレーニングの視点をさらに洗練するために、トレーニングデータセットと下流タスクのリストが提供される。 最後に,今後の研究の方向性について,さらに一歩進めて検討することにした。

With the burgeoning amount of data of image-text pairs and diversity of Vision-and-Language (V&L) tasks, scholars have introduced an abundance of deep learning models in this research domain. Furthermore, in recent years, transfer learning has also shown tremendous success in Computer Vision for tasks such as Image Classification, Object Detection, etc., and in Natural Language Processing for Question Answering, Machine Translation, etc. Inheriting the spirit of Transfer Learning, research works in V&L have devised multiple pretraining techniques on large-scale datasets in order to enhance the performance of downstream tasks. The aim of this article is to provide a comprehensive revision of contemporary V&L pretraining models. In particular, we categorize and delineate pretraining approaches, along with the summary of state-of-the-art vision-and-language pre-trained models. Moreover, a list of training datasets and downstream tasks is supplied to further polish the perspective on V&L pretraining. Lastly, we decided to take a further step to discuss numerous directions for future research.
翻訳日:2022-07-07 03:58:48 公開日:2022-07-05
# (参考訳) インスタンスエンコードトランスを用いた3次元部品アセンブリ生成

3D Part Assembly Generation with Instance Encoded Transformer ( http://arxiv.org/abs/2207.01779v1 )

ライセンス: CC BY 4.0
Rufeng Zhang, Tao Kong, Weihao Wang, Xuan Han and Mingyu You(参考訳) 自動組立が可能なロボットを有効にすることが望ましい。 オブジェクト部分の構造的理解は、このタスクにおいて重要な役割を果たすが、比較的未調査のままである。 本稿では,6-DoF部分ポーズ推定問題である部分ジオメトリの完全集合からの家具集合の設定に焦点を当てる。 本稿では,部品間における幾何的・関係的推論を反復的に行う多層トランスフォーマーフレームワークを提案する。 我々は、幾何学的に類似した部分間のあいまいさを解決するために、ユニークなインスタンスエンコーディングを慎重に設計する。 スクラッチから組み立てるだけでなく、我々はフレームワークをプロセス内部分アセンブリと呼ばれる新しいタスクに拡張します。 家具のメンテナンスと同様、ロボットは未完成の製品を継続し、残りの部品を適切な位置に組み立てる必要がある。 提案手法は、パブリックなPartNetデータセット上の複数のメトリクスにおいて、現在の最先端よりも10%以上改善されている。 広範な実験と定量的比較により,提案手法の有効性が示された。

It is desirable to enable robots capable of automatic assembly. Structural understanding of object parts plays a crucial role in this task yet remains relatively unexplored. In this paper, we focus on the setting of furniture assembly from a complete set of part geometries, which is essentially a 6-DoF part pose estimation problem. We propose a multi-layer transformer-based framework that involves geometric and relational reasoning between parts to update the part poses iteratively. We carefully design a unique instance encoding to solve the ambiguity between geometrically-similar parts so that all parts can be distinguished. In addition to assembling from scratch, we extend our framework to a new task called in-process part assembly. Analogous to furniture maintenance, it requires robots to continue with unfinished products and assemble the remaining parts into appropriate positions. Our method achieves far more than 10% improvements over the current state-of-the-art in multiple metrics on the public PartNet dataset. Extensive experiments and quantitative comparisons demonstrate the effectiveness of the proposed framework.
翻訳日:2022-07-07 03:57:47 公開日:2022-07-05
# (参考訳) グラフコントラスト学習のための特徴量に基づく適応拡張

Features Based Adaptive Augmentation for Graph Contrastive Learning ( http://arxiv.org/abs/2207.01792v1 )

ライセンス: CC BY 4.0
Adnan Ali (1), Jinlong Li (2) ((1) University of Science and Technology of China, (2) University of Science and Technology of China)(参考訳) 自己監督学習はグラフ表現学習における高価なアノテーションの必要性を排除することを目的としており、グラフコントラスト学習(GCL)はデータ-データペアを含む自己超越信号で訓練される。 これらのデータ-データペアは、元のグラフ上の確率関数を用いた拡張によって生成される。 いくつかの特徴は下流のタスクによって他よりも重要であり、確率関数を一様に適用することで影響のある特徴を破壊し、精度を低下させる。 この問題を修正するために,我々は,潜在的に影響力のある機能を識別し保存し,残りの機能を腐敗させる機能ベース適応拡張(febaa)アプローチを導入する。 febaaをプラグアンドプレイ層として実装し,最先端のディープグラフコントラスト学習(grace)とブートストラップグラフラテント(bgrl)で使用する。 8つのグラフ表現学習のベンチマークデータセットにおけるGRACEとBGRLの精度向上に成功した。

Self-Supervised learning aims to eliminate the need for expensive annotation in graph representation learning, where graph contrastive learning (GCL) is trained with the self-supervision signals containing data-data pairs. These data-data pairs are generated with augmentation employing stochastic functions on the original graph. We argue that some features can be more critical than others depending on the downstream task, and applying stochastic function uniformly, will vandalize the influential features, leading to diminished accuracy. To fix this issue, we introduce a Feature Based Adaptive Augmentation (FebAA) approach, which identifies and preserves potentially influential features and corrupts the remaining ones. We implement FebAA as plug and play layer and use it with state-of-the-art Deep Graph Contrastive Learning (GRACE) and Bootstrapped Graph Latents (BGRL). We successfully improved the accuracy of GRACE and BGRL on eight graph representation learning's benchmark datasets.
翻訳日:2022-07-07 03:41:42 公開日:2022-07-05
# (参考訳) GSMFlow:汎用ゼロショット学習のための生成シフトの緩和

GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2207.01798v1 )

ライセンス: CC0 1.0
Zhi Chen, Yadan Luo, Ruihong Qiu, Sen Wang, Zi Huang, Jingjing Li, Zheng Zhang(参考訳) 一般化ゼロショット学習(gzsl)は,視認クラスから視認クラスへ意味知識を転送することにより,視認クラスと視認クラスの両方から画像を認識することを目的とする。 生成モデルの利点を生かして、見知らぬクラスから学んだ知識に基づいて現実的な見当たらないサンプルを幻覚させることは、有望な解決策である。 しかしながら、生成シフトのため、ほとんどの既存の方法によって合成されたサンプルは、見えないデータの実際の分布から漂流する可能性がある。 そこで本研究では,複数の条件付きアフィンカップリング層からなるフローベースの生成フレームワークを提案する。 具体的には、生成シフトを引き起こす3つの潜在的な問題、すなわち意味的不整合、分散崩壊、構造障害を発見し、対処する。 まず,生成したサンプルにおける意味情報の反映を促進するため,各条件付アフィンカップリング層の変換に意味情報を明示的に埋め込む。 第2に,実際の未認識特徴の固有分散を回復するために,エントロピー最大化を伴う境界サンプルマイニング戦略を導入し,意味プロトタイプのより難解な視覚的変種を発見し,これを用いて分類器の決定境界を調整する。 第3に、属性の埋め込みを改訂し、クラス間の幾何学的構造を完全に保存し、意味空間における構造障害を回避するための相対的な位置決め戦略を提案する。 4つのGZSLベンチマークデータセットの大規模な実験結果は、GSMFlowがGZSLの最先端性能を達成することを示す。

Generalized Zero-Shot Learning (GZSL) aims to recognize images from both the seen and unseen classes by transferring semantic knowledge from seen to unseen classes. It is a promising solution to take the advantage of generative models to hallucinate realistic unseen samples based on the knowledge learned from the seen classes. However, due to the generation shifts, the synthesized samples by most existing methods may drift from the real distribution of the unseen data. To address this issue, we propose a novel flow-based generative framework that consists of multiple conditional affine coupling layers for learning unseen data generation. Specifically, we discover and address three potential problems that trigger the generation shifts, i.e., semantic inconsistency, variance collapse, and structure disorder. First, to enhance the reflection of the semantic information in the generated samples, we explicitly embed the semantic information into the transformation in each conditional affine coupling layer. Second, to recover the intrinsic variance of the real unseen features, we introduce a boundary sample mining strategy with entropy maximization to discover more difficult visual variants of semantic prototypes and hereby adjust the decision boundary of the classifiers. Third, a relative positioning strategy is proposed to revise the attribute embeddings, guiding them to fully preserve the inter-class geometric structure and further avoid structure disorder in the semantic space. Extensive experimental results on four GZSL benchmark datasets demonstrate that GSMFlow achieves the state-of-the-art performance on GZSL.
翻訳日:2022-07-07 03:27:36 公開日:2022-07-05
# (参考訳) 混合マルチ属性データセットを用いた画像の美的属性評価

Aesthetic Attribute Assessment of Images Numerically on Mixed Multi-attribute Datasets ( http://arxiv.org/abs/2207.01806v1 )

ライセンス: CC BY 4.0
Xin Jin, Xinning Li, Hao Lou, Chenyu Fan, Qiang Deng, Chaoen Xiao, Shuai Cui, Amit Kumar Singh(参考訳) ソーシャルソフトウェアとマルチメディア技術の継続的な発展により、画像は情報の拡散とソーシャル化にとって重要なキャリアとなった。 画像を包括的に評価する方法が最近の研究の焦点となっている。 従来の画像美的評価法は、特定の主観性を持ち、もはやより高い美的要件を満たせない単一の数値的総合評価スコアをしばしば採用している。 本稿では,属性を付加した美的混合データセット(AMD-A)と呼ばれる新しい画像属性データセットを構築し,融合のための外部属性特徴を設計する。 また,複数属性の混合データセットを用いた画像美的属性評価の効率的な手法を提案し,backboneネットワークとして efficientnet-b0 を用いてマルチタスクネットワークアーキテクチャを構築する。 我々のモデルは、美的分類、総合評価、属性スコアを達成できる。 各サブネットワークにおいて、ECAチャネルアテンションモジュールによる特徴抽出を改善する。 最終得点については,教師・学生ネットワークの考え方を採用し,分類サブネットワークを用いて審美的総合的細粒回帰を指導する。 MindSporeを用いた実験結果から,本手法は審美的総合評価と属性評価を効果的に改善できることが示された。

With the continuous development of social software and multimedia technology, images have become a kind of important carrier for spreading information and socializing. How to evaluate an image comprehensively has become the focus of recent researches. The traditional image aesthetic assessment methods often adopt single numerical overall assessment scores, which has certain subjectivity and can no longer meet the higher aesthetic requirements. In this paper, we construct an new image attribute dataset called aesthetic mixed dataset with attributes(AMD-A) and design external attribute features for fusion. Besides, we propose a efficient method for image aesthetic attribute assessment on mixed multi-attribute dataset and construct a multitasking network architecture by using the EfficientNet-B0 as the backbone network. Our model can achieve aesthetic classification, overall scoring and attribute scoring. In each sub-network, we improve the feature extraction through ECA channel attention module. As for the final overall scoring, we adopt the idea of the teacher-student network and use the classification sub-network to guide the aesthetic overall fine-grain regression. Experimental results, using the MindSpore, show that our proposed method can effectively improve the performance of the aesthetic overall and attribute assessment.
翻訳日:2022-07-07 02:58:21 公開日:2022-07-05
# (参考訳) ヒップウーン加速度計データを用いた鎮静行動推定:セグメンテーション, 分類, 閾値決定

Sedentary Behavior Estimation with Hip-worn Accelerometer Data: Segmentation, Classification and Thresholding ( http://arxiv.org/abs/2207.01809v1 )

ライセンス: CC BY 4.0
Yiren Wang, Fatima Tuz-Zahra, Rong Zablocki, Chongzhi Di, Marta M. Jankowska, John Bellettiere, Jordan A. Carlson, Andrea Z. LaCroix, Sheri J. Hartman, Dori E. Rosenberg, Jingjing Zou, Loki Natarajan(参考訳) コホート研究は、身体活動と鎮静行動推定に加速度計をますます利用している。 これらのデバイスは、自己報告よりもエラーの少ない傾向があり、一日中活動を取り込むことができ、経済的である。 しかし, 従来のヒップワーンデータに基づく鎮静行動推定法は, 自由生活条件や主観と対象の変動の下では, しばしば無効あるいは準最適である。 本稿では,このような状況を考慮した局所マルコフ切替モデルを提案し,そのモデルに自然に適合する姿勢分類と鎮静行動解析の一般的な手順を提案する。 本手法は,時系列における変化点検出手法と,データを3つのクラス(シッティング,スタンディング,ステッピング)に分類する2段階の分類ステップを特徴とする。 厳密なトレーニングテストパラダイムを通じて,我々のアプローチが80%以上の精度を達成することを実証した。 さらに,本手法は頑健であり,解釈が容易である。

Cohort studies are increasingly using accelerometers for physical activity and sedentary behavior estimation. These devices tend to be less error-prone than self-report, can capture activity throughout the day, and are economical. However, previous methods for estimating sedentary behavior based on hip-worn data are often invalid or suboptimal under free-living situations and subject-to-subject variation. In this paper, we propose a local Markov switching model that takes this situation into account, and introduce a general procedure for posture classification and sedentary behavior analysis that fits the model naturally. Our method features changepoint detection methods in time series and also a two stage classification step that labels data into 3 classes(sitting, standing, stepping). Through a rigorous training-testing paradigm, we showed that our approach achieves > 80% accuracy. In addition, our method is robust and easy to interpret.
翻訳日:2022-07-07 02:40:45 公開日:2022-07-05
# (参考訳) デュアル入力UNetを用いたポラリメトリックSARデータからの表面比抵抗の導出

Deriving Surface Resistivity from Polarimetric SAR Data Using Dual-Input UNet ( http://arxiv.org/abs/2207.01811v1 )

ライセンス: CC BY 4.0
Bibin Wilson, Rajiv Kumar, Narayanarao Bhogapurapu, Anand Singh and Amit Sethi(参考訳) 表面比抵抗を求める伝統的な調査方法は、時間消費と労働集約である。 リモートセンシングデータとディープラーニング技術を用いた比抵抗/導電率の発見に焦点を当てた研究はほとんどない。 本研究では, 種々の深部学習手法を適用し, 表面比抵抗と合成開口レーダ(SAR)の相関性を評価し, コーソ地熱地域での仮説を検証した。 比抵抗の検出には、uavsarが取得したlバンドフルポラリメトリックsarデータを用い、その地域のmt(magnetotellurics)逆比抵抗データを用いた。 我々は,様々なディープラーニングアーキテクチャの比較実験を行い,Dual Input UNet(DI-UNet)アーキテクチャの利用を提案する。 DI-UNetはディープラーニングアーキテクチャを用いて、従来の手法に簡単なサーベイを追加することを約束して、完全な偏光SARデータを用いて比抵抗を予測する。 提案手法は,SARデータからMT比抵抗のマッピング結果を改善した。

Traditional survey methods for finding surface resistivity are time-consuming and labor intensive. Very few studies have focused on finding the resistivity/conductivity using remote sensing data and deep learning techniques. In this line of work, we assessed the correlation between surface resistivity and Synthetic Aperture Radar (SAR) by applying various deep learning methods and tested our hypothesis in the Coso Geothermal Area, USA. For detecting the resistivity, L-band full polarimetric SAR data acquired by UAVSAR were used, and MT (Magnetotellurics) inverted resistivity data of the area were used as the ground truth. We conducted experiments to compare various deep learning architectures and suggest the use of Dual Input UNet (DI-UNet) architecture. DI-UNet uses a deep learning architecture to predict the resistivity using full polarimetric SAR data by promising a quick survey addition to the traditional method. Our proposed approach accomplished improved outcomes for the mapping of MT resistivity from SAR data.
翻訳日:2022-07-07 02:25:10 公開日:2022-07-05
# (参考訳) 画像ワープのための局所帰納的フーリエ表現の学習

Learning Local Implicit Fourier Representation for Image Warping ( http://arxiv.org/abs/2207.01831v1 )

ライセンス: CC BY 4.0
Jaewon Lee, Kwang Pyo Choi, Kyong Hwan Jin(参考訳) image warpingは、矩形グリッド上で定義された画像を任意の形状に再構成することを目的としている。 近年,暗黙的神経機能は画像の連続的表現において顕著な性能を示している。 しかし、スタンドアロンの多層パーセプトロンは高周波フーリエ係数の学習に苦しむ。 本稿では,画像ワーピング(LTEW)のための局所テクスチャ推定器を提案し,次に暗黙のニューラル表現を用いて画像を連続的な形状に変形する。 深部超解像(SR)バックボーンから推定される局所テクスチャは、座標変換の局所変化ヤコビ行列によって乗算され、歪んだ画像のフーリエ応答を予測する。 ltewベースの神経機能は、非対称スケールsrおよびホモグラフィ変換の既存のワーピング法を上回っている。 さらに, このアルゴリズムは, 任意の座標変換をうまく一般化する。例えば, 大きな拡大係数を持つホモグラフィ変換や, トレーニングでは提供されない等角射影変換 (ERP) などである。

Image warping aims to reshape images defined on rectangular grids into arbitrary shapes. Recently, implicit neural functions have shown remarkable performances in representing images in a continuous manner. However, a standalone multi-layer perceptron suffers from learning high-frequency Fourier coefficients. In this paper, we propose a local texture estimator for image warping (LTEW) followed by an implicit neural representation to deform images into continuous shapes. Local textures estimated from a deep super-resolution (SR) backbone are multiplied by locally-varying Jacobian matrices of a coordinate transformation to predict Fourier responses of a warped image. Our LTEW-based neural function outperforms existing warping methods for asymmetric-scale SR and homography transform. Furthermore, our algorithm well generalizes arbitrary coordinate transformations, such as homography transform with a large magnification factor and equirectangular projection (ERP) perspective transform, which are not provided in training.
翻訳日:2022-07-07 02:07:41 公開日:2022-07-05
# (参考訳) グラフ畳み込みニューラルネットワークは何を学ぶか?

What Do Graph Convolutional Neural Networks Learn? ( http://arxiv.org/abs/2207.01839v1 )

ライセンス: CC BY 4.0
Sannat Singh Bhasin, Vaibhav Holani, Divij Sanjanwala(参考訳) グラフニューラルネットワーク(GNN)は、多くの機械学習タスクにおける優れたパフォーマンスのために、ここ数年で注目を集めている。 グラフ畳み込みニューラルネットワーク(GCN)は、半教師付きノード分類(SSNC)において高性能であることが知られ、ホモフィリーの仮定の下でうまく機能することが知られているGNNの一般的な変種である。 近年の文献では、GCNは特定の「特殊条件」下でヘテロ親和性グラフ上で強い性能を発揮することが強調されている。 これらの議論は、GCNがSSNCを実行することを学ぶ理由と方法を理解する動機となります。 クラス内のノードの潜伏ノード埋め込みの類似性とGCNの性能との間には正の相関関係が認められた。 データセットの基盤となるグラフ構造について検討した結果,GCNのSSNC性能は,クラス内のノードの近傍構造における一貫性と特異性に大きく影響していることがわかった。

Graph neural networks (GNNs) have gained traction over the past few years for their superior performance in numerous machine learning tasks. Graph Convolutional Neural Networks (GCN) are a common variant of GNNs that are known to have high performance in semi-supervised node classification (SSNC), and work well under the assumption of homophily. Recent literature has highlighted that GCNs can achieve strong performance on heterophilous graphs under certain "special conditions". These arguments motivate us to understand why, and how, GCNs learn to perform SSNC. We find a positive correlation between similarity of latent node embeddings of nodes within a class and the performance of a GCN. Our investigation on underlying graph structures of a dataset finds that a GCN's SSNC performance is significantly influenced by the consistency and uniqueness in neighborhood structure of nodes within a class.
翻訳日:2022-07-07 01:26:36 公開日:2022-07-05
# (参考訳) RLとエピソードメモリの行動前処理による計画

Planning with RL and episodic-memory behavioral priors ( http://arxiv.org/abs/2207.01845v1 )

ライセンス: CC BY 4.0
Shivansh Beohar and Andrew Melnik(参考訳) 学習エージェントの実践的応用には、サンプル効率と解釈可能なアルゴリズムが必要である。 行動優先から学ぶことは、ランダムな探索方針や早期学習の落とし穴に対するセーフガードを持つエージェントをブートストラップする有望な方法である。 既存の模倣学習のソリューションは、多数の専門家によるデモンストレーションを必要とし、深いQ学習のような難解な学習方法に依存している。 そこで本研究では,強化学習環境における効果的な探索と学習にこれらの行動優先法を活用できる計画に基づくアプローチを提案し,行動優先の形での探索政策がエージェントの学習を早めることを実証する。

The practical application of learning agents requires sample efficient and interpretable algorithms. Learning from behavioral priors is a promising way to bootstrap agents with a better-than-random exploration policy or a safe-guard against the pitfalls of early learning. Existing solutions for imitation learning require a large number of expert demonstrations and rely on hard-to-interpret learning methods like Deep Q-learning. In this work we present a planning-based approach that can use these behavioral priors for effective exploration and learning in a reinforcement learning environment, and we demonstrate that curated exploration policies in the form of behavioral priors can help an agent learn faster.
翻訳日:2022-07-07 01:20:55 公開日:2022-07-05
# (参考訳) 言語モデル事前学習のためのasr生成テキストの音声タスクへの応用

ASR-Generated Text for Language Model Pre-training Applied to Speech Tasks ( http://arxiv.org/abs/2207.01893v1 )

ライセンス: CC BY 4.0
Valentin Pelloin, Franck Dary, Nicolas Herve, Benoit Favre, Nathalie Camelin, Antoine Laurent, Laurent Besacier(参考訳) 我々は,大量の自動書き起こし音声を用いた音声言語モデリング(lm)の改善を目指している。 我々は、フランス国立音響研究所(INA)のコレクションを活用し、多様なテレビ番組の35万時間にASRを適用した後、19GBのテキストを取得する。 このことから、音声言語モデルは既存のLM(FlauBERT)を微調整するか、あるいはゼロからLMを訓練することによって訓練される。 新しいモデル(FlauBERT-Oral)はコミュニティと共有され、音声言語理解、テレビ番組の分類、音声構文解析の3つの下流タスクに対して評価される。 その結果、フラウバート・オラルは元々のフラウバート版に比べて有益であり、本質的にうるさい性質にもかかわらず、asrが生成したテキストは音声言語モデルの構築に使用できることが示された。

We aim at improving spoken language modeling (LM) using very large amount of automatically transcribed speech. We leverage the INA (French National Audiovisual Institute) collection and obtain 19GB of text after applying ASR on 350,000 hours of diverse TV shows. From this, spoken language models are trained either by fine-tuning an existing LM (FlauBERT) or through training a LM from scratch. New models (FlauBERT-Oral) are shared with the community and evaluated for 3 downstream tasks: spoken language understanding, classification of TV shows and speech syntactic parsing. Results show that FlauBERT-Oral can be beneficial compared to its initial FlauBERT version demonstrating that, despite its inherent noisy nature, ASR-generated text can be used to build spoken language models.
翻訳日:2022-07-07 01:11:40 公開日:2022-07-05
# (参考訳) 「たとえ...」 --様々な拒絶の半事実的説明

"Even if ..." -- Diverse Semifactual Explanations of Reject ( http://arxiv.org/abs/2207.01898v1 )

ライセンス: CC BY 4.0
Andr\'e Artelt, Barbara Hammer(参考訳) 安全クリティカル領域に適用された機械学習に基づく意思決定システムは、信頼性の高い高精度な予測を必要とする。 この目的のために、システムはリジェクションオプションによって拡張され、不許容に低い精度で予測できる入力のみを拒否することができる。 不確実なサンプルを拒絶することは重要であるが、特定のサンプルが拒絶された理由を説明することも重要である。 説明可能なai(xai)の台頭に伴い、機械学習ベースのシステムのための多くの説明方法論が開発されている。 本研究は,XAIコミュニティではまだ広く検討されていない実例に基づく説明手法の例である,半実的説明による拒絶を説明することを提案する。 本稿では,任意の拒否オプションに対する半実的説明の概念モデルを提案し,共形予測に基づく拒否オプションの具体的実装を実証的に評価する。

Machine learning based decision making systems applied in safety critical areas require reliable high certainty predictions. For this purpose, the system can be extended by an reject option which allows the system to reject inputs where only a prediction with an unacceptably low certainty would be possible. While being able to reject uncertain samples is important, it is also of importance to be able to explain why a particular sample was rejected. With the ongoing rise of eXplainable AI (XAI), a lot of explanation methodologies for machine learning based systems have been developed -- explaining reject options, however, is still a novel field where only very little prior work exists. In this work, we propose to explain rejects by semifactual explanations, an instance of example-based explanation methods, which them self have not been widely considered in the XAI community yet. We propose a conceptual modeling of semifactual explanations for arbitrary reject options and empirically evaluate a specific implementation on a conformal prediction based reject option.
翻訳日:2022-07-07 00:57:03 公開日:2022-07-05
# (参考訳) 注意グラフのベティ数は本当に必要なもの

Betti numbers of attention graphs is all you really need ( http://arxiv.org/abs/2207.01903v1 )

ライセンス: CC BY 4.0
Laida Kushnareva, Dmitri Piontkovski and Irina Piontkovskaya(参考訳) BERTモデル(arXiv:1810.04805v2 )のアテンションヘッド上で計算したアテンショングラフにトポロジカル解析の手法を適用する。 ニューラルネットワークの基本的持続的トポロジ的特徴(ベッチ数)に基づいて構築された分類器は,従来の分類法と同等の分類結果が得られることを示す。 3つのテキスト分類ベンチマークにおいて,このようなトポロジカルテキスト表現の関連性を示す。 私たちの知る限りでは、自然言語処理に広く使われている注目に基づくニューラルネットワークのトポロジを分析するための最初の試みである。

We apply methods of topological analysis to the attention graphs, calculated on the attention heads of the BERT model ( arXiv:1810.04805v2 ). Our research shows that the classifier built upon basic persistent topological features (namely, Betti numbers) of the trained neural network can achieve classification results on par with the conventional classification method. We show the relevance of such topological text representation on three text classification benchmarks. For the best of our knowledge, it is the first attempt to analyze the topology of an attention-based neural network, widely used for Natural Language Processing.
翻訳日:2022-07-07 00:45:49 公開日:2022-07-05
# (参考訳) 深層強化学習における説明可能性の現状と応用

Explainability in Deep Reinforcement Learning, a Review into Current Methods and Applications ( http://arxiv.org/abs/2207.01911v1 )

ライセンス: CC BY 4.0
Thomas Hickling, Abdelhafid Zenati, Nabil Aouf and Phillippa Spencer(参考訳) Deep Reinforcement Learning (DRL) スキームの使用は、2015年に初めて導入されて以来、劇的に増加している。 多くの異なるアプリケーションで使われているが、解釈可能性の欠如にはまだ問題がある。 これは研究者や一般大衆からのDRLソリューションの使用に対する理解と信頼の欠如を膨らませている。 この問題を解決するために、説明可能な人工知能(XAI)の分野が登場した。 これはDRLブラックボックスを開くための様々な方法であり、解釈可能なシンボル決定木の使用からShapley Valuesのような数値メソッドまで様々である。 このレビューでは、どのメソッドが使われているか、どのアプリケーションが使われているかを調べます。 これは、どのモデルが各アプリケーションに最も適しているか、またはメソッドが使われていないかを特定するために行われる。

The use of Deep Reinforcement Learning (DRL) schemes has increased dramatically since their first introduction in 2015. Though uses in many different applications are being found they still have a problem with the lack of interpretability. This has bread a lack of understanding and trust in the use of DRL solutions from researchers and the general public. To solve this problem the field of explainable artificial intelligence (XAI) has emerged. This is a variety of different methods that look to open the DRL black boxes, they range from the use of interpretable symbolic decision trees to numerical methods like Shapley Values. This review looks at which methods are being used and what applications they are being used. This is done to identify which models are the best suited to each application or if a method is being underutilised.
翻訳日:2022-07-07 00:38:29 公開日:2022-07-05
# (参考訳) GLANCE:グローバルからローカルアーキテクチャ-ニュートラル概念に基づく説明

GLANCE: Global to Local Architecture-Neutral Concept-based Explanations ( http://arxiv.org/abs/2207.01917v1 )

ライセンス: CC BY 4.0
Avinash Kori, Ben Glocker, Francesca Toni(参考訳) 現在の説明可能性技術のほとんどは、入力空間における特徴の重要性を捉えることに焦点を当てている。 しかし、モデルとデータ生成プロセスの複雑さを考えると、結果として得られる説明は‘完全’ではない。 本研究では,CNN ベースの画像分類器 (アーキテクチャを無視する) による決定を説明するために,新しいツインサロゲート説明可能性フレームワークを提案する。 このために、まず分類器から潜在機能を取り除き、次にこれらの特徴を観察/人間の定義した「コンテキスト」特徴に整列する。 これらのアライメントは意味論的に意味のある概念を形成し、"知覚"データ生成プロセスを表す因果グラフを抽出し、観測されていない潜在特徴と観察された"コンテキスト"特徴の間の機能間相互作用を記述する。 この因果グラフは、異なる形態の局所的な説明を抽出できるグローバルモデルとして機能する。 具体的には、潜在空間における特徴間の「効果」を可視化し、局所的な説明として特徴的重要性を引き出すジェネレータを提供する。 本フレームワークは,逆知識蒸留を用いて分類器の潜在空間から表現を忠実に学習し,視覚的説明の抽出に利用する。 スタイルGAN-v2アーキテクチャと追加の正規化項を用いて、絡み合いとアライメントを強制する。 本稿では,morpho-mnistとffhq human facesデータセットの枠組みを用いて得られた説明を実証し,評価する。 我々のフレームワークは \url{https://github.com/koriavinash1/GLANCE-Explanations} で利用可能です。

Most of the current explainability techniques focus on capturing the importance of features in input space. However, given the complexity of models and data-generating processes, the resulting explanations are far from being `complete', in that they lack an indication of feature interactions and visualization of their `effect'. In this work, we propose a novel twin-surrogate explainability framework to explain the decisions made by any CNN-based image classifier (irrespective of the architecture). For this, we first disentangle latent features from the classifier, followed by aligning these features to observed/human-defined `context' features. These aligned features form semantically meaningful concepts that are used for extracting a causal graph depicting the `perceived' data-generating process, describing the inter- and intra-feature interactions between unobserved latent features and observed `context' features. This causal graph serves as a global model from which local explanations of different forms can be extracted. Specifically, we provide a generator to visualize the `effect' of interactions among features in latent space and draw feature importance therefrom as local explanations. Our framework utilizes adversarial knowledge distillation to faithfully learn a representation from the classifiers' latent space and use it for extracting visual explanations. We use the styleGAN-v2 architecture with an additional regularization term to enforce disentanglement and alignment. We demonstrate and evaluate explanations obtained with our framework on Morpho-MNIST and on the FFHQ human faces dataset. Our framework is available at \url{https://github.com/koriavinash1/GLANCE-Explanations}.
翻訳日:2022-07-07 00:14:41 公開日:2022-07-05
# (参考訳) アイスランドにおけるモノリンガルオープンQAのためのステッピングストーンとしての言語横断QA

Cross-Lingual QA as a Stepping Stone for Monolingual Open QA in Icelandic ( http://arxiv.org/abs/2207.01918v1 )

ライセンス: CC BY-SA 4.0
V\'esteinn Sn{\ae}bjarnarson and Hafsteinn Einarsson(参考訳) 英語以外の言語に対して効果的なオープン質問応答(オープンQA)システムを構築するのは、主にトレーニング用のラベル付きデータがないため困難である。 本稿では,このようなシステムを英語以外の言語でブートストラップするデータ効率の良い手法を提案する。 我々のアプローチは、機械翻訳データと少なくともバイリンガル言語モデルとともに、与えられた言語における限られたQAリソースのみを必要とする。 このアプローチを評価するために,アイスランド語用システムを構築し,triviaスタイルのデータセットに対する性能評価を行った。 訓練に用いられるコーパスは英語であるが、機械はアイスランド語に翻訳される。 我々は、DensePhrases(Lee et al., 2021)で導入された方法論に従って、バイリンガルなアイスランド語/英語の言語モデルをトレーニングし、英語の文脈とアイスランド語の質問を埋め込む。 その結果生まれたシステムは、アイスランド語と英語の間のオープンドメインクロスリンガルqaシステムである。 最後に、このシステムはアイスランドのオープンQAのみに適応し、興味のある言語でキュレートされたデータセットへのアクセスを制限されたオープンQAシステムを効率的に作成する方法を示す。

It can be challenging to build effective open question answering (open QA) systems for languages other than English, mainly due to a lack of labeled data for training. We present a data efficient method to bootstrap such a system for languages other than English. Our approach requires only limited QA resources in the given language, along with machine-translated data, and at least a bilingual language model. To evaluate our approach, we build such a system for the Icelandic language and evaluate performance over trivia style datasets. The corpora used for training are English in origin but machine translated into Icelandic. We train a bilingual Icelandic/English language model to embed English context and Icelandic questions following methodology introduced with DensePhrases (Lee et al., 2021). The resulting system is an open domain cross-lingual QA system between Icelandic and English. Finally, the system is adapted for Icelandic only open QA, demonstrating how it is possible to efficiently create an open QA system with limited access to curated datasets in the language of interest.
翻訳日:2022-07-06 23:52:54 公開日:2022-07-05
# (参考訳) ロバストセグメンテーションのためのベクトル量子化

Vector Quantisation for Robust Segmentation ( http://arxiv.org/abs/2207.01919v1 )

ライセンス: CC BY 4.0
Ainkaran Santhirasekaram, Avinash Kori, Mathias Winkler, Andrea Rockall, Ben Glocker(参考訳) 医療領域におけるセグメンテーションモデルの信頼性は、入力空間における摂動に対するモデルの堅牢性に依存する。 ロバストネスは、画像ノイズ、腐敗、ドメインシフトの様々な原因を示す医療画像において特に課題である。 不均質な環境をシミュレートすることで、データ拡張の形でヒューリスティックに行うか、あるいは特定の摂動を逆行的に生成する学習によって、堅牢性を確保することがしばしば試みられる。 低次元埋め込み空間における離散表現の学習により、セグメンテーションモデルのロバスト性が向上することを示す。 これはベクトル量子化と呼ばれる辞書学習法によって達成される。 我々は、領域シフトと入力空間の雑音摂動の下での潜在空間と出力空間のロバスト性を分析するために設計された一連の実験を用いている。 一般的なUNetアーキテクチャに適応し、ボトルネックに量子化ブロックを挿入します。 3つのセグメンテーションタスクにおいて,セグメンテーション精度の向上とロバスト性の向上を示す。 コードは \url{https://github.com/AinkaranSanthi/Vector-Quantisation-for-Robust-Segmentation} で公開されている。

The reliability of segmentation models in the medical domain depends on the model's robustness to perturbations in the input space. Robustness is a particular challenge in medical imaging exhibiting various sources of image noise, corruptions, and domain shifts. Obtaining robustness is often attempted via simulating heterogeneous environments, either heuristically in the form of data augmentation or by learning to generate specific perturbations in an adversarial manner. We propose and justify that learning a discrete representation in a low dimensional embedding space improves robustness of a segmentation model. This is achieved with a dictionary learning method called vector quantisation. We use a set of experiments designed to analyse robustness in both the latent and output space under domain shift and noise perturbations in the input space. We adapt the popular UNet architecture, inserting a quantisation block in the bottleneck. We demonstrate improved segmentation accuracy and better robustness on three segmentation tasks. Code is available at \url{https://github.com/AinkaranSanthi/Vector-Quantisation-for-Robust-Segmentation}
翻訳日:2022-07-06 23:40:27 公開日:2022-07-05
# (参考訳) タブラルデータにおけるエンティティリンクは正しい注意を必要とする

Entity Linking in Tabular Data Needs the Right Attention ( http://arxiv.org/abs/2207.01937v1 )

ライセンス: CC BY 4.0
Miltiadis Marios Katsakioris, Yiwei Zhou, Daniele Masato(参考訳) 表形式のデータの意味を理解するには、各セル値を知識ベース(KB)内の現実のエンティティに関連付けるために、エンティティリンク(EL)が必要である。 本研究では,ターゲットKBのファクトルックアップに依存しない表形式のデータに対して,ELのエンドツーエンドソリューションに焦点を当てる。 タブラルデータは、カラムヘッダ、セル値、テーブルキャプションを含む異質でスパースなコンテキストを含む。 様々なモデルを用いて各セル値がリンクされるベクトル表現を生成する実験を行った。 その結果,注意マスクと同様に注意機構を適用することが重要であり,モデルが最も関連する文脈にのみ対応でき,情報希薄化を回避することが重要であることがわかった。 最も関連するコンテキストは、同列細胞、同列細胞、ヘッダ、キャプションである。 しかし計算の複雑さは、そのような複雑なモデルのために表データのサイズで二次的に増加する。 我々は,その値,テーブルヘッダ,テーブルキャプションのみに基づいてセルのベクトル表現を生成する表型エンティティlinking liteモデル(tell)を導入することで,一定のメモリ使用を実現する。 TELLはウィキペディアのテーブル上で80.8%の精度を実現している。

Understanding the semantic meaning of tabular data requires Entity Linking (EL), in order to associate each cell value to a real-world entity in a Knowledge Base (KB). In this work, we focus on end-to-end solutions for EL on tabular data that do not rely on fact lookup in the target KB. Tabular data contains heterogeneous and sparse context, including column headers, cell values and table captions. We experiment with various models to generate a vector representation for each cell value to be linked. Our results show that it is critical to apply an attention mechanism as well as an attention mask, so that the model can only attend to the most relevant context and avoid information dilution. The most relevant context includes: same-row cells, same-column cells, headers and caption. Computational complexity, however, grows quadratically with the size of tabular data for such a complex model. We achieve constant memory usage by introducing a Tabular Entity Linking Lite model (TELL ) that generates vector representation for a cell based only on its value, the table headers and the table caption. TELL achieves 80.8% accuracy on Wikipedia tables, which is only 0.1% lower than the state-of-the-art model with quadratic memory usage.
翻訳日:2022-07-06 23:30:43 公開日:2022-07-05
# (参考訳) MIA 2022 Shared Task Submission: Leveraging Entity Representations, Dense-Sparse Hybrids, Fusion-in-Decoder for cross-Lingual Question Answering

MIA 2022 Shared Task Submission: Leveraging Entity Representations, Dense-Sparse Hybrids, and Fusion-in-Decoder for Cross-Lingual Question Answering ( http://arxiv.org/abs/2207.01940v1 )

ライセンス: CC BY 4.0
Zhucheng Tu, Sarguna Janani Padmanabhan(参考訳) 本稿では,多言語情報アクセス(mia)2022のための2段階システムについて述べる。 第1段階は多言語通訳検索とハイブリッド密集型スパース検索戦略からなる。 第2段は、第1段によって返される上位通路から回答を出力する読者で構成される。 本稿では,エンティティ表現と疎検索信号を用いた密検索と融合インデコーダの有効性を示す。 XOR-TyDi QAでは43.46 F1、MKQAでは21.99 F1、平均F1スコアは32.73となる。 テストセットでは、XOR-TyDi QAで40.93 F1、MKQAで22.29 F1、平均F1スコア31.61を得る。 開発とテストセットの両方において、公式のベースラインよりも4F1ポイント以上改善します。

We describe our two-stage system for the Multi-lingual Information Access (MIA) 2022 Shared Task on Cross-Lingual Open-Retrieval Question Answering. The first stage consists of multilingual passage retrieval with a hybrid dense and sparse retrieval strategy. The second stage consists of a reader which outputs the answer from the top passages returned by the first stage. We show the efficacy of using entity representations, sparse retrieval signals to help dense retrieval, and Fusion-in-Decoder. On the development set, we obtain 43.46 F1 on XOR-TyDi QA and 21.99 F1 on MKQA, for an average F1 score of 32.73. On the test set, we obtain 40.93 F1 on XOR-TyDi QA and 22.29 F1 on MKQA, for an average F1 score of 31.61. We improve over the official baseline by over 4 F1 points on both the development and test sets.
翻訳日:2022-07-06 23:24:14 公開日:2022-07-05
# (参考訳) 話し言葉の複数の意味付け

Making sense of spoken plurals ( http://arxiv.org/abs/2207.01947v1 )

ライセンス: CC BY-SA 4.0
Elnaz Shafaei-Bajestan and Peter Uhrig and R. Harald Baayen(参考訳) 分布意味論は形態学のセマンティクスを研究する新しい方法を提供する。 本研究は、英語における名詞特異点とその複数変種の意味論に焦点をあてる。 我々の目標は、複数の概念化のための2つのモデルを比較することである。 1つのモデル(FRACSS)は、特異意味論から複数の意味論を予測する際に、すべての特異複数対を考慮に入れるべきである。 他のモデル (cca) は、複数の概念化は主に基本語の意味クラスに依存すると主張する。 この2つのモデルの比較は,アメリカ英語の大規模コーパスにおける複数のトークンの音声信号が,この2つのモデルによって予測される意味ベクトルとどのように一致しているかを考察する。 形式対意味写像の性能と形態距離と意味距離との相関の2つの尺度が採用されている。 結果はCCAの優れたアライメントに収束する。 この結果から,特定の単語のセマンティック・エリアを優先的に付与する多元化へのアプローチが,高レベルの抽象化に基づくプロセス構築として概念化される理論よりも優れていることが示唆された。 しばしば、非常に抽象的な概念である[+複数形]として考えられたものは、中間レベルの部分一般化の族によってよりよく捉えられる。

Distributional semantics offers new ways to study the semantics of morphology. This study focuses on the semantics of noun singulars and their plural inflectional variants in English. Our goal is to compare two models for the conceptualization of plurality. One model (FRACSS) proposes that all singular-plural pairs should be taken into account when predicting plural semantics from singular semantics. The other model (CCA) argues that conceptualization for plurality depends primarily on the semantic class of the base word. We compare the two models on the basis of how well the speech signal of plural tokens in a large corpus of spoken American English aligns with the semantic vectors predicted by the two models. Two measures are employed: the performance of a form-to-meaning mapping and the correlations between form distances and meaning distances. Results converge on a superior alignment for CCA. Our results suggest that usage-based approaches to pluralization in which a given word's own semantic neighborhood is given priority outperform theories according to which pluralization is conceptualized as a process building on high-level abstraction. We see that what has often been conceived of as a highly abstract concept, [+plural], is better captured via a family of mid-level partial generalizations.
翻訳日:2022-07-06 23:11:40 公開日:2022-07-05
# (参考訳) シャットリング型1オン量子コンピュータ用量子回路コンパイラ

Quantum Circuit Compiler for a Shuttling-Based Trapped-Ion Quantum Computer ( http://arxiv.org/abs/2207.01964v1 )

ライセンス: CC BY 4.0
Fabian Kreppel, Christian Melzer, Janis Wagner, Janine Hilder, Ulrich Poschinger, Ferdinand Schmidt-Kaler, Andr\'e Brinkmann(参考訳) 量子コンピューティングハードウェアの能力の向上と深層量子回路の実現は、量子回路をコンパイルするための完全に自動化され効率的なツールを必要とする。 特定の量子コンピュータアーキテクチャに関連するネイティブゲートのシーケンスで任意の回路を表現するためには、量子ハードウェアプロバイダのランドスケープをまたいでアルゴリズムを可搬化する必要がある。 本稿では,シャットリング型トラップイオン量子プロセッサをターゲットとした,量子回路の変換と最適化が可能なコンパイラを提案する。 ケンブリッジ量子コンピュータの量子回路フレームワークPytket上に設定されたカスタムアルゴリズムで構成されている。 また,AQTリニアスタティックイオンアドレッシングアーキテクチャをターゲットとしたPytket拡張と比較して,ゲート数を標準のPytketよりも最大3.6倍,標準のQiskitコンパイルより最大2.2倍削減できることを示す。

Increasing capabilities of quantum computing hardware and the challenge to realize deep quantum circuits call for fully automated and efficient tools to compile quantum circuits. To express arbitrary circuits in a sequence of native gates pertaining to the specific quantum computer architecture is necessary to make algorithms portable across the landscape of quantum hardware providers. In this work, we present a compiler capable of transforming and optimizing a quantum circuit, targeting a shuttling-based trapped-ion quantum processor. It consists of custom algorithms set on top of the Cambridge Quantum Computer's quantum circuit framework Pytket. The performance is evaluated for a wide range of quantum circuits, showing that the gate counts can be reduced by a factor of up to 3.6 compared to standard Pytket and up to 2.2 compared to standard Qiskit compilation, while we achieve similar gate counts as compared to a Pytket extension targeting the AQT linear-static trapped ion addressing-based architecture.
翻訳日:2022-07-06 22:52:27 公開日:2022-07-05
# (参考訳) グループ正規化の理解と改善

Understanding and Improving Group Normalization ( http://arxiv.org/abs/2207.01972v1 )

ライセンス: CC BY 4.0
Agus Gunawan, Xu Yin, Kang Zhang(参考訳) ニューラルネットワークのトレーニングを支援するため、様々な正規化層が提案されている。 グループ正規化(GN)は、視覚認知タスクにおいて重要なパフォーマンスを達成した、効果的で魅力的な研究の1つである。 大きな成功にもかかわらず、GNには、ニューラルネットワークトレーニングに悪影響を及ぼす可能性のあるいくつかの問題がある。 本稿では,ニューラルネットワークのトレーニングプロセスに影響を及ぼすGNの動作原理を考察する。 実験結果から,GNのバッチ正規化(BN)に対する性能低下の本当の原因を結論する。 1) \textbf{unstable training performance} 2) 外部ノイズや正規化によってもたらされる摂動から生じる歪みに対して, textbf{more sensitive}。 さらに、GNは、トレーニング全体を通してネットワークを支援するBNとは異なり、特定の期間でニューラルネットワークのトレーニングにしか役に立たないことがわかった。 これらの問題を解決するために, BN の利点を取り入れた GN 上に構築された新しい正規化層を提案する。 画像分類実験の結果,提案する正規化層がgnを上回り,バッチサイズに関わらず認識精度が向上し,ネットワークトレーニングが安定することが示された。

Various normalization layers have been proposed to help the training of neural networks. Group Normalization (GN) is one of the effective and attractive studies that achieved significant performances in the visual recognition task. Despite the great success achieved, GN still has several issues that may negatively impact neural network training. In this paper, we introduce an analysis framework and discuss the working principles of GN in affecting the training process of the neural network. From experimental results, we conclude the real cause of GN's inferior performance against Batch normalization (BN): 1) \textbf{unstable training performance}, 2) \textbf{more sensitive} to distortion, whether it comes from external noise or perturbations introduced by the regularization. In addition, we found that GN can only help the neural network training in some specific period, unlike BN, which helps the network throughout the training. To solve these issues, we propose a new normalization layer built on top of GN, by incorporating the advantages of BN. Experimental results on the image classification task demonstrated that the proposed normalization layer outperforms the official GN to improve recognition accuracy regardless of the batch sizes and stabilize the network training.
翻訳日:2022-07-06 22:10:30 公開日:2022-07-05
# (参考訳) 正確性とコスト保証を備えたクラウドソーシング

Unsupervised Crowdsourcing with Accuracy and Cost Guarantees ( http://arxiv.org/abs/2207.01988v1 )

ライセンス: CC BY 4.0
Yashvardhan Didwania, Jayakrishnan Nair, N. Hemachandra(参考訳) 我々は,所定の誤差しきい値が与えられた場合,二元的,教師なしのアイテム群分類のためのクラウドソーシングプラットフォームのコスト最適利用の問題を考える。 クラウドソーシングプラットフォームの労働者は、スキル、経験、過去のパフォーマンスに基づいて、複数のクラスに分けられる。 各ワーカークラスを未知の混乱行列とラベル予測ごとに支払われる(既知の)価格でモデル化します。 そこで本研究では,労働者からラベル予測を取得し,アイテムの真のラベルを推測するアルゴリズムを提案する。 利用可能な(ラベルなしの)項目数が十分に大きい場合、アルゴリズムは所定の誤差閾値を満たし、ほぼ最適に近いコストがかかることを証明します。 最後に、我々のアルゴリズムとそれらに触発されたいくつかのヒューリスティックスを検証する。

We consider the problem of cost-optimal utilization of a crowdsourcing platform for binary, unsupervised classification of a collection of items, given a prescribed error threshold. Workers on the crowdsourcing platform are assumed to be divided into multiple classes, based on their skill, experience, and/or past performance. We model each worker class via an unknown confusion matrix, and a (known) price to be paid per label prediction. For this setting, we propose algorithms for acquiring label predictions from workers, and for inferring the true labels of items. We prove that if the number of (unlabeled) items available is large enough, our algorithms satisfy the prescribed error thresholds, incurring a cost that is near-optimal. Finally, we validate our algorithms, and some heuristics inspired by them, through an extensive case study.
翻訳日:2022-07-06 21:57:05 公開日:2022-07-05
# (参考訳) ニューラルネットワークにおけるエントロピーと一般化可能性の相関

Correlation between entropy and generalizability in a neural network ( http://arxiv.org/abs/2207.01996v1 )

ライセンス: CC BY 4.0
Ge Zhang(参考訳) ニューラルネットワークは非常に複雑な機械学習問題を解くことができるが、その一般化性の理論的理由はまだ完全には理解されていない。 ここでは、Wang-Landau Mote Carloアルゴリズムを用いて、与えられたテスト精度でエントロピー(パラメータ空間の一部の体積の対数)を計算し、与えられたトレーニング損失関数値またはトレーニング精度を算出する。 私たちの結果は、エントロピー的な力は一般化可能性に役立つことを示している。 本研究は、ニューラルネットワーク(スパイラルデータセットと小さな完全接続ニューラルネットワーク)の非常に単純な応用に関するものであるが、より複雑なニューラルネットワークの汎用性を説明する上で有用である。

Although neural networks can solve very complex machine-learning problems, the theoretical reason for their generalizability is still not fully understood. Here we use Wang-Landau Mote Carlo algorithm to calculate the entropy (logarithm of the volume of a part of the parameter space) at a given test accuracy, and a given training loss function value or training accuracy. Our results show that entropical forces help generalizability. Although our study is on a very simple application of neural networks (a spiral dataset and a small, fully-connected neural network), our approach should be useful in explaining the generalizability of more complicated neural networks in future works.
翻訳日:2022-07-06 21:23:59 公開日:2022-07-05
# (参考訳) 正規化による私立授業の廃止

Disentangling private classes through regularization ( http://arxiv.org/abs/2207.02000v1 )

ライセンス: CC BY 4.0
Enzo Tartaglione, Francesca Gennari, Marco Grangetto(参考訳) ディープラーニングモデルは現在、驚くほど多くのタスクを解決するために広くデプロイされています。 しかし、関係する法的側面にはほとんど注意が向けられていない。 2016年、欧州連合は2018年に施行された一般データ保護規則を承認した。 その主な根拠は、いわゆる「データ経済」の運営方法によって市民のプライバシーとデータ保護を保護することである。 データは現代の人工知能の燃料であるため、GDPRはより構造化されたAI規則が施行される前に、一連のアルゴリズムによる意思決定タスクに部分的に適用可能であると論じられている。 一方、AIは、作成目的から逸脱した望ましくない情報漏洩を許すべきではない。 本稿では、aiが処理するデータから、プライベートにしたいクラスに関連する情報を分離する深層学習モデルのためのdispを提案する。 特にDisPは、トレーニング時に同一のプライベートクラスに属する特徴を非正規化し、プライベートクラスのメンバーシップの情報を隠蔽する戦略である。 最先端のディープラーニングモデルに関する我々の実験は、DisPの有効性を示し、プライベートにしたいクラスに対する抽出のリスクを最小限に抑える。

Deep learning models are nowadays broadly deployed to solve an incredibly large variety of tasks. However, little attention has been devoted to connected legal aspects. In 2016, the European Union approved the General Data Protection Regulation which entered into force in 2018. Its main rationale was to protect the privacy and data protection of its citizens by the way of operating of the so-called "Data Economy". As data is the fuel of modern Artificial Intelligence, it is argued that the GDPR can be partly applicable to a series of algorithmic decision making tasks before a more structured AI Regulation enters into force. In the meantime, AI should not allow undesired information leakage deviating from the purpose for which is created. In this work we propose DisP, an approach for deep learning models disentangling the information related to some classes we desire to keep private, from the data processed by AI. In particular, DisP is a regularization strategy de-correlating the features belonging to the same private class at training time, hiding the information of private classes membership. Our experiments on state-of-the-art deep learning models show the effectiveness of DisP, minimizing the risk of extraction for the classes we desire to keep private.
翻訳日:2022-07-06 21:19:58 公開日:2022-07-05
# (参考訳) Block-SCL: プロダクトマッチングにおける教師付きコントラスト学習のブロック事項

Block-SCL: Blocking Matters for Supervised Contrastive Learning in Product Matching ( http://arxiv.org/abs/2207.02008v1 )

ライセンス: CC BY 4.0
Mario Almagro, David Jim\'enez, Diego Ortego, Emilio Almaz\'an and Eva Mart\'inez(参考訳) 製品マッチングは、eコマースにおける消費者行動のグローバル理解の基本的なステップである。 実際には、製品マッチングとは、異なるデータソース(例えば小売業者)から2つの製品が同じ製品を表すかどうかを決定するタスクを指す。 標準的なパイプラインはブロッキングと呼ばれる以前のステージを使用しており、ある製品に対して同様の特性(ブランド、カテゴリ、フレーバーなど)に基づいて、潜在的なマッチング候補のセットが検索される。 このような類似した製品候補から、一致しないものはハードネガティブと見なすことができる。 本稿では,ブロック出力を用いたSCL(Supervised Contrastive Learning)の活用戦略であるBlock-SCLを提案する。 具体的には、Block-SCLはブロック段階で得られた強陰性サンプルを使用して、リッチなバッチを構築する。 これらのバッチは、モデルにプロダクトマッチングのためのより意味のある文埋め込みを学ぶための強力なトレーニングシグナルを提供する。 いくつかの公開データセットの実験結果は、短い製品タイトルを入力として使用するだけで、データ拡張がなく、競合するメソッドよりも軽いトランスフォーマーバックボーンを使用するにもかかわらず、Block-SCLが最先端の結果を達成することを示した。

Product matching is a fundamental step for the global understanding of consumer behavior in e-commerce. In practice, product matching refers to the task of deciding if two product offers from different data sources (e.g. retailers) represent the same product. Standard pipelines use a previous stage called blocking, where for a given product offer a set of potential matching candidates are retrieved based on similar characteristics (e.g. same brand, category, flavor, etc.). From these similar product candidates, those that are not a match can be considered hard negatives. We present Block-SCL, a strategy that uses the blocking output to make the most of Supervised Contrastive Learning (SCL). Concretely, Block-SCL builds enriched batches using the hard-negatives samples obtained in the blocking stage. These batches provide a strong training signal leading the model to learn more meaningful sentence embeddings for product matching. Experimental results in several public datasets demonstrate that Block-SCL achieves state-of-the-art results despite only using short product titles as input, no data augmentation, and a lighter transformer backbone than competing methods.
翻訳日:2022-07-06 21:01:51 公開日:2022-07-05
# (参考訳) 信頼に値するエネルギー分散に向けて : 非インタラクティブ負荷モニタリングの課題, 方法, 展望のレビュー

Towards trustworthy Energy Disaggregation: A review of challenges, methods and perspectives for Non-Intrusive Load Monitoring ( http://arxiv.org/abs/2207.02009v1 )

ライセンス: CC BY 4.0
Maria Kaselimi, Eftychios Protopapadakis, Athanasios Voulodimos, Nikolaos Doulamis, Anastasios Doulamis(参考訳) 非侵入負荷監視(Non-Inrusive Load Monitoring, NILM)は、電力消費を個々のサブコンポーネントに分散させるタスクである。 長年にわたり、信号処理と機械学習アルゴリズムが組み合わさってこれを実現してきた。 多くの出版物や広範な研究が、望ましい性能に到達するための最先端の手法のためのエネルギー分解(NILM)について行われている。 科学コミュニティの最初の関心は、機械学習ツールを用いたNILM問題を数学的に定式化し記述することであった。 現在、私たちは成熟したNILM時代にあり、NILMを実際のアプリケーションシナリオに適用しようと試みています。 したがって、アルゴリズムの複雑さ、転送可能性、信頼性、実用性、そして一般に信頼性が主な関心事である。 本研究は,未熟期のNILM時代と成熟期とのギャップを狭めるものである。 特に, 住宅機器のみを対象としたNILM法に関する総合的な文献レビューを行った。 論文は、最近発表された多くの学術論文の結果を分析し、要約し、提示する。 また、これらの手法のハイライトについて論じ、NILM法の適用について研究者が考慮すべき研究ジレンマを紹介する。 最後に,従来のデアグリゲーションモデルを実用的で信頼性の高いフレームワークに移行する必要性を示す。

Non-intrusive load monitoring (NILM) is the task of disaggregating the total power consumption into its individual sub-components. Over the years, signal processing and machine learning algorithms have been combined to achieve this. A lot of publications and extensive research works are performed on energy disaggregation or NILM for the state-of-the-art methods to reach on the desirable performance. The initial interest of the scientific community to formulate and describe mathematically the NILM problem using machine learning tools has now shifted into a more practical NILM. Nowadays, we are in the mature NILM period where there is an attempt for NILM to be applied in real-life application scenarios. Thus, complexity of the algorithms, transferability, reliability, practicality and in general trustworthiness are the main issues of interest. This review narrows the gap between the early immature NILM era and the mature one. In particular, the paper provides a comprehensive literature review of the NILM methods for residential appliances only. The paper analyzes, summarizes and presents the outcomes of a large number of recently published scholarly articles. Also, the paper discusses the highlights of these methods and introduces the research dilemmas that should be taken into consideration by researchers to apply NILM methods. Finally, we show the need for transferring the traditional disaggregation models into a practical and trustworthy framework.
翻訳日:2022-07-06 20:50:42 公開日:2022-07-05
# (参考訳) カード型ヒューマンモデリングによるマルチビュー検出

Multiview Detection with Cardboard Human Modeling ( http://arxiv.org/abs/2207.02013v1 )

ライセンス: CC BY 4.0
Jiahao Ma, Zicheng Duan, Yunzhong Hou, Liang Zheng, Chuong Nguyen(参考訳) マルチビュー検出は、重複する視野を持つ複数のキャリブレーションカメラを使用して、閉塞された歩行者を見つける。 この分野では、既存のメソッドは通常 ``human modeling - aggregate''' 戦略を採用する。 頑丈な歩行者表現を見つけるために、検出された2Dバウンディングボックスの位置を直感的に利用するものや、地上に投影されたフレーム全体の特徴を利用するものもある。 しかし、前者は人間の外見を考慮せず、多くの曖昧さを招き、後者は人間の胴体と頭部の正確な高さの欠如により投影誤差に悩まされる。 本稿では,人点雲モデリングに基づく新しい歩行者表現方式を提案する。 具体的には、人体深度推定のためのレイトレーシングを用いて、歩行者を地上の薄い段ボール点雲としてモデル化する。 そして,歩行者用段ボールの点群を複数のビューに集約して最終決定を行う。 既存の表現と比較して、提案手法は人間の外観を明示的に活用し、比較的正確な高さ推定によってプロジェクション誤差を著しく低減する。 2つの標準評価ベンチマークにおいて,提案手法は非常に競争力のある結果が得られる。

Multiview detection uses multiple calibrated cameras with overlapping fields of views to locate occluded pedestrians. In this field, existing methods typically adopt a ``human modeling - aggregation'' strategy. To find robust pedestrian representations, some intuitively use locations of detected 2D bounding boxes, while others use entire frame features projected to the ground plane. However, the former does not consider human appearance and leads to many ambiguities, and the latter suffers from projection errors due to the lack of accurate height of the human torso and head. In this paper, we propose a new pedestrian representation scheme based on human point clouds modeling. Specifically, using ray tracing for holistic human depth estimation, we model pedestrians as upright, thin cardboard point clouds on the ground. Then, we aggregate the point clouds of the pedestrian cardboard across multiple views for a final decision. Compared with existing representations, the proposed method explicitly leverages human appearance and reduces projection errors significantly by relatively accurate height estimation. On two standard evaluation benchmarks, the proposed method achieves very competitive results.
翻訳日:2022-07-06 20:04:15 公開日:2022-07-05
# (参考訳) DeepPS2:2つの異なる照明画像を用いた測光ステレオの再検討

DeepPS2: Revisiting Photometric Stereo Using Two Differently Illuminated Images ( http://arxiv.org/abs/2207.02025v1 )

ライセンス: CC BY 4.0
Ashish Tiwari and Shanmuganathan Raman(参考訳) 光度ステレオは、異なる照明下で撮影された物体の画像を用いて3次元表面の正常を回復する問題であり、コンピュータビジョン研究において大きな関心を集めている。 従来のディープ・ラーニング・ベースの手法は成功したが、それでもなお困難である。 (i)3つ以上の異なる照明画像の要求。 (ii)未知の一般反射率をモデル化できないこと、 (iii) 訓練のための正確な3次元地中面正規値と既知の照明情報の必要性。 そこで本研究では,PS2問題と呼ばれる2つの異なる照明画像を用いて,光度ステレオの未探索問題に対処する。 これは、シェーディングの形状(SfS)や3つ以上の画像を必要とする従来の測光ステレオ(PS)のような単一の画像ベースの再構成手法の中間ケースである。 本稿では,DeepPS2と呼ばれる逆レンダリングに基づく深層学習フレームワークを提案する。 画像再構成と併用することで,自己監督環境における照明推定が向上することを示す。

Photometric stereo, a problem of recovering 3D surface normals using images of an object captured under different lightings, has been of great interest and importance in computer vision research. Despite the success of existing traditional and deep learning-based methods, it is still challenging due to: (i) the requirement of three or more differently illuminated images, (ii) the inability to model unknown general reflectance, and (iii) the requirement of accurate 3D ground truth surface normals and known lighting information for training. In this work, we attempt to address an under-explored problem of photometric stereo using just two differently illuminated images, referred to as the PS2 problem. It is an intermediate case between a single image-based reconstruction method like Shape from Shading (SfS) and the traditional Photometric Stereo (PS), which requires three or more images. We propose an inverse rendering-based deep learning framework, called DeepPS2, that jointly performs surface normal, albedo, lighting estimation, and image relighting in a completely self-supervised manner with no requirement of ground truth data. We demonstrate how image relighting in conjunction with image reconstruction enhances the lighting estimation in a self-supervised setting.
翻訳日:2022-07-06 19:49:35 公開日:2022-07-05
# (参考訳) CNNを用いた新型コロナウイルス診断用ローカルビジョントランス

CNN-based Local Vision Transformer for COVID-19 Diagnosis ( http://arxiv.org/abs/2207.02027v1 )

ライセンス: CC BY 4.0
Hongyan Xu, Xiu Su, Dadong Wang(参考訳) 深層学習技術は、医師が新型コロナウイルス感染症を迅速かつ正確に識別するための補助技術として使用できる。 近年、視覚変換器(ViT)は、その大域的受容野により、画像分類に大きな可能性を示している。 しかし、cnnに固有の帰納的バイアスがないため、vitベースの構造は機能の豊富さとモデルトレーニングの困難さに繋がる。 本稿では、小型のCOVID-19データセット上でのViTベースのアーキテクチャの性能を向上させるために、Transformer for COVID-19(COVT)と呼ばれる新しい構造を提案する。 ローカル構造情報を効率的に抽出するための特徴抽出器としてCNNを使用し、グローバル情報のためのViTのMultilayer Perception(MLP)モジュールに平均プーリングを導入する。 2つのCOVID-19データセットとImageNetデータセットに対して,本手法の有効性を示す実験を行った。

Deep learning technology can be used as an assistive technology to help doctors quickly and accurately identify COVID-19 infections. Recently, Vision Transformer (ViT) has shown great potential towards image classification due to its global receptive field. However, due to the lack of inductive biases inherent to CNNs, the ViT-based structure leads to limited feature richness and difficulty in model training. In this paper, we propose a new structure called Transformer for COVID-19 (COVT) to improve the performance of ViT-based architectures on small COVID-19 datasets. It uses CNN as a feature extractor to effectively extract local structural information, and introduces average pooling to ViT's Multilayer Perception(MLP) module for global information. Experiments show the effectiveness of our method on the two COVID-19 datasets and the ImageNet dataset.
翻訳日:2022-07-06 19:25:05 公開日:2022-07-05
# (参考訳) オンライン2段階安定マッチング

Online 2-stage Stable Matching ( http://arxiv.org/abs/2207.02057v1 )

ライセンス: CC BY 4.0
Evripidis Bampis and Bruno Escoffier and Paul Youssef(参考訳) 学生が大学に配属されるシステムを考える。 学生が応募する第1ラウンドがあり、$m_1$に対応する第1ラウンド(stable)を計算しなければならない。 しかし、一部の学生は制度を離れることを決意することがある(計画を変更したり、外国の大学に行ったり、制度にない機関へ行ったり)。 そして、(これらの削除の後)第2ラウンドで、2番目の(最終的な)安定な$M_2$を計算する。 割り当ての変更は望ましくないため、目標は2つの安定マッチングである$m_1$と$m_2$の間の離婚/修正の数を最小化することである。 すると、$M_1$と$M_2$をどうやって選ぶべきか? この問題を解くための "it optimal online} アルゴリズムが存在することを示す。 特に、支配性のおかげで、システムを離れる学生を知らずに、最適に$m_1$を計算できることが示される。 結果は、入力(学生、オープンポジション)の他の可能な変更に一般化する。 また、さらに多くの段階についても取り組み、3つの段階が存在するとすぐに考慮された問題に対して競合的(オンライン)アルゴリズムが実現できないことを示した。

We focus on an online 2-stage problem, motivated by the following situation: consider a system where students shall be assigned to universities. There is a first round where some students apply, and a first (stable) matching $M_1$ has to be computed. However, some students may decide to leave the system (change their plan, go to a foreign university, or to some institution not in the system). Then, in a second round (after these deletions), we shall compute a second (final) stable matching $M_2$. As it is undesirable to change assignments, the goal is to minimize the number of divorces/modifications between the two stable matchings $M_1$ and $M_2$. Then, how should we choose $M_1$ and $M_2$? We show that there is an {\it optimal online} algorithm to solve this problem. In particular, thanks to a dominance property, we show that we can optimally compute $M_1$ without knowing the students that will leave the system. We generalize the result to some other possible modifications in the input (students, open positions). We also tackle the case of more stages, showing that no competitive (online) algorithm can be achieved for the considered problem as soon as there are 3 stages.
翻訳日:2022-07-06 19:14:29 公開日:2022-07-05
# (参考訳) 効率的プリマル双対アルゴリズムを用いた最適サブセット選択

Best Subset Selection with Efficient Primal-Dual Algorithm ( http://arxiv.org/abs/2207.02058v1 )

ライセンス: CC BY 4.0
Shaogang Ren, Guanhua Fang, Ping Li(参考訳) 最適なサブセット選択は、多くのスパース学習問題において'ゴールド標準'と見なされる。 この非凸問題とNPハード問題に対する様々な最適化手法が提案されている。 本稿では,$\ell_0$-regularized問題系の双対形式について検討する。 主問題構造と双対問題構造に基づく効率的な主対法が開発されている。 この2値範囲推定とインクリメンタルな戦略を活用することで,アルゴリズムは冗長な計算を減らし,最適部分集合選択の解を改善することができる。 合成および実世界のデータセットに関する理論的解析と実験は、提案した解の効率性と統計的性質を検証する。

Best subset selection is considered the `gold standard' for many sparse learning problems. A variety of optimization techniques have been proposed to attack this non-convex and NP-hard problem. In this paper, we investigate the dual forms of a family of $\ell_0$-regularized problems. An efficient primal-dual method has been developed based on the primal and dual problem structures. By leveraging the dual range estimation along with the incremental strategy, our algorithm potentially reduces redundant computation and improves the solutions of best subset selection. Theoretical analysis and experiments on synthetic and real-world datasets validate the efficiency and statistical properties of the proposed solutions.
翻訳日:2022-07-06 18:56:56 公開日:2022-07-05
# (参考訳) 脳MRI画像における教師なし異常分割のためのトランスフォーマーモデル

Transformer based Models for Unsupervised Anomaly Segmentation in Brain MR Images ( http://arxiv.org/abs/2207.02059v1 )

ライセンス: CC BY 4.0
Ahmed Ghorbel (1), Ahmed Aldahdooh (1), Shadi Albarqouni (2), Wassim Hamidouche (1) ((1) Univ. Rennes, INSA Rennes, CNRS, IETR - UMR 6164, Rennes, France (2) University Hospital Bonn, Venusberg-Campus 1, D-53127, Bonn, Germany, Helmholtz Munich, Ingolst\"adter Landstra{\ss}e 1, D-85764, Neuherberg, Germany, Technical University of Munich, Boltzmannstr. 3, D-85748 Garching, Germany)(参考訳) 診断放射線学に関連する患者のケアの質は、医師の作業負荷に比例する。 セグメンテーションは診断と治療の基本的な限界前駆体である。 機械学習(ML)の進歩は、単一のアプリケーションを一般化されたアルゴリズムで置き換えるための診断効率の向上を目指している。 教師なし異常検出(unsupervised anomaly detection, uad)では、畳み込みニューラルネットワーク(convolutional neural network, cnn)ベースのオートエンコーダ(aes)と変分オートエンコーダ(vaes)が、再構成に基づくアノマリーセグメンテーションのデファクトのアプローチとみなされる。 医学画像の異常領域を探すことは、異常分割を使用する主な応用の1つである。 CNNの制限された受容フィールドは、CNNがグローバルコンテキストをモデル化することを制限するため、異常領域が画像の一部をカバーする場合、CNNベースのAEは画像の意味的理解をもたらすことができない。 一方、ViT(Vision Transformers)はCNNの代替として登場した。 イメージパッチを相互に関連付けることができる自己認識機構に依存している。 本研究は,コヒーレントで現実的なイメージを再構成するために,再建型UADタスクのためのAE構築におけるトランスフォーマー機能について検討する。 脳磁気共鳴イメージング(mri)の異常セグメント化に着目し,5つのトランスフォーマーモデルを提案するとともに,最先端(sota)モデルに匹敵するセグメント化性能を実現する。 ソースコードはgithub https://github.com/ahmedgh970/transformers_unsupervised_anomaly_segmentation.gitで入手できる。

The quality of patient care associated with diagnostic radiology is proportionate to a physician workload. Segmentation is a fundamental limiting precursor to diagnostic and therapeutic procedures. Advances in Machine Learning (ML) aim to increase diagnostic efficiency to replace single application with generalized algorithms. In Unsupervised Anomaly Detection (UAD), Convolutional Neural Network (CNN) based Autoencoders (AEs) and Variational Autoencoders (VAEs) are considered as a de facto approach for reconstruction based anomaly segmentation. Looking for anomalous regions in medical images is one of the main applications that use anomaly segmentation. The restricted receptive field in CNNs limit the CNN to model the global context and hence if the anomalous regions cover parts of the image, the CNN-based AEs are not capable to bring semantic understanding of the image. On the other hand, Vision Transformers (ViTs) have emerged as a competitive alternative to CNNs. It relies on the self-attention mechanism that is capable to relate image patches to each other. To reconstruct a coherent and more realistic image, in this work, we investigate Transformer capabilities in building AEs for reconstruction based UAD task. We focus on anomaly segmentation for Brain Magnetic Resonance Imaging (MRI) and present five Transformer-based models while enabling segmentation performance comparable or superior to State-of-The-Art (SOTA) models. The source code is available on Github https://github.com/ahmedgh970/Transformers_Unsupervised_Anomaly_Segmentation.git
翻訳日:2022-07-06 18:55:50 公開日:2022-07-05
# (参考訳) メタトランスファー学習による実画像復調のためのテスト時間適応

Test-time Adaptation for Real Image Denoising via Meta-transfer Learning ( http://arxiv.org/abs/2207.02066v1 )

ライセンス: CC BY 4.0
Agus Gunawan, Muhammad Adi Nugroho, Se Jin Park(参考訳) 近年,実画像復号化タスクに関する研究が盛んに行われている。 しかし、この取り組みはより優れたネットワークアーキテクチャを構築することで、実際のイメージのデノーミングを改善することに重点を置いている。 我々は,マルチタスクネットワーク上でテスト時間適応を実現するための学習戦略を改良し,実画像のデノベーション性能を改善することを提案する。 学習戦略は、第1段階がネットワークを事前学習し、より優れたメタ初期化を得る2つの段階である。 一方,我々はメタラーニングをネットワークの微調整(メタ・トランスファー学習)に応用し,実雑音画像に対するテスト時間適応を可能にする。 さらに,より優れた学習戦略を実現するために,自己教師付きマスク型再構成損失を伴うネットワークアーキテクチャを提案する。 実雑音データを用いた実験は,提案手法の寄与を示し,提案手法が他のSOTA法より優れていることを示す。

In recent years, a ton of research has been conducted on real image denoising tasks. However, the efforts are more focused on improving real image denoising through creating a better network architecture. We explore a different direction where we propose to improve real image denoising performance through a better learning strategy that can enable test-time adaptation on the multi-task network. The learning strategy is two stages where the first stage pre-train the network using meta-auxiliary learning to get better meta-initialization. Meanwhile, we use meta-learning for fine-tuning (meta-transfer learning) the network as the second stage of our training to enable test-time adaptation on real noisy images. To exploit a better learning strategy, we also propose a network architecture with self-supervised masked reconstruction loss. Experiments on a real noisy dataset show the contribution of the proposed method and show that the proposed method can outperform other SOTA methods.
翻訳日:2022-07-06 18:36:10 公開日:2022-07-05
# (参考訳) SiamMask: 高速なオンラインオブジェクト追跡とセグメンテーションのためのフレームワーク

SiamMask: A Framework for Fast Online Object Tracking and Segmentation ( http://arxiv.org/abs/2207.02088v1 )

ライセンス: CC BY 4.0
Weiming Hu, Qiang Wang, Li Zhang, Luca Bertinetto, Philip H.S. Torr(参考訳) 本稿では,視覚オブジェクトのトラッキングと映像オブジェクトのセグメンテーションの両方を,同じ簡単な方法でリアルタイムに行うためのフレームワークであるSiamMaskを紹介する。 完全畳み込み型シームズアプローチのオフライントレーニング手順を,二分分割タスクによる損失を増大させることにより改善する。 オフライントレーニングが完了すると、SiamMaskは初期化のための単一のバウンディングボックスのみを必要とし、高いフレームレートでビジュアルオブジェクトのトラッキングとセグメンテーションを同時に実行することができる。 さらに,マルチタスクモデルを逐次的に再利用するだけで,複数のオブジェクト追跡やセグメンテーションを扱うフレームワークを拡張することが可能であることを示す。 実験の結果,提案手法の処理効率は55フレーム/秒程度であることがわかった。 ビデオオブジェクトセグメンテーションベンチマークでは、高速で競合性能を示すと同時に、ビジュアルオブジェクト追跡ベンチマークでは、リアルタイムに最先端の結果が得られる。

In this paper we introduce SiamMask, a framework to perform both visual object tracking and video object segmentation, in real-time, with the same simple method. We improve the offline training procedure of popular fully-convolutional Siamese approaches by augmenting their losses with a binary segmentation task. Once the offline training is completed, SiamMask only requires a single bounding box for initialization and can simultaneously carry out visual object tracking and segmentation at high frame-rates. Moreover, we show that it is possible to extend the framework to handle multiple object tracking and segmentation by simply re-using the multi-task model in a cascaded fashion. Experimental results show that our approach has high processing efficiency, at around 55 frames per second. It yields real-time state-of-the-art results on visual-object tracking benchmarks, while at the same time demonstrating competitive performance at a high speed for video object segmentation benchmarks.
翻訳日:2022-07-06 18:19:00 公開日:2022-07-05
# (参考訳) 深部オフラインRLにおける入射規則化の実証的研究

An Empirical Study of Implicit Regularization in Deep Offline RL ( http://arxiv.org/abs/2207.02099v1 )

ライセンス: CC BY 4.0
Caglar Gulcehre, Srivatsan Srinivasan, Jakub Sygnowski, Georg Ostrovski, Mehrdad Farajtabar, Matt Hoffman, Razvan Pascanu, Arnaud Doucet(参考訳) 近年、ディープニューラルネットワークはオフライン強化学習において最もよく使われている関数近似器である。 先行研究では、td学習と勾配降下で訓練されたニューラルネットワークは、これらのネットワークの過小パラメータ化によって特徴づけられる暗黙の正規化を示すことが示されている。 特に、ペナルティメート特徴層のランクは \textit{effective rank} とも呼ばれ、トレーニング中に劇的に崩壊することが観測されている。 逆に、この崩壊は学習の後半段階にさらに適応するモデルの能力を減らすために議論され、最終的なパフォーマンスが低下した。 このような効果的なランクとパフォーマンスの関係は、オフラインのrl、主にオフラインのポリシー評価に有効なランクをもたらす。 本研究では,bsuite,Atari,DeepMindの3つのオフラインRLデータセットにおいて,有効ランクと性能の関係について検討した。 直接関連性は制限された設定でのみ存在し、より広範なハイパーパラメータスイープで消失する。 また,暗黙の規則化が学習のダイナミクスに与える影響を説明する3段階の学習を経験的に同定し,ブートストラップだけでは効果的なランクの崩壊を説明することができないことを発見した。 さらに,実効的なランクとパフォーマンスの関係を明らかにする他の要因がいくつかあり得ることを示し,単純化された仮定の下でこの関係を研究することは極めて誤解を招く可能性があると結論づけた。

Deep neural networks are the most commonly used function approximators in offline Reinforcement Learning these days. Prior works have shown that neural nets trained with TD-learning and gradient descent can exhibit implicit regularization that can be characterized by under-parameterization of these networks. Specifically, the rank of the penultimate feature layer, also called \textit{effective rank}, has been observed to drastically collapse during the training. In turn, this collapse has been argued to reduce the model's ability to further adapt in later stages of learning, leading to the diminished final performance. Such an association between the effective rank and performance makes effective rank compelling for offline RL, primarily for offline policy evaluation. In this work, we conduct a careful empirical study on the relation between effective rank and performance on three offline RL datasets : bsuite, Atari, and DeepMind lab. We observe that a direct association exists only in restricted settings and disappears in the more extensive hyperparameter sweeps. Also, we empirically identify three phases of learning that explain the impact of implicit regularization on the learning dynamics and found that bootstrapping alone is insufficient to explain the collapse of the effective rank. Further, we show that several other factors could confound the relationship between effective rank and performance and conclude that studying this association under simplistic assumptions could be highly misleading.
翻訳日:2022-07-06 17:31:06 公開日:2022-07-05
# (参考訳) 深層信念ネットワークに基づく侵入検知システム

An Intrusion Detection System based on Deep Belief Networks ( http://arxiv.org/abs/2207.02117v1 )

ライセンス: CC BY 4.0
Othmane Belarbi, Aftab Khan, Pietro Carnelli and Theodoros Spyridopoulos(参考訳) 接続デバイスが急速に成長し、ゼロデイ攻撃として知られる新たなサイバーセキュリティ脅威が急増した。 従来の行動に基づくIDSは、これらの攻撃を検出するためにDNNに依存している。 DNNのトレーニングに使用されるデータセットの品質は、検出性能において重要な役割を果たす。 本稿では,接続機器のネットワーク内におけるサイバー攻撃検出におけるdbnの性能を評価・評価する。 CICIDS2017データセットを使用して、提案したDBNアプローチのパフォーマンスをトレーニングし、評価した。 いくつかのクラスバランス技術を適用し評価した。 最後に,従来のMLPモデルと既存の最先端技術との比較を行った。 提案したDBNアプローチは,トレーニングデータセットに表現されていない攻撃の検出において,競争力と有望な結果を示す。

The rapid growth of connected devices has led to the proliferation of novel cyber-security threats known as zero-day attacks. Traditional behaviour-based IDS rely on DNN to detect these attacks. The quality of the dataset used to train the DNN plays a critical role in the detection performance, with underrepresented samples causing poor performances. In this paper, we develop and evaluate the performance of DBN on detecting cyber-attacks within a network of connected devices. The CICIDS2017 dataset was used to train and evaluate the performance of our proposed DBN approach. Several class balancing techniques were applied and evaluated. Lastly, we compare our approach against a conventional MLP model and the existing state-of-the-art. Our proposed DBN approach shows competitive and promising results, with significant performance improvement on the detection of attacks underrepresented in the training dataset.
翻訳日:2022-07-06 17:29:55 公開日:2022-07-05
# (参考訳) グローバル特徴量の決定論的分離とそのデータ分析への応用

Deterministic Decoupling of Global Features and its Application to Data Analysis ( http://arxiv.org/abs/2207.02132v1 )

ライセンス: CC BY 4.0
Eduardo Martinez-Enriquez (1), Maria del Mar Gonzalez (2), Javier Portilla (1) ((1) Consejo Superior de Investigaciones Cientificas CSIC, (2) Universidad Autonoma de Madrid)(参考訳) 本稿では,グローバル機能を決定論的に分離する手法を紹介し,そのデータ解析性能の向上と,機能伝達のための新たな会場の開設に有用性を示す。 我々は,部分多様体上の変換を定義することに基づく新しい形式を,特徴勾配に沿った軌跡に従うことによって提案する。 これらの変換を通じて、我々は、微分可能な特徴の分離を可能にする正規化を定義する。 これをサンプリングモーメントに適用することにより、平均と分散から分離されるだけでなく、歪みからも分離された正規化カルトシスの準解析解が得られる。 本手法は,グローバルな記述子に基づく回帰・分類問題に対して,元のデータ領域およびフィルタバンクの出力に適用し,古典的(非分離型)記述子と比較して,一貫した性能向上を実現している。

We introduce a method for deterministic decoupling of global features and show its applicability to improve data analysis performance, as well as to open new venues for feature transfer. We propose a new formalism that is based on defining transformations on submanifolds, by following trajectories along the features gradients. Through these transformations we define a normalization that, we demonstrate, allows for decoupling differentiable features. By applying this to sampling moments, we obtain a quasi-analytic solution for the orthokurtosis, a normalized version of the kurtosis that is not just decoupled from mean and variance, but also from skewness. We apply this method in the original data domain and at the output of a filter bank to regression and classification problems based on global descriptors, obtaining a consistent and significant improvement in performance as compared to using classical (non-decoupled) descriptors.
翻訳日:2022-07-06 17:16:39 公開日:2022-07-05
# (参考訳) 確率ブロックモデルを用いたスペクトル情報に基づく大規模グラフ集合の確率密度推定

Probability density estimation for sets of large graphs with respect to spectral information using stochastic block models ( http://arxiv.org/abs/2207.02168v1 )

ライセンス: CC BY 4.0
Daniel Ferguson and Fran\c{c}ois G. Meyer(参考訳) 分布 $\mu$ から iid をサンプリングしたグラフ値データの場合、サンプルモーメントは計量の選択に関して計算される。 本研究では、各隣接行列の固有値の間に$\ell_2$ノルムで定義される擬メトリックのグラフの集合を割り当てる。 この擬似メトリックとグラフ値データセットのそれぞれのサンプルモーメントを使用して、分散$\hat{\mu}$のパラメータを推論し、この分布を$\mu$の近似として解釈する。 複素分布 $\mu$ がこのアプローチをうまく近似できるかどうかを実験的に検証する。

For graph-valued data sampled iid from a distribution $\mu$, the sample moments are computed with respect to a choice of metric. In this work, we equip the set of graphs with the pseudo-metric defined by the $\ell_2$ norm between the eigenvalues of the respective adjacency matrices. We use this pseudo metric and the respective sample moments of a graph valued data set to infer the parameters of a distribution $\hat{\mu}$ and interpret this distribution as an approximation of $\mu$. We verify experimentally that complex distributions $\mu$ can be approximated well taking this approach.
翻訳日:2022-07-06 16:19:12 公開日:2022-07-05
# (参考訳) LiDARを用いた3次元移動物体分割のための空間時間情報融合

Efficient Spatial-Temporal Information Fusion for LiDAR-Based 3D Moving Object Segmentation ( http://arxiv.org/abs/2207.02201v1 )

ライセンス: CC BY 4.0
Jiadai Sun, Yuchao Dai, Xianjing Zhang, Jintao Xu, Rui Ai, Weihao Gu, Xieyuanli Chen(参考訳) 正確な移動物体セグメンテーションは、自律運転に不可欠な課題である。 衝突回避、経路計画、静的マップ構築など、多くの下流タスクに効果的な情報を提供することができる。 空間-時間情報の有効利用は,3次元lidar移動物体セグメンテーション(lidar-mos)にとって重要な課題である。 本研究では,LiDAR-MOSの性能向上のために,空間時間情報とLiDARスキャンの異なる表現モダリティを併用した新しいディープニューラルネットワークを提案する。 具体的には、まずレンジ画像に基づくデュアルブランチ構造を用いて、逐次LiDARスキャンから得られる空間的・時間的情報を別々に扱い、その後、動き誘導型アテンションモジュールを用いて組み合わせる。 また、3Dスパース畳み込みによるポイントリファインメントモジュールを用いて、LiDAR範囲の画像とポイントクラウド表現の両方からの情報を融合し、オブジェクトの境界にあるアーティファクトを減らす。 本稿では,SemanticKITTIのLiDAR-MOSベンチマークにおける提案手法の有効性を検証する。 提案手法は,LiDAR-MOS IoUにおいて最先端の手法よりも優れていた。 設計した粗大なアーキテクチャの利点を生かして,本手法はセンサフレームレートでオンラインに動作する。 このメソッドの実装は、https://github.com/haomo-ai/motionseg3dでオープンソースとして利用可能である。

Accurate moving object segmentation is an essential task for autonomous driving. It can provide effective information for many downstream tasks, such as collision avoidance, path planning, and static map construction. How to effectively exploit the spatial-temporal information is a critical question for 3D LiDAR moving object segmentation (LiDAR-MOS). In this work, we propose a novel deep neural network exploiting both spatial-temporal information and different representation modalities of LiDAR scans to improve LiDAR-MOS performance. Specifically, we first use a range image-based dual-branch structure to separately deal with spatial and temporal information that can be obtained from sequential LiDAR scans, and later combine them using motion-guided attention modules. We also use a point refinement module via 3D sparse convolution to fuse the information from both LiDAR range image and point cloud representations and reduce the artifacts on the borders of the objects. We verify the effectiveness of our proposed approach on the LiDAR-MOS benchmark of SemanticKITTI. Our method outperforms the state-of-the-art methods significantly in terms of LiDAR-MOS IoU. Benefiting from the devised coarse-to-fine architecture, our method operates online at sensor frame rate. The implementation of our method is available as open source at: https://github.com/haomo-ai/MotionSeg3D.
翻訳日:2022-07-06 16:17:55 公開日:2022-07-05
# PETは必要なだけですか。 3D CNNを用いたアルツハイマー病のマルチモーダル研究

Is a PET all you need? A multi-modal study for Alzheimer's disease using 3D CNNs ( http://arxiv.org/abs/2207.02094v1 )

ライセンス: Link先を確認
Marla Narazani, Ignacio Sarasua, Sebastian P\"olsterl, Aldana Lizarraga, Igor Yakushev, Christian Wachinger(参考訳) アルツハイマー病(Alzheimer's Disease, AD)は、認知症の最も一般的な形態であり、認知症の多因子因果関係により診断が困難であることが多い。 神経画像を用いた深部神経ネットワーク(DNN)を用いたコンピュータ支援診断の最近の研究は、構造的磁気共鳴画像(sMRI)とフルオロデオキシグルコースポジトロン放射断層撮影(FDG-PET)を融合させることにより、ADの健康管理と被験者の集団において精度が向上することを示した。 しかし、この結果は、FDG-PETがsMRIよりもAD特異的な病態をよりよく捉えるという確立した臨床知識と矛盾する。 そこで本研究では,fdg-pet と smri に基づいて,多変量 dnn を体系的に評価し,多変量 dnn と多変量 dnn を批判的に再評価する枠組みを提案する。 FDG-PETを用いた単一モダリティネットワークはMRI(精度0.91対0.87)よりも優れており、組み合わせた場合の改善は見られない。 これはADバイオマーカーに関する確立された臨床知識に適合するが、マルチモーダルDNNの真の価値についての疑問を提起する。 今後のマルチモーダル融合の取り組みは,提案した評価枠組みに従って個別のモダリティの貢献を体系的に評価すべきである。 最後に,多モード画像情報の融合が臨床ニーズに合致する認知症の鑑別診断に焦点を当て,健康な対AD分類を超えて地域社会を奨励する。

Alzheimer's Disease (AD) is the most common form of dementia and often difficult to diagnose due to the multifactorial etiology of dementia. Recent works on neuroimaging-based computer-aided diagnosis with deep neural networks (DNNs) showed that fusing structural magnetic resonance images (sMRI) and fluorodeoxyglucose positron emission tomography (FDG-PET) leads to improved accuracy in a study population of healthy controls and subjects with AD. However, this result conflicts with the established clinical knowledge that FDG-PET better captures AD-specific pathologies than sMRI. Therefore, we propose a framework for the systematic evaluation of multi-modal DNNs and critically re-evaluate single- and multi-modal DNNs based on FDG-PET and sMRI for binary healthy vs. AD, and three-way healthy/mild cognitive impairment/AD classification. Our experiments demonstrate that a single-modality network using FDG-PET performs better than MRI (accuracy 0.91 vs 0.87) and does not show improvement when combined. This conforms with the established clinical knowledge on AD biomarkers, but raises questions about the true benefit of multi-modal DNNs. We argue that future work on multi-modal fusion should systematically assess the contribution of individual modalities following our proposed evaluation framework. Finally, we encourage the community to go beyond healthy vs. AD classification and focus on differential diagnosis of dementia, where fusing multi-modal image information conforms with a clinical need.
翻訳日:2022-07-06 15:57:35 公開日:2022-07-05
# 言語と視覚摂動に対するマルチモーダルロバストネス解析

Multi-modal Robustness Analysis Against Language and Visual Perturbations ( http://arxiv.org/abs/2207.02159v1 )

ライセンス: Link先を確認
Madeline C. Schiappa, Yogesh S. Rawat, Shruti Vyas, Vibhav Vineet, Hamid Palangi(参考訳) 大規模データセットを用いた共同視覚と言語モデリングは、最近、単一のモーダル学習と比較して、マルチモーダルタスクの良好な進歩を示している。 しかし、現実世界の摂動に対するこれらのアプローチの堅牢性は研究されていない。 本研究では,映像と言語に着目した様々な現実世界の摂動に対して,このようなモデルを用いた大規模ロバストネス研究を行う。 テキスト間検索に焦点をあて,90の異なる視覚と35の異なるテキスト摂動を利用する2つの大規模ベンチマークデータセットMSRVTT-PとYouCook2-Pを提案する。 この研究は興味深い発見をいくつか示しています。 1)テキストの摂動時とビデオの摂動時とでは,研究モデルの方が頑健である 2) トランスフォーマーテキストエンコーダは, 単語埋め込み手法と比較して, テキストの摂動や視覚の摂動に頑健である。 3) 2分岐エンコーダを分離して使用する場合、アーキテクチャがクロスアテンションを使用する場合よりも頑健である。 この研究がベンチマークとなり、堅牢なマルチモーダル学習における今後の研究のガイドとなることを願っています。

Joint visual and language modeling on large-scale datasets has recently shown a good progress in multi-modal tasks when compared to single modal learning. However, robustness of these approaches against real-world perturbations has not been studied. In this work, we perform the first extensive robustness study of such models against various real-world perturbations focusing on video and language. We focus on text-to-video retrieval and propose two large-scale benchmark datasets, MSRVTT-P and YouCook2-P, which utilize 90 different visual and 35 different textual perturbations. The study reveals some interesting findings: 1) The studied models are more robust when text is perturbed versus when video is perturbed 2) The transformer text encoder is more robust on non-semantic changing text perturbations and visual perturbations compared to word embedding approaches. 3) Using two-branch encoders in isolation is typically more robust than when architectures use cross-attention. We hope this study will serve as a benchmark and guide future research in robust multimodal learning.
翻訳日:2022-07-06 15:57:03 公開日:2022-07-05
# 実世界の視覚ロボット操作のためのランダム・カノニカルモデル予測制御

Randomized-to-Canonical Model Predictive Control for Real-world Visual Robotic Manipulation ( http://arxiv.org/abs/2207.01840v1 )

ライセンス: Link先を確認
Tomoya Yamanokuchi, Yuhwan Kwon, Yoshihisa Tsurumine, Eiji Uchibe, Jun Morimoto, Takamitsu Matsubara(参考訳) 多くの研究が最近sim-to-real transferable visual model prediction control (mpc)を研究している。 しかし、そのような作品は1ショットの転送に限られており、シミュレーションで学んだモデルを実世界の新しいドメインに転送するためには、シミュレーションから現実への転送を行うために、実世界のデータが一度収集されなければならない。 この問題を軽減するために,我々はまず,KRCモデル(Kalman Randomized-to-Canonical Model)と呼ばれる新しいモデル学習フレームワークを提案する。 このフレームワークは、ランダム画像からタスク関連固有の特徴とそのダイナミクスを抽出することができる。 そこで我々は,KRCモデルを用いたゼロショットシミュレート可能ビジュアルMPCとしてKRC-MPC(Kalman Randomized-to-Canonical Model Predictive Control)を提案する。 本手法の有効性は,シミュレーションと実世界の両方においてロボットハンドによる弁回転タスクと,シミュレーションにおけるブロック交配タスクによって評価される。 実験の結果,KRC-MPCは実領域やタスクにゼロショットで適用可能であることがわかった。

Many works have recently explored Sim-to-real transferable visual model predictive control (MPC). However, such works are limited to one-shot transfer, where real-world data must be collected once to perform the sim-to-real transfer, which remains a significant human effort in transferring the models learned in simulations to new domains in the real world. To alleviate this problem, we first propose a novel model-learning framework called Kalman Randomized-to-Canonical Model (KRC-model). This framework is capable of extracting task-relevant intrinsic features and their dynamics from randomized images. We then propose Kalman Randomized-to-Canonical Model Predictive Control (KRC-MPC) as a zero-shot sim-to-real transferable visual MPC using KRC-model. The effectiveness of our method is evaluated through a valve rotation task by a robot hand in both simulation and the real world, and a block mating task in simulation. The experimental results show that KRC-MPC can be applied to various real domains and tasks in a zero-shot manner.
翻訳日:2022-07-06 15:54:33 公開日:2022-07-05
# 連合学習におけるラベルフリッピング攻撃に対する防御

Defending against the Label-flipping Attack in Federated Learning ( http://arxiv.org/abs/2207.01982v1 )

ライセンス: Link先を確認
Najeeb Moharram Jebreel, Josep Domingo-Ferrer, David S\'anchez and Alberto Blanco-Justicia(参考訳) federated learning(fl)は、プライベートデータをデバイスに保持しながら機械学習(ml)モデルを共同構築する仲間に対して、デザインによる自律性とプライバシを提供する。 しかし、同じ自主性によって、悪意のある仲間が標的外または標的の毒殺攻撃を行うことで、モデルを毒殺する扉が開ける。 label-flipping (lf) 攻撃は、攻撃者があるクラス(すなわちソースクラス)から別のクラス(すなわちターゲットクラス)へのいくつかの例のラベルを反転させることで、トレーニングデータを毒殺する標的の毒殺攻撃である。 残念ながら、この攻撃は実行が容易で検出が困難であり、グローバルモデルの性能に悪影響を及ぼす。 既存のLFに対する防御は、ピアデータの分布に関する仮定によって制限され、高次元モデルではうまく機能しない。 本稿では、LF攻撃の挙動を深く調査し、ソースクラス例における攻撃者や正直なピアの矛盾した目的が、出力層内のソースクラスとターゲットクラスのニューロンに対応するパラメータ勾配に反映され、それらの勾配が攻撃検出に優れた識別的特徴を持つことを示す。 そこで我々は,まずその勾配を仲間の局所更新から動的に抽出し,抽出した勾配をクラスタ化し,その結果のクラスターを解析し,モデル集約前に潜在的な悪い更新をフィルタリングする新たな防御手法を提案する。 3つのデータセットに関する広範な実証分析は、データ分布やモデル次元に関わらず、lf攻撃に対する防御効果を示している。 また,テストエラーの低減,総合的精度の向上,ソースクラス精度の向上,攻撃成功率の低下,ソースクラス精度の安定性の向上などにより,最先端の防御性能を向上する。

Federated learning (FL) provides autonomy and privacy by design to participating peers, who cooperatively build a machine learning (ML) model while keeping their private data in their devices. However, that same autonomy opens the door for malicious peers to poison the model by conducting either untargeted or targeted poisoning attacks. The label-flipping (LF) attack is a targeted poisoning attack where the attackers poison their training data by flipping the labels of some examples from one class (i.e., the source class) to another (i.e., the target class). Unfortunately, this attack is easy to perform and hard to detect and it negatively impacts on the performance of the global model. Existing defenses against LF are limited by assumptions on the distribution of the peers' data and/or do not perform well with high-dimensional models. In this paper, we deeply investigate the LF attack behavior and find that the contradicting objectives of attackers and honest peers on the source class examples are reflected in the parameter gradients corresponding to the neurons of the source and target classes in the output layer, making those gradients good discriminative features for the attack detection. Accordingly, we propose a novel defense that first dynamically extracts those gradients from the peers' local updates, and then clusters the extracted gradients, analyzes the resulting clusters and filters out potential bad updates before model aggregation. Extensive empirical analysis on three data sets shows the proposed defense's effectiveness against the LF attack regardless of the data distribution or model dimensionality. Also, the proposed defense outperforms several state-of-the-art defenses by offering lower test error, higher overall accuracy, higher source class accuracy, lower attack success rate, and higher stability of the source class accuracy.
翻訳日:2022-07-06 15:54:15 公開日:2022-07-05
# 機械学習モデルにおける保護メカニズム間の相互作用の競合

Conflicting Interactions Among Protections Mechanisms for Machine Learning Models ( http://arxiv.org/abs/2207.01991v1 )

ライセンス: Link先を確認
Sebastian Szyller, N. Asokan(参考訳) 現在、機械学習(ML)に基づくシステムは様々な領域で広く使われている。 その人気から、MLモデルは様々な攻撃の標的となっている。 その結果、セキュリティとプライバシの交差点とMLの研究が盛んになった。 研究コミュニティは、攻撃ベクトルと潜在的な緩和を別々に調査している。 しかし、実践者は複数の脅威に対して同時に防御を展開する必要がある。 特定の関心事に最適な解は、他の懸念に対処しようとする解と負に相互作用することがある。 本研究では,MLベースのシステムのセキュリティ/プライバシを高めるさまざまなソリューション間のインタラクションの衝突の可能性を検討する。 私たちは、モデルとデータのオーナシップに重点を置いています。オーナシップ検証技術は、差分プライベートトレーニングやモデル回避に対する堅牢性といった、他のMLセキュリティ/プライバシ技術とどのように相互作用するかを探求します。 ペアの相互作用を体系的に分析する枠組みを提供する。 多くのペアが互換性がないことを示す。 可能であれば、同時デプロイを可能にするハイパーパラメータやテクニック自体に緩和を提供します。 最後に,その影響について論じ,今後の研究の指針を提供する。

Nowadays, systems based on machine learning (ML) are widely used in different domains. Given their popularity, ML models have become targets for various attacks. As a result, research at the intersection of security and privacy, and ML has flourished. The research community has been exploring the attack vectors and potential mitigations separately. However, practitioners will likely need to deploy defences against several threats simultaneously. A solution that is optimal for a specific concern may interact negatively with solutions intended to address other concerns. In this work, we explore the potential for conflicting interactions between different solutions that enhance the security/privacy of ML-base systems. We focus on model and data ownership; exploring how ownership verification techniques interact with other ML security/privacy techniques like differentially private training, and robustness against model evasion. We provide a framework, and conduct systematic analysis of pairwise interactions. We show that many pairs are incompatible. Where possible, we provide relaxations to the hyperparameters or the techniques themselves that allow for the simultaneous deployment. Lastly, we discuss the implications and provide guidelines for future work.
翻訳日:2022-07-06 15:53:42 公開日:2022-07-05
# チェビシェフ積分時間によるハミルトニアンモンテカルロの加速

Accelerating Hamiltonian Monte Carlo via Chebyshev Integration Time ( http://arxiv.org/abs/2207.02189v1 )

ライセンス: Link先を確認
Jun-Kun Wang and Andre Wibisono(参考訳) ハミルトニアンのモンテカルロ (HMC) はサンプリングにおいて一般的な方法である。 この手法を様々な面で研究する研究はいくつかあるが、興味深い疑問は、加速を達成するために積分時間をどのように選ぶかである。 本研究では,hmc を経由する分布 $\pi(x) \propto \exp(-f(x))$ からのサンプリングプロセスを時間変動積分時間で高速化することを検討する。 l$-smooth と $m$-strongly convex,すなわち、log-smooth と strong log-concave target distribution $\pi$ からサンプリングすると、一定の積分時間の下で、理想的な hmc が $\epsilon$ wasserstein-2 の距離を目標 $\pi$ に設定するのに要するイテレーションの数は $o( \kappa \log \frac{1}{\epsilon} )$ であり、ここで $\kappa := \frac{l}{m}$ は条件数である。 チェビシェフ多項式の根に基づく時間変化積分時間のスキームを提案する。 二次ポテンシャル $f$ の場合、すなわち、目標 $\pi$ がガウス分布であるとき、この積分時間の選択を持つ理想 hmc は、o ( \sqrt{\kappa} \log \frac{1}{\epsilon} )$ を要し、$\epsilon$ 未満のwaserstein-2 距離に到達する。 チェビシェフ多項式のツールを用いて,提案した積分時間を用いたHMCの設計と解析を行う。 実験では、2次的でない滑らかな凸ポテンシャルを持つ分布からのサンプリングにおいても、時間変化積分時間方式を採用する利点を見出した。

Hamiltonian Monte Carlo (HMC) is a popular method in sampling. While there are quite a few works of studying this method on various aspects, an interesting question is how to choose its integration time to achieve acceleration. In this work, we consider accelerating the process of sampling from a distribution $\pi(x) \propto \exp(-f(x))$ via HMC via time-varying integration time. When the potential $f$ is $L$-smooth and $m$-strongly convex, i.e.\ for sampling from a log-smooth and strongly log-concave target distribution $\pi$, it is known that under a constant integration time, the number of iterations that ideal HMC takes to get an $\epsilon$ Wasserstein-2 distance to the target $\pi$ is $O( \kappa \log \frac{1}{\epsilon} )$, where $\kappa := \frac{L}{m}$ is the condition number. We propose a scheme of time-varying integration time based on the roots of Chebyshev polynomials. We show that in the case of quadratic potential $f$, i.e., when the target $\pi$ is a Gaussian distribution, ideal HMC with this choice of integration time only takes $O( \sqrt{\kappa} \log \frac{1}{\epsilon} )$ number of iterations to reach Wasserstein-2 distance less than $\epsilon$; this improvement on the dependence on condition number is akin to acceleration in optimization. The design and analysis of HMC with the proposed integration time is built on the tools of Chebyshev polynomials. Experiments find the advantage of adopting our scheme of time-varying integration time even for sampling from distributions with smooth strongly convex potentials that are not quadratic.
翻訳日:2022-07-06 15:53:27 公開日:2022-07-05
# 非連続ナッシュ平衡値の2プレーヤ・ジェネラルサム差分ゲームによる近似

Approximating Discontinuous Nash Equilibrial Values of Two-Player General-Sum Differential Games ( http://arxiv.org/abs/2207.01773v1 )

ライセンス: Link先を確認
Lei Zhang, Mukesh Ghimire, Wenlong Zhang, Zhe Xu, Yi Ren(参考訳) 2人のプレイヤー微分ゲームに対するナッシュ平衡ポリシーを見つけるには、ハミルトン・ヤコビ・イザックス PDE を解く必要がある。 近年の研究では、人間とロボットの相互作用(HRI)に根ざしたPDEの解決に成功し、自己教師付きニューラルネットワークを普遍的価値近似器として採用している。 本稿では,ゼロサムゲームにおける連続的な値を持つSOTAから,不連続な値を持つ一般サムゲームへ拡張する。 我々は,その収束証明の欠如と不連続損失の一般化分析により,既存の自己教師付き学習手法では,自動運転アプリケーションにおける安全性の懸念を一般化し,高めることができないことを示す。 我々の解決策は、まず、教師付きナッシュ平衡上の値ネットワークを事前訓練し、教師付きデータとPDEと境界条件を組み合わせた損失を最小化することでそれを洗練することである。 重要なことに、純粋な教師付きおよび自己教師付きアプローチに対する学習手法の実証的な利点は、神経活性化関数の注意深い選択を必要とする:$\texttt{relu}$, $\texttt{sin}$, $\texttt{tanh}$, そして、$\texttt{tanh}$が最適な一般化と安全性を実現する唯一の選択であることを示す。 我々の予想では、$\texttt{tanh}$($\textt{sin}$に似ている)は値の連続性とその勾配を許容し、学習の収束に十分であり、同時に不連続な値のランドスケープを近似するのに十分な表現的($\texttt{relu}$に似ている)である。 最後に,不完全な情報相互作用に対する制御ポリシの近似に本手法を適用し,その安全な相互作用への寄与を実証する。

Finding Nash equilibrial policies for two-player differential games requires solving Hamilton-Jacobi-Isaacs PDEs. Recent studies achieved success in circumventing the curse of dimensionality in solving such PDEs with underlying applications to human-robot interactions (HRI), by adopting self-supervised (physics-informed) neural networks as universal value approximators. This paper extends from previous SOTA on zero-sum games with continuous values to general-sum games with discontinuous values, where the discontinuity is caused by that of the players' losses. We show that due to its lack of convergence proof and generalization analysis on discontinuous losses, the existing self-supervised learning technique fails to generalize and raises safety concerns in an autonomous driving application. Our solution is to first pre-train the value network on supervised Nash equilibria, and then refine it by minimizing a loss that combines the supervised data with the PDE and boundary conditions. Importantly, the demonstrated advantage of the proposed learning method against purely supervised and self-supervised approaches requires careful choice of the neural activation function: Among $\texttt{relu}$, $\texttt{sin}$, and $\texttt{tanh}$, we show that $\texttt{tanh}$ is the only choice that achieves optimal generalization and safety performance. Our conjecture is that $\texttt{tanh}$ (similar to $\texttt{sin}$) allows continuity of value and its gradient, which is sufficient for the convergence of learning, and at the same time is expressive enough (similar to $\texttt{relu}$) at approximating discontinuous value landscapes. Lastly, we apply our method to approximating control policies for an incomplete-information interaction and demonstrate its contribution to safe interactions.
翻訳日:2022-07-06 15:52:37 公開日:2022-07-05
# Mallows-type Model for (Ranked) Choicesについて

On A Mallows-type Model For (Ranked) Choices ( http://arxiv.org/abs/2207.01783v1 )

ライセンス: Link先を確認
Yifan Feng, Yuxuan Tang(参考訳) 嗜好学習設定では、各参加者は、表示された候補群のうち、最も好まれるアイテムの注文リストを選択する。 (参加者ごとにセットが違う場合もある。) 人口の選好と(ランク付けされた)選択行動に関する距離ベースランキングモデルを特定する。 ランキングモデルはMallowsモデルに似ているが、Reverse Major Index (RMJ)と呼ばれる新しい距離関数を使用する。 すべての置換をまとめる必要があるにもかかわらず、rmjベースのランキング分布は単純なクローズドフォーム表現で(ランク付けされた)選択確率に集約される。 我々は,モデルパラメータを推定し,特に限られた種類の表示セットが存在する場合に,実データを用いた一般化能力を示す効果的な手法を開発した。

In a preference learning setting, every participant chooses an ordered list of $k$ most preferred items among a displayed set of candidates. (The set can be different for every participant.) We identify a distance-based ranking model for the population's preferences and their (ranked) choice behavior. The ranking model resembles the Mallows model but uses a new distance function called Reverse Major Index (RMJ). We find that despite the need to sum over all permutations, the RMJ-based ranking distribution aggregates into (ranked) choice probabilities with simple closed-form expression. We develop effective methods to estimate the model parameters and showcase their generalization power using real data, especially when there is a limited variety of display sets.
翻訳日:2022-07-06 15:50:43 公開日:2022-07-05
# 確率的システムの確率密度進化の解に対する深層学習アプローチ

A Deep Learning Approach for the solution of Probability Density Evolution of Stochastic Systems ( http://arxiv.org/abs/2207.01907v1 )

ライセンス: Link先を確認
Seid H. Pourtakdoust, Amir H. Khodabakhsh(参考訳) 確率密度進化の導出は、多くの確率システムの振る舞いとその性能に関する貴重な洞察を与える。 しかし、ほとんどの実時間アプリクテーションでは、確率密度進化の数値的決定は難しい課題である。 後者は、ほとんどの計算解を禁止的で非現実的なものにするための時間的および空間的な離散化スキームが要求されているためである。 この点において、効率的な計算代理モデルの開発は極めて重要である。 物理制約ネットワークに関する最近の研究は、深層ニューラルネットワークに物理的洞察を符号化することで、適切なサロゲートを実現することができることを示している。 そこで本研究では,物理インフォームドネットワークの概念を用いたDeepPDEMを導入し,深層学習手法を提案することにより,確率密度の進化を解決する。 DeepPDEMは確率構造の一般密度進化方程式(GDEE)を学ぶ。 このアプローチは、事前シミュレーションデータを用いて密度進化問題を解決するメッシュフリー学習法への道を開くものである。 さらに、最適化スキームやリアルタイムアプリゲーションにおいて、他の時空点におけるソルルメントの効率的なサロゲートとしても機能する。 提案フレームワークの適用可能性を示すため,アクティベーション機能が異なる2つのネットワークアーキテクチャと2つのオプティマイザについて検討した。 3つの異なる問題に対する数値的実装は,提案手法の精度と有効性を検証する。

Derivation of the probability density evolution provides invaluable insight into the behavior of many stochastic systems and their performance. However, for most real-time applica-tions, numerical determination of the probability density evolution is a formidable task. The latter is due to the required temporal and spatial discretization schemes that render most computational solutions prohibitive and impractical. In this respect, the development of an efficient computational surrogate model is of paramount importance. Recent studies on the physics-constrained networks show that a suitable surrogate can be achieved by encoding the physical insight into a deep neural network. To this aim, the present work introduces DeepPDEM which utilizes the concept of physics-informed networks to solve the evolution of the probability density via proposing a deep learning method. DeepPDEM learns the General Density Evolution Equation (GDEE) of stochastic structures. This approach paves the way for a mesh-free learning method that can solve the density evolution problem with-out prior simulation data. Moreover, it can also serve as an efficient surrogate for the solu-tion at any other spatiotemporal points within optimization schemes or real-time applica-tions. To demonstrate the potential applicability of the proposed framework, two network architectures with different activation functions as well as two optimizers are investigated. Numerical implementation on three different problems verifies the accuracy and efficacy of the proposed method.
翻訳日:2022-07-06 15:50:26 公開日:2022-07-05
# 初期修正による整数計画の近似解法を高速化する学習

Learning to Accelerate Approximate Methods for Solving Integer Programming via Early Fixing ( http://arxiv.org/abs/2207.02087v1 )

ライセンス: Link先を確認
Longkang Li, Baoyuan Wu(参考訳) 整数プログラミング(IP)は重要かつ困難な問題である。 近似法はIP問題の解法の有効性と効率性の両方において有望な性能を示した。 しかし、いくつかの反復近似法によって解かれた変数は、非常に長い反復で最終的な収束した離散状態の周りに変動する。 この観察に触発されて,これらの変動変数を収束状態に早期に固定し,解の精度を損なうことなく近似法を高速化することを目指している。 そこで本研究では,近似手法とともに早期修正フレームワークを提案する。 初期固定過程全体をマルコフ決定過程として定式化し,模倣学習を用いて学習する。 ポリシーネットワークは、各反復ブロックにおける各離散候補状態に関する各自由変数の後方確率を評価する。 具体的には、ポリシーネットワークにおいて、強力なマルチヘッドアテンションメカニズムを採用する。 提案した早期修正フレームワークに関する大規模な実験は,制約線形プログラミング,MDFエネルギー最小化,スパース対逆攻撃という3つの異なるIPアプリケーションに対して行われた。 前者は線形IP問題であり、後者は二次IP問題である。 問題尺度を通常のサイズからかなり大きなサイズに拡張します。 ランタイムは大幅にスピードアップしますが、ソリューションの品質はそれほど低下していません。 提案する初期修正フレームワークは、整数計画を解くためのadmm法の加速拡張と見なすことができる。 ソースコードは \url{https://github.com/SCLBD/Accelerated-Lpbox-ADMM} で入手できる。

Integer programming (IP) is an important and challenging problem. Approximate methods have shown promising performance on both effectiveness and efficiency for solving the IP problem. However, we observed that a large fraction of variables solved by some iterative approximate methods fluctuate around their final converged discrete states in very long iterations. Inspired by this observation, we aim to accelerate these approximate methods by early fixing these fluctuated variables to their converged states while not significantly harming the solution accuracy. To this end, we propose an early fixing framework along with the approximate method. We formulate the whole early fixing process as a Markov decision process, and train it using imitation learning. A policy network will evaluate the posterior probability of each free variable concerning its discrete candidate states in each block of iterations. Specifically, we adopt the powerful multi-headed attention mechanism in the policy network. Extensive experiments on our proposed early fixing framework are conducted to three different IP applications: constrained linear programming, MRF energy minimization and sparse adversarial attack. The former one is linear IP problem, while the latter two are quadratic IP problems. We extend the problem scale from regular size to significantly large size. The extensive experiments reveal the competitiveness of our early fixing framework: the runtime speeds up significantly, while the solution quality does not degrade much, even in some cases it is available to obtain better solutions. Our proposed early fixing framework can be regarded as an acceleration extension of ADMM methods for solving integer programming. The source codes are available at \url{https://github.com/SCLBD/Accelerated-Lpbox-ADMM}.
翻訳日:2022-07-06 15:50:08 公開日:2022-07-05
# ソフト組織の明示的分散構造解析におけるデータ駆動同期回避アルゴリズム

Data-driven synchronization-avoiding algorithms in the explicit distributed structural analysis of soft tissue ( http://arxiv.org/abs/2207.02194v1 )

ライセンス: Link先を確認
Guoxiang Grayson Tong and Daniele E. Schiavazzi(参考訳) 本研究では,軟組織の構造解析における明示的有限要素法の計算効率を向上させるためのデータ駆動型フレームワークを提案する。 明示的な分散有限要素ソルバによって生成されたデータに基づいて、エンコーダ・デコーダ長短期記憶深部ニューラルネットワークを訓練する。 このネットワークを利用して共有ノードの同期変位を予測し、プロセッサ間の通信量を最小化する。 提案した同期回避アルゴリズムの精度と安定性を定量化するための広範な数値実験を行う。

We propose a data-driven framework to increase the computational efficiency of the explicit finite element method in the structural analysis of soft tissue. An encoder-decoder long short-term memory deep neural network is trained based on the data produced by an explicit, distributed finite element solver. We leverage this network to predict synchronized displacements at shared nodes, minimizing the amount of communication between processors. We perform extensive numerical experiments to quantify the accuracy and stability of the proposed synchronization-avoiding algorithm.
翻訳日:2022-07-06 15:49:47 公開日:2022-07-05
# (参考訳) 事前拡散サンプリングによるスコアベース生成モデルの高速化

Accelerating Score-based Generative Models with Preconditioned Diffusion Sampling ( http://arxiv.org/abs/2207.02196v1 )

ライセンス: CC BY 4.0
Hengyuan Ma, Li Zhang, Xiatian Zhu, and Jianfeng Feng(参考訳) スコアベース生成モデル(sgms)は最近、有望な生成モデルのクラスとして登場している。 しかしながら、基本的な制限は、シーケンシャル計算の多くの反復(例えば2000)を必要とするため、推論が非常に遅いことである。 直感的な加速度法はサンプリングの繰り返しを減らし,性能を著しく低下させる。 本研究では, 拡散サンプリング過程をメトロポリス調整型ランジュバンアルゴリズムとして捉え, 原因が不条件曲率であることを明らかにした。 そこで本研究では,行列プレコンディショニングを利用したモデル非依存型拡散サンプリング(PDS)手法を提案する。 重要なことに、PSDは理論上、SGMの本来の目標分布に収束することが証明されている。 様々な解像度と多様性を持つ3つの画像データセットに対する大規模な実験により、PSDは合成品質を維持しながら、常に既製のSGMを加速することを確認した。 特に、PSDはより難しい高解像度(1024x1024)の画像生成で最大29倍加速することができる。

Score-based generative models (SGMs) have recently emerged as a promising class of generative models. However, a fundamental limitation is that their inference is very slow due to a need for many (e.g., 2000) iterations of sequential computations. An intuitive acceleration method is to reduce the sampling iterations which however causes severe performance degradation. We investigate this problem by viewing the diffusion sampling process as a Metropolis adjusted Langevin algorithm, which helps reveal the underlying cause to be ill-conditioned curvature. Under this insight, we propose a model-agnostic preconditioned diffusion sampling (PDS) method that leverages matrix preconditioning to alleviate the aforementioned problem. Crucially, PDS is proven theoretically to converge to the original target distribution of a SGM, no need for retraining. Extensive experiments on three image datasets with a variety of resolutions and diversity validate that PDS consistently accelerates off-the-shelf SGMs whilst maintaining the synthesis quality. In particular, PDS can accelerate by up to 29x on more challenging high resolution (1024x1024) image generation.
翻訳日:2022-07-06 15:49:10 公開日:2022-07-05
# CoBEVT: スパース変圧器を用いた協調型バードアイビューセマンティックセマンティックセメンテーション

CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse Transformers ( http://arxiv.org/abs/2207.02202v1 )

ライセンス: Link先を確認
Runsheng Xu, Zhengzhong Tu, Hao Xiang, Wei Shao, Bolei Zhou, Jiaqi Ma(参考訳) 鳥の目視(BEV)セマンティックセグメンテーションは、自律運転のための空間センシングにおいて重要な役割を果たす。 近年の文献ではBEVマップの理解において大きな進歩を遂げているが、それらはいずれも複雑な交通シーンにおける隠蔽や遠方物体の検出が困難な単一エージェントカメラベースシステムに基づいている。 車両対車両(v2v)通信技術により、自動運転車はセンシング情報を共有できるようになり、単一のエージェントシステムに比べて認識性能と範囲が劇的に向上する。 本稿では,BEVマップ予測を協調的に生成可能な,最初の汎用マルチエージェントマルチカメラ認識フレームワークであるCoBEVTを提案する。 トランスフォーマーアーキテクチャのマルチビューおよびマルチエージェントデータからカメラ特徴を効率的に融合させるため,ビューとエージェント間の局所的およびグローバルな空間的相互作用を疎結合に捉えることのできる,融合軸アテンションまたはFAXモジュールを設計する。 V2V知覚データセットであるOPV2Vに関する広範な実験により、CoBEVTが協調的BEVセマンティックセマンティックセグメンテーションの最先端性能を達成することを示した。 さらに、CoBEVTは、他のタスクにも一般化可能である。 1)単一エージェントマルチカメラによるbevセグメンテーション 2)マルチエージェントLiDARシステムによる3次元物体検出を行い,リアルタイム推論速度で最先端の性能を実現する。

Bird's eye view (BEV) semantic segmentation plays a crucial role in spatial sensing for autonomous driving. Although recent literature has made significant progress on BEV map understanding, they are all based on single-agent camera-based systems which are difficult to handle occlusions and detect distant objects in complex traffic scenes. Vehicle-to-Vehicle (V2V) communication technologies have enabled autonomous vehicles to share sensing information, which can dramatically improve the perception performance and range as compared to single-agent systems. In this paper, we propose CoBEVT, the first generic multi-agent multi-camera perception framework that can cooperatively generate BEV map predictions. To efficiently fuse camera features from multi-view and multi-agent data in an underlying Transformer architecture, we design a fused axial attention or FAX module, which can capture sparsely local and global spatial interactions across views and agents. The extensive experiments on the V2V perception dataset, OPV2V, demonstrate that CoBEVT achieves state-of-the-art performance for cooperative BEV semantic segmentation. Moreover, CoBEVT is shown to be generalizable to other tasks, including 1) BEV segmentation with single-agent multi-camera and 2) 3D object detection with multi-agent LiDAR systems, and achieves state-of-the-art performance with real-time inference speed.
翻訳日:2022-07-06 15:31:24 公開日:2022-07-05
# シーケンシャルディープフェイク操作の検出と回収

Detecting and Recovering Sequential DeepFake Manipulation ( http://arxiv.org/abs/2207.02204v1 )

ライセンス: Link先を確認
Rui Shao, Tianxing Wu, Ziwei Liu(参考訳) 近年, 顔操作技術により, 光写実的顔が容易に生成されつつあるため, これらの技術の悪用が懸念されている。 そこで,多くのディープフェイク検出手法が提案されている。 しかし、既存の方法は1段階の顔操作のみに焦点が当てられている。 容易な顔編集アプリケーションの出現に伴い、複数ステップ操作による顔成分の操作がシーケンシャルに行えるようになった。 この新たな脅威は、ディープフェイクメディアの検出と元の顔の復元の両方に不可欠な、一連の顔操作を検出することを必要とします。 この観察に動機付けられ,シーケンシャルディープフェイク操作(seq-deepfake)検出という新たな研究課題を提案する。 既存のdeepfake検出タスクとは異なり、seq-deepfake操作を検出するには、顔操作のシーケンシャルベクターを正確に予測する必要がある。 大規模な調査を支援するために,顔画像の逐次的操作ベクトルのアノテーションによる逐次的な操作を行う最初のseq-deepfakeデータセットを構築した。 この新たなデータセットに基づいて、Seq-DeepFake操作を特定の画像列(例えば、画像キャプション)タスクとして検出し、簡潔で効果的なSeq-DeepFake変換器(SeqFakeFormer)を提案する。 さらに,この新たな研究課題に対する厳密な評価プロトコルとメトリクスを総合的なベンチマークで構築する。 大規模な実験はSeqFakeFormerの有効性を示す。 いくつかの貴重な観測結果も明らかにされ、より広範なディープフェイク検出問題の研究が促進される。

Since photorealistic faces can be readily generated by facial manipulation technologies nowadays, potential malicious abuse of these technologies has drawn great concerns. Numerous deepfake detection methods are thus proposed. However, existing methods only focus on detecting one-step facial manipulation. As the emergence of easy-accessible facial editing applications, people can easily manipulate facial components using multi-step operations in a sequential manner. This new threat requires us to detect a sequence of facial manipulations, which is vital for both detecting deepfake media and recovering original faces afterwards. Motivated by this observation, we emphasize the need and propose a novel research problem called Detecting Sequential DeepFake Manipulation (Seq-DeepFake). Unlike the existing deepfake detection task only demanding a binary label prediction, detecting Seq-DeepFake manipulation requires correctly predicting a sequential vector of facial manipulation operations. To support a large-scale investigation, we construct the first Seq-DeepFake dataset, where face images are manipulated sequentially with corresponding annotations of sequential facial manipulation vectors. Based on this new dataset, we cast detecting Seq-DeepFake manipulation as a specific image-to-sequence (e.g. image captioning) task and propose a concise yet effective Seq-DeepFake Transformer (SeqFakeFormer). Moreover, we build a comprehensive benchmark and set up rigorous evaluation protocols and metrics for this new research problem. Extensive experiments demonstrate the effectiveness of SeqFakeFormer. Several valuable observations are also revealed to facilitate future research in broader deepfake detection problems.
翻訳日:2022-07-06 15:31:00 公開日:2022-07-05
# クラスター化塩分予測

Clustered Saliency Prediction ( http://arxiv.org/abs/2207.02205v1 )

ライセンス: Link先を確認
Rezvan Sherkati, James J. Clark(参考訳) 本稿では,画像のサリエンス予測のための新しい手法であるClustered Saliency Predictionを提案する。 本手法は、個人の特徴と既知のサリエンシマップに基づいて、個人をクラスタに分割し、クラスタ毎に個別の画像サリエンスモデルを生成する。 我々は,個人的特徴量に対する重み付けを多用した,パーソナライズされた給与マップの公開データセット上でのアプローチをテストし,クラスタへの影響を観察する。 各クラスタについて、画像から画像への変換法、主にpix2pixモデルを用いて、ユニバーサルサリエンシーマップをそのクラスタのサリエンシーマップに変換する。 我々は、DeepGaze II、ML-Net、SalGANの3つの最先端のユニバーサルサリエンシ予測手法を試行し、その結果への影響を確かめる。 クラスタ化塩分予測手法が最先端のユニバーサル塩分予測モデルよりも優れていることを示す。 また,主観的類似性クラスタリングアルゴリズムを用いて得られたクラスタと2つのベースライン法を比較し,クラスタリング手法の有効性を実証した。 我々は,その個人的特徴と既知の塩分マップに基づいて,最も適切なクラスタに新たな人材を割り当てる手法を提案する。 私たちの実験では、新しい人を平均してクラスタに割り当てる方法が、高いサリエンシースコアを与えるクラスタを選択することが分かりました。

We present a new method for image salience prediction, Clustered Saliency Prediction. This method divides individuals into clusters based on their personal features and their known saliency maps, and generates a separate image salience model for each cluster. We test our approach on a public dataset of personalized saliency maps, with varying importance weights for personal feature factors and observe the effects on the clusters. For each cluster, we use an image-to-image translation method, mainly Pix2Pix model, to convert universal saliency maps to saliency maps of that cluster. We try three state-of-the-art universal saliency prediction methods, DeepGaze II, ML-Net and SalGAN, and see their impact on the results. We show that our Clustered Saliency Prediction technique outperforms the state-of-the-art universal saliency prediction models. Also we demonstrate the effectiveness of our clustering method by comparing the results of Clustered Saliency Prediction using clusters obtained by Subject Similarity Clustering algorithm with two baseline methods. We propose an approach to assign new people to the most appropriate cluster, based on their personal features and any known saliency maps. In our experiments we see that this method of assigning new people to a cluster on average chooses the cluster that gives higher saliency scores.
翻訳日:2022-07-06 15:30:34 公開日:2022-07-05
# オブジェクト中心層表現による移動物体のセグメンテーション

Segmenting Moving Objects via an Object-Centric Layered Representation ( http://arxiv.org/abs/2207.02206v1 )

ライセンス: Link先を確認
Junyu Xie, Weidi Xie, Andrew Zisserman(参考訳) 本研究の目的は,映像中の複数の移動物体を発見し,追跡し,セグメンテーションすることができるモデルである。 まず、深さ順のレイヤ表現を持つオブジェクト中心のセグメンテーションモデルを紹介します。 これは、各クエリベクトルがビデオ全体に対してオブジェクトとその層を指定する光学フローを取り込み、トランスフォーマーアーキテクチャの変種を用いて実装される。 The model can effectively discover multiple moving objects and handle mutual occlusions; Second, we introduce a scalable pipeline for generating synthetic training data with multiple objects, significantly reducing the requirements for labour-intensive annotations, and supporting Sim2Real generalisation; Third, we show that the model is able to learn object permanence and temporal shape consistency, and is able to predict amodal segmentation masks; Fourth, we evaluate the model on standard video segmentation benchmarks, DAVIS, MoCA, SegTrack, FBMS-59, and achieve state-of-the-art unsupervised segmentation performance, even outperforming several supervised approaches. テスト時間適応では、さらなるパフォーマンス向上が観察される。

The objective of this paper is a model that is able to discover, track and segment multiple moving objects in a video. We make four contributions: First, we introduce an object-centric segmentation model with a depth-ordered layer representation. This is implemented using a variant of the transformer architecture that ingests optical flow, where each query vector specifies an object and its layer for the entire video. The model can effectively discover multiple moving objects and handle mutual occlusions; Second, we introduce a scalable pipeline for generating synthetic training data with multiple objects, significantly reducing the requirements for labour-intensive annotations, and supporting Sim2Real generalisation; Third, we show that the model is able to learn object permanence and temporal shape consistency, and is able to predict amodal segmentation masks; Fourth, we evaluate the model on standard video segmentation benchmarks, DAVIS, MoCA, SegTrack, FBMS-59, and achieve state-of-the-art unsupervised segmentation performance, even outperforming several supervised approaches. With test-time adaptation, we observe further performance boosts.
翻訳日:2022-07-06 15:30:11 公開日:2022-07-05
# 動的転送学習のための統一メタラーニングフレームワーク

A Unified Meta-Learning Framework for Dynamic Transfer Learning ( http://arxiv.org/abs/2207.01784v1 )

ライセンス: Link先を確認
Jun Wu, Jingrui He(参考訳) トランスファーラーニング(Transfer learning)とは、関連するソースタスクからターゲットタスクへの知識や情報の転送を指す。 しかし、既存の作品の多くは、両方のタスクが定常タスク分布からサンプリングされていると仮定しており、実際のシナリオで非定常タスク分布から引き出される動的タスクの最適性能に繋がる。 このギャップを埋めるために、本稿では、動的タスクを用いたより現実的で挑戦的なトランスファー学習環境、すなわちソースタスクとターゲットタスクが時間とともに継続的に進化していることを研究する。 理論的には、動的対象タスクの期待誤差は、ソース知識とタスク間の連続分布の不一致という観点で密に境界づけることができることを示す。 この結果から,動的タスクにおける知識伝達可能性をモデル化する汎用メタ学習フレームワーク L2E を提案する。 タスクのメタペアによるタスク誘導型メタラーニング問題を中心に,最新のターゲットタスクへの高速適応のための事前モデル初期化を学習する。 L2E は,(1) 動的タスク間の効果的な知識伝達可能性,(2) 新しい目標タスクへの迅速な適応,(3) 歴史的目標タスクに対する破滅的忘れの軽減,(4) 既存の静的移動学習アルゴリズムを取り入れた柔軟性を享受する。 様々な画像データセットに対する大規模な実験により,提案したL2Eフレームワークの有効性が示された。

Transfer learning refers to the transfer of knowledge or information from a relevant source task to a target task. However, most existing works assume both tasks are sampled from a stationary task distribution, thereby leading to the sub-optimal performance for dynamic tasks drawn from a non-stationary task distribution in real scenarios. To bridge this gap, in this paper, we study a more realistic and challenging transfer learning setting with dynamic tasks, i.e., source and target tasks are continuously evolving over time. We theoretically show that the expected error on the dynamic target task can be tightly bounded in terms of source knowledge and consecutive distribution discrepancy across tasks. This result motivates us to propose a generic meta-learning framework L2E for modeling the knowledge transferability on dynamic tasks. It is centered around a task-guided meta-learning problem with a group of meta-pairs of tasks, based on which we are able to learn the prior model initialization for fast adaptation on the newest target task. L2E enjoys the following properties: (1) effective knowledge transferability across dynamic tasks; (2) fast adaptation to the new target task; (3) mitigation of catastrophic forgetting on historical target tasks; and (4) flexibility in incorporating any existing static transfer learning algorithms. Extensive experiments on various image data sets demonstrate the effectiveness of the proposed L2E framework.
翻訳日:2022-07-06 15:29:37 公開日:2022-07-05
# 映像要約のためのマルチモーダルフレーム符号化変換器

Multimodal Frame-Scoring Transformer for Video Summarization ( http://arxiv.org/abs/2207.01814v1 )

ライセンス: Link先を確認
Jeiyoon Park, Kiho Kwoun, Chanhee Lee, Heuiseok Lim(参考訳) 近年、ビデオコンテンツの数が増えてきているので、ビデオの内容を見るだけで、自動的な要約が役に立ちます。 しかし、一般的なビデオ要約タスクには2つの基本的な制限がある。 第一に、ほとんどの以前のアプローチは入力としてビジュアル機能だけを読み、他のモダリティ機能は残している。 第2に、ジェネリックビデオ要約のための既存のデータセットは、キャプションジェネレータとマルチモーダル特徴抽出器を訓練するのに比較的不十分である。 本稿では,この2つの問題に対処するために,視覚,テキスト,音声の特徴を活用し,フレームに対して映像をスコアリングするマルチモーダルフレームスコーリングトランスフォーマ(mfst)フレームワークを提案する。 当社のmfstフレームワークはまず,事前学習したエンコーダを使用して,各モダリティ機能(ビジュアルテキストオーディオ)を抽出する。 次に、mfstは、ビデオテキスト音声表現を入力として使用するマルチモーダルフレームスコーリングトランスを訓練し、フレームレベルのスコアを予測する。 提案手法の有効性と優位性を示すため,TVSum および SumMe データセットの先行モデルとアブレーション実験を行った。

As the number of video content has mushroomed in recent years, automatic video summarization has come useful when we want to just peek at the content of the video. However, there are two underlying limitations in generic video summarization task. First, most previous approaches read in just visual features as input, leaving other modality features behind. Second, existing datasets for generic video summarization are relatively insufficient to train a caption generator and multimodal feature extractors. To address these two problems, this paper proposes the Multimodal Frame-Scoring Transformer (MFST) framework exploiting visual, text and audio features and scoring a video with respect to frames. Our MFST framework first extracts each modality features (visual-text-audio) using pretrained encoders. Then, MFST trains the multimodal frame-scoring transformer that uses video-text-audio representations as inputs and predicts frame-level scores. Our extensive experiments with previous models and ablation studies on TVSum and SumMe datasets demonstrate the effectiveness and superiority of our proposed method.
翻訳日:2022-07-06 15:29:14 公開日:2022-07-05
# アルツハイマー病バイオマーカー発見のためのデータ駆動しきい値を用いたアンサンブル特徴選択

Ensemble feature selection with data-driven thresholding for Alzheimer's disease biomarker discovery ( http://arxiv.org/abs/2207.01822v1 )

ライセンス: Link先を確認
Annette Spooner, Gelareh Mohammadi, Perminder S. Sachdev, Henry Brodaty, Arcot Sowmya (for the Sydney Memory and Ageing Study and the Alzheimer's Disease Neuroimaging Initiative)(参考訳) 医療データセットは、データが不均一で、検閲され、高次元で、情報が不足しているため、機械学習と統計の両方に多くの課題をもたらす。 特徴の選択はしばしば重要な特徴を特定するために使われるが、高次元データに適用すると不安定な結果が得られ、各イテレーションで異なる特徴セットを選択する。 複数の基本特徴セレクタの結果を集約する特徴選択アンサンブルを用いることで、特徴選択の安定性を向上させることができる。 関連する機能を冗長機能から分離するために、最終的な集約機能セットにしきい値を適用する必要がある。 通常適用される固定閾値は、選択された特徴の最終セットが関連する特徴のみを含むことを保証しない。 本研究は,アンサンブル特徴セレクタの関連特徴を自動的に識別し,その予測精度と安定性を評価するために,データ駆動しきい値を開発した。 臨床データへのこれらの手法の適用性を実証するため、2つの現実世界のアルツハイマー病(AD)研究のデータに適用した。 adは、既知の治療法がない進行性神経変性疾患であり、過剰な症状が現れる2~3年前から始まり、adを発症するリスクのある患者を識別する初期のバイオマーカーを研究者が特定する機会をもたらす。 これらの手法を両方のデータセットに適用することによって同定された特徴は、AD文献の現在の知見を反映している。

Healthcare datasets present many challenges to both machine learning and statistics as their data are typically heterogeneous, censored, high-dimensional and have missing information. Feature selection is often used to identify the important features but can produce unstable results when applied to high-dimensional data, selecting a different set of features on each iteration. The stability of feature selection can be improved with the use of feature selection ensembles, which aggregate the results of multiple base feature selectors. A threshold must be applied to the final aggregated feature set to separate the relevant features from the redundant ones. A fixed threshold, which is typically applied, offers no guarantee that the final set of selected features contains only relevant features. This work develops several data-driven thresholds to automatically identify the relevant features in an ensemble feature selector and evaluates their predictive accuracy and stability. To demonstrate the applicability of these methods to clinical data, they are applied to data from two real-world Alzheimer's disease (AD) studies. AD is a progressive neurodegenerative disease with no known cure, that begins at least 2-3 decades before overt symptoms appear, presenting an opportunity for researchers to identify early biomarkers that might identify patients at risk of developing AD. Features identified by applying these methods to both datasets reflect current findings in the AD literature.
翻訳日:2022-07-06 15:28:55 公開日:2022-07-05
# PoF: 一般化のための機能エクストラクタの訓練後

PoF: Post-Training of Feature Extractor for Improving Generalization ( http://arxiv.org/abs/2207.01847v1 )

ライセンス: Link先を確認
Ikuro Sato, Ryota Yamada, Masayuki Tanaka, Nakamasa Inoue, Rei Kawakami(参考訳) 極小付近の損失景観の局所的形状、特に平坦性が深層モデルの一般化に重要な役割を果たすことが集中的に研究されている。 我々は、既に訓練済みの深層モデルの特徴抽出部を更新して、より平坦な最小値を求める、PoF: Post-Training of Feature Extractorと呼ばれるトレーニングアルゴリズムを開発した。 特徴は2つある。 1)高層パラメータ空間のパラメータ摂動の下で,高層パラメータ空間の平坦化を示唆する観測に基づいて特徴抽出器を訓練する。 2) 摂動範囲は, 正の損失曲率によるテスト損失の一部を減少させる目的で, データ駆動方式で決定される。 本稿では,提案アルゴリズムがターゲットヘッセン成分と損失を暗黙的に低減することを示す理論的解析を行う。 実験の結果、pofは10時間後トレーニングでcifar-10とcifar-100の両方のベースライン法と50時間後トレーニングでsvhnデータセットの両方でモデル性能を改善した。 ソースコードは以下の通り。 \url{https://github.com/DensoITLab/PoF-v1

It has been intensively investigated that the local shape, especially flatness, of the loss landscape near a minimum plays an important role for generalization of deep models. We developed a training algorithm called PoF: Post-Training of Feature Extractor that updates the feature extractor part of an already-trained deep model to search a flatter minimum. The characteristics are two-fold: 1) Feature extractor is trained under parameter perturbations in the higher-layer parameter space, based on observations that suggest flattening higher-layer parameter space, and 2) the perturbation range is determined in a data-driven manner aiming to reduce a part of test loss caused by the positive loss curvature. We provide a theoretical analysis that shows the proposed algorithm implicitly reduces the target Hessian components as well as the loss. Experimental results show that PoF improved model performance against baseline methods on both CIFAR-10 and CIFAR-100 datasets for only 10-epoch post-training, and on SVHN dataset for 50-epoch post-training. Source code is available at: \url{https://github.com/DensoITLab/PoF-v1
翻訳日:2022-07-06 15:28:31 公開日:2022-07-05
# ICE-NODE:ニューラル常微分方程式と臨床埋め込みの統合

ICE-NODE: Integration of Clinical Embeddings with Neural Ordinary Differential Equations ( http://arxiv.org/abs/2207.01873v1 )

ライセンス: Link先を確認
Asem Alaa, Erik Mayer, Mauricio Barahona(参考訳) 疾患の早期診断は、生存率の向上や治療コストの低下など、健康状態の改善につながる可能性がある。 電子健康記録 (EHRs) に大量の情報が蓄積されていることから, 早期の発症予測や他の結果の予測を目的とした疾患進行のモデル化に機械学習 (ML) 手法を用いる可能性が大きい。 本研究では,ERHの時間的情報をフル活用するために,ニューラルODEの最近のイノベーションを採用する。 本稿では,ERHにおける患者軌跡の学習と予測のために,臨床コードとニューラルネットワークの埋め込みを時間的に統合したICE-NODE(Integration of Clinical Embeddings with Neural Ordinary Differential Equations)を提案する。 本手法を一般に公開されているMIMIC-IIIおよびMIMIC-IVデータセットに適用し、最先端の方法と比較して予測結果の改善を報告した。 また、ICE-NODEは急性腎不全や肺心疾患などの特定の疾患の予測に優れており、さらなる予測に活用できる患者リスクトラジェクタを時間とともに生成可能であることも示している。

Early diagnosis of disease can result in improved health outcomes, such as higher survival rates and lower treatment costs. With the massive amount of information in electronic health records (EHRs), there is great potential to use machine learning (ML) methods to model disease progression aimed at early prediction of disease onset and other outcomes. In this work, we employ recent innovations in neural ODEs to harness the full temporal information of EHRs. We propose ICE-NODE (Integration of Clinical Embeddings with Neural Ordinary Differential Equations), an architecture that temporally integrates embeddings of clinical codes and neural ODEs to learn and predict patient trajectories in EHRs. We apply our method to the publicly available MIMIC-III and MIMIC-IV datasets, reporting improved prediction results compared to state-of-the-art methods, specifically for clinical codes that are not frequently observed in EHRs. We also show that ICE-NODE is more competent at predicting certain medical conditions, like acute renal failure and pulmonary heart disease, and is also able to produce patient risk trajectories over time that can be exploited for further predictions.
翻訳日:2022-07-06 15:27:57 公開日:2022-07-05
# マルチスリープデータベース:自動睡眠スコアリングにおけるマルチラベルの活用法

Multi-Scored Sleep Databases: How to Exploit the Multiple-Labels in Automated Sleep Scoring ( http://arxiv.org/abs/2207.01910v1 )

ライセンス: Link先を確認
Luigi Fiorillo, Davide Pedroncelli, Paolo Favaro, Francesca Dalia Faraci(参考訳) 研究対象:ポリソムノグラムのスコアリングにおけるスカラー間変動はよく知られた問題である。 既存の自動睡眠スコアリングシステムの多くは、1つのスコアラーがアノテートしたラベルを用いてトレーニングされ、その主観評価はモデルに転送される。 2つ以上のスコアラーからのアノテーションが利用できる場合、スコアラーのコンセンサスに基づいてスコアモデルがトレーニングされる。 平均スコアラーの主観性はモデルに伝達され、異なるスコアラーの内部変動に関する情報が失われる。 本研究では,異なる医師の複数知識をトレーニング手順に挿入することを目的として,スコアラーのグループのコンセンサスから抽出できる全情報を活用して,モデルトレーニングを最適化することを目的とする。 方法:3つの異なるマルチスコープデータベースに基づいて2つの軽量ディープラーニングモデルを訓練する。 ラベル平滑化手法とLSSC(Soft-Consensus)分布を併用して,モデルのトレーニング手順に多重知識を挿入する。 本稿では,平均コサイン類似度指標(acs)を導入し,モデル with-lssc が生成するヒップノード類似度グラフとスコアラーコンセンサスが生成するヒップノード類似度グラフとの類似度を定量化する。 結果:LSSCでモデルをトレーニングすると,モデルの性能がすべてのデータベースで向上する。 その結果,ALSはLSSCで訓練したモデルで生成した催眠性グラフとコンセンサスで生成した催眠性グラフとの間に6.4%増加していた。 結論:我々のアプローチは間違いなく、スコアラーのグループのコンセンサスに適応するモデルを可能にします。 今後の作業では、さまざまなスコアリングアーキテクチャに関するさらなる調査に注力する予定である。

Study Objectives: Inter-scorer variability in scoring polysomnograms is a well-known problem. Most of the existing automated sleep scoring systems are trained using labels annotated by a single scorer, whose subjective evaluation is transferred to the model. When annotations from two or more scorers are available, the scoring models are usually trained on the scorer consensus. The averaged scorer's subjectivity is transferred into the model, losing information about the internal variability among different scorers. In this study, we aim to insert the multiple-knowledge of the different physicians into the training procedure.The goal is to optimize a model training, exploiting the full information that can be extracted from the consensus of a group of scorers. Methods: We train two lightweight deep learning based models on three different multi-scored databases. We exploit the label smoothing technique together with a soft-consensus (LSSC) distribution to insert the multiple-knowledge in the training procedure of the model. We introduce the averaged cosine similarity metric (ACS) to quantify the similarity between the hypnodensity-graph generated by the models with-LSSC and the hypnodensity-graph generated by the scorer consensus. Results: The performance of the models improves on all the databases when we train the models with our LSSC. We found an increase in ACS (up to 6.4%) between the hypnodensity-graph generated by the models trained with-LSSC and the hypnodensity-graph generated by the consensus. Conclusions: Our approach definitely enables a model to better adapt to the consensus of the group of scorers. Future work will focus on further investigations on different scoring architectures.
翻訳日:2022-07-06 15:27:29 公開日:2022-07-05
# UniCR: ランダムな平滑化による普遍的に近似されたロバスト性

UniCR: Universally Approximated Certified Robustness via Randomized Smoothing ( http://arxiv.org/abs/2207.02152v1 )

ライセンス: Link先を確認
Hanbin Hong, Binghui Wang, and Yuan Hong(参考訳) 機械学習分類器の対向的摂動に対する堅牢性について検討した。 特に,任意の分類器における任意の入力のロバスト性証明を,任意の連続確率分布から発生する雑音を伴う$\ell_p$摂動に対して近似することができる,普遍的に近似された最初の認証ロバストネス(UniCR)フレームワークを提案する。 以上の4つの「あらゆる」に対する最初の普遍的ロバスト性認証フレームワーク,ケース・バイ・ケース分析を回避する自動ロバスト性認証,(3)証明されたロバスト性の厳密性検証,(4)ランダム化スムーディングで使用する雑音分布の最適性検証などである。 我々は、上記のUniCRの利点とUniCRの利点を、$\ell_p$の摂動に対する最先端の防御に対して検証する広範囲な実験を行う。

We study certified robustness of machine learning classifiers against adversarial perturbations. In particular, we propose the first universally approximated certified robustness (UniCR) framework, which can approximate the robustness certification of any input on any classifier against any $\ell_p$ perturbations with noise generated by any continuous probability distribution. Compared with the state-of-the-art certified defenses, UniCR provides many significant benefits: (1) the first universal robustness certification framework for the above 4 'any's; (2) automatic robustness certification that avoids case-by-case analysis, (3) tightness validation of certified robustness, and (4) optimality validation of noise distributions used by randomized smoothing. We conduct extensive experiments to validate the above benefits of UniCR and the advantages of UniCR over state-of-the-art certified defenses against $\ell_p$ perturbations.
翻訳日:2022-07-06 15:27:00 公開日:2022-07-05
# CEN : 協調進化型ネットワーク

CEN : Cooperatively Evolving Networks ( http://arxiv.org/abs/2207.02192v1 )

ライセンス: Link先を確認
Sobhan Babu, Ravindra Guravannavar(参考訳) 有限反復ゲーム(英: finitely repeat game)は、同時ゲームを有限回行う動的ゲームである。 GANには2つの競合するモジュールが含まれている。ジェネレータモジュールは新しい例を生成するために訓練され、差別化モジュールは生成された例から実例を識別するために訓練される。 GANのトレーニング手順は、各モジュールが同時ゲームの各インスタンスにおけるエラーを非協調的に最適化しようとする、有限繰り返しゲームである。 我々は、同時ゲームの各インスタンスにおいてより強力なモジュールが弱いモジュールと協調し、より弱いモジュールだけがエラーを最適化するだけであれば、より正確なトレーニングを達成することができると観察した。

A finitely repeated game is a dynamic game in which a simultaneous game is played finitely many times. GANs contain two competing modules: the generator module is trained to generate new examples, and the discriminator module is trained to discriminate real examples from generated examples. Training procedure of GAN is a finitely repeated game in which each module tries to optimize it's error at every instance of simultaneous game in a non-cooperative manner. We observed that we can achieve more accurate training, if at each instance of simultaneous game the stronger module cooperate with weaker module and only weaker module only optimize it's error.
翻訳日:2022-07-06 15:26:40 公開日:2022-07-05
# 室内クアッドコプターを用いたマルチエージェントパスの計画実行

Plan Execution for Multi-Agent Path Finding with Indoor Quadcopters ( http://arxiv.org/abs/2207.01752v1 )

ライセンス: Link先を確認
Matou\v{s} Kulhan and Pavel Surynek(参考訳) 本稿では,マルチエージェントパス探索(MAPF)問題に対する計画と行動フェーズについて検討する。 MAPFは、エージェントが互いに衝突しないように、エージェントをスタート位置から特定の個々のゴール位置にナビゲートする問題である。 具体的には,小型の屋内クワッドコプター群によるMAPF計画の実行に焦点を当てた。 クワッドコプターでの実行に適した計画を作成するために,既存の連続時間コンフリクトに基づく探索アルゴリズム(CCBS)の修正方法を示す。 実行フェーズでは、locoポジショニングシステムを使用して、プランが正しく実行されるかをチェックする。 我々の発見は、ccbsアルゴリズムがクワッドコプターの安全な計画を生成する拡張を可能にすること、すなわち、各クワッドコプターの周りの円筒保護ゾーンを計画レベルで導入できることである。

We study the planning and acting phase for the problem of multi-agent path finding (MAPF) in this paper. MAPF is a problem of navigating agents from their start positions to specified individual goal positions so that agents do not collide with each other. Specifically we focus on executing MAPF plans with a group of Crazyflies, small indoor quadcopters . We show how to modify the existing continuous time conflict-based search algorithm (CCBS) to produce plans that are suitable for execution with the quadcopters. The acting phase uses the the Loco positioning system to check if the plan is executed correctly. Our finding is that the CCBS algorithm allows for extensions that can produce safe plans for quadcopters, namely cylindrical protection zone around each quadcopter can be introduced at the planning level.
翻訳日:2022-07-06 15:26:28 公開日:2022-07-05
# マルウェア及びランサムウェア検出モデル

Malware and Ransomware Detection Models ( http://arxiv.org/abs/2207.02108v1 )

ライセンス: Link先を確認
Benjamin Marais and Tony Quertier and St\'ephane Morucci(参考訳) サイバー犯罪は今世紀の主要なデジタル脅威の1つだ。 特にランサムウェア攻撃は大幅に増加し、世界的な損害額は数百億ドルとなった。 本稿では,マルウェア検出,マルウェア分類,ランサムウェア検出のための異なる機械学習モデルとディープラーニングモデルを訓練し,テストする。 本稿では,2つの最適化モデルを組み合わせた新しいフレキシブルランサムウェア検出モデルを提案する。 限られたデータセットにおける検出結果から,精度とF1スコアが得られた。

Cybercrime is one of the major digital threats of this century. In particular, ransomware attacks have significantly increased, resulting in global damage costs of tens of billion dollars. In this paper, we train and test different Machine Learning and Deep Learning models for malware detection, malware classification and ransomware detection. We introduce a novel and flexible ransomware detection model that combines two optimized models. Our detection results on a limited dataset demonstrate good accuracy and F1 scores.
翻訳日:2022-07-06 15:26:13 公開日:2022-07-05
# 深部強化学習を用いた実世界自律運転の対応

Tackling Real-World Autonomous Driving using Deep Reinforcement Learning ( http://arxiv.org/abs/2207.02162v1 )

ライセンス: Link先を確認
Paolo Maramotti, Alessandro Paolo Capasso, Giulio Bacchiani and Alberto Broggi(参考訳) 典型的な自動運転スタックでは、センサーによって取得され、認識アルゴリズムによって処理されるデータを安全で快適な自動運転行動を実装する上で、計画と制御システムは最も重要な2つのコンポーネントの1つである。 特に、計画モジュールは、制御システムが操舵角、スロットル、ブレーキを制御する一連の低レベルアクションを実行している間に、自動運転車が正しい高レベル操作に従うべき経路を予測する。 本研究では,モデルのないディープ強化学習プランナを用いて,加速度と操舵角度の両方を予測するニューラルネットワークを訓練し,車載のローカライゼーションと知覚アルゴリズムによって処理されたデータを用いて車両を駆動できる単一モジュールを得る。 特に、シミュレーションで完全に訓練されたシステムは、シミュレーションとパルマ市の実世界の都市部の両方において、障害物のない環境でスムーズかつ安全に運転することができ、訓練シナリオ外の部分でも優れた一般化能力を備えていることが証明される。 さらに, 実車に搭載したシステムを実車に搭載し, シミュレーションと実世界のパフォーマンスのギャップを軽減するために, シミュレーション中の実車の動的挙動を再現可能な, 小さなニューラルネットワークで表現されたモジュールを開発する。

In the typical autonomous driving stack, planning and control systems represent two of the most crucial components in which data retrieved by sensors and processed by perception algorithms are used to implement a safe and comfortable self-driving behavior. In particular, the planning module predicts the path the autonomous car should follow taking the correct high-level maneuver, while control systems perform a sequence of low-level actions, controlling steering angle, throttle and brake. In this work, we propose a model-free Deep Reinforcement Learning Planner training a neural network that predicts both acceleration and steering angle, thus obtaining a single module able to drive the vehicle using the data processed by localization and perception algorithms on board of the self-driving car. In particular, the system that was fully trained in simulation is able to drive smoothly and safely in obstacle-free environments both in simulation and in a real-world urban area of the city of Parma, proving that the system features good generalization capabilities also driving in those parts outside the training scenarios. Moreover, in order to deploy the system on board of the real self-driving car and to reduce the gap between simulated and real-world performances, we also develop a module represented by a tiny neural network able to reproduce the real vehicle dynamic behavior during the training in simulation.
翻訳日:2022-07-06 15:25:02 公開日:2022-07-05
# 音声感情認識に関するクロスコーパス研究

A cross-corpus study on speech emotion recognition ( http://arxiv.org/abs/2207.02104v1 )

ライセンス: Link先を確認
Rosanna Milner, Md Asif Jalal, Raymond W. M. Ng, Thomas Hain(参考訳) 音声感情データセットでは、大量の信頼できるデータを取得することは困難であり、行動的感情は、日常生活に表示される表現力の少ない感情よりも上位にある可能性がある。 近年、自然な感情を持つより大きなデータセットが作成されている。 本研究は,より小さな行動型データセットを無視する代わりに,行動型感情から学習した情報が自然な感情の検出に有用かどうかを検討する。 クロスコーパス研究は、主にクロスランガルデータセットやクロスエイジデータセットも検討しており、パフォーマンス低下の原因となる感情の注釈付け方法の違いから困難が生じる。 一貫性のため、行動、誘発、自然の感情をカバーする4つの成人英語データセットが検討されている。 性能劣化を正確に調査するための最先端モデルを提案する。 このシステムは、データセット間で感情を分類するアテンションメカニズムを備えた双方向LSTMを含んでいる。 クロスコーポレート・マルチドメイン方式におけるトレーニングモデルの効果を実験により検討し,情報伝達が成功しないことを示す。 ドメイン外のモデルに続き、欠落したデータセットに適応し、ドメイン敵トレーニング(DAT)はデータセット全体の感情に一般化するのにより適している。 これは、行動するデータセットからより自然な感情を持つものへのポジティブな情報転送と、異なるコーパスでのトレーニングの利点を示している。

For speech emotion datasets, it has been difficult to acquire large quantities of reliable data and acted emotions may be over the top compared to less expressive emotions displayed in everyday life. Lately, larger datasets with natural emotions have been created. Instead of ignoring smaller, acted datasets, this study investigates whether information learnt from acted emotions is useful for detecting natural emotions. Cross-corpus research has mostly considered cross-lingual and even cross-age datasets, and difficulties arise from different methods of annotating emotions causing a drop in performance. To be consistent, four adult English datasets covering acted, elicited and natural emotions are considered. A state-of-the-art model is proposed to accurately investigate the degradation of performance. The system involves a bi-directional LSTM with an attention mechanism to classify emotions across datasets. Experiments study the effects of training models in a cross-corpus and multi-domain fashion and results show the transfer of information is not successful. Out-of-domain models, followed by adapting to the missing dataset, and domain adversarial training (DAT) are shown to be more suitable to generalising to emotions across datasets. This shows positive information transfer from acted datasets to those with more natural emotions and the benefits from training on different corpora.
翻訳日:2022-07-06 15:24:41 公開日:2022-07-05
# 勾配型T1補聴器と知覚改善を用いた高速MRI再建のための二重ドメインネットワークの深部アンサンブル

A deep cascade of ensemble of dual domain networks with gradient-based T1 assistance and perceptual refinement for fast MRI reconstruction ( http://arxiv.org/abs/2207.01791v1 )

ライセンス: Link先を確認
Balamurali Murugesan, Sriprabha Ramanarayanan, Sricharan Vijayarangan, Keerthi Ram, Naranamangalam R Jagannathan, Mohanasankar Sivaprakasam(参考訳) 深層学習ネットワークは高速磁気共鳴画像(MRI)再構成において有望な結果を示している。 本研究は,再建の量的・知覚的品質をさらに向上させるために,深層ネットワークを構築した。 まず,画像とフーリエ領域の両方で独立に操作することで,補足的な利益を享受できるネットワークであるreconsynergynet(rsn)を提案する。 単コイル取得には,データ忠実度(DF)ユニットにインターリーブされたRSNブロックのカスケードであるディープカスケードRSN(DC-RSN)を導入する。 第2に,T1強調画像(T1WI)を用いたT2強調画像(T2WI)におけるDC-RSNの構造回復について検討した。 T1アシストは、ログ機能(GOLF)融合を通じてDC-RSNに提供される。 さらに,画像品質に関する放射線科医の意見と高い相関を持つ指標であるvif(better visual information fidelity)の再構成を洗練するためにprn(perceptualfine network)を提案する。 最後に, マルチコイル取得のために, RSN, マルチコイルDFユニット, 重み付き平均モジュールを含むブロックの深いカスケードである変数分割RSN(VS-RSN)を提案する。 我々は,DC-RSN と VS-RSN を単コイル,複数コイルの取得に対して広範囲に検証し,最先端の性能を報告する。 高速MRIでは膝単コイル4x, マルチコイル4x, マルチコイル8xに対して0.768, 0.923, 0.878のSSIMが得られる。 また,ゴルフベースt1支援とprnの有効性を実証する実験を行った。

Deep learning networks have shown promising results in fast magnetic resonance imaging (MRI) reconstruction. In our work, we develop deep networks to further improve the quantitative and the perceptual quality of reconstruction. To begin with, we propose reconsynergynet (RSN), a network that combines the complementary benefits of independently operating on both the image and the Fourier domain. For a single-coil acquisition, we introduce deep cascade RSN (DC-RSN), a cascade of RSN blocks interleaved with data fidelity (DF) units. Secondly, we improve the structure recovery of DC-RSN for T2 weighted Imaging (T2WI) through assistance of T1 weighted imaging (T1WI), a sequence with short acquisition time. T1 assistance is provided to DC-RSN through a gradient of log feature (GOLF) fusion. Furthermore, we propose perceptual refinement network (PRN) to refine the reconstructions for better visual information fidelity (VIF), a metric highly correlated to radiologists opinion on the image quality. Lastly, for multi-coil acquisition, we propose variable splitting RSN (VS-RSN), a deep cascade of blocks, each block containing RSN, multi-coil DF unit, and a weighted average module. We extensively validate our models DC-RSN and VS-RSN for single-coil and multi-coil acquisitions and report the state-of-the-art performance. We obtain a SSIM of 0.768, 0.923, 0.878 for knee single-coil-4x, multi-coil-4x, and multi-coil-8x in fastMRI. We also conduct experiments to demonstrate the efficacy of GOLF based T1 assistance and PRN.
翻訳日:2022-07-06 15:24:15 公開日:2022-07-05
# 物体間相互作用検出における距離問題

Distance Matters in Human-Object Interaction Detection ( http://arxiv.org/abs/2207.01869v1 )

ライセンス: Link先を確認
Guangzhi Wang, Yangyang Guo, Yongkang Wong, Mohan Kankanhalli(参考訳) ヒューマン・オブジェクト・インタラクション(HOI)検出はシーン理解の文脈において大きな注目を集めている。 ベンチマークの進歩にもかかわらず、既存の手法は2つの原因がある遠隔操作に対して不満足に実行することが多いことに気づきました。 1) 遠隔相互作用は, 近しい相互作用よりも認識が困難である。 自然界はしばしば複雑な空間的関係を持つ複数の人間や物体を巻き込み、複雑な視覚的文脈に大きく影響される遠方の人間の物体に対する相互作用認識を行う。 2) ベンチマークデータセットにおける遠隔操作の不十分な数は,これらのインスタンスに不適合をもたらす。 そこで本研究では,HOI検出における遠隔操作をよりよく扱うための2段階手法を提案する。 我々の手法における重要な構成要素は、Far Near Distance Attentionモジュールである。 人間と物体の間の情報伝達を可能にし、空間距離を巧みに考慮する。 さらに,新しい距離認識損失関数を考案し,モデルが遠隔かつ稀なインタラクションに焦点を合わせるようにした。 HICO-DETとV-COCOの2つの挑戦的データセットについて広範な実験を行った。 その結果,提案手法は既存の手法をはるかに上回り,新たな最先端性能を実現することができた。

Human-Object Interaction (HOI) detection has received considerable attention in the context of scene understanding. Despite the growing progress on benchmarks, we realize that existing methods often perform unsatisfactorily on distant interactions, where the leading causes are two-fold: 1) Distant interactions are by nature more difficult to recognize than close ones. A natural scene often involves multiple humans and objects with intricate spatial relations, making the interaction recognition for distant human-object largely affected by complex visual context. 2) Insufficient number of distant interactions in benchmark datasets results in under-fitting on these instances. To address these problems, in this paper, we propose a novel two-stage method for better handling distant interactions in HOI detection. One essential component in our method is a novel Far Near Distance Attention module. It enables information propagation between humans and objects, whereby the spatial distance is skillfully taken into consideration. Besides, we devise a novel Distance-Aware loss function which leads the model to focus more on distant yet rare interactions. We conduct extensive experiments on two challenging datasets - HICO-DET and V-COCO. The results demonstrate that the proposed method can surpass existing approaches by a large margin, resulting in new state-of-the-art performance.
翻訳日:2022-07-06 15:23:43 公開日:2022-07-05
# dualafford:デュアルグリッパーオブジェクト操作のための協調視覚支援学習

DualAfford: Learning Collaborative Visual Affordance for Dual-gripper Object Manipulation ( http://arxiv.org/abs/2207.01971v1 )

ライセンス: Link先を確認
Yan Zhao, Ruihai Wu, Zhehuan Chen, Yourong Zhang, Qingnan Fan, Kaichun Mo, Hao Dong(参考訳) 未来のホームアシストロボットにとって、日々の環境において多様な3Dオブジェクトを理解し、操作することが不可欠である。 様々な3D形状で多様な操作タスクを実行できるスケーラブルなシステムの構築に向けて、最近の研究は、入力された3D幾何学上のすべての点を下流のタスク(例えば、プッシュまたはピックアップ)を達成するアクションの可能性でラベル付けする、視覚的な動作可能な可測性を学ぶ有望な結果を提唱し、実証してきた。 しかし、これらの研究はシングルグリッパー操作しか研究しなかったが、現実のタスクの多くは協調的に達成するために両手を必要とする。 本研究では,デュアルグリッパー操作タスクの協調的余裕を学ぶための新しい学習フレームワークであるdualaffordを提案する。 この手法の中核となる設計は、2つのグリップの二次問題を2つの非絡み合った相互接続サブタスクに還元し、効率的な学習を行うことである。 大規模なPartNet-MobilityデータセットとShapeNetデータセットを使用して、デュアルグリッパー操作のための4つのベンチマークタスクを設定した。 実験により,提案手法の有効性と優越性が3つのベースラインで証明された。 追加の結果とビデオはhttps://hyperplane-lab.github.io/DualAfford で見ることができる。

It is essential yet challenging for future home-assistant robots to understand and manipulate diverse 3D objects in daily human environments. Towards building scalable systems that can perform diverse manipulation tasks over various 3D shapes, recent works have advocated and demonstrated promising results learning visual actionable affordance, which labels every point over the input 3D geometry with an action likelihood of accomplishing the downstream task (e.g., pushing or picking-up). However, these works only studied single-gripper manipulation tasks, yet many real-world tasks require two hands to achieve collaboratively. In this work, we propose a novel learning framework, DualAfford, to learn collaborative affordance for dual-gripper manipulation tasks. The core design of the approach is to reduce the quadratic problem for two grippers into two disentangled yet interconnected subtasks for efficient learning. Using the large-scale PartNet-Mobility and ShapeNet datasets, we set up four benchmark tasks for dual-gripper manipulation. Experiments prove the effectiveness and superiority of our method over three baselines. Additional results and videos can be found at https://hyperplane-lab.github.io/DualAfford .
翻訳日:2022-07-06 15:23:25 公開日:2022-07-05
# 深層学習加速MRIのための高密度相互接続ネットワーク

A Densely Interconnected Network for Deep Learning Accelerated MRI ( http://arxiv.org/abs/2207.02073v1 )

ライセンス: Link先を確認
Jon Andre Ottesen, Matthan W.A. Caan, Inge Rasmus Groote, Atle Bj{\o}rnerud(参考訳) 目的:密結合型カスケード深層学習再構築フレームワークによるMRIの高速化を図る。 材料と方法: カスケード入力と出力の間の入力レベルの密接な接続、改良されたディープラーニングサブネットワーク、その後のディープラーニングネットワーク間の長距離スキップ接続の3つのアーキテクチャ修正を適用して、カスケード深層学習再構築フレームワーク(ベースラインモデル)を改良した。 5つのモデル構成をnyu fastmri神経データセット上でトレーニングし,4倍および8倍の加速度に結合したエンド・ツー・エンド・スキームを用いたアブレーション実験を行った。 学習したモデルは,それぞれの構造類似度指標(SSIM),正規化平均二乗誤差(NMSE),ピーク信号と雑音比(PSNR)を比較して評価した。 結果: 提案した3つの改良点を全て利用し, 4倍, 8倍加速のSSIM改善率を8%, 8倍加速率で11%とした。 8倍の加速度では、モデルがベースラインモデルと比較してnmseが23%低下した。 アブレーション実験では, ssim と nmse をそれぞれ3%, 5% の4倍加速度で減少させることで, 個々の設計変更がこれら改善に寄与した。 結論: 提案されたアーキテクチャ変更により、既存のcascadingフレームワークの調整が簡単になり、その結果の再構築がさらに改善される。

Objective: To improve accelerated MRI reconstruction through a densely connected cascading deep learning reconstruction framework. Materials and Methods: A cascading deep learning reconstruction framework (baseline model) was modified by applying three architectural modifications: Input-level dense connections between cascade inputs and outputs, an improved deep learning sub-network, and long-range skip-connections between subsequent deep learning networks. An ablation study was performed, where five model configurations were trained on the NYU fastMRI neuro dataset with an end-to-end scheme conjunct on four- and eight-fold acceleration. The trained models were evaluated by comparing their respective structural similarity index measure (SSIM), normalized mean square error (NMSE) and peak signal to noise ratio (PSNR). Results: The proposed densely interconnected residual cascading network (DIRCN), utilizing all three suggested modifications, achieved a SSIM improvement of 8% and 11% for four- and eight-fold acceleration, respectively. For eight-fold acceleration, the model achieved a 23% decrease in the NMSE when compared to the baseline model. In an ablation study, the individual architectural modifications all contributed to this improvement, by reducing the SSIM and NMSE with approximately 3% and 5% for four-fold acceleration, respectively. Conclusion: The proposed architectural modifications allow for simple adjustments on an already existing cascading framework to further improve the resulting reconstructions.
翻訳日:2022-07-06 15:23:01 公開日:2022-07-05
# (参考訳) repmix: 合成画像のロバスト帰属のための表現混合

RepMix: Representation Mixing for Robust Attribution of Synthesized Images ( http://arxiv.org/abs/2207.02063v1 )

ライセンス: CC BY 4.0
Tu Bui, Ning Yu and John Collomosse(参考訳) GAN(Generative Adversarial Networks)の急速な進歩は、画像の帰属に対する新たな課題を提起する。 独特なことに この課題に対する解決策を提示します 1) 画像とその意味的内容の一致 2) 画像がオンラインで再共有されることが一般的である良質な変換(品質、解像度、形状などの変化)に対して堅牢である。 我々の研究を形式化するために、挑戦的なベンチマークであるAttribution88が、堅牢で実用的な画像帰属のために収集される。 次に,表現混合と新たな損失に基づくGANフィンガープリント技術であるRepMixを提案する。 画像の意味的内容に不変なgan生成画像の出所を追跡する能力を検証するとともに,摂動にも頑健である。 提案手法は,意味的一般化とロバスト性の両方において,既存のGANフィンガープリント作業から大幅に改善されていることを示す。 データとコードはhttps://github.com/tubui/image_attributionで入手できる。

Rapid advances in Generative Adversarial Networks (GANs) raise new challenges for image attribution; detecting whether an image is synthetic and, if so, determining which GAN architecture created it. Uniquely, we present a solution to this task capable of 1) matching images invariant to their semantic content; 2) robust to benign transformations (changes in quality, resolution, shape, etc.) commonly encountered as images are re-shared online. In order to formalize our research, a challenging benchmark, Attribution88, is collected for robust and practical image attribution. We then propose RepMix, our GAN fingerprinting technique based on representation mixing and a novel loss. We validate its capability of tracing the provenance of GAN-generated images invariant to the semantic content of the image and also robust to perturbations. We show our approach improves significantly from existing GAN fingerprinting works on both semantic generalization and robustness. Data and code are available at https://github.com/TuBui/image_attribution.
翻訳日:2022-07-06 15:21:09 公開日:2022-07-05
# 各種行動エンゲージメントのゲームレベルの生成

Generating Game Levels of Diverse Behaviour Engagement ( http://arxiv.org/abs/2207.02100v1 )

ライセンス: Link先を確認
Keyuan Zhang, Jiayu Bai, Jialin Liu(参考訳) 近年、経験駆動型手続きレベルの生成への関心が高まっている。 様々なメトリクスが、プレイヤーの経験をモデル化し、パーソナライズされたレベルを生成するのに役立っている。 この作業では、経験指標が異なるペルソナを持つエージェントに適応できるかを疑問視する。 ゲームレベルを評価するために既存のメトリクスをレビューすることから始めます。 そして,プラットフォームゲームに着目し,様々なエージェントと評価指標を統合したフレームワークを設計する。 \emph{Super Mario Bros に関する実験的検討 評価基準は同じだが、異なるペルソナを持つエージェントは特定のペルソナのレベルを生成することができる。 単純なゲームでは、特定のプレイヤーアーチタイプのゲームプレイングエージェントをレベルテスタとして使用することが、おそらく、さまざまな振る舞いのエンゲージメントを生成するために必要なすべてであることを意味します。

Recent years, there has been growing interests in experience-driven procedural level generation. Various metrics have been formulated to model player experience and help generate personalised levels. In this work, we question whether experience metrics can adapt to agents with different personas. We start by reviewing existing metrics for evaluating game levels. Then, focusing on platformer games, we design a framework integrating various agents and evaluation metrics. Experimental studies on \emph{Super Mario Bros.} indicate that using the same evaluation metrics but agents with different personas can generate levels for particular persona. It implies that, for simple games, using a game-playing agent of specific player archetype as a level tester is probably all we need to generate levels of diverse behaviour engagement.
翻訳日:2022-07-06 15:04:26 公開日:2022-07-05
# リアルタイムUAV追跡のためのランクベースフィルタプルーニング

Rank-Based Filter Pruning for Real-Time UAV Tracking ( http://arxiv.org/abs/2207.01768v1 )

ライセンス: Link先を確認
Xucheng Wang, Dan Zeng, Qijun Zhao, Shuiwang Li(参考訳) 無人航空機(uav)の追跡は農業、航行、公共の安全といった幅広い用途に応用できる。 しかし、コンピュータリソース、バッテリー容量、UAVの最大負荷の制限は、UAVにディープラーニングベースのトラッキングアルゴリズムを配置する妨げとなる。 その結果, 識別相関フィルタ (DCF) トラッカーは, 高い効率性のため, UAV追跡コミュニティで際立っている。 しかし、その精度は通常、ディープラーニングに基づくトラッカーよりもはるかに低い。 モデル圧縮は、UAVトラッキングにはあまり注目されていないDCFとディープラーニングベースのトラッカー間のギャップ(すなわち効率、精度)を狭めるための有望な方法である。 本稿では,ランクベースのフィルタプルーニングを用いてsiamfc++モデルを圧縮したp-siamfc++トラッカを提案する。 提案手法は汎用的であり,モデル圧縮によるUAV追跡のさらなる研究を奨励する可能性がある。 UAV123@10fps、DTB70、UAVDT、Vistrone2018を含む4つのUAVベンチマークの大規模な実験は、P-SiamFC++トラッカーが最先端のUAVトラッキング手法を大幅に上回っていることを示している。

Unmanned aerial vehicle (UAV) tracking has wide potential applications in such as agriculture, navigation, and public security. However, the limitations of computing resources, battery capacity, and maximum load of UAV hinder the deployment of deep learning-based tracking algorithms on UAV. Consequently, discriminative correlation filters (DCF) trackers stand out in the UAV tracking community because of their high efficiency. However, their precision is usually much lower than trackers based on deep learning. Model compression is a promising way to narrow the gap (i.e., effciency, precision) between DCF- and deep learning- based trackers, which has not caught much attention in UAV tracking. In this paper, we propose the P-SiamFC++ tracker, which is the first to use rank-based filter pruning to compress the SiamFC++ model, achieving a remarkable balance between efficiency and precision. Our method is general and may encourage further studies on UAV tracking with model compression. Extensive experiments on four UAV benchmarks, including UAV123@10fps, DTB70, UAVDT and Vistrone2018, show that P-SiamFC++ tracker significantly outperforms state-of-the-art UAV tracking methods.
翻訳日:2022-07-06 15:00:58 公開日:2022-07-05
# SESS: スケーリングとスライディングによるSaliency Enhancing

SESS: Saliency Enhancing with Scaling and Sliding ( http://arxiv.org/abs/2207.01769v1 )

ライセンス: Link先を確認
Osman Tursun, Simon Denman, Sridha Sridharan and Clinton Fookes(参考訳) 説明可能なAIや弱い教師付きオブジェクト検出とセグメンテーションを含む、いくつかの機械学習応用領域において、高品質な唾液マップが不可欠である。 ニューラルネットワークを用いてより優れたサリエンシを生成するために、多くの技術が開発されている。 しかし、それらはしばしば特定のサリエンシーの可視化方法やサリエンシーの問題に限定される。 本稿では,SESS (Saliency Enhancing with Scaling and Sliding) と呼ばれる新しいサリエンシ向上手法を提案する。 既存のサリエンシーマップ生成メソッドへのメソッドとモデルに依存しない拡張である。 SESSでは、既存のサリエンシアプローチは、分散のスケール、ターゲットオブジェクトの複数発生、イントラクタの存在、ノイズの低減とより差別的なサリエンシマップを生成する。 SESSは、異なる領域から異なるスケールで複数のパッチから抽出されたサリエンシマップを融合させることにより、サリエンシを改善し、チャネルワイドと空間重み付き平均を組み込んだ新しい融合スキームを用いてこれらの個々のマップを組み合わせる。 効率を向上するため,不定形サリエンシマップを除外し,効率を向上すると共に,全体的な結果を向上する前処理手順を導入する。 我々は,オブジェクト認識および検出ベンチマークのsesを評価し,大幅な改善を実現する。 このコードは公開されており、研究者がパフォーマンスとさらなる開発を検証することができる。 コードはhttps://github.com/neouyghur/sessで入手できる。

High-quality saliency maps are essential in several machine learning application areas including explainable AI and weakly supervised object detection and segmentation. Many techniques have been developed to generate better saliency using neural networks. However, they are often limited to specific saliency visualisation methods or saliency issues. We propose a novel saliency enhancing approach called SESS (Saliency Enhancing with Scaling and Sliding). It is a method and model agnostic extension to existing saliency map generation methods. With SESS, existing saliency approaches become robust to scale variance, multiple occurrences of target objects, presence of distractors and generate less noisy and more discriminative saliency maps. SESS improves saliency by fusing saliency maps extracted from multiple patches at different scales from different areas, and combines these individual maps using a novel fusion scheme that incorporates channel-wise weights and spatial weighted average. To improve efficiency, we introduce a pre-filtering step that can exclude uninformative saliency maps to improve efficiency while still enhancing overall results. We evaluate SESS on object recognition and detection benchmarks where it achieves significant improvement. The code is released publicly to enable researchers to verify performance and further development. Code is available at: https://github.com/neouyghur/SESS
翻訳日:2022-07-06 15:00:38 公開日:2022-07-05
# ディープテンプレートマッチングによるオブジェクトレベルターゲット選択

Object-Level Targeted Selection via Deep Template Matching ( http://arxiv.org/abs/2207.01778v1 )

ライセンス: Link先を確認
Suraj Kothawade, Donna Roy, Michele Fenzi, Elmar Haussmann, Jose M. Alvarez, Christoph Angerer(参考訳) クエリ画像中の関心オブジェクト(OOI)と意味的に類似したオブジェクトで画像を取得するには、多くの実用的なユースケースがある。 例えば、学習モデルの偽陰性/陽性などの障害の修正や、データセット内のクラス不均衡の緩和などだ。 ターゲット選択タスクは、ラベルなしデータの大規模なプールから関連するデータを見つける必要がある。 この規模の手動マイニングは不可能です。 さらに、OOIは小さく、画像領域の1%未満を占め、隠蔽され、散らばったシーンで多くの意味的に異なるオブジェクトと共存することが多い。 既存のセマンティック画像検索手法では、より大きな地理的ランドマークのマイニングや、類似のオブジェクトを使った画像/画像ペアなどの追加のラベル付きデータが必要となる場合が多い。 本研究では,dnn特徴空間における高速でロバストなテンプレートマッチングアルゴリズムを提案する。 問い合わせ画像中のOOI周辺の領域をDNN機能空間に投影し、テンプレートとして使用します。 これにより、余分なラベル付きデータを必要とせずにOOIのセマンティクスにフォーカスすることができる。 自律運転においては,物体検出装置の故障事例をOOIとして,対象選択システムの評価を行った。 2.2m画像を持つ大規模非ラベルデータセットでその効果を実証し,小型ooi画像のマイニングにおいて高いリコールを示す。 本手法は,ラベル付きデータを必要としないよく知られたセマンティック画像検索法と比較する。 最後に,本手法は柔軟であり,意味的に異なる1つ以上の画像をシームレスに検索可能であることを示す。

Retrieving images with objects that are semantically similar to objects of interest (OOI) in a query image has many practical use cases. A few examples include fixing failures like false negatives/positives of a learned model or mitigating class imbalance in a dataset. The targeted selection task requires finding the relevant data from a large-scale pool of unlabeled data. Manual mining at this scale is infeasible. Further, the OOI are often small and occupy less than 1% of image area, are occluded, and co-exist with many semantically different objects in cluttered scenes. Existing semantic image retrieval methods often focus on mining for larger sized geographical landmarks, and/or require extra labeled data, such as images/image-pairs with similar objects, for mining images with generic objects. We propose a fast and robust template matching algorithm in the DNN feature space, that retrieves semantically similar images at the object-level from a large unlabeled pool of data. We project the region(s) around the OOI in the query image to the DNN feature space for use as the template. This enables our method to focus on the semantics of the OOI without requiring extra labeled data. In the context of autonomous driving, we evaluate our system for targeted selection by using failure cases of object detectors as OOI. We demonstrate its efficacy on a large unlabeled dataset with 2.2M images and show high recall in mining for images with small-sized OOI. We compare our method against a well-known semantic image retrieval method, which also does not require extra labeled data. Lastly, we show that our method is flexible and retrieves images with one or more semantically different co-occurring OOI seamlessly.
翻訳日:2022-07-06 15:00:17 公開日:2022-07-05
# ビデオスーパーレゾリューションにおける共振・照度向上のための深度パラメトリック3次元フィルタ

Deep Parametric 3D Filters for Joint Video Denoising and Illumination Enhancement in Video Super Resolution ( http://arxiv.org/abs/2207.01797v1 )

ライセンス: Link先を確認
Xiaogang Xu, Ruixing Wang, Chi-Wing Fu, Jiaya Jia(参考訳) 最近の方法による品質改善にもかかわらず、特に低照度でノイズの多いビデオでは、ビデオ超解像(SR)は非常に難しい。 現在の最良の解決策は、後にビデオSRの最良のモデル、デノイング、照明強化を採用することであるが、モデル間の不整合のため、しばしば画質を低下させる。 本稿では,1つのエンコーダ・デコーダネットワークにおいて,局所時空間情報を組み込んで,同時 denoising, 照明強調, SR を効率よく実現する,Deep Parametric 3D Filters (DP3DF) と呼ばれる新しいパラメトリック表現を提案する。 また、動的残留フレームを共有バックボーンを介してDP3DFと共同で学習し、SR品質をさらに向上させる。 本手法の有効性を示すために,大規模ユーザスタディを含む広範な実験を行った。 提案手法は,PSNRとユーザ評価が上位で,かつ非常に高速な実行時間を持つ,挑戦的な実データセットに対して,常に最先端の手法を超越している。

Despite the quality improvement brought by the recent methods, video super-resolution (SR) is still very challenging, especially for videos that are low-light and noisy. The current best solution is to subsequently employ best models of video SR, denoising, and illumination enhancement, but doing so often lowers the image quality, due to the inconsistency between the models. This paper presents a new parametric representation called the Deep Parametric 3D Filters (DP3DF), which incorporates local spatiotemporal information to enable simultaneous denoising, illumination enhancement, and SR efficiently in a single encoder-and-decoder network. Also, a dynamic residual frame is jointly learned with the DP3DF via a shared backbone to further boost the SR quality. We performed extensive experiments, including a large-scale user study, to show our method's effectiveness. Our method consistently surpasses the best state-of-the-art methods on all the challenging real datasets with top PSNR and user ratings, yet having a very fast run time.
翻訳日:2022-07-06 14:59:48 公開日:2022-07-05
# ReMix: 複数インスタンス学習に基づく全スライド画像分類のための汎用的で効率的なフレームワーク

ReMix: A General and Efficient Framework for Multiple Instance Learning based Whole Slide Image Classification ( http://arxiv.org/abs/2207.01805v1 )

ライセンス: Link先を確認
Jiawei Yang, Hanbo Chen, Yu Zhao, Fan Yang, Yao Zhang, Lei He, Jianhua Yao(参考訳) 全体スライド画像(wsi)の分類は、ギガピクセル解像度画像とスライドレベルラベルを扱うために、深い弱い教師付き複数インスタンス学習(mil)メソッドに依存することが多い。 しかし、ディープラーニングの十分なパフォーマンスは、大量のデータセットと多様なサンプルを活用することによるものであり、大規模なデータセットへのスケーリングのための効率的なトレーニングパイプラインと、サンプルの多様化のためのデータ拡張技術の必要性を喚起している。 しかし、現在のmilベースのwsi分類パイプラインは、通常数万のパッチを計算用の袋として組み立てるので、メモリ消費と計算効率が低下する。 一方、他のタスクで人気があるにもかかわらず、データ拡張はWSI MILフレームワークでは未検討である。 そこで本研究では,MILに基づくWSI分類のための汎用的で効率的なフレームワークであるReMixを提案する。 還元と混合の2段階からなる。 まず、インスタンスプロトタイプ、すなわちpatch cluster centroidsでインスタンスを置換することで、wsi bagのインスタンス数を減らす。 次に,オンライン,確率的,柔軟な潜在空間拡張を4つ含む ``mix-the-bag'' 拡張法を提案する。 セマンティクス-摂動不変性(semantic-perturbation invariance)を強制しながら、潜在空間に多様で信頼性の高いクラスid保存セマンティクス変化をもたらす。 現状の2つのMIL法を用いた2つの公開データセット上でReMixを評価する。 実験では、正確性、正確性、リコールの一貫した改善が達成されたが、トレーニング時間とメモリ消費は桁違いに減少し、remixの有効性と効率が実証された。 コードは利用可能。

Whole slide image (WSI) classification often relies on deep weakly supervised multiple instance learning (MIL) methods to handle gigapixel resolution images and slide-level labels. Yet the decent performance of deep learning comes from harnessing massive datasets and diverse samples, urging the need for efficient training pipelines for scaling to large datasets and data augmentation techniques for diversifying samples. However, current MIL-based WSI classification pipelines are memory-expensive and computation-inefficient since they usually assemble tens of thousands of patches as bags for computation. On the other hand, despite their popularity in other tasks, data augmentations are unexplored for WSI MIL frameworks. To address them, we propose ReMix, a general and efficient framework for MIL based WSI classification. It comprises two steps: reduce and mix. First, it reduces the number of instances in WSI bags by substituting instances with instance prototypes, i.e., patch cluster centroids. Then, we propose a ``Mix-the-bag'' augmentation that contains four online, stochastic and flexible latent space augmentations. It brings diverse and reliable class-identity-preserving semantic changes in the latent space while enforcing semantic-perturbation invariance. We evaluate ReMix on two public datasets with two state-of-the-art MIL methods. In our experiments, consistent improvements in precision, accuracy, and recall have been achieved but with orders of magnitude reduced training time and memory consumption, demonstrating ReMix's effectiveness and efficiency. Code is available.
翻訳日:2022-07-06 14:59:26 公開日:2022-07-05
# テキスト句参照による3次元グラウンドの解説と細粒度化に向けて

Toward Explainable and Fine-Grained 3D Grounding through Referring Textual Phrases ( http://arxiv.org/abs/2207.01821v1 )

ライセンス: Link先を確認
Zhihao Yuan, Xu Yan, Zhuo Li, Xuhao Li, Yao Guo, Shuguang Cui, Zhen Li(参考訳) 3Dシーン理解の最近の進歩は、言語記述による対象物体のローカライズのための視覚的接地(3DVG)を探求している。 しかし、既存の方法では文全体と対象オブジェクト間の依存性のみを考慮するため、コンテキストと対象以外のオブジェクト間のきめ細かい関係は無視できる。 本稿では,3Dプラーゼ・アウェア・グラウンドディング(DPAG)と呼ばれる,より信頼性が高く説明可能なタスクに3DVGを拡張する。 3DPAGタスクは、すべてのフレーズ関連オブジェクトを明示的に識別し、文脈的フレーズに従って推論を行うことにより、ターゲットオブジェクトを3Dシーンにローカライズすることを目的としている。 この問題に対処するために、利用可能な3DVGデータセットであるNr3D、Sr3D、ScanReferの170K文から約400Kのフレーズレベルのアノテーションをラベル付けする。 開発したデータセットをタップすることで,句対応最適化と句固有の事前学習を通じて句認識とオブジェクトレベルの表現学習を行う新しいフレームワーク, phrasereferを提案する。 本稿では,従来の3DVG手法をフレーズ認識シナリオに拡張し,3DPAGタスクの説明可能性を測定する指標を提供する。 3DPAGは3DVGを効果的に向上させ、PhraseReferは3つのデータセット、すなわちSr3D、Nr3D、ScanReferの総合精度を63.0%、54.4%、55.5%で達成している。

Recent progress on 3D scene understanding has explored visual grounding (3DVG) to localize a target object through a language description. However, existing methods only consider the dependency between the entire sentence and the target object, thus ignoring fine-grained relationships between contexts and non-target ones. In this paper, we extend 3DVG to a more reliable and explainable task, called 3D Phrase Aware Grounding (3DPAG). The 3DPAG task aims to localize the target object in the 3D scenes by explicitly identifying all phrase-related objects and then conducting reasoning according to contextual phrases. To tackle this problem, we label about 400K phrase-level annotations from 170K sentences in available 3DVG datasets, i.e., Nr3D, Sr3D and ScanRefer. By tapping on these developed datasets, we propose a novel framework, i.e., PhraseRefer, which conducts phrase-aware and object-level representation learning through phrase-object alignment optimization as well as phrase-specific pre-training. In our setting, we extend previous 3DVG methods to the phrase-aware scenario and provide metrics to measure the explainability of the 3DPAG task. Extensive results confirm that 3DPAG effectively boosts the 3DVG, and PhraseRefer achieves state-of-the-arts across three datasets, i.e., 63.0%, 54.4% and 55.5% overall accuracy on Sr3D, Nr3D and ScanRefer, respectively.
翻訳日:2022-07-06 14:58:57 公開日:2022-07-05
# ORF-Net:胸部CTスキャンによる深部Omni-supervised Rib骨折の検出

ORF-Net: Deep Omni-supervised Rib Fracture Detection from Chest CT Scans ( http://arxiv.org/abs/2207.01842v1 )

ライセンス: Link先を確認
Zhizhong Chai, Huangjing Lin, Luyang Luo, Pheng-Ann Heng, and Hao Chen(参考訳) 既存のオブジェクト検出作業のほとんどは、バウンディングボックスアノテーションに基づいています。 しかし,リブ骨折については,リブ骨折をスライス・バイ・スライスで調査・注釈する必要があるため,バウンディングボックスアノテーションは非常に手間がかかり,時間を要する。 弱い教師付き手法や半教師付き手法を提案する研究はいくつかあるが、異なる監督形態を同時に扱うことはできない。 本稿では,複数形態のアノテートデータを活用し,検出性能をさらに向上できる新しい全教師付き物体検出ネットワークを提案する。 具体的には、提案ネットワークは、アノテーションデータの各形態が一意な分類枝に対応する全教師あり検出ヘッドを含む。 さらに,各ブランチの学習を改善するために,様々なアノテーション付きデータに対する動的ラベル割り当て戦略を提案する。 さらに,信頼度に着目した分類損失をデザインし,信頼度の高いサンプルを強調し,モデルの性能をさらに向上させる。 試験データセット上で行った広範囲な実験により,本手法は他の最先端手法を一貫して上回っており,リブ骨折検出性能向上における深部全教師付き学習の有効性が実証された。

Most of the existing object detection works are based on the bounding box annotation: each object has a precise annotated box. However, for rib fractures, the bounding box annotation is very labor-intensive and time-consuming because radiologists need to investigate and annotate the rib fractures on a slice-by-slice basis. Although a few studies have proposed weakly-supervised methods or semi-supervised methods, they could not handle different forms of supervision simultaneously. In this paper, we proposed a novel omni-supervised object detection network, which can exploit multiple different forms of annotated data to further improve the detection performance. Specifically, the proposed network contains an omni-supervised detection head, in which each form of annotation data corresponds to a unique classification branch. Furthermore, we proposed a dynamic label assignment strategy for different annotated forms of data to facilitate better learning for each branch. Moreover, we also design a confidence-aware classification loss to emphasize the samples with high confidence and further improve the model's performance. Extensive experiments conducted on the testing dataset show our proposed method outperforms other state-of-the-art approaches consistently, demonstrating the efficacy of deep omni-supervised learning on improving rib fracture detection performance.
翻訳日:2022-07-06 14:58:26 公開日:2022-07-05
# latents2segments:顔画像の意味セグメンテーションのための生成モデルの潜在空間の分離

Latents2Segments: Disentangling the Latent Space of Generative Models for Semantic Segmentation of Face Images ( http://arxiv.org/abs/2207.01871v1 )

ライセンス: Link先を確認
Snehal Singh Tomar and A.N. Rajagopalan(参考訳) 人間の顔の画像に対して有意義で制御されたスタイル編集を行うために、拡張現実やバーチャルリアリティーのアプリケーションが増えてきているため、顔画像を解析して正確な細かなセマンティックセグメンテーションマップを作成するという作業は、これまで以上に重要になっている。 この問題を解決したSOTA(State of the Art)の手法はほとんどなく、顔の構造や表情などの顔の属性に関して事前を組み込んで、それらの深層分類器アーキテクチャでポーズする。 本研究における我々の取り組みは、生成型オートエンコーダモデルの潜在空間における顔意味領域(rois)に対する不連続の注入の下流タスクとして、この操作を再現することにより、somaマルチクラス顔セグメンテーションモデルに必要な事前および複雑な前処理操作を解消することである。 本稿では,CelebAMask-HQおよびHELENデータセットにおけるモデルの性能について述べる。 我々のモデルの符号化された潜在空間は、他のSOTAの作業よりも意味論的ROIに関してはるかに高い歪みを達成する。 さらに、顔画像のセマンティックセグメンテーションの下流タスクにおいて、一般に利用可能なSOTAに対して、13倍高速な推論率と同等の精度を達成する。

With the advent of an increasing number of Augmented and Virtual Reality applications that aim to perform meaningful and controlled style edits on images of human faces, the impetus for the task of parsing face images to produce accurate and fine-grained semantic segmentation maps is more than ever before. Few State of the Art (SOTA) methods which solve this problem, do so by incorporating priors with respect to facial structure or other face attributes such as expression and pose in their deep classifier architecture. Our endeavour in this work is to do away with the priors and complex pre-processing operations required by SOTA multi-class face segmentation models by reframing this operation as a downstream task post infusion of disentanglement with respect to facial semantic regions of interest (ROIs) in the latent space of a Generative Autoencoder model. We present results for our model's performance on the CelebAMask-HQ and HELEN datasets. The encoded latent space of our model achieves significantly higher disentanglement with respect to semantic ROIs than that of other SOTA works. Moreover, it achieves a 13\% faster inference rate and comparable accuracy with respect to the publicly available SOTA for the downstream task of semantic segmentation of face images.
翻訳日:2022-07-06 14:58:00 公開日:2022-07-05
# 偏光ラスタ化と表面推定を用いたビジョンベース不均一BEV表現学習

Vision-based Uneven BEV Representation Learning with Polar Rasterization and Surface Estimation ( http://arxiv.org/abs/2207.01878v1 )

ライセンス: Link先を確認
Zhi Liu, Shaoyu Chen, Xiaojie Guo, Xinggang Wang, Tianheng Cheng, Hongmei Zhu, Qian Zhang, Wenyu Liu, Yi Zhang(参考訳) 本研究では,視覚に基づく不均一なBEV表現学習のためのPolarBEVを提案する。 カメラ画像のforeshortening効果に適応するために,bev空間を角および放射状にラスタライズし,極性埋め込み分解を導入し,極性グリッド間の関係をモデル化する。 極性グリッドは効率的な処理のために配列のような正則表現に再構成される。 さらに,2次元から3次元の対応性を決定するために,仮定平面に基づいてBEV面を反復的に更新し,高さに基づく特徴変換を採用する。 PolarBEVは、単一の2080Ti GPU上でリアルタイムの推論速度を保持し、BEVセマンティックセグメンテーションとBEVインスタンスセグメンテーションの両方で、他のメソッドより優れている。 設計を検証するために徹底的なアブレーションが行われる。 コードは \url{https://github.com/SuperZ-Liu/PolarBEV} でリリースされる。

In this work, we propose PolarBEV for vision-based uneven BEV representation learning. To adapt to the foreshortening effect of camera imaging, we rasterize the BEV space both angularly and radially, and introduce polar embedding decomposition to model the associations among polar grids. Polar grids are rearranged to an array-like regular representation for efficient processing. Besides, to determine the 2D-to-3D correspondence, we iteratively update the BEV surface based on a hypothetical plane, and adopt height-based feature transformation. PolarBEV keeps real-time inference speed on a single 2080Ti GPU, and outperforms other methods for both BEV semantic segmentation and BEV instance segmentation. Thorough ablations are presented to validate the design. The code will be released at \url{https://github.com/SuperZ-Liu/PolarBEV}.
翻訳日:2022-07-06 14:57:02 公開日:2022-07-05
# マルチモーダル知識伝達によるオープンボキャブラリーマルチラベル分類

Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge Transfer ( http://arxiv.org/abs/2207.01887v1 )

ライセンス: Link先を確認
Sunan He, Taian Guo, Tao Dai, Ruizhi Qiao, Bo Ren, Shu-Tao Xia(参考訳) 現実世界の認識システムは、実際には多くの目に見えないラベルに遭遇することが多い。 このような目に見えないラベルを識別するために、ML-ZSL(Multi-label zero-shot Learning)は、事前訓練されたテキストラベル埋め込み(GloVeなど)による知識の伝達に焦点を当てている。 しかし、そのような手法は言語モデルからの単一モーダル知識しか利用せず、画像とテキストのペアに固有の豊富な意味情報を無視する。 代わりに、最近開発されたopen-vocabulary (ov)ベースの手法は、オブジェクト検出において画像とテキストのペアの情報を活用し、印象的なパフォーマンスを達成している。 OVベースの手法の成功に触発されて,マルチラベル分類のための新しいオープン語彙フレームワークMKTを提案する。 具体的には、視覚と言語事前学習(VLP)モデルに基づく画像テキストペアのマルチモーダル知識を利用する。 VLPモデルの画像テキストマッチング能力の伝達を容易にするため、画像とラベルの埋め込みの整合性を保証するために知識蒸留と、ラベルの埋め込みをさらに更新するための迅速なチューニングが使用される。 複数のオブジェクトを認識するために、ローカルとグローバルの両方の機能をキャプチャするために、シンプルだが効果的な2ストリームモジュールを開発した。 大規模な実験結果から,本手法は,公開ベンチマークデータセットの最先端手法よりも優れていた。 コードはhttps://github.com/seanhe97/MKT.comから入手できる。

Real-world recognition system often encounters a plenty of unseen labels in practice. To identify such unseen labels, multi-label zero-shot learning (ML-ZSL) focuses on transferring knowledge by a pre-trained textual label embedding (e.g., GloVe). However, such methods only exploit singlemodal knowledge from a language model, while ignoring the rich semantic information inherent in image-text pairs. Instead, recently developed open-vocabulary (OV) based methods succeed in exploiting such information of image-text pairs in object detection, and achieve impressive performance. Inspired by the success of OV-based methods, we propose a novel open-vocabulary framework, named multimodal knowledge transfer (MKT), for multi-label classification. Specifically, our method exploits multi-modal knowledge of image-text pairs based on a vision and language pretraining (VLP) model. To facilitate transferring the imagetext matching ability of VLP model, knowledge distillation is used to guarantee the consistency of image and label embeddings, along with prompt tuning to further update the label embeddings. To further recognize multiple objects, a simple but effective two-stream module is developed to capture both local and global features. Extensive experimental results show that our method significantly outperforms state-of-theart methods on public benchmark datasets. Code will be available at https://github.com/seanhe97/MKT.
翻訳日:2022-07-06 14:56:46 公開日:2022-07-05
# VISおよびNIRシナリオにおけるビデオフォージェリ検出のための時空間フォージェリクリュー

Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in VIS and NIR Scenario ( http://arxiv.org/abs/2207.01906v1 )

ライセンス: Link先を確認
Yukai Wang, Chunlei Peng, Decheng Liu, Nannan Wang and Xinbo Gao(参考訳) 近年、顔の編集と生成の急速な発展に伴い、ソーシャルメディア上ではますますフェイクビデオが拡散し、大衆の懸念が高まりつつある。 既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚アーチファクトを持つ。 しかし、合成ビデオの場合、これらの手法は単一のフレームのみに限定し、異なるフレーム間で最も識別的な部分と時間周波数の手がかりにほとんど注意を払わない。 本稿では,ビデオシーケンスの豊富な情報をフル活用するために,空間周波数領域と時間周波数領域の両方でビデオフォージェリ検出を行い,より包括的な時空間特徴表現を実現するために,離散コサイン変換に基づくフォージェリクリュー拡張ネットワーク(FCAN-DCT)を提案する。 FCAN-DCTは、バックボーンネットワークと、コンパクト特徴抽出(CFE)モジュールと周波数テンポラルアテンション(FTA)モジュールの2つのブランチで構成されている。 我々は、WildDeepfakeとCeleb-DF(v2)の2つの可視光(VIS)ベースのデータセットと、近赤外線の初めてのビデオフォージェリーデータセットであるDeepfakeNIRを徹底的に実験的に評価した。 実験により,VISとNIRの両方のシナリオにおける偽ビデオの検出における本手法の有効性が示された。

In recent years, with the rapid development of face editing and generation, more and more fake videos are circulating on social media, which has caused extreme public concerns. Existing face forgery detection methods based on frequency domain find that the GAN forged images have obvious grid-like visual artifacts in the frequency spectrum compared to the real images. But for synthesized videos, these methods only confine to single frame and pay little attention to the most discriminative part and temporal frequency clue among different frames. To take full advantage of the rich information in video sequences, this paper performs video forgery detection on both spatial and temporal frequency domains and proposes a Discrete Cosine Transform-based Forgery Clue Augmentation Network (FCAN-DCT) to achieve a more comprehensive spatial-temporal feature representation. FCAN-DCT consists of a backbone network and two branches: Compact Feature Extraction (CFE) module and Frequency Temporal Attention (FTA) module. We conduct thorough experimental assessments on two visible light (VIS) based datasets WildDeepfake and Celeb-DF (v2), and our self-built video forgery dataset DeepfakeNIR, which is the first video forgery dataset on near-infrared modality. The experimental results demonstrate the effectiveness of our method on detecting forgery videos in both VIS and NIR scenarios.
翻訳日:2022-07-06 14:56:20 公開日:2022-07-05
# 魚型スライシングを用いた魚眼矯正用変圧器 : 有効領域探索

FishFormer: Annulus Slicing-based Transformer for Fisheye Rectification with Efficacy Domain Exploration ( http://arxiv.org/abs/2207.01925v1 )

ライセンス: Link先を確認
Shangrong Yang, Chunyu Lin, Kang Liao, Yao Zhao(参考訳) 魚眼画像の修正はCNNを通じて多くの進歩を遂げている。 それにもかかわらず、一定の受容場によって制約された大域分布と歪みの局所対称性は、完全には利用されていない。 これら2つの特徴を活用するために,魚眼画像をシーケンスとして処理し,世界的および地域的知覚を高めるフィッシュフォーマーを導入した。 魚眼画像の構造特性に応じて変圧器をチューニングした。 まず,既存の2乗スライシング法によって生成されたパッチの歪み分布がネットワークを混乱させ,トレーニングが困難になる。 そこで本研究では,各パッチの歪みの一貫性を保ち,歪み分布をよく把握する環状スライシング法を提案する。 第2に、異なる歪みパラメータがそれぞれの有効領域を有することを解析する。 したがって、局所的な知覚はグローバルと同様に重要であるが、トランスフォーマーは局所的なテクスチャ知覚に弱い。 そこで本研究では,局所知覚とテクスチャ伝達を高めるための新しい層注目機構を提案する。 ネットワークはグローバルな認識と異なるパラメータによって決定される局所的な認識を同時に実装する。 実験により,本手法は最先端手法と比較して優れた性能を示すことが示された。

Numerous significant progress on fisheye image rectification has been achieved through CNN. Nevertheless, constrained by a fixed receptive field, the global distribution and the local symmetry of the distortion have not been fully exploited. To leverage these two characteristics, we introduced Fishformer that processes the fisheye image as a sequence to enhance global and local perception. We tuned the Transformer according to the structural properties of fisheye images. First, the uneven distortion distribution in patches generated by the existing square slicing method confuses the network, resulting in difficult training. Therefore, we propose an annulus slicing method to maintain the consistency of the distortion in each patch, thus perceiving the distortion distribution well. Second, we analyze that different distortion parameters have their own efficacy domains. Hence, the perception of the local area is as important as the global, but Transformer has a weakness for local texture perception. Therefore, we propose a novel layer attention mechanism to enhance the local perception and texture transfer. Our network simultaneously implements global perception and focused local perception decided by the different parameters. Extensive experiments demonstrate that our method provides superior performance compared with state-of-the-art methods.
翻訳日:2022-07-06 14:55:54 公開日:2022-07-05
# 異なるセンシングモードの融合によるドローンのリアルタイム検出と追跡

Drone Detection and Tracking in Real-Time by Fusion of Different Sensing Modalities ( http://arxiv.org/abs/2207.01927v1 )

ライセンス: Link先を確認
Fredrik Svanstr\"om, Fernando Alonso-Fernandez, Cristofer Englund(参考訳) 空飛ぶドローンの自動検出は、特に許可されていない場合、危険な状況やセキュリティを損なう可能性がある重要な問題である。 本稿では,マルチセンサドローン検出システムの設計と評価を行う。 一般的なビデオカメラやマイクロフォンセンサーとともに、熱赤外カメラの使用を探求し、関連する文献ではほとんど触れられていない、実現可能で有望な解決策として指摘している。 我々のソリューションは魚眼カメラと統合され、空をより広く監視し、他のカメラを興味のある物体に向けて操縦する。 センシングソリューションは、ADS-B受信機、GPS受信機、レーダーモジュールと補完されるが、後者は検出範囲が限られているため、最終配置には含まれていない。 熱カメラは、たとえこのカメラが解像度が低いとしても、ビデオカメラと同じくらい実現可能なソリューションであることが示されている。 我々の研究の他の2つの新しい特徴は、既存のものと比較してクラス数を拡大するマルチセンサーアノテートデータの新しい公開データセットの作成と、センサーからターゲットまでの距離の関数としての検出器性能の研究である。 センサ融合も検討され、個々のセンサーの誤検出を軽減し、システムをより堅牢にすることができることを示した。

Automatic detection of flying drones is a key issue where its presence, specially if unauthorized, can create risky situations or compromise security. Here, we design and evaluate a multi-sensor drone detection system. In conjunction with common video cameras and microphone sensors, we explore the use of thermal infrared cameras, pointed out as a feasible and promising solution that is scarcely addressed in the related literature. Our solution integrates a fish-eye camera as well to monitor a wider part of the sky and steer the other cameras towards objects of interest. The sensing solutions are complemented with an ADS-B receiver, a GPS receiver, and a radar module, although the latter has been not included in our final deployment due to its limited detection range. The thermal camera is shown to be a feasible solution as good as the video camera, even if the camera employed here has a lower resolution. Two other novelties of our work are the creation of a new public dataset of multi-sensor annotated data that expand the number of classes in comparison to existing ones, as well as the study of the detector performance as a function of the sensor-to-target distance. Sensor fusion is also explored, showing that the system can be made more robust in this way, mitigating false detections of the individual sensors
翻訳日:2022-07-06 14:55:38 公開日:2022-07-05
# 全能特徴学習マシンのための画像符号化

Image Coding for Machines with Omnipotent Feature Learning ( http://arxiv.org/abs/2207.01932v1 )

ライセンス: Link先を確認
Ruoyu Feng, Xin Jin, Zongyu Guo, Runsen Feng, Yixin Gao, Tianyu He, Zhizheng Zhang, Simeng Sun, Zhibo Chen(参考訳) Image Coding for Machines (ICM)は、人間の知覚を満たすのではなく、AIタスク分析のための画像を圧縮することを目的としている。 一般的な(AIタスクのための)機能とコンパクトな(圧縮のための)機能を学ぶことが、その成功の鍵となる。 本稿では,圧縮を考慮しながら普遍的な特徴を学習し,icmフレームワークの開発を試みる。 我々は、全能的な機能やそれに対応するフレームワークをOmni-ICMと呼ぶ。 自己教師付き学習(SSL)が機能一般化を改善することを考慮し、Omni-ICMフレームワークに圧縮タスクと統合して全能的特徴を学習する。 しかし、SSLにおけるセマンティクスモデリングと圧縮における冗長性除去を協調することは容易ではないため、インスタンスの区別とエントロピーの最小化を併用して、新しい情報フィルタリング(IF)モジュールを設計し、AIタスク(テクスチャ冗長性など)に弱い関係を持つ情報を適応的にドロップする。 これまでのタスク固有のソリューションとは異なり、omni-icmは共同トレーニングや余分なトランスフォーメーションなしで学習された全能機能に基づいたaiタスク分析を直接サポートすることができる。 シンプルで直感的なOmni-ICMは、複数の基本的なビジョンタスクにおいて、既存の伝統および学習ベースのコーデックよりも大幅に優れています。

Image Coding for Machines (ICM) aims to compress images for AI tasks analysis rather than meeting human perception. Learning a kind of feature that is both general (for AI tasks) and compact (for compression) is pivotal for its success. In this paper, we attempt to develop an ICM framework by learning universal features while also considering compression. We name such features as omnipotent features and the corresponding framework as Omni-ICM. Considering self-supervised learning (SSL) improves feature generalization, we integrate it with the compression task into the Omni-ICM framework to learn omnipotent features. However, it is non-trivial to coordinate semantics modeling in SSL and redundancy removing in compression, so we design a novel information filtering (IF) module between them by co-optimization of instance distinguishment and entropy minimization to adaptively drop information that is weakly related to AI tasks (e.g., some texture redundancy). Different from previous task-specific solutions, Omni-ICM could directly support AI tasks analysis based on the learned omnipotent features without joint training or extra transformation. Albeit simple and intuitive, Omni-ICM significantly outperforms existing traditional and learning-based codecs on multiple fundamental vision tasks.
翻訳日:2022-07-06 14:55:16 公開日:2022-07-05
# 映像理解のための連合型自己教師付き学習

Federated Self-supervised Learning for Video Understanding ( http://arxiv.org/abs/2207.01975v1 )

ライセンス: Link先を確認
Yasar Abbas Ur Rehman, Yan Gao, Jiajun Shen, Pedro Porto Buarque de Gusmao, Nicholas Lane(参考訳) カメラ搭載のモバイルデバイスのユビキタス性は、エッジで大量のラベルなしのビデオデータを生成することに繋がる。 タスク固有のトレーニングのために,多種多様な自己教師付き学習(SSL)手法が提案されているが,プライバシの問題や通信コストといった実践的な課題により,SSLの大規模展開が妨げられている。 これらの問題を緩和するために、ビデオSSLのタスクにフェデレートラーニング(FL)を使用することを提案する。 本研究では,現在のsof-the-art (sota) ビデオssl技術の性能を評価し,kinetics-400データセットをシミュレートした大規模fl設定に組み込んだ場合の問題点を明らかにする。 我々は、異なるアグリゲーション戦略と部分的なウェイト更新を統合した、FedVSSLと呼ばれる新しいビデオ用フェデレーションSSLフレームワークを提案する。 UCF-101では6.66%、HMDB-51では5.13%の集中型SOTAを上回り、FedVSSLの有効性と重要性を実証した。

The ubiquity of camera-enabled mobile devices has lead to large amounts of unlabelled video data being produced at the edge. Although various self-supervised learning (SSL) methods have been proposed to harvest their latent spatio-temporal representations for task-specific training, practical challenges including privacy concerns and communication costs prevent SSL from being deployed at large scales. To mitigate these issues, we propose the use of Federated Learning (FL) to the task of video SSL. In this work, we evaluate the performance of current state-of-the-art (SOTA) video-SSL techniques and identify their shortcomings when integrated into the large-scale FL setting simulated with kinetics-400 dataset. We follow by proposing a novel federated SSL framework for video, dubbed FedVSSL, that integrates different aggregation strategies and partial weight updating. Extensive experiments demonstrate the effectiveness and significance of FedVSSL as it outperforms the centralized SOTA for the downstream retrieval task by 6.66% on UCF-101 and 5.13% on HMDB-51.
翻訳日:2022-07-06 14:54:52 公開日:2022-07-05
# 画像レベルクラスとdebiased cross-modal contrastive learningによる開語彙3次元検出

Open-Vocabulary 3D Detection via Image-level Class and Debiased Cross-modal Contrastive Learning ( http://arxiv.org/abs/2207.01987v1 )

ライセンス: Link先を確認
Yuheng Lu, Chenfeng Xu, Xiaobao Wei, Xiaodong Xie, Masayoshi Tomizuka, Kurt Keutzer, Shanghang Zhang(参考訳) 現在の点雲検出法は,その限定的な一般化能力のため,実世界の開語彙を検出するのが困難である。 さらに、多数のオブジェクトのクラスでポイントクラウド検出データセットを収集し、完全に注釈付けすることは極めて困難であり、既存のポイントクラウドデータセットの限られたクラスにつながり、オープン語彙のポイントクラウド検出を実現するために一般的な表現を学ぶのを妨げる。 私たちが知る限り、我々はオープンな3Dポイントクラウド検出の問題を初めて研究している。 完全なラベル付きポイントクラウドデータセットを探す代わりに、ImageNet1Kを使用してポイントクラウド検出器の語彙を広げます。 画像レベルのクラス管理を用いたオープン語彙3DDETectorであるOV-3DETICを提案する。 具体的には、認識のためのイメージモダリティとローカライゼーションのためのポイントクラウドモダリティという2つのモダリティを利用して、見当たらないクラスのための擬似ラベルを生成する。 そこで本研究では,画像のモダリティからポイントクラウドのモダリティへ知識を伝達する,新しい非バイアス型クロスモーダルコントラスト学習手法を提案する。 推論中のレイテンシを損なうことなく、OV-3DETICは開語彙検出が可能なポイントクラウド検出器を提供する。 OV-3DETICは、SUN-RGBDデータセットとScanNetデータセットの幅広いベースラインによって、少なくとも10.77 % mAP改善(絶対値)と9.56 % mAP改善(絶対値)を達成することを示した。 さらに,提案するov-3detic 作用の解明に十分な実験を行った。

Current point-cloud detection methods have difficulty detecting the open-vocabulary objects in the real world, due to their limited generalization capability. Moreover, it is extremely laborious and expensive to collect and fully annotate a point-cloud detection dataset with numerous classes of objects, leading to the limited classes of existing point-cloud datasets and hindering the model to learn general representations to achieve open-vocabulary point-cloud detection. As far as we know, we are the first to study the problem of open-vocabulary 3D point-cloud detection. Instead of seeking a point-cloud dataset with full labels, we resort to ImageNet1K to broaden the vocabulary of the point-cloud detector. We propose OV-3DETIC, an Open-Vocabulary 3D DETector using Image-level Class supervision. Specifically, we take advantage of two modalities, the image modality for recognition and the point-cloud modality for localization, to generate pseudo labels for unseen classes. Then we propose a novel debiased cross-modal contrastive learning method to transfer the knowledge from image modality to point-cloud modality during training. Without hurting the latency during inference, OV-3DETIC makes the point-cloud detector capable of achieving open-vocabulary detection. Extensive experiments demonstrate that the proposed OV-3DETIC achieves at least 10.77 % mAP improvement (absolute value) and 9.56 % mAP improvement (absolute value) by a wide range of baselines on the SUN-RGBD dataset and ScanNet dataset, respectively. Besides, we conduct sufficient experiments to shed light on why the proposed OV-3DETIC works.
翻訳日:2022-07-06 14:54:33 公開日:2022-07-05
# アバターキャップ:アバター条件付き単眼容積キャプチャー

AvatarCap: Animatable Avatar Conditioned Monocular Human Volumetric Capture ( http://arxiv.org/abs/2207.02031v1 )

ライセンス: Link先を確認
Zhe Li, Zerong Zheng, Hongwen Zhang, Chaonan Ji, Yebin Liu(参考訳) そこで本研究では,可視領域と可視領域の両方において,高忠実な再構成を行うために,アニメーション可能なアバターをキャプチャパイプラインに導入する新しいフレームワークであるアバターキャップを提案する。 本手法は,まず3dスキャンの少ない数 (~20) から被写体に対するアニメーション可能なアバターを予め作成する。 そして,本課題の単眼rgb映像を与えられた場合,画像観察とアバターからの情報を予め統合し,視認性によらず高忠実な3dテクスチャモデルとダイナミックディテールを再構成する。 テクスチャバタール(geotexavatar)は,形状とテクスチャの両方の監督を利用して,ポーズ依存のダイナミクスを分解的かつ暗黙的に制約する。 標準核融合と再構成ネットワークを含むアバター条件付き体積捕獲法を提案し, 観測領域と観測領域の両方で高忠実度再構成を行うために, 画像観察とアバターダイナミックスを統合した。 概して,本手法は,細部およびポーズ依存のダイナミックスを用いた単眼的ヒト容積キャプチャを可能にし,実験により,本手法が芸術の状態を上回ることを示した。 コードはhttps://github.com/lizhe00/AvatarCapで入手できる。

To address the ill-posed problem caused by partial observations in monocular human volumetric capture, we present AvatarCap, a novel framework that introduces animatable avatars into the capture pipeline for high-fidelity reconstruction in both visible and invisible regions. Our method firstly creates an animatable avatar for the subject from a small number (~20) of 3D scans as a prior. Then given a monocular RGB video of this subject, our method integrates information from both the image observation and the avatar prior, and accordingly recon-structs high-fidelity 3D textured models with dynamic details regardless of the visibility. To learn an effective avatar for volumetric capture from only few samples, we propose GeoTexAvatar, which leverages both geometry and texture supervisions to constrain the pose-dependent dynamics in a decomposed implicit manner. An avatar-conditioned volumetric capture method that involves a canonical normal fusion and a reconstruction network is further proposed to integrate both image observations and avatar dynamics for high-fidelity reconstruction in both observed and invisible regions. Overall, our method enables monocular human volumetric capture with detailed and pose-dependent dynamics, and the experiments show that our method outperforms state of the art. Code is available at https://github.com/lizhe00/AvatarCap.
翻訳日:2022-07-06 14:53:25 公開日:2022-07-05
# MVP: 行動ローカライゼーションのためのロバストなマルチビュープラクティス

MVP: Robust Multi-View Practice for Driving Action Localization ( http://arxiv.org/abs/2207.02042v1 )

ライセンス: Link先を確認
Jingjie Shang and Kunchang Li and Kaibin Tian and Haisheng Su and Yangguang Li(参考訳) 引き離された運転は年に何千もの死の原因となり、これらの悲劇を防ぐためにディープラーニング手法を適用する方法が重要な問題となっている。 第6回AIシティチャレンジのトラック3では、研究者が高機能なアクションアノテーションを備えた高品質のビデオデータセットを提供する。 小さなデータスケールと不明瞭なアクション境界のため、データセットは、すべての異なるアクションを正確にローカライズし、カテゴリを分類するユニークな課題を示す。 本稿では,映像間のマルチビュー同期を有効活用し,ロバスト・マルチビュー・プラクティス(mvp)により動作のローカライゼーションを実現する。 オーバーフィッティングを避けるために, 特徴抽出器としてのkinetics-700プリトレーニングにより, 高速に微調整を行う。 次に、異なるビューの特徴をActionFormerに渡して、候補となるアクション提案を生成する。 すべてのアクションを正確にローカライズするために、モデル投票、しきい値フィルタリング、重複除去を含む精巧な後処理を設計する。 その結果,MVPは動作ローカライゼーションに堅牢であり,Track3テストセットでは28.49%のF1スコアを達成した。

Distracted driving causes thousands of deaths per year, and how to apply deep-learning methods to prevent these tragedies has become a crucial problem. In Track3 of the 6th AI City Challenge, researchers provide a high-quality video dataset with densely action annotations. Due to the small data scale and unclear action boundary, the dataset presents a unique challenge to precisely localize all the different actions and classify their categories. In this paper, we make good use of the multi-view synchronization among videos, and conduct robust Multi-View Practice (MVP) for driving action localization. To avoid overfitting, we fine-tune SlowFast with Kinetics-700 pre-training as the feature extractor. Then the features of different views are passed to ActionFormer to generate candidate action proposals. For precisely localizing all the actions, we design elaborate post-processing, including model voting, threshold filtering and duplication removal. The results show that our MVP is robust for driving action localization, which achieves 28.49% F1-score in the Track3 test set.
翻訳日:2022-07-06 14:53:01 公開日:2022-07-05
# CASHformer: 縦解析用SHape Transformerを意識した認知

CASHformer: Cognition Aware SHape Transformer for Longitudinal Analysis ( http://arxiv.org/abs/2207.02091v1 )

ライセンス: Link先を確認
Ignacio Sarasua, Sebastian P\"olsterl, Christian Wachinger(参考訳) 皮質下構造の変化のモデル化は、アルツハイマー病(AD)の進行をよりよく理解するために重要である。 異種配列長に適応する柔軟性を考えると、メッシュベースのトランスフォーマーアーキテクチャは、過去の海馬変形を予測するために提案されている。 しかし、トランスフォーマーの主な制限の1つは、トレーニング可能なパラメータの多さである。 さらに、現在の方法には、進行中の広告関連パターンを特定するのに役立つ関連のある非画像情報が含まれない。 この目的のために,ADにおける縦方向形状の軌跡をモデル化するトランスフォーマーベースのフレームワークであるCASHformerを紹介する。 CASHformerは、事前学習されたトランスフォーマーを、微調整中にほとんどの層を凍結することで幅広いタスクを一般化する普遍的な計算エンジンとして取り入れている。 これにより、元のモデルに対するパラメータの数を90%以上削減し、大きめのモデルをオーバーフィッティングせずに小さなデータセットに適用することができる。 さらに、CASHformerは認知低下をモデル化し、時相配列のAD萎縮パターンを明らかにする。 提案手法と比較すると,CASHformerは再建誤差を73%削減できることがわかった。 また,adに進行する患者の検出精度は,縦型データの欠如に伴い3%向上した。

Modeling temporal changes in subcortical structures is crucial for a better understanding of the progression of Alzheimer's disease (AD). Given their flexibility to adapt to heterogeneous sequence lengths, mesh-based transformer architectures have been proposed in the past for predicting hippocampus deformations across time. However, one of the main limitations of transformers is the large amount of trainable parameters, which makes the application on small datasets very challenging. In addition, current methods do not include relevant non-image information that can help to identify AD-related patterns in the progression. To this end, we introduce CASHformer, a transformer-based framework to model longitudinal shape trajectories in AD. CASHformer incorporates the idea of pre-trained transformers as universal compute engines that generalize across a wide range of tasks by freezing most layers during fine-tuning. This reduces the number of parameters by over 90% with respect to the original model and therefore enables the application of large models on small datasets without overfitting. In addition, CASHformer models cognitive decline to reveal AD atrophy patterns in the temporal sequence. Our results show that CASHformer reduces the reconstruction error by 73% compared to previously proposed methods. Moreover, the accuracy of detecting patients progressing to AD increases by 3% with imputing missing longitudinal shape data.
翻訳日:2022-07-06 14:52:41 公開日:2022-07-05
# 階層的階層間注意によるトランスフォーマのセマンティクスセグメンテーションの改善

Improving Semantic Segmentation in Transformers using Hierarchical Inter-Level Attention ( http://arxiv.org/abs/2207.02126v1 )

ライセンス: Link先を確認
Gary Leung, Jun Gao, Xiaohui Zeng, Sanja Fidler(参考訳) 既存の変換器ベースの画像バックボーンは、通常、1方向から上位レベルまでの特徴情報を伝搬する。 これは、正確なオブジェクト境界を画定するローカライズ機能が低解像度な特徴マップで最も顕著であるのに対して、あるオブジェクトに属する画像信号を他のオブジェクトに対して曖昧にすることができるセマンティクスは、一般的に高いレベルの処理で現れるため、理想的ではないかもしれない。 本稿では,階層的階層間注意(Hierarchical Inter-Level Attention, HILA)を提案する。 HILAは階層型ヴィジュアルトランスフォーマーアーキテクチャを拡張し、上位と下位の機能間の局所的な接続をバックボーンエンコーダに追加する。 各イテレーションにおいて、上位の機能を割り当てて、下位の機能を更新し、反復的にオブジェクト間の関係を解消することで階層を構築する。 これらの改善された下位機能を使用して、上位機能を再アップデートする。 HILAは、ベースモデルを変更することなく、階層アーキテクチャの大部分に統合することができる。 segformer と swin transformer に hila を追加し,パラメータやフラップが少なく,意味セグメンテーションの精度が大幅に向上した。 プロジェクトサイトとコード: https://www.cs.toronto.edu/~garyleung/hila/

Existing transformer-based image backbones typically propagate feature information in one direction from lower to higher-levels. This may not be ideal since the localization ability to delineate accurate object boundaries, is most prominent in the lower, high-resolution feature maps, while the semantics that can disambiguate image signals belonging to one object vs. another, typically emerges in a higher level of processing. We present Hierarchical Inter-Level Attention (HILA), an attention-based method that captures Bottom-Up and Top-Down Updates between features of different levels. HILA extends hierarchical vision transformer architectures by adding local connections between features of higher and lower levels to the backbone encoder. In each iteration, we construct a hierarchy by having higher-level features compete for assignments to update lower-level features belonging to them, iteratively resolving object-part relationships. These improved lower-level features are then used to re-update the higher-level features. HILA can be integrated into the majority of hierarchical architectures without requiring any changes to the base model. We add HILA into SegFormer and the Swin Transformer and show notable improvements in accuracy in semantic segmentation with fewer parameters and FLOPS. Project website and code: https://www.cs.toronto.edu/~garyleung/hila/
翻訳日:2022-07-06 14:52:20 公開日:2022-07-05
# 開集合認識のためのクラス特異的意味再構成

Class-Specific Semantic Reconstruction for Open Set Recognition ( http://arxiv.org/abs/2207.02158v1 )

ライセンス: Link先を確認
Hongzhi Huang, Yu Wang, Qinghua Hu, Ming-Ming Cheng(参考訳) オープンセット認識により、ディープニューラルネットワーク(DNN)は未知クラスのサンプルを特定しつつ、既知のクラスのサンプルに対する高い分類精度を維持することができる。 オートエンコーダ(AE)とプロトタイプ学習に基づく既存の手法は、この課題に対処する上で大きな可能性を秘めている。 本研究では,AEのパワーとプロトタイプ学習を統合したCSSR(Class-Specific Semantic Reconstruction)を提案する。 具体的には、CSSRはプロトタイプポイントをクラス固有のAEで表される多様体に置き換える。 従来のプロトタイプベースの手法とは異なり、CSSRは個々のAE多様体上の既知のクラスをモデル化し、AEの再構成エラーによってクラス所有度を測定する。 クラス固有のAEは、DNNバックボーンの上部にプラグインされ、生の画像の代わりにDNNが学んだ意味表現を再構築する。 エンドツーエンドの学習を通じて、DNNとAEは互いに強化し、差別的情報と代表的情報の両方を学ぶ。 複数のデータセットで実験を行った結果,提案手法は近接および開集合認識において優れた性能を示し,既存のフレームワークに組み込むには十分単純かつ柔軟であることがわかった。

Open set recognition enables deep neural networks (DNNs) to identify samples of unknown classes, while maintaining high classification accuracy on samples of known classes. Existing methods basing on auto-encoder (AE) and prototype learning show great potential in handling this challenging task. In this study, we propose a novel method, called Class-Specific Semantic Reconstruction (CSSR), that integrates the power of AE and prototype learning. Specifically, CSSR replaces prototype points with manifolds represented by class-specific AEs. Unlike conventional prototype-based methods, CSSR models each known class on an individual AE manifold, and measures class belongingness through AE's reconstruction error. Class-specific AEs are plugged into the top of the DNN backbone and reconstruct the semantic representations learned by the DNN instead of the raw image. Through end-to-end learning, the DNN and the AEs boost each other to learn both discriminative and representative information. The results of experiments conducted on multiple datasets show that the proposed method achieves outstanding performance in both close and open set recognition and is sufficiently simple and flexible to incorporate into existing frameworks.
翻訳日:2022-07-06 14:51:54 公開日:2022-07-05
# (参考訳) 局所的マニフォールド平滑性を考慮した領域外一般化予測

Predicting Out-of-Domain Generalization with Local Manifold Smoothness ( http://arxiv.org/abs/2207.02093v1 )

ライセンス: CC BY 4.0
Nathan Ng and Kyunghyun Cho and Neha Hulkund and Marzyeh Ghassemi(参考訳) 機械学習モデルを新しい環境に一般化する方法を理解することは、安全なデプロイメントの重要な部分である。 近年の研究では、モデルの一般化能力を直接予測または理論的に拘束する様々な複雑性測度が提案されている。 しかし、これらの手法は実際には必ずしも満たされるとは限らないという強い仮定に依拠している。 既存の測度を適用可能な限定的な設定に動機づけられ,分類器の局所多様体滑らか性に基づく新しい複雑性測度を提案する。 局所多様体の滑らかさを,与えられた試験点周辺の多様体近傍における摂動に対する分類器の出力感度として定義する。 直感的には、これらの摂動に敏感でない分類器はより一般化されるべきである。 滑らかさを推定するために、データ拡張を用いて点をサンプリングし、これらの点の比率を多数派に分類する。 提案手法では,既存のメソッドでは不可能なドメイン外設定でも適用可能であるため,データ拡張法を選択するだけで,モデルやデータ分散に関する仮定は不要である。 画像分類,感情分析,自然言語推論におけるロバストネスベンチマークの実験において,100以上の列車/テストドメインペア上で評価された3,000以上のモデル上で,多様体の滑らか度測定と実際のOOD一般化との強い相関を示す。

Understanding how machine learning models generalize to new environments is a critical part of their safe deployment. Recent work has proposed a variety of complexity measures that directly predict or theoretically bound the generalization capacity of a model. However, these methods rely on a strong set of assumptions that in practice are not always satisfied. Motivated by the limited settings in which existing measures can be applied, we propose a novel complexity measure based on the local manifold smoothness of a classifier. We define local manifold smoothness as a classifier's output sensitivity to perturbations in the manifold neighborhood around a given test point. Intuitively, a classifier that is less sensitive to these perturbations should generalize better. To estimate smoothness we sample points using data augmentation and measure the fraction of these points classified into the majority class. Our method only requires selecting a data augmentation method and makes no other assumptions about the model or data distributions, meaning it can be applied even in out-of-domain (OOD) settings where existing methods cannot. In experiments on robustness benchmarks in image classification, sentiment analysis, and natural language inference, we demonstrate a strong and robust correlation between our manifold smoothness measure and actual OOD generalization on over 3,000 models evaluated on over 100 train/test domain pairs.
翻訳日:2022-07-06 14:50:29 公開日:2022-07-05
# 不確実性セット正規化を伴う連続制御タスクにおけるロバスト強化学習

Robust Reinforcement Learning in Continuous Control Tasks with Uncertainty Set Regularization ( http://arxiv.org/abs/2207.02016v1 )

ライセンス: Link先を確認
Yuan Zhang, Jianhong Wang, Joschka Boedecker(参考訳) 強化学習(Reinforcement Learning, RL)は、環境摂動下での一般化と堅牢性を欠いていると認識されており、現実世界のロボット工学への応用を過度に制限している。 以前は、値関数に正規化を追加することは、不確実な遷移を伴う堅牢なポリシーを学ぶことと等価であると主張した。 正規化・ロバスト性変換はその単純さと効率をアピールしているが、それでも連続制御タスクには欠けている。 本稿では、遷移関数のパラメータ空間上の不確かさを定式化することにより、 $\textbf{U}$ncertainty $\textbf{S}$et $\textbf{R}$egularizer (USR) という新しい正規化器を提案する。 特にUSRは、既存のRLフレームワークにプラグインできるほど柔軟です。 未知の不確実性集合に対処するために,我々はさらに,値関数に基づいてそれを生成するための新しい敵対的アプローチを提案する。 実世界の強化学習(rwrl)ベンチマークでusrを評価し,摂動テスト環境におけるロバスト性能の改善を実証した。

Reinforcement learning (RL) is recognized as lacking generalization and robustness under environmental perturbations, which excessively restricts its application for real-world robotics. Prior work claimed that adding regularization to the value function is equivalent to learning a robust policy with uncertain transitions. Although the regularization-robustness transformation is appealing for its simplicity and efficiency, it is still lacking in continuous control tasks. In this paper, we propose a new regularizer named $\textbf{U}$ncertainty $\textbf{S}$et $\textbf{R}$egularizer (USR), by formulating the uncertainty set on the parameter space of the transition function. In particular, USR is flexible enough to be plugged into any existing RL framework. To deal with unknown uncertainty sets, we further propose a novel adversarial approach to generate them based on the value function. We evaluate USR on the Real-world Reinforcement Learning (RWRL) benchmark, demonstrating improvements in the robust performance for perturbed testing environments.
翻訳日:2022-07-06 14:28:59 公開日:2022-07-05
# マルチコア弾性光学ネットワークにおける資源配分:深層強化学習アプローチ

Resource Allocation in Multicore Elastic Optical Networks: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2207.02074v1 )

ライセンス: Link先を確認
Juan Pinto-R\'ios, Felipe Calder\'on, Ariel Leiva, Gabriel Hermosilla, Alejandra Beghelli, Danilo B\'orquez-Paredes, Astrid Lozada, Nicol\'as Jara, Ricardo Olivares, Gabriel Saavedra(参考訳) 動的マルチコアファイバー弾性光ネットワーク(mcf-eons)におけるルーティング、変調、スペクトル、コア割り当て(rmsca)問題を解決するために、深層強化学習アプローチが初めて適用された。 そのため、OpenAIのGymと互換性のある新しい環境が設計され、MCF-EONの動作をエミュレートするために実装された。 新しい環境は、ネットワーク状態と物理層に関連した側面を考慮してエージェントアクション(経路、コア、スペクトルスロットの選択)を処理する。 後者には、利用可能な変調フォーマットとそのリーチ、MCF関連の障害であるコア間クロストーク(XT)が含まれている。 結果として得られる信号の品質が許容される場合、環境はエージェントによって選択されたリソースを割り当てる。 エージェントの動作を処理した後、環境が設定され、エージェントに新しいネットワーク状態に関する数値的な報酬と情報を与える。 4種類のエージェントのブロッキング性能をシミュレーションにより, MCF-EONの3つのベースラインヒューリスティックと比較した。 NSFNet と COST239 ネットワークトポロジーで得られた結果から,最良性能のエージェントは平均して,最良性能のベースラインヒューリスティック手法に関するブロッキング確率を 4 倍まで減少させることがわかった。

A deep reinforcement learning approach is applied, for the first time, to solve the routing, modulation, spectrum and core allocation (RMSCA) problem in dynamic multicore fiber elastic optical networks (MCF-EONs). To do so, a new environment - compatible with OpenAI's Gym - was designed and implemented to emulate the operation of MCF-EONs. The new environment processes the agent actions (selection of route, core and spectrum slot) by considering the network state and physical-layer-related aspects. The latter includes the available modulation formats and their reach and the inter-core crosstalk (XT), an MCF-related impairment. If the resulting quality of the signal is acceptable, the environment allocates the resources selected by the agent. After processing the agent's action, the environment is configured to give the agent a numerical reward and information about the new network state. The blocking performance of four different agents was compared through simulation to 3 baseline heuristics used in MCF-EONs. Results obtained for the NSFNet and COST239 network topologies show that the best-performing agent achieves, on average, up to a four-times decrease in blocking probability concerning the best-performing baseline heuristic methods.
翻訳日:2022-07-06 14:28:34 公開日:2022-07-05
# ランクオーバーパラメータ化による非凸バーラー・モンティロ因子分解のグローバル保証の改善

Improved Global Guarantees for the Nonconvex Burer--Monteiro Factorization via Rank Overparameterization ( http://arxiv.org/abs/2207.01789v1 )

ライセンス: Link先を確認
Richard Y. Zhang(参考訳) 我々は、最小値 $m^{\star}$ が低ランク $r^{\star}\ll n$ を持つという仮定の下で、2つの微分可能で、l$-smooth と $\mu$-strongly convex objective $\phi$ over an $n\times n$ positive semidefinite matrix $m\succeq0$ を最小化することを検討している。 burer-monteiro のアプローチに従い、代わりに、係数行列 $x$ of size $n\times r$ 上の非凸目的 $f(x)=\phi(xx^{t})$ を最小化する。 これにより変数の数は実質的に$o(n^{2})$から$o(n)$まで減少し、正の半定義を無償で強制するが、元の問題の凸性を諦めるコストがかかる。 本稿では、サーチランク $r\ge r^{\star}$ が真のランク $r^{\star}$ に関する定数因子によって過度にパラメータ化されていること、すなわち $r>\frac{1}{4}(L/\mu-1)^{2}r^{\star}$ とすると、非凸性にもかかわらず、局所最適化は、任意の初期点から大域最適点へのグローバル収束を保証する。 これは以前のランクオーバーパラメータのしきい値である $r\ge n$ を大幅に改善するが、$\phi$ が非スムースかつ/または非強凸であることが許されている場合、変数の数は$o(n^{2})$ まで増加する。 逆に、ランク超パラメータ化がなければ、そのような大域的保証が可能であることは、$\phi$ がほぼ完全に条件付きで、条件番号が $l/\mu<3$ である場合に限る。 したがって、小量の過パラメータ化は、非凸バーラ-モンテイロ分解の理論的保証に大きな改善をもたらす可能性があると結論付ける。

We consider minimizing a twice-differentiable, $L$-smooth, and $\mu$-strongly convex objective $\phi$ over an $n\times n$ positive semidefinite matrix $M\succeq0$, under the assumption that the minimizer $M^{\star}$ has low rank $r^{\star}\ll n$. Following the Burer--Monteiro approach, we instead minimize the nonconvex objective $f(X)=\phi(XX^{T})$ over a factor matrix $X$ of size $n\times r$. This substantially reduces the number of variables from $O(n^{2})$ to as few as $O(n)$ and also enforces positive semidefiniteness for free, but at the cost of giving up the convexity of the original problem. In this paper, we prove that if the search rank $r\ge r^{\star}$ is overparameterized by a constant factor with respect to the true rank $r^{\star}$, namely as in $r>\frac{1}{4}(L/\mu-1)^{2}r^{\star}$, then despite nonconvexity, local optimization is guaranteed to globally converge from any initial point to the global optimum. This significantly improves upon a previous rank overparameterization threshold of $r\ge n$, which is known to be sharp if $\phi$ is allowed to be nonsmooth and/or non-strongly convex, but would increase the number of variables back up to $O(n^{2})$. Conversely, without rank overparameterization, we prove that such a global guarantee is possible if and only if $\phi$ is almost perfectly conditioned, with a condition number of $L/\mu<3$. Therefore, we conclude that a small amount of overparameterization can lead to large improvements in theoretical guarantees for the nonconvex Burer--Monteiro factorization.
翻訳日:2022-07-06 14:27:46 公開日:2022-07-05
# フィットしたランダム林の近似法

An Approximation Method for Fitted Random Forests ( http://arxiv.org/abs/2207.02184v1 )

ライセンス: Link先を確認
Sai K Popuri(参考訳) ランダムフォレスト(rf)は分類と回帰問題のための一般的な機械学習手法である。 決定木モデルに対するバッキングアプリケーションを含む。 ランダム森林モデルの主な利点の1つは、予測のばらつきの低減である。 何百万ものデータポイントと何百もの特徴を持つモデルの大規模アプリケーションでは、適合したオブジェクトのサイズが非常に大きくなり、木の数と深さによって、プロダクションのセットアップで利用可能なスペースの限界に達することができる。 トレーニングされたモデルを、メモリに制限のある小さなデバイスにオンデマンドでダウンロードする必要がある場合、これは特に困難である。 予測精度を過大に損なうことなく、トレーニングされたRFモデルを近似してモデルサイズを大幅に削減する必要がある。 本研究では,葉へのデータポイントの多項配置を用いたランダムフォレストモデルにおいて,各木を近似する手法を提案する。 具体的には、各木の出力に多項ロジスティック回帰(後に一般化加法モデル(GAM)拡張)を適合させることで、予測品質を保ちながら、サイズを小さくすることから始める。

Random Forests (RF) is a popular machine learning method for classification and regression problems. It involves a bagging application to decision tree models. One of the primary advantages of the Random Forests model is the reduction in the variance of the forecast. In large scale applications of the model with millions of data points and hundreds of features, the size of the fitted objects can get very large and reach the limits on the available space in production setups, depending on the number and depth of the trees. This could be especially challenging when trained models need to be downloaded on-demand to small devices with limited memory. There is a need to approximate the trained RF models to significantly reduce the model size without losing too much of prediction accuracy. In this project we study methods that approximate each fitted tree in the Random Forests model using the multinomial allocation of the data points to the leafs. Specifically, we begin by studying whether fitting a multinomial logistic regression (and subsequently, a generalized additive model (GAM) extension) to the output of each tree helps reduce the size while preserving the prediction quality.
翻訳日:2022-07-06 14:27:07 公開日:2022-07-05
# 敵のパッチ攻撃に対するタスク非依存な防御

Task-agnostic Defense against Adversarial Patch Attacks ( http://arxiv.org/abs/2207.01795v1 )

ライセンス: Link先を確認
Ke Xu, Yao Xiao, Zhaoheng Zheng, Kaijie Cai, Ram Nevatia(参考訳) 敵パッチは、指定されたローカル領域に敵ピクセルを注入することで、ミスリードニューラルネットワークを攻撃します。 パッチ攻撃は様々なタスクにおいて非常に効果的であり、現実世界のオブジェクトへのアタッチメント(例えばステッカー)によって物理的に実現できます。 攻撃パターンの多様性にもかかわらず、敵のパッチは自然画像と非常にテクスチャが高く、外観が異なる傾向にある。 我々はこの特性を利用して、ホワイトボックスの敵パッチに対するタスク非依存の防御であるPatchZeroを提示する。 具体的には,平均画素値で再描画することにより,敵対画素を検出し,パッチ領域を「ゼロズアウト」する。 我々は,パッチ検出問題を意味的セグメンテーションタスクとして定式化し,モデルが任意のサイズと形状のパッチに一般化できるようにする。 我々はさらに,より強固な適応攻撃に対して防御するための2段階の対向訓練スキームをデザインする。 PatchZeroを画像分類(ImageNet,RESISC45),オブジェクト検出(PASCAL VOC),ビデオ分類(UCF101)で徹底的に評価した。 本手法は, 良性性能の劣化を伴わずに, SOTAの頑健な精度を実現する。

Adversarial patch attacks mislead neural networks by injecting adversarial pixels within a designated local region. Patch attacks can be highly effective in a variety of tasks and physically realizable via attachment (e.g. a sticker) to the real-world objects. Despite the diversity in attack patterns, adversarial patches tend to be highly textured and different in appearance from natural images. We exploit this property and present PatchZero, a task-agnostic defense against white-box adversarial patches. Specifically, our defense detects the adversarial pixels and "zeros out" the patch region by repainting with mean pixel values. We formulate the patch detection problem as a semantic segmentation task such that our model can generalize to patches of any size and shape. We further design a two-stage adversarial training scheme to defend against the stronger adaptive attacks. We thoroughly evaluate PatchZero on the image classification (ImageNet, RESISC45), object detection (PASCAL VOC), and video classification (UCF101) datasets. Our method achieves SOTA robust accuracy without any degradation in the benign performance.
翻訳日:2022-07-06 14:25:02 公開日:2022-07-05
# 医用画像量化における臨床医の多様性の定量化のためのベイズ的アプローチ

Bayesian approaches for Quantifying Clinicians' Variability in Medical Image Quantification ( http://arxiv.org/abs/2207.01868v1 )

ライセンス: Link先を確認
Jaeik Jeon, Yeonggul Jang, Youngtaek Hong, Hackjoon Shim, Sekeun Kim(参考訳) MRI、CT、超音波などの医療画像は臨床診断において重要な役割を果たす。 画像から興味の構造を測定するためには正確なセグメンテーションが不可欠である。 しかし、手動のセグメンテーションは演算子に依存しており、測定値のインターおよびイントラバリアビリティが高い。 本稿では,ディープニューラルネットワークによってパラメータ化されたベイズ予測分布が臨床医のイントラ変動を捉える可能性について検討する。 最近出現した近似推論スキームの探索と解析により,後方分割による近似ベイズ深層学習が,セグメンテーションと臨床計測の両方においてイントラ・リサー間変動を学習できるかどうかを評価できる。 実験はMRIと超音波の2つの異なる画像モードで実施される。 深層ニューラルネットワークによってパラメータ化されたベイズ予測分布が臨床医のイントラ変動を近似できることを実証的に実証した。 臨床計測の不確実性を提供することにより, 医用画像の定量的解析に新たな展望を示す。

Medical imaging, including MRI, CT, and Ultrasound, plays a vital role in clinical decisions. Accurate segmentation is essential to measure the structure of interest from the image. However, manual segmentation is highly operator-dependent, which leads to high inter and intra-variability of quantitative measurements. In this paper, we explore the feasibility that Bayesian predictive distribution parameterized by deep neural networks can capture the clinicians' inter-intra variability. By exploring and analyzing recently emerged approximate inference schemes, we evaluate whether approximate Bayesian deep learning with the posterior over segmentations can learn inter-intra rater variability both in segmentation and clinical measurements. The experiments are performed with two different imaging modalities: MRI and ultrasound. We empirically demonstrated that Bayesian predictive distribution parameterized by deep neural networks could approximate the clinicians' inter-intra variability. We show a new perspective in analyzing medical images quantitatively by providing clinical measurement uncertainty.
翻訳日:2022-07-06 14:24:46 公開日:2022-07-05
# コンテンツ固定画像から画像変換のためのスタイルフロー

StyleFlow For Content-Fixed Image to Image Translation ( http://arxiv.org/abs/2207.01909v1 )

ライセンス: Link先を確認
Weichen Fan, Jinghuan Chen, Jiabin Ma, Jun Hou, Shuai Yi(参考訳) I2I(Image-to-image)翻訳はコンピュータビジョンにおいて難しいトピックである。 この問題を3つのタスクに分割する: 強い制約付き翻訳、通常制約付き翻訳、弱い制約付き翻訳。 ここでの制約は、元の画像における内容または意味情報が保存される程度を示す。 それまでのアプローチは、弱い制約のあるタスクで優れたパフォーマンスを達成していたが、フォトリアリズム合成、スタイル転送、カラー化など、強く、通常制約されたタスクのコンテンツを完全に保存できなかった。 制約の強いタスクにおいて,コンテンツ保存転送を実現するために,フローの正規化と新しいスタイルアウェア正規化(san)モジュールからなる新しいi2i翻訳モデルであるstyleflowを提案する。 非可逆的なネットワーク構造により、StyleFlowはまず前方パスの深い特徴空間にイメージを投影し、後方パスはSANモジュールを使用してコンテンツ修正された特徴変換を行い、その後イメージ空間に投影する。 本モデルは,画像誘導翻訳とマルチモーダル合成の両方をサポートする。 いくつかのI2I翻訳ベンチマークで本モデルを評価した結果,提案手法は制約が強いタスクと通常制約のあるタスクの両方において,従来の手法よりも優れていることがわかった。

Image-to-image (I2I) translation is a challenging topic in computer vision. We divide this problem into three tasks: strongly constrained translation, normally constrained translation, and weakly constrained translation. The constraint here indicates the extent to which the content or semantic information in the original image is preserved. Although previous approaches have achieved good performance in weakly constrained tasks, they failed to fully preserve the content in both strongly and normally constrained tasks, including photo-realism synthesis, style transfer, and colorization, etc. To achieve content-preserving transfer in strongly constrained and normally constrained tasks, we propose StyleFlow, a new I2I translation model that consists of normalizing flows and a novel Style-Aware Normalization (SAN) module. With the invertible network structure, StyleFlow first projects input images into deep feature space in the forward pass, while the backward pass utilizes the SAN module to perform content-fixed feature transformation and then projects back to image space. Our model supports both image-guided translation and multi-modal synthesis. We evaluate our model in several I2I translation benchmarks, and the results show that the proposed model has advantages over previous methods in both strongly constrained and normally constrained tasks.
翻訳日:2022-07-06 14:24:31 公開日:2022-07-05
# 直交性によるSVDメタ層の共分散条件の改善

Improving Covariance Conditioning of the SVD Meta-layer by Orthogonality ( http://arxiv.org/abs/2207.02119v1 )

ライセンス: Link先を確認
Yue Song, Nicu Sebe, Wei Wang(参考訳) SVDメタ層をニューラルネットワークに挿入すると、共分散が不調和になり、トレーニング安定性と一般化能力のモデルに悪影響を及ぼす可能性がある。 本稿では,プレSVD層に直交性を持たせることで,共分散条件の改善方法を体系的に研究する。 既往の体重に対する直交治療について検討した。 しかし、これらの技術はコンディショニングを改善することができるが、性能を損なう。 このような副作用を避けるために,最も近い直交勾配 (nog) と最適学習率 (olr) を提案する。 本手法の有効性は,Decorrelated Batch Normalization (BN) と Global Covariance Pooling (GCP) の2つのアプリケーションで検証されている。 広汎な視覚認識実験により,共分散条件と一般化を同時に改善できることが示されている。 さらに, 直交重みとの組合せにより, 性能がさらに向上する。

Inserting an SVD meta-layer into neural networks is prone to make the covariance ill-conditioned, which could harm the model in the training stability and generalization abilities. In this paper, we systematically study how to improve the covariance conditioning by enforcing orthogonality to the Pre-SVD layer. Existing orthogonal treatments on the weights are first investigated. However, these techniques can improve the conditioning but would hurt the performance. To avoid such a side effect, we propose the Nearest Orthogonal Gradient (NOG) and Optimal Learning Rate (OLR). The effectiveness of our methods is validated in two applications: decorrelated Batch Normalization (BN) and Global Covariance Pooling (GCP). Extensive experiments on visual recognition demonstrate that our methods can simultaneously improve the covariance conditioning and generalization. Moreover, the combinations with orthogonal weight can further boost the performances.
翻訳日:2022-07-06 14:24:09 公開日:2022-07-05
# 科学文書におけるキーワード抽出

Keyword Extraction in Scientific Documents ( http://arxiv.org/abs/2207.01888v1 )

ライセンス: Link先を確認
Susie Xi Rao, Piriyakorn Piriyatamwong, Parijat Ghoshal, Sara Nasirian, Emmanuel de Salis, Sandra Mitrovi\'c, Michael Wechner, Vanya Brucker, Peter Egger and Ce Zhang(参考訳) 科学出版物の出力は指数関数的に増加する。 そのため、傾向や変化を追跡することはますます困難になっている。 科学的文書を理解することは、知識グラフの構築、テキストマイニング、規律分類といった下流タスクの重要なステップである。 本ワークショップでは,学術論文の要約からキーワードとキーフレーズの抽出をよりよく理解する。

The scientific publication output grows exponentially. Therefore, it is increasingly challenging to keep track of trends and changes. Understanding scientific documents is an important step in downstream tasks such as knowledge graph building, text mining, and discipline classification. In this workshop, we provide a better understanding of keyword and keyphrase extraction from the abstract of scientific publications.
翻訳日:2022-07-06 14:21:30 公開日:2022-07-05
# (参考訳) 説明可能な顔認識のためのアクティベーションテンプレートマッチング損失

Activation Template Matching Loss for Explainable Face Recognition ( http://arxiv.org/abs/2207.02179v1 )

ライセンス: CC BY 4.0
Huawei Lin, Haozhe Liu, Qiufu Li, Linlin Shen(参考訳) 手動のアノテーションや追加データセットなしで、目、鼻、口などの顔の部分に基づく特徴を学習できる説明可能な顔認識ネットワークを構築することができるか? 本稿では,説明可能な顔認識ネットワークを構築するための汎用的チャネル損失(ecloss)を提案する。 ECLossでトレーニングされた説明可能なネットワークは、個々のチャネルが特定の顔部分を検出することができるターゲット畳み込み層上の顔部分に基づく表現を容易に学習することができる。 多数のデータセットに対する実験により,ECLossは優れた説明可能性指標を達成でき,同時に顔のアライメントを伴わない顔認証の性能も向上することが示された。 さらに,提案したECLossの有効性を可視化した。

Can we construct an explainable face recognition network able to learn a facial part-based feature like eyes, nose, mouth and so forth, without any manual annotation or additionalsion datasets? In this paper, we propose a generic Explainable Channel Loss (ECLoss) to construct an explainable face recognition network. The explainable network trained with ECLoss can easily learn the facial part-based representation on the target convolutional layer, where an individual channel can detect a certain face part. Our experiments on dozens of datasets show that ECLoss achieves superior explainability metrics, and at the same time improves the performance of face verification without face alignment. In addition, our visualization results also illustrate the effectiveness of the proposed ECLoss.
翻訳日:2022-07-06 14:18:44 公開日:2022-07-05
# PKD:ピアソン相関係数を用いた物体検出のための一般蒸留フレームワーク

PKD: General Distillation Framework for Object Detectors via Pearson Correlation Coefficient ( http://arxiv.org/abs/2207.02039v1 )

ライセンス: Link先を確認
Weihan Cao, Yifan Zhang, Jianfei Gao, Anda Cheng, Ke Cheng, Jian Cheng(参考訳) 知識蒸留(KD)は、物体検出においてコンパクトなモデルを訓練するための広く使われている技術である。 しかし、ヘテロジニアス検出器間の蒸留方法についてはまだ研究されていない。 本稿では,異種教師検出器のFPN特性が,検出ヘッドとラベルの割り当てが異なるにもかかわらず,学生を支援することを実証的に見出した。 しかし、機能マップを蒸留検出器に直接合わせると、2つの問題が発生する。 第一に,教師と生徒の特徴量の違いは,生徒に過度に厳しい制約を課すことができた。 第2に, 教師モデルから特徴量が大きいfpnステージとチャネルは, 蒸留損失の勾配を優位にし, kdの他の特徴の影響を圧倒し, ノイズを多く導入する可能性がある。 この問題に対処するために,pearson相関係数を用いた特徴を模倣し,教師からの関係情報に着目し,特徴の大きさに対する制約を緩和する。 本手法は,既存の検出kd法を一貫して上回っており,均質かつ異質な学生・教師ペアに対して有効である。 さらに、より速く収束する。 教師としての強力なMaskRCNN-Swin検出器により、ResNet-50ベースのRetinaNetとFCOSは、それぞれベースラインよりも4.1\%と4.8\%高いCO2017上で41.5%と43.9%のmAPを達成した。

Knowledge distillation(KD) is a widely-used technique to train compact models in object detection. However, there is still a lack of study on how to distill between heterogeneous detectors. In this paper, we empirically find that better FPN features from a heterogeneous teacher detector can help the student although their detection heads and label assignments are different. However, directly aligning the feature maps to distill detectors suffers from two problems. First, the difference in feature magnitude between the teacher and the student could enforce overly strict constraints on the student. Second, the FPN stages and channels with large feature magnitude from the teacher model could dominate the gradient of distillation loss, which will overwhelm the effects of other features in KD and introduce much noise. To address the above issues, we propose to imitate features with Pearson Correlation Coefficient to focus on the relational information from the teacher and relax constraints on the magnitude of the features. Our method consistently outperforms the existing detection KD methods and works for both homogeneous and heterogeneous student-teacher pairs. Furthermore, it converges faster. With a powerful MaskRCNN-Swin detector as the teacher, ResNet-50 based RetinaNet and FCOS achieve 41.5% and 43.9% mAP on COCO2017, which are 4.1\% and 4.8\% higher than the baseline, respectively.
翻訳日:2022-07-06 14:00:35 公開日:2022-07-05
# 指静脈認識のための深層学習 : 最近の研究動向

Deep Learning for Finger Vein Recognition: A Brief Survey of Recent Trend ( http://arxiv.org/abs/2207.02148v1 )

ライセンス: Link先を確認
Renye Zhang and Yimin Yin and Wanxia Deng and Chen Li and Jinghua Zhang(参考訳) フィンガー静脈画像認識技術は生体認証において重要な役割を担い、多くの分野で成功している。 静脈は皮膚組織の下に埋もれているため、指の静脈画像認識は別途有利であり、外的要因によって容易に妨げられることはない。 本稿では,2017年から2021年までの指静脈画像認識のための深層学習に関する46の論文を要約する。 これらの論文はディープニューラルネットワークのタスクに従って要約される。 さらに,指静脈画像認識の課題と今後の展開について述べる。

Finger vein image recognition technology plays an important role in biometric recognition and has been successfully applied in many fields. Because veins are buried beneath the skin tissue, finger vein image recognition has an unparalleled advantage, which is not easily disturbed by external factors. This review summarizes 46 papers about deep learning for finger vein image recognition from 2017 to 2021. These papers are summarized according to the tasks of deep neural networks. Besides, we present the challenges and potential development directions of finger vein image recognition.
翻訳日:2022-07-06 14:00:13 公開日:2022-07-05
# PReGAN: 厳格に監督されたGANによる回答指向のパスランク付け

PReGAN: Answer Oriented Passage Ranking with Weakly Supervised GAN ( http://arxiv.org/abs/2207.01762v1 )

ライセンス: Link先を確認
Pan Du, Jian-Yun Nie, Yutao Zhu, Hao Jiang, Lixin Zou, Xiaohui Yan(参考訳) トピックの関連性以外にも、オープンドメインのファクトイド質問応答のパスランキングには、回答(解答可能性)を含むパスも必要である。 近年のいくつかの研究では、解答可能性を考慮した読み上げ能力がランクに組み込まれているが、この領域で典型的に利用できるトレーニングデータのノイズの性質は、解答実体を含む任意の節を正のサンプルとみなすのを妨げている。 しかし、ある節の答え実体は、与えられた質問に関して必ずしも言及されない。 そこで本研究では, 応答性に関する判別器と, トピック関連性に関する判別器を組み込んだ, ジェネレーティブ・ディバイサル・ニューラル・ニューラル・ネットワークに基づくパッセージ・リグレードのための「tt{PReGAN}」という手法を提案する。 ゴールは、ジェネレータに、トポロジ的に関係があり、答えを含むパスを高くランクさせることである。 5つの公開データセットの実験によると、 \ttt{PReGAN} は適切なパスをランク付けし、QAシステムの有効性を高め、外部データを使わずに既存のアプローチを上回っている。

Beyond topical relevance, passage ranking for open-domain factoid question answering also requires a passage to contain an answer (answerability). While a few recent studies have incorporated some reading capability into a ranker to account for answerability, the ranker is still hindered by the noisy nature of the training data typically available in this area, which considers any passage containing an answer entity as a positive sample. However, the answer entity in a passage is not necessarily mentioned in relation with the given question. To address the problem, we propose an approach called \ttt{PReGAN} for Passage Reranking based on Generative Adversarial Neural networks, which incorporates a discriminator on answerability, in addition to a discriminator on topical relevance. The goal is to force the generator to rank higher a passage that is topically relevant and contains an answer. Experiments on five public datasets show that \ttt{PReGAN} can better rank appropriate passages, which in turn, boosts the effectiveness of QA systems, and outperforms the existing approaches without using external data.
翻訳日:2022-07-06 14:00:06 公開日:2022-07-05
# ソーシャル・メディア・ネットワークによる視覚・テキスト知覚分析の概観

A Comprehensive Review of Visual-Textual Sentiment Analysis from Social Media Networks ( http://arxiv.org/abs/2207.02160v1 )

ライセンス: Link先を確認
Israa Khalaf Salman Al-Tameemi, Mohammad-Reza Feizi-Derakhshi, Saeed Pashazadeh, Mohammad Asadpour(参考訳) ソーシャルメディアネットワークは人々の生活の重要な側面となり、彼らの考え、意見、感情のプラットフォームとなっている。 その結果、自動感情分析(SA)は、他の情報ソースができない方法で人々の感情を認識するために重要である。 これらの感情の分析により、ブランド評価、youtubeの映画レビュー、ヘルスケアアプリケーションなど様々な応用が明らかになった。 ソーシャルメディアが発展していくにつれ、人々はテキスト、写真、オーディオ、ビデオなど、さまざまな形で大量の情報を投稿する。 したがって、従来のSAアルゴリズムは、他のモダリティの表現性を考慮しないため、制限されている。 様々な資料からこのような特徴を取り入れることで、これらのマルチモーダルデータストリームは、テキストベースSAを超える期待結果を最適化する新たな機会を提供する。 本研究は,ソーシャルメディア上に投稿された視覚およびテキストデータを調べるマルチモーダルsaの最前線に焦点をあてた。 多くの人は、これらのプラットフォーム上で自身を表現するために、この情報を利用する可能性が高い。 この急速に成長している分野における学者のリソースとして、データ前処理、特徴抽出技術、感情ベンチマークデータセット、各分野に適した複数の分類手法の有効性を含む、テキストとビジュアルsaの包括的な概要を紹介する。 また、最も頻繁に利用されるデータ融合戦略の概要と、既存のビジュアルテキストsaに関する研究の概要を提供する。 最後に、最も重要な課題を強調し、いくつかの重要な感情アプリケーションを調査します。

Social media networks have become a significant aspect of people's lives, serving as a platform for their ideas, opinions and emotions. Consequently, automated sentiment analysis (SA) is critical for recognising people's feelings in ways that other information sources cannot. The analysis of these feelings revealed various applications, including brand evaluations, YouTube film reviews and healthcare applications. As social media continues to develop, people post a massive amount of information in different forms, including text, photos, audio and video. Thus, traditional SA algorithms have become limited, as they do not consider the expressiveness of other modalities. By including such characteristics from various material sources, these multimodal data streams provide new opportunities for optimising the expected results beyond text-based SA. Our study focuses on the forefront field of multimodal SA, which examines visual and textual data posted on social media networks. Many people are more likely to utilise this information to express themselves on these platforms. To serve as a resource for academics in this rapidly growing field, we introduce a comprehensive overview of textual and visual SA, including data pre-processing, feature extraction techniques, sentiment benchmark datasets, and the efficacy of multiple classification methodologies suited to each field. We also provide a brief introduction of the most frequently utilised data fusion strategies and a summary of existing research on visual-textual SA. Finally, we highlight the most significant challenges and investigate several important sentiment applications.
翻訳日:2022-07-06 13:59:46 公開日:2022-07-05
# Ask-AC: 最高のアクター批判フレームワーク

Ask-AC: An Initiative Advisor-in-the-Loop Actor-Critic Framework ( http://arxiv.org/abs/2207.01955v1 )

ライセンス: Link先を確認
Shunyu Liu, Xinchao Wang, Na Yu, Jie Song, Kaixuan Chen, Zunlei Feng, Mingli Song(参考訳) 有望な成果にもかかわらず、最先端のインタラクティブな強化学習スキームは、継続的監視または事前定義されたルールの形で、アドバイザー専門家から受動的に監視信号を受け取ることに依存し、必然的に面倒で高価な学習プロセスをもたらす。 本稿では,単側指導機構を双方向学習者支援機構に置き換え,学習者と指導者間のカスタマイズかつ有効性のあるメッセージ交換を可能にする,ask-acと呼ばれる新たな指導者批判フレームワークを提案する。 ask-acの核心には、アクション・リクエスタと適応状態セレクタという2つの補完的なコンポーネントがあり、様々なアクター・クリティック・アーキテクチャに容易に組み込むことができる。 前者の構成要素は、エージェントが不確実な状態の存在下でアドバイザの介入を主導的に求め、後者は、特に環境の変化時に前者が見逃す可能性のある不安定な状態を識別し、そのような状態に対する要求行動を促進することを学習する。 静止環境および非定常環境および異なるアクター・クリティック・バックボーンにおける実験結果から,提案フレームワークはエージェントの学習効率を著しく向上し,連続的なアドバイザモニタリングにより得られたものと同等の性能が得られることを示した。

Despite the promising results achieved, state-of-the-art interactive reinforcement learning schemes rely on passively receiving supervision signals from advisor experts, in the form of either continuous monitoring or pre-defined rules, which inevitably result in a cumbersome and expensive learning process. In this paper, we introduce a novel initiative advisor-in-the-loop actor-critic framework, termed as Ask-AC, that replaces the unilateral advisor-guidance mechanism with a bidirectional learner-initiative one, and thereby enables a customized and efficacious message exchange between learner and advisor. At the heart of Ask-AC are two complementary components, namely action requester and adaptive state selector, that can be readily incorporated into various discrete actor-critic architectures. The former component allows the agent to initiatively seek advisor intervention in the presence of uncertain states, while the latter identifies the unstable states potentially missed by the former especially when environment changes, and then learns to promote the ask action on such states. Experimental results on both stationary and non-stationary environments and across different actor-critic backbones demonstrate that the proposed framework significantly improves the learning efficiency of the agent, and achieves the performances on par with those obtained by continuous advisor monitoring.
翻訳日:2022-07-06 13:57:39 公開日:2022-07-05
# ランダム森林の局所的マルチラベル説明

Local Multi-Label Explanations for Random Forest ( http://arxiv.org/abs/2207.01994v1 )

ライセンス: Link先を確認
Nikolaos Mylonas, Ioannis Mollas, Nick Bassiliades, Grigorios Tsoumakas(参考訳) マルチラベル分類は、特に予測されるラベルの数が大きい領域では難しい課題である。 ディープニューラルネットワークはしばしば画像とテキストデータのマルチラベル分類に有効である。 しかし、表データを扱う場合、ツリーアンサンブルのような従来の機械学習アルゴリズムは、競合を上回っているように見える。 ランダムフォレストは、一般的なアンサンブルアルゴリズムであり、様々な現実世界の問題に使われている。 このような問題には、金融分野における不正検出、法律分野における犯罪ホットスポット検出、医療分野における患者記録にアクセス可能な場合の疾病確率予測などが含まれる。 人々の生活に影響を及ぼすため、これらのドメインは説明可能な意思決定システムを必要とする。 ランダムフォレストはこの性質に欠けており、特に多くの樹木予測器が使用される場合である。 この問題は、シングルラベルの分類と回帰に関するLionForestsという最近の研究で解決された。 本研究では,この手法をマルチラベル分類問題に適用し,説明がカバーするラベルに関する3つの異なる戦略を採用する。 最後に,本手法の有効性を評価するための質的,定量的な実験のセットを提案する。

Multi-label classification is a challenging task, particularly in domains where the number of labels to be predicted is large. Deep neural networks are often effective at multi-label classification of images and textual data. When dealing with tabular data, however, conventional machine learning algorithms, such as tree ensembles, appear to outperform competition. Random forest, being a popular ensemble algorithm, has found use in a wide range of real-world problems. Such problems include fraud detection in the financial domain, crime hotspot detection in the legal sector, and in the biomedical field, disease probability prediction when patient records are accessible. Since they have an impact on people's lives, these domains usually require decision-making systems to be explainable. Random Forest falls short on this property, especially when a large number of tree predictors are used. This issue was addressed in a recent research named LionForests, regarding single label classification and regression. In this work, we adapt this technique to multi-label classification problems, by employing three different strategies regarding the labels that the explanation covers. Finally, we provide a set of qualitative and quantitative experiments to assess the efficacy of this approach.
翻訳日:2022-07-06 13:57:12 公開日:2022-07-05
# starcraft multi-agent challenge+ : 報酬機能のない多段階課題と環境因子の学習

The StarCraft Multi-Agent Challenges+ : Learning of Multi-Stage Tasks and Environmental Factors without Precise Reward Functions ( http://arxiv.org/abs/2207.02007v1 )

ライセンス: Link先を確認
Mingyu Kim, Jihwan Oh, Yongsik Lee, Joonkee Kim, Seonghwan Kim, Song Chong and Se-Young Yun(参考訳) 本稿では,スタークラフト・マルチエージェント・チャレンジ(starcraft multi-agent challenge+)と呼ばれる新しいベンチマークを提案する。 従来のマルチエージェント強化学習の標準ベンチマークとして認識されていた課題(SMAC)は、すべてのエージェントが、明らかな報酬関数による微細な操作によってのみ、接近する敵を協調的に排除することを目的としている。 一方,この課題は,マイクロコントロールだけでなく,暗黙的なマルチステージタスクや環境要因を効率的に学習するMARLアルゴリズムの探索能力に関心がある。 本研究は攻撃的シナリオと防御的シナリオの両方をカバーする。 攻撃的なシナリオでは、エージェントは最初に相手を見つけ、それを取り除かなければならない。 防御シナリオは、エージェントが地形的特徴を使用する必要がある。 例えば、エージェントは敵の攻撃を困難にするため、防御構造の後ろに自分自身を置く必要がある。 SMAC+ の MARL アルゴリズムについて検討し,近年の手法は従来の課題とよく似ているが,攻撃的シナリオでは誤動作する。 さらに,改良された探索手法は性能に肯定的な影響を与えるが,すべてのシナリオを完全に解決することはできない。 本研究は今後の研究に向けた新しい方向性を提案する。

In this paper, we propose a novel benchmark called the StarCraft Multi-Agent Challenges+, where agents learn to perform multi-stage tasks and to use environmental factors without precise reward functions. The previous challenges (SMAC) recognized as a standard benchmark of Multi-Agent Reinforcement Learning are mainly concerned with ensuring that all agents cooperatively eliminate approaching adversaries only through fine manipulation with obvious reward functions. This challenge, on the other hand, is interested in the exploration capability of MARL algorithms to efficiently learn implicit multi-stage tasks and environmental factors as well as micro-control. This study covers both offensive and defensive scenarios. In the offensive scenarios, agents must learn to first find opponents and then eliminate them. The defensive scenarios require agents to use topographic features. For example, agents need to position themselves behind protective structures to make it harder for enemies to attack. We investigate MARL algorithms under SMAC+ and observe that recent approaches work well in similar settings to the previous challenges, but misbehave in offensive scenarios. Additionally, we observe that an enhanced exploration approach has a positive effect on performance but is not able to completely solve all scenarios. This study proposes new directions for future research.
翻訳日:2022-07-06 13:56:56 公開日:2022-07-05
# パラメトリックな$p$-dirichlet問題に対するディープリッツ法

The Deep Ritz Method for Parametric $p$-Dirichlet Problems ( http://arxiv.org/abs/2207.01894v1 )

ライセンス: Link先を確認
Alex Kaltenbach, Marius Zeinhofer(参考訳) 本稿では,Deep Ritz法をデプロイするパラメトリック$p$-Dirichlet問題の近似に対する誤差推定を行う。 パラメトリック依存関係には、例えば、様々な測地と指数が$p\in (1,\infty)$である。 導出誤差推定と定量的近似定理を組み合わせることで、誤差減衰率が得られ、この手法がパラメトリック問題に魅力を与える高次元関数の近似において、ディープ・リッツ法がニューラルネットワークの好ましい近似能力を保っていることを示す。 最後に, 応用可能性を示す数値例を示す。

We establish error estimates for the approximation of parametric $p$-Dirichlet problems deploying the Deep Ritz Method. Parametric dependencies include, e.g., varying geometries and exponents $p\in (1,\infty)$. Combining the derived error estimates with quantitative approximation theorems yields error decay rates and establishes that the Deep Ritz Method retains the favorable approximation capabilities of neural networks in the approximation of high dimensional functions which makes the method attractive for parametric problems. Finally, we present numerical examples to illustrate potential applications.
翻訳日:2022-07-06 13:56:35 公開日:2022-07-05
# 小型データのためのリアルタイムタブラルオートML手法のメタラーニング

Meta-Learning a Real-Time Tabular AutoML Method For Small Data ( http://arxiv.org/abs/2207.01848v1 )

ライセンス: Link先を確認
Noah Hollmann, Samuel M\"uller, Katharina Eggensperger, Frank Hutter(参考訳) 我々はTabPFNを提案する。TabPFNは、小さな表のデータセットでアートの状態を競合するAutoMLメソッドで、1000$\times$高速である。 我々の手法は非常に単純で、単一のニューラルネットワークの重みが完全に必要であり、単一のフォワードパスが新しいデータセットの予測を直接生成する。 提案手法は,Transformer-based Prior-Data Fitted Network (PFN) アーキテクチャを用いてメタ学習し,単純さと因果構造の仮定に基づくベイズ推定と近似する。 前者は構造因果モデルとベイズニューラルネットワークの広い空間を含み、小さなアーキテクチャには偏りがあり、したがって複雑さは低い。 さらに、PFNアプローチを拡張して、実データ上で前者のハイパーパラメータを微分的に校正する。 そうすることで、抽象的な前提を実際のデータに対するヒューリスティックキャリブレーションから切り離します。 その後、キャリブレーションされたハイパーパラメータが固定され、TabPFNはボタンを押すと新しいタブ形式のデータセットに適用される。 最後に、OpenML-CC18スイートから取得した30のデータセットから、当社の手法が強化された木を上回り、複雑な最先端のAutoMLシステムと同等に動作し、予測が1秒未満で生成されることを示す。 すべてのコードと最後のトレーニングを受けたTabPFNを補足材料として提供します。

We present TabPFN, an AutoML method that is competitive with the state of the art on small tabular datasets while being over 1,000$\times$ faster. Our method is very simple: it is fully entailed in the weights of a single neural network, and a single forward pass directly yields predictions for a new dataset. Our AutoML method is meta-learned using the Transformer-based Prior-Data Fitted Network (PFN) architecture and approximates Bayesian inference with a prior that is based on assumptions of simplicity and causal structures. The prior contains a large space of structural causal models and Bayesian neural networks with a bias for small architectures and thus low complexity. Furthermore, we extend the PFN approach to differentiably calibrate the prior's hyperparameters on real data. By doing so, we separate our abstract prior assumptions from their heuristic calibration on real data. Afterwards, the calibrated hyperparameters are fixed and TabPFN can be applied to any new tabular dataset at the push of a button. Finally, on 30 datasets from the OpenML-CC18 suite we show that our method outperforms boosted trees and performs on par with complex state-of-the-art AutoML systems with predictions produced in less than a second. We provide all our code and our final trained TabPFN in the supplementary materials.
翻訳日:2022-07-06 13:56:24 公開日:2022-07-05
# Provable Guaranteesによるオンラインラベルシフトへの適応

Adapting to Online Label Shift with Provable Guarantees ( http://arxiv.org/abs/2207.02121v1 )

ライセンス: Link先を確認
Yong Bai, Yu-Jie Zhang, Peng Zhao, Masashi Sugiyama, Zhi-Hua Zhou(参考訳) 標準教師付き学習パラダイムは、トレーニングデータが今後のテストサンプルと同じ分布を共有する場合に効果的に機能する。 しかし、この仮定は現実世界のアプリケーション、特にテストデータがオンライン形式で現れる場合、しばしば違反される。 本稿では,学習者がラベル付きオフラインデータから初期モデルをトレーニングし,基礎となるラベル分布が時間とともに変化するが,ラベル条件密度が変化しない未ラベル付きオンライン環境に展開する,オンラインラベルシフト(OLaS)の問題を定式化し,検討する。 非定常性と監督の欠如は、問題に取り組むのを難しくする。 難易度に対処するために,非ラベルデータを利用する新たな非バイアスリスク推定器を構築し,非凸性はあるものの多くの良性を示す。 そこで我々は,環境の非定常性に対処する新しいオンラインアンサンブルアルゴリズムを提案する。 私たちのアプローチは、最適な動的後悔を味わい、パフォーマンスは、オンライン環境を後から把握し、各ラウンドの最適な決定を選択する透視能力者と競合していることを示している。 得られた動的後悔境界尺度はラベル分布シフトの強度とパターンを伴い,olas問題に適応性を示した。 有効性を検証し,理論的な知見を支持するために,広範な実験を行った。

The standard supervised learning paradigm works effectively when training data shares the same distribution as the upcoming testing samples. However, this assumption is often violated in real-world applications, especially when testing data appear in an online fashion. In this paper, we formulate and investigate the problem of online label shift (OLaS): the learner trains an initial model from the labeled offline data and then deploys it to an unlabeled online environment where the underlying label distribution changes over time but the label-conditional density does not. The non-stationarity nature and the lack of supervision make the problem challenging to be tackled. To address the difficulty, we construct a new unbiased risk estimator that utilizes the unlabeled data, which exhibits many benign properties albeit with potential non-convexity. Building upon that, we propose novel online ensemble algorithms to deal with the non-stationarity of the environments. Our approach enjoys optimal dynamic regret, indicating that the performance is competitive with a clairvoyant who knows the online environments in hindsight and then chooses the best decision for each round. The obtained dynamic regret bound scales with the intensity and pattern of label distribution shift, hence exhibiting the adaptivity in the OLaS problem. Extensive experiments are conducted to validate the effectiveness and support our theoretical findings.
翻訳日:2022-07-06 13:56:01 公開日:2022-07-05
# 多モード深部生成モデルの検討

A survey of multimodal deep generative models ( http://arxiv.org/abs/2207.02127v1 )

ライセンス: Link先を確認
Masahiro Suzuki, Yutaka Matsuo(参考訳) マルチモーダル学習は、様々なタイプのモダリティに基づいて予測を行うモデルを構築するためのフレームワークである。 マルチモーダル学習における重要な課題は、任意のモダリティとこれらの表現によるクロスモーダル生成からの共有表現の推論であるが、これを実現するには、マルチモーダルデータの異種性を考慮する必要がある。 近年、分布がディープニューラルネットワークによってパラメータ化されるような深層生成モデル(英語版)が注目され、特に変分オートエンコーダは、不均一性を考慮し、データの良好な表現を推測できるため、上記の課題を達成するのに適したものである。 そのため,近年,マルチモーダル深層生成モデルと呼ばれる変分オートエンコーダに基づくマルチモーダル生成モデルが提案されている。 本稿では,マルチモーダル深層生成モデルの研究の分類調査を行う。

Multimodal learning is a framework for building models that make predictions based on different types of modalities. Important challenges in multimodal learning are the inference of shared representations from arbitrary modalities and cross-modal generation via these representations; however, achieving this requires taking the heterogeneous nature of multimodal data into account. In recent years, deep generative models, i.e., generative models in which distributions are parameterized by deep neural networks, have attracted much attention, especially variational autoencoders, which are suitable for accomplishing the above challenges because they can consider heterogeneity and infer good representations of data. Therefore, various multimodal generative models based on variational autoencoders, called multimodal deep generative models, have been proposed in recent years. In this paper, we provide a categorized survey of studies on multimodal deep generative models.
翻訳日:2022-07-06 13:55:38 公開日:2022-07-05
# 適応型コンテキストプールによる効率的な表現学習

Efficient Representation Learning via Adaptive Context Pooling ( http://arxiv.org/abs/2207.01844v1 )

ライセンス: Link先を確認
Chen Huang, Walter Talbott, Navdeep Jaitly, Josh Susskind(参考訳) 自己注意機構は、全ての入力トークン間のペアアテンションを用いて、長距離コンテキストをモデル化する。 その際、個々のトークン(テキスト文字や画像ピクセルなど)によって定義された固定された注意の粒度を仮定し、高いレベルで複雑な依存関係をモデル化するには最適ではないかもしれない。 本稿では,トークンごとの注意の粒度を適応させることにより,この問題に対処するContextPoolを提案する。 長距離依存関係をキャプチャするためにプールと組み合わせられたconvnetの成功にインスパイアされた私たちは、注意力層に注意を向ける前に、トークンごとに隣接する機能をプールすることを学びます。 プール重みとサポートサイズは適応的に決定され、プールされた特徴は様々なスケールで意味のあるコンテキストをエンコードできる。 contextpoolはアテンションモデルをより表現豊かにし、しばしば少ないレイヤで強力なパフォーマンスを達成し、コストを大幅に削減している。 実験では、ContextPoolモジュールがトランスフォーマーモデルにプラグインされた場合、いくつかの言語やイメージベンチマークでの計算量が少なく、最先端のパフォーマンスにマッチするか、あるいは上回っていることを検証する。

Self-attention mechanisms model long-range context by using pairwise attention between all input tokens. In doing so, they assume a fixed attention granularity defined by the individual tokens (e.g., text characters or image pixels), which may not be optimal for modeling complex dependencies at higher levels. In this paper, we propose ContextPool to address this problem by adapting the attention granularity for each token. Inspired by the success of ConvNets that are combined with pooling to capture long-range dependencies, we learn to pool neighboring features for each token before computing attention in a given attention layer. The pooling weights and support size are adaptively determined, allowing the pooled features to encode meaningful context with varying scale. We show that ContextPool makes attention models more expressive, achieving strong performance often with fewer layers and thus significantly reduced cost. Experiments validate that our ContextPool module, when plugged into transformer models, matches or surpasses state-of-the-art performance using less compute on several language and image benchmarks, outperforms recent works with learned context sizes or sparse attention patterns, and is also applicable to ConvNets for efficient feature learning.
翻訳日:2022-07-06 13:54:14 公開日:2022-07-05
# 安全な半教師付きグラフ畳み込みネットワーク

A Safe Semi-supervised Graph Convolution Network ( http://arxiv.org/abs/2207.01960v1 )

ライセンス: Link先を確認
Zhi Yang, Yadong Yan, Haitao Gan, Jing Zhao, Zhiwei Ye(参考訳) 半教師付き学習分野において、GNNの変種モデルであるGraph Convolution Network(GCN)は、GNNに畳み込みを導入することで、非ユークリッドデータに対して有望な結果を得た。 しかし、gcnとその変種モデルは、半教師なし学習の性能を低下させるリスクのないデータに関する情報を安全に使用できない。 そこで本研究では,学習性能向上のためのセーフGCNフレームワーク(Safe-GCN)を提案する。 safe-gcnでは、ラベルのないデータをラベル付けする反復プロセスを設計します。 各イテレーションにおいて、GCNとその教師付きバージョン(S-GCN)が学習され、ラベルのないデータを高い信頼性で見つける。 信頼度の高いラベルなしデータとその擬似ラベルはラベルセットに追加される。 最後に、ラベルなしデータとラベル付きデータを加えてS-GCNを訓練し、ラベルなしデータの安全な探索と多数のラベルなしデータの安全な使用を可能にする。 Safe-GCNの性能を3つのよく知られた引用ネットワークデータセットで評価し,提案手法の有効性をグラフベース半教師付き学習法で検証した。

In the semi-supervised learning field, Graph Convolution Network (GCN), as a variant model of GNN, has achieved promising results for non-Euclidean data by introducing convolution into GNN. However, GCN and its variant models fail to safely use the information of risk unlabeled data, which will degrade the performance of semi-supervised learning. Therefore, we propose a Safe GCN framework (Safe-GCN) to improve the learning performance. In the Safe-GCN, we design an iterative process to label the unlabeled data. In each iteration, a GCN and its supervised version(S-GCN) are learned to find the unlabeled data with high confidence. The high-confidence unlabeled data and their pseudo labels are then added to the label set. Finally, both added unlabeled data and labeled ones are used to train a S-GCN which can achieve the safe exploration of the risk unlabeled data and enable safe use of large numbers of unlabeled data. The performance of Safe-GCN is evaluated on three well-known citation network datasets and the obtained results demonstrate the effectiveness of the proposed framework over several graph-based semi-supervised learning methods.
翻訳日:2022-07-06 13:53:50 公開日:2022-07-05
# イメージ・アモーダル・コンプリート:調査

Image Amodal Completion: A Survey ( http://arxiv.org/abs/2207.02062v1 )

ライセンス: Link先を確認
Jiayang Ao, Krista A. Ehinger, and Qiuhong Ke(参考訳) 既存のコンピュータビジョンシステムは、物体の見えない部分を理解するために人間と競合するが、部分的に隠された物体の見えない部分を描くという点では、まだ人間には及ばない。 画像のアモーダル補完は、コンピュータに人間のようなアモーダル補完機能を持たせることを目的としている。 本調査の目的は,研究ホットスポット,主要技術,画像アモーダル補完の分野における今後のトレンドを直感的に理解することである。 まず,本分野の最新文献の包括的レビューを行い,アモーダル形状完成,アモーダル外観完成,秩序知覚の3つの課題について考察する。 次に,画像アモーダル補完に関連する一般的なデータセットと,それらの共通データ収集手法と評価指標について検討する。 最後に,既存の技術の課題と今後の研究動向に対する読者の理解を促進するために,実世界の応用とイメージ・アモーダル・コンプリートに向けた今後の研究方向性について論じる。

Existing computer vision systems can compete with humans in understanding the visible parts of objects, but still fall far short of humans when it comes to depicting the invisible parts of partially occluded objects. Image amodal completion aims to equip computers with human-like amodal completion functions to understand an intact object despite it being partially occluded. The main purpose of this survey is to provide an intuitive understanding of the research hotspots, key technologies and future trends in the field of image amodal completion. Firstly, we present a comprehensive review of the latest literature in this emerging field, exploring three key tasks in image amodal completion, including amodal shape completion, amodal appearance completion, and order perception. Then we examine popular datasets related to image amodal completion along with their common data collection methods and evaluation metrics. Finally, we discuss real-world applications and future research directions for image amodal completion, facilitating the reader's understanding of the challenges of existing technologies and upcoming research trends.
翻訳日:2022-07-06 13:53:32 公開日:2022-07-05
# ハイパースペクトル画像を用いた深層・テンソル学習による文化財の自動検査

Automatic inspection of cultural monuments using deep and tensor-based learning on hyperspectral imagery ( http://arxiv.org/abs/2207.02163v1 )

ライセンス: Link先を確認
Ioannis N. Tzortzis, Ioannis Rallis, Konstantinos Makantasis, Anastasios Doulamis, Nikolaos Doulamis, Athanasios Voulodimos(参考訳) 文化遺産では、材料の光学的性質に関する広範な情報を提供するため、ハイパースペクトル画像が一般的に用いられる。 このように、機械学習技術の適用の観点から、そのような高次元データの処理が困難になる。 本稿では,文化遺産の資料欠陥を識別・分類するためのランク・ドル・テンソル型学習モデルを提案する。 従来のディープラーニング手法とは対照的に,提案した高次テンソルベース学習は,オーバーフィットに対する精度と堅牢性を示す。 UNESCO保護地域の実世界データを用いた実験結果は,従来のディープラーニングモデルと比較して提案手法の優位性を示している。

In Cultural Heritage, hyperspectral images are commonly used since they provide extended information regarding the optical properties of materials. Thus, the processing of such high-dimensional data becomes challenging from the perspective of machine learning techniques to be applied. In this paper, we propose a Rank-$R$ tensor-based learning model to identify and classify material defects on Cultural Heritage monuments. In contrast to conventional deep learning approaches, the proposed high order tensor-based learning demonstrates greater accuracy and robustness against overfitting. Experimental results on real-world data from UNESCO protected areas indicate the superiority of the proposed scheme compared to conventional deep learning models.
翻訳日:2022-07-06 13:53:05 公開日:2022-07-05
# DBN-Mix:長期視覚認識のためのバイラテラル混在強化を用いた訓練用デュアルブランチネットワーク

DBN-Mix: Training Dual Branch Network Using Bilateral Mixup Augmentation for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2207.02173v1 )

ライセンス: Link先を確認
Jae Soon Baik, In Young Yoon, Jun Won Choi(参考訳) 長い尾のクラス分布から学習する難解な視覚的認知タスクへの関心が高まっている。 トレーニングデータセットの極端なクラス不均衡は、マイノリティクラスデータよりも多数派データを認識することを好むモデルにバイアスを与える。 近年,複分岐ネットワーク(dbn)フレームワークが提案されており,従来の分枝と再分枝の2つの分枝ネットワークを用いて,ロングテール視覚認識の精度向上が図られている。 再バランスブランチは、逆サンプリング器を使用して、クラス不均衡によるバイアスを軽減するために、クラスバランスのトレーニングサンプルを生成する。 この戦略はバイアスの処理に成功しているが、トレーニングにリバースサンプルを使用すると、表現学習性能が低下する可能性がある。 この問題を軽減するために,従来の手法では,トレーニング段階を通じて再バランスブランチの影響が徐々に増加するように,注意深く設計した累積学習戦略を用いた。 本研究では,最適化が難しい累積学習をすることなく,dbnの性能を向上させるための簡易かつ効果的な手法を開発することを目的とする。 そこで,本研究では, 両用混合増量法を考案し, 同一試料から採取したサンプルと逆試料から採取したサンプルを組み合わせ, トレーニングサンプルを作成する。 さらに,提案したDBNアーキテクチャの多数クラスに対するバイアスを緩和するクラス条件温度スケーリングを提案する。 広範に使用されるロングテールの視覚認識データセットを用いた実験により,dbnsの表現学習性能向上にバイラテラルミックスアップ拡張が有効であること,また,提案手法がいくつかのカテゴリにおいて最先端の性能を実現することを示した。

There is a growing interest in the challenging visual perception task of learning from long-tailed class distributions. The extreme class imbalance in the training dataset biases the model to prefer to recognize majority-class data over minority-class data. Recently, the dual branch network (DBN) framework has been proposed, where two branch networks; the conventional branch and the re-balancing branch were employed to improve the accuracy of long-tailed visual recognition. The re-balancing branch uses a reverse sampler to generate class-balanced training samples to mitigate bias due to class imbalance. Although this strategy has been quite successful in handling bias, using a reversed sampler for training can degrade the representation learning performance. To alleviate this issue, the conventional method used a carefully designed cumulative learning strategy, in which the influence of the re-balancing branch gradually increases throughout the entire training phase. In this study, we aim to develop a simple yet effective method to improve the performance of DBN without cumulative learning that is difficult to optimize. We devise a simple data augmentation method termed bilateral mixup augmentation, which combines one sample from the uniform sampler with another sample from the reversed sampler to produce a training sample. Furthermore, we present class-conditional temperature scaling that mitigates bias toward the majority class for the proposed DBN architecture. Our experiments performed on widely used long-tailed visual recognition datasets show that bilateral mixup augmentation is quite effective in improving the representation learning performance of DBNs, and that the proposed method achieves state-of-the-art performance for some categories.
翻訳日:2022-07-06 13:52:57 公開日:2022-07-05
# ST-CoNAL: アクティブラーニングのための時間的自己組織化を用いた一貫性に基づく獲得基準

ST-CoNAL: Consistency-Based Acquisition Criterion Using Temporal Self-Ensemble for Active Learning ( http://arxiv.org/abs/2207.02182v1 )

ライセンス: Link先を確認
Jae Soon Baik, In Young Yoon, Jun Won Choi(参考訳) 現代のディープラーニングは様々な分野で大きな成功を収めています。 しかし、膨大な量のデータをラベル付けする必要がある。 ラベル付けされる最も情報性の高いサンプルを識別するアクティブラーニング(AL)は、トレーニングプロセスの効率を最大化するためにますます重要になっている。 既存のALメソッドは主にラベル付けされるサンプルを取得するために単一の最終固定モデルのみを使用する。 この戦略は、与えられたトレーニングデータに対するモデルの構造的不確かさがサンプルを得るために考慮されない場合に十分ではないかもしれない。 本研究では,従来の確率勾配勾配(SGD)最適化による時間的自己アンサンブルに基づく新たな獲得基準を提案する。 これらの自己センブルモデルは、sgd反復によって得られた中間ネットワーク重みを捉えて得られる。 我々の獲得機能は、生徒と教師のモデル間の一貫性の尺度に依存する。 生徒モデルには一定数の時間的自己感覚モデルが与えられ、教師モデルは生徒モデルの重みを平均することで構築される。 提案した取得基準を用いて,学生教師の一貫性に基づくALアルゴリズム(ST-CoNAL)を提案する。 CIFAR-10、CIFAR-100、Caltech-256、Tiny ImageNetの画像分類タスクに対して行われた実験は、提案したST-CoNALが既存の取得方法よりも大幅に優れた性能を発揮することを示した。 さらに,本手法の頑健性と有効性を示す実験を行った。

Modern deep learning has achieved great success in various fields. However, it requires the labeling of huge amounts of data, which is expensive and labor-intensive. Active learning (AL), which identifies the most informative samples to be labeled, is becoming increasingly important to maximize the efficiency of the training process. The existing AL methods mostly use only a single final fixed model for acquiring the samples to be labeled. This strategy may not be good enough in that the structural uncertainty of a model for given training data is not considered to acquire the samples. In this study, we propose a novel acquisition criterion based on temporal self-ensemble generated by conventional stochastic gradient descent (SGD) optimization. These self-ensemble models are obtained by capturing the intermediate network weights obtained through SGD iterations. Our acquisition function relies on a consistency measure between the student and teacher models. The student models are given a fixed number of temporal self-ensemble models, and the teacher model is constructed by averaging the weights of the student models. Using the proposed acquisition criterion, we present an AL algorithm, namely student-teacher consistency-based AL (ST-CoNAL). Experiments conducted for image classification tasks on CIFAR-10, CIFAR-100, Caltech-256, and Tiny ImageNet datasets demonstrate that the proposed ST-CoNAL achieves significantly better performance than the existing acquisition methods. Furthermore, extensive experiments show the robustness and effectiveness of our methods.
翻訳日:2022-07-06 13:52:27 公開日:2022-07-05
# neuralpassthrough:vrのリアルタイムビュー合成を学習する

NeuralPassthrough: Learned Real-Time View Synthesis for VR ( http://arxiv.org/abs/2207.02186v1 )

ライセンス: Link先を確認
Lei Xiao, Salah Nouri, Joel Hegland, Alberto Garcia Garcia, Douglas Lanman(参考訳) 仮想現実(VR)ヘッドセットは没入型で立体視的な体験を提供するが、ユーザーの身体環境を直接観察することを妨げる。 パススルー技術は、ヘッドセットなしでユーザーが見るであろう画像を、外向きのカメラで再構築することで、この制限に対処することを目的としている。 パススルーカメラは目と物理的に共存できないため、これは本質的にリアルタイムのビュー合成チャレンジである。 既存のパススルー技術では、正確な奥行き情報(特に近接フィールドやぼんやりとしたオブジェクト)の欠如や、画質の制限(解像度の低さや単色化など)などによって、復元のアーチファクトの注意をそらすことに苦しめられている。 本稿では,RGBカメラのステレオ対を含むVRヘッドセットを用いて,初めて学習されたパススルー手法を提案し,その性能を評価する。 シミュレーションと実験の両方を通じて,我々は学習したパススルー法が最先端の手法よりも優れた画像品質をもたらすことを実証すると同時に,デスクトップ接続型ヘッドセットの広い視野において,リアルタイム・パースペクティブな立体視合成のための厳密なvr要件を満たしている。

Virtual reality (VR) headsets provide an immersive, stereoscopic visual experience, but at the cost of blocking users from directly observing their physical environment. Passthrough techniques are intended to address this limitation by leveraging outward-facing cameras to reconstruct the images that would otherwise be seen by the user without the headset. This is inherently a real-time view synthesis challenge, since passthrough cameras cannot be physically co-located with the eyes. Existing passthrough techniques suffer from distracting reconstruction artifacts, largely due to the lack of accurate depth information (especially for near-field and disoccluded objects), and also exhibit limited image quality (e.g., being low resolution and monochromatic). In this paper, we propose the first learned passthrough method and assess its performance using a custom VR headset that contains a stereo pair of RGB cameras. Through both simulations and experiments, we demonstrate that our learned passthrough method delivers superior image quality compared to state-of-the-art methods, while meeting strict VR requirements for real-time, perspective-correct stereoscopic view synthesis over a wide field of view for desktop-connected headsets.
翻訳日:2022-07-06 13:52:03 公開日:2022-07-05
# MMGL:半教師型心臓画像分割のためのマルチスケールマルチビューグローバルローカルコントラスト学習

MMGL: Multi-Scale Multi-View Global-Local Contrastive learning for Semi-supervised Cardiac Image Segmentation ( http://arxiv.org/abs/2207.01883v1 )

ライセンス: Link先を確認
Ziyuan Zhao, Jinxuan Hu, Zeng Zeng, Xulei Yang, Peisheng Qian, Bharadwaj Veeravalli, Cuntai Guan(参考訳) 大規模なラベル付きデータセットでは、深層学習は医療画像のセグメンテーションにおいて大きな成功を収めている。 しかし、幅広い専門知識と費用のかかるラベル付けの努力から、臨床実践において豊富な注釈を得ることは困難である。 近年,非ラベル付きデータを用いた視覚表現学習は,多くの領域において教師付き学習に匹敵する優れた性能を発揮している。 本研究では,多視点のグローバル・ローカル・コントラスト・ラーニング(mmgl,multi-scale multi-view global-local contrastive learning)フレームワークを提案する。 MM-WHSデータセットの広汎な実験は、半教師付き心筋画像分割におけるMMGLフレームワークの有効性を示し、最先端のコントラスト学習法を大きなマージンで上回った。

With large-scale well-labeled datasets, deep learning has shown significant success in medical image segmentation. However, it is challenging to acquire abundant annotations in clinical practice due to extensive expertise requirements and costly labeling efforts. Recently, contrastive learning has shown a strong capacity for visual representation learning on unlabeled data, achieving impressive performance rivaling supervised learning in many domains. In this work, we propose a novel multi-scale multi-view global-local contrastive learning (MMGL) framework to thoroughly explore global and local features from different scales and views for robust contrastive learning performance, thereby improving segmentation performance with limited annotations. Extensive experiments on the MM-WHS dataset demonstrate the effectiveness of MMGL framework on semi-supervised cardiac image segmentation, outperforming the state-of-the-art contrastive learning methods by a large margin.
翻訳日:2022-07-06 13:51:40 公開日:2022-07-05
# ACT-Net:半教師付き記憶効率医用画像セグメンテーションのための非対称共学教員ネットワーク

ACT-Net: Asymmetric Co-Teacher Network for Semi-supervised Memory-efficient Medical Image Segmentation ( http://arxiv.org/abs/2207.01900v1 )

ライセンス: Link先を確認
Ziyuan Zhao, Andong Zhu, Zeng Zeng, Bharadwaj Veeravalli, Cuntai Guan(参考訳) ディープモデルは医用画像セグメンテーションにおいて有望な性能を示したが、特に臨床実践においてアクセスが困難である大量の注釈付きデータに大きく依存している。 一方で、高精度なディープモデルは通常、大きなモデルサイズで行われ、実際のシナリオでの雇用を制限する。 本稿では,半教師付き知識蒸留における高価なアノテーションと計算コストの負担を軽減するために,非対称な共教師フレームワークであるact-netを提案する。 本研究では,大規模モデルから小モデルへの非対称な知識蒸留を促進するために,教員養成ネットワークを用いた教師学生学習を推進し,学生と教師の役割を交互に行い,医療従事のための小さな精度の高いモデルを得る。 ACT-Netの有効性を検証するため,実験ではACDCデータセットを用いて心サブ構造セグメンテーションを行った。 ACT-Netは他の知識蒸留法よりも優れており,250倍少ないパラメータで無作為なセグメンテーション性能を実現している。

While deep models have shown promising performance in medical image segmentation, they heavily rely on a large amount of well-annotated data, which is difficult to access, especially in clinical practice. On the other hand, high-accuracy deep models usually come in large model sizes, limiting their employment in real scenarios. In this work, we propose a novel asymmetric co-teacher framework, ACT-Net, to alleviate the burden on both expensive annotations and computational costs for semi-supervised knowledge distillation. We advance teacher-student learning with a co-teacher network to facilitate asymmetric knowledge distillation from large models to small ones by alternating student and teacher roles, obtaining tiny but accurate models for clinical employment. To verify the effectiveness of our ACT-Net, we employ the ACDC dataset for cardiac substructure segmentation in our experiments. Extensive experimental results demonstrate that ACT-Net outperforms other knowledge distillation methods and achieves lossless segmentation performance with 250x fewer parameters.
翻訳日:2022-07-06 13:51:22 公開日:2022-07-05
# CodeRL:事前学習モデルによるコード生成と深層強化学習

CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning ( http://arxiv.org/abs/2207.01780v1 )

ライセンス: Link先を確認
Hung Le, Yue Wang, Akhilesh Deepak Gotmare, Silvio Savarese, Steven C.H. Hoi(参考訳) プログラム合成またはコード生成は、問題仕様を満たすプログラムを生成することを目的としている。 大規模事前訓練言語モデル(LM)を用いた最近のアプローチは有望な結果を示しているが、いくつかの限界がある。 特に、彼らはしばしば、自然言語問題記述と接地真実プログラムのペアからのみコード生成モデルを訓練する標準的な微調整手順に従う。 このようなパラダイムは、ユニットテストのような問題仕様において、重要なけれども潜在的に有用なシグナルを無視しているため、複雑な目に見えないコーディングタスクを解決する場合、パフォーマンスが低下することが多い。 この制限に対処するために,事前学習されたLMと深層強化学習(RL)によるプログラム合成タスクのための新しいフレームワークであるCodeRLを提案する。 具体的には、トレーニング中にコード生成LMをアクターネットワークとして扱い、生成されたプログラムの機能的正しさを予測し、アクターに密着したフィードバック信号を提供するよう訓練された批評家ネットワークを導入する。 推論中,本手法では,ユニットテストや批判スコアからのフィードバックに基づいて,モデルが自動的にプログラムを再生成することを可能にする,批判的サンプリング戦略を備えた新しい生成手順を導入する。 モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標の強化,モデルサイズの拡大,事前学習データの改善を行った。 提案手法は,APPSベンチマークにおいて新しいSOTA結果を得るだけでなく,より単純なMBPPベンチマークにおいて,新たなSOTA結果とともに強力なゼロショット転送能力を示す。

Program synthesis or code generation aims to generate a program that satisfies a problem specification. Recent approaches using large-scale pretrained language models (LMs) have shown promising results, yet they have some critical limitations. In particular, they often follow a standard supervised fine-tuning procedure to train a code generation model only from the pairs of natural-language problem descriptions and ground-truth programs. Such paradigm largely ignores some important but potentially useful signals in the problem specification such as unit tests, which thus often results in poor performance when solving complex unseen coding tasks. To address the limitations, we propose "CodeRL", a new framework for program synthesis tasks through pretrained LMs and deep reinforcement learning (RL). Specifically, during training, we treat the code-generating LM as an actor network, and introduce a critic network that is trained to predict the functional correctness of generated programs and provide dense feedback signals to the actor. During inference, we introduce a new generation procedure with a critical sampling strategy that allows a model to automatically regenerate programs based on feedback from example unit tests and critic scores. For the model backbones, we extended the encoder-decoder architecture of CodeT5 with enhanced learning objectives, larger model sizes, and better pretraining data. Our method not only achieves new SOTA results on the challenging APPS benchmark, but also shows strong zero-shot transfer capability with new SOTA results on the simpler MBPP benchmark.
翻訳日:2022-07-06 13:51:02 公開日:2022-07-05
# (参考訳) ニューラルネットワークとチョムスキー階層

Neural Networks and the Chomsky Hierarchy ( http://arxiv.org/abs/2207.02098v1 )

ライセンス: CC BY 4.0
Gr\'egoire Del\'etang, Anian Ruoss, Jordi Grau-Moya, Tim Genewein, Li Kevin Wenliang, Elliot Catt, Marcus Hutter, Shane Legg, Pedro A. Ortega(参考訳) 信頼性の高い一般化は、安全なMLとAIの中心にある。 しかし、ニューラルネットワークの一般化の時期と方法を理解することは、この分野で最も重要な未解決問題の1つである。 本研究では、計算理論からの洞察がニューラルネットワークの一般化の限界を予測できるかどうかを調べるため、広範囲にわたる経験的研究(2200モデル、16タスク)を行う。 チョムスキー階層に基づくグループ化タスクは、あるアーキテクチャが分布外入力に一般化できるかどうかを予測できることを示した。 これには、膨大な量のデータとトレーニング時間さえも、トレーニングデータに完全に適合する十分な能力を持つモデルにもかかわらず、非自明な一般化につながらない負の結果が含まれる。 その結果、我々のタスクのサブセットでは、RNNとTransformerは非正規タスクを一般化することができず、LSTMは正規タスクと対言語タスクを解くことができ、構造化メモリ(スタックやメモリテープなど)で拡張されたネットワークのみがコンテキストレスおよびコンテキスト依存タスクをうまく一般化できることがわかった。

Reliable generalization lies at the heart of safe ML and AI. However, understanding when and how neural networks generalize remains one of the most important unsolved problems in the field. In this work, we conduct an extensive empirical study (2200 models, 16 tasks) to investigate whether insights from the theory of computation can predict the limits of neural network generalization in practice. We demonstrate that grouping tasks according to the Chomsky hierarchy allows us to forecast whether certain architectures will be able to generalize to out-of-distribution inputs. This includes negative results where even extensive amounts of data and training time never led to any non-trivial generalization, despite models having sufficient capacity to perfectly fit the training data. Our results show that, for our subset of tasks, RNNs and Transformers fail to generalize on non-regular tasks, LSTMs can solve regular and counter-language tasks, and only networks augmented with structured memory (such as a stack or memory tape) can successfully generalize on context-free and context-sensitive tasks.
翻訳日:2022-07-06 13:50:06 公開日:2022-07-05
# CLEAR: 言語間・環境に依存しない表現による視覚言語ナビゲーションの改善

CLEAR: Improving Vision-Language Navigation with Cross-Lingual, Environment-Agnostic Representations ( http://arxiv.org/abs/2207.02185v1 )

ライセンス: Link先を確認
Jialu Li, Hao Tan, Mohit Bansal(参考訳) 視覚・言語ナビゲーション(VLN)タスクは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。 本稿では,学習中に見つからない新しい環境をナビゲートし,命令パスのグラウンディングを改善するために多言語命令を利用する,という2つの課題を解決することを目的とする。 これらの課題に対処するため、我々はCLEAR: Cross-Lingual and Environment-Agnostic Representationsを提案する。 まず,ルームアクロスルームデータセットで3つの言語(英語,ヒンディー語,テルグ語)の共有言語と視覚的に連携した言語表現を学習する。 私たちの言語表現学習は、視覚情報で整列したテキストペアによって導かれる。 第2に,異なる環境から,意味的に整合したイメージペア間の類似性を最大化し,環境に依存しない視覚表現を学習する。 環境非依存の視覚表現は、低レベルの視覚情報によって引き起こされる環境バイアスを軽減することができる。 実演的に、Room-Across-Roomデータセット上で、我々の多言語エージェントは、言語間表現と環境に依存しない視覚表現を用いて、見知らぬ環境に一般化する際に、強いベースラインモデルに対して、全ての指標に大きな改善をもたらすことを示す。 さらに,我々の学習した言語と視覚表現を部屋間および協調的な視覚・ダイアログナビゲーションタスクにうまく移行できることを示すとともに,詳細な質的,定量的な一般化と接地分析を行う。 私たちのコードはhttps://github.com/jialuli-luka/CLEARで利用可能です。

Vision-and-Language Navigation (VLN) tasks require an agent to navigate through the environment based on language instructions. In this paper, we aim to solve two key challenges in this task: utilizing multilingual instructions for improved instruction-path grounding and navigating through new environments that are unseen during training. To address these challenges, we propose CLEAR: Cross-Lingual and Environment-Agnostic Representations. First, our agent learns a shared and visually-aligned cross-lingual language representation for the three languages (English, Hindi and Telugu) in the Room-Across-Room dataset. Our language representation learning is guided by text pairs that are aligned by visual information. Second, our agent learns an environment-agnostic visual representation by maximizing the similarity between semantically-aligned image pairs (with constraints on object-matching) from different environments. Our environment agnostic visual representation can mitigate the environment bias induced by low-level visual information. Empirically, on the Room-Across-Room dataset, we show that our multilingual agent gets large improvements in all metrics over the strong baseline model when generalizing to unseen environments with the cross-lingual language representation and the environment-agnostic visual representation. Furthermore, we show that our learned language and visual representations can be successfully transferred to the Room-to-Room and Cooperative Vision-and-Dialogue Navigation task, and present detailed qualitative and quantitative generalization and grounding analysis. Our code is available at https://github.com/jialuli-luka/CLEAR
翻訳日:2022-07-06 13:21:32 公開日:2022-07-05
# PRoA: 機能的摂動に対する確率的ロバスト性評価

PRoA: A Probabilistic Robustness Assessment against Functional Perturbations ( http://arxiv.org/abs/2207.02036v1 )

ライセンス: Link先を確認
Tianle Zhang, Wenjie Ruan, Jonathan E. Fieldsend(参考訳) 安全クリティカルなディープラーニングアプリケーションでは、ロバストネス測定が重要なプレデプロイフェーズである。 しかし,既存のロバスト性検証手法は実世界における機械学習システムの展開には不十分である。 一方、これらの手法は、実際には厳しすぎるかもしれない深層ニューラルネットワーク(DNN)の‘fool’を摂動ができないと主張している。 一方、既存の作品では画素空間上の$l_p$有界加法摂動を厳密に検討しているが、色シフトや幾何学的変換といった摂動は実世界でより現実的に頻繁に発生する。 そこで本研究では,適応濃度に基づく新しい一般確率ロバスト性評価手法(PRoA)を提案し,機能的摂動に対する深層学習モデルのロバスト性を測定する。 PRoAは、モデルの確率的堅牢性、すなわちデプロイ後にトレーニングされたモデルで発生する失敗の確率に関する統計的保証を提供することができる。 実験では, 幅広い機能的摂動に対する確率的頑健性を評価することによるPRoAの有効性と柔軟性を実証し, PRoAは既存の最先端ベースラインと比較して, 様々な大規模深層ニューラルネットワークによく対応できることを示した。 再現性のために、当社のツールをgithubでリリースしています。

In safety-critical deep learning applications robustness measurement is a vital pre-deployment phase. However, existing robustness verification methods are not sufficiently practical for deploying machine learning systems in the real world. On the one hand, these methods attempt to claim that no perturbations can ``fool'' deep neural networks (DNNs), which may be too stringent in practice. On the other hand, existing works rigorously consider $L_p$ bounded additive perturbations on the pixel space, although perturbations, such as colour shifting and geometric transformations, are more practically and frequently occurring in the real world. Thus, from the practical standpoint, we present a novel and general {\it probabilistic robustness assessment method} (PRoA) based on the adaptive concentration, and it can measure the robustness of deep learning models against functional perturbations. PRoA can provide statistical guarantees on the probabilistic robustness of a model, \textit{i.e.}, the probability of failure encountered by the trained model after deployment. Our experiments demonstrate the effectiveness and flexibility of PRoA in terms of evaluating the probabilistic robustness against a broad range of functional perturbations, and PRoA can scale well to various large-scale deep neural networks compared to existing state-of-the-art baselines. For the purpose of reproducibility, we release our tool on GitHub: \url{ https://github.com/TrustAI/PRoA}.
翻訳日:2022-07-06 13:21:08 公開日:2022-07-05
# オフラインのRLポリシーは適応的にトレーニングされるべきである

Offline RL Policies Should be Trained to be Adaptive ( http://arxiv.org/abs/2207.02200v1 )

ライセンス: Link先を確認
Dibya Ghosh, Anurag Ajay, Pulkit Agrawal, Sergey Levine(参考訳) オフラインのRLアルゴリズムは、提供されたデータセットが環境の多くの面を未知にする可能性があるという事実を考慮しなければならない。 この課題に取り組む最も一般的な方法は悲観的あるいは保守的な手法を採用することである。 パフォーマンスは保守主義の正確な程度に敏感であり、保守的な目標は高度に最適でない政策を回復することができる。 本研究では,オフラインRL法が不確実性の存在下で適応可能であることを提案する。 ベイズ的意味でのオフラインRLでは、暗黙のPOMDPを解くことが最適であることを示す。 その結果, オフラインRLの最適ポリシは, 現状だけでなく, 評価中に見られるすべての遷移にも依存せず, 適応的なポリシを近似するモデルフリーなアルゴリズムを提案し, オフラインRLベンチマークにおける適応ポリシの学習の有効性を実証する。

Offline RL algorithms must account for the fact that the dataset they are provided may leave many facets of the environment unknown. The most common way to approach this challenge is to employ pessimistic or conservative methods, which avoid behaviors that are too dissimilar from those in the training dataset. However, relying exclusively on conservatism has drawbacks: performance is sensitive to the exact degree of conservatism, and conservative objectives can recover highly suboptimal policies. In this work, we propose that offline RL methods should instead be adaptive in the presence of uncertainty. We show that acting optimally in offline RL in a Bayesian sense involves solving an implicit POMDP. As a result, optimal policies for offline RL must be adaptive, depending not just on the current state but rather all the transitions seen so far during evaluation.We present a model-free algorithm for approximating this optimal adaptive policy, and demonstrate the efficacy of learning such adaptive policies in offline RL benchmarks.
翻訳日:2022-07-06 13:20:21 公開日:2022-07-05
# マルチモーダル対話理解と生成のためのシーン認識プロンプト

Scene-Aware Prompt for Multi-modal Dialogue Understanding and Generation ( http://arxiv.org/abs/2207.01823v1 )

ライセンス: Link先を確認
Bin Li, Yixuan Weng, Ziyu Ma, Bin Sun and Shutao Li(参考訳) 本稿では,NLPCC-2022-Shared-Task-4 における Team LingJing の実験手法について紹介する。 MDUGタスクは、マルチモーダルコンテキスト理解と応答生成の2つのフェーズに分けられる。 シーン理解と対話生成の両方に視覚情報をフル活用するために,MDUGタスクのためのシーン認識プロンプトを提案する。 具体的には,マルチタスク戦略を用いてシーンとセッションのマルチモーダル理解を協調的にモデル化する。 シーン情報を認識するために視覚キャプションを採用し、シーンラベル及びセッション認識ラベルに基づく固定型テンプレート化されたプロンプトを使用して対話生成性能をさらに向上する。 実験結果から,提案手法は,他の競合手法と比較して最先端(SOTA)性能を達成し,このMDUGコンペティションにおいて3つのサブタスクで1位となった。

This paper introduces the schemes of Team LingJing's experiments in NLPCC-2022-Shared-Task-4 Multi-modal Dialogue Understanding and Generation (MDUG). The MDUG task can be divided into two phases: multi-modal context understanding and response generation. To fully leverage the visual information for both scene understanding and dialogue generation, we propose the scene-aware prompt for the MDUG task. Specifically, we utilize the multi-tasking strategy for jointly modelling the scene- and session- multi-modal understanding. The visual captions are adopted to aware the scene information, while the fixed-type templated prompt based on the scene- and session-aware labels are used to further improve the dialogue generation performance. Extensive experimental results show that the proposed method has achieved state-of-the-art (SOTA) performance compared with other competitive methods, where we rank the 1-st in all three subtasks in this MDUG competition.
翻訳日:2022-07-06 13:20:06 公開日:2022-07-05
# 深部判別モデルのための双曲空間における階層的シンボリック推論

Hierarchical Symbolic Reasoning in Hyperbolic Space for Deep Discriminative Models ( http://arxiv.org/abs/2207.01916v1 )

ライセンス: Link先を確認
Ainkaran Santhirasekaram, Avinash Kori, Andrea Rockall, Mathias Winkler, Francesca Toni, Ben Glocker(参考訳) emph{black-box}モデルの説明は、モデル決定を理解し、モデルのバイアスや矛盾に関する情報を提供するのに役立つ。 現在の説明可能性技術のほとんどは、入力空間における特徴重要度スコアや特徴注意マップの観点から、単一のレベルの説明を提供する。 我々の焦点は、きめ細かい説明から完全に抽象的な説明まで、 \emph{multiple Level of abstract} で深い識別モデルを説明することである。 我々は、より効率的に記号的特徴の階層をモデル化し、説明の一部として、emph{hierarchical symbolic rules}を生成するために、 \emph{hyperbolic geometry}の自然特性を用いてこれを達成する。 具体的には、任意の深層判別モデルに対して、ベクトル量子化を用いた連続的潜在空間の離散化により下地知識を蒸留して記号を作り、その後に \emph{hyperbolic reasoning block} を付けて \emph{abstraction tree} を誘導する。 我々は木を横切り、シンボル規則とその対応する視覚的意味論の観点から説明を抽出する。 本手法がMNISTおよびAFHQ高解像度動物顔データセットに与える影響を実証する。 我々のフレームワークは \url{https://github.com/koriavinash1/SymbolicInterpretability} で利用可能です。

Explanations for \emph{black-box} models help us understand model decisions as well as provide information on model biases and inconsistencies. Most of the current explainability techniques provide a single level of explanation, often in terms of feature importance scores or feature attention maps in input space. Our focus is on explaining deep discriminative models at \emph{multiple levels of abstraction}, from fine-grained to fully abstract explanations. We achieve this by using the natural properties of \emph{hyperbolic geometry} to more efficiently model a hierarchy of symbolic features and generate \emph{hierarchical symbolic rules} as part of our explanations. Specifically, for any given deep discriminative model, we distill the underpinning knowledge by discretisation of the continuous latent space using vector quantisation to form symbols, followed by a \emph{hyperbolic reasoning block} to induce an \emph{abstraction tree}. We traverse the tree to extract explanations in terms of symbolic rules and its corresponding visual semantics. We demonstrate the effectiveness of our method on the MNIST and AFHQ high-resolution animal faces dataset. Our framework is available at \url{https://github.com/koriavinash1/SymbolicInterpretability}.
翻訳日:2022-07-06 13:19:51 公開日:2022-07-05
# (参考訳) 臨床的に正確なx線レポート生成のための遺伝異常グラフ埋め込み

Attributed Abnormality Graph Embedding for Clinically Accurate X-Ray Report Generation ( http://arxiv.org/abs/2207.01208v2 )

ライセンス: CC BY 4.0
Sixing Yan, William K. Cheung, Keith Chiu, Terence M. Tong, Charles K. Cheung, Simon See(参考訳) X線画像から医療報告を自動生成することで、放射線医が時間を要するが重要な報告を行うのを助けることができる。 しかし、臨床的に正確な報告を得ることは依然として困難である。 知識グラフを用いた基礎疾患のモデリングは,臨床精度の向上に有望であることがわかった。 本稿では, 属性異常グラフ (ATAG) と呼ばれる, きめ細かな知識グラフ構造を紹介する。 ATAGは相互接続された異常ノードと属性ノードで構成されており、異常の詳細をより正確に把握することができる。 従来の異常グラフを手動で構築する手法とは対照的に,アノテーションやX線データセットの医療報告,RadLex放射線学のレキシコンに基づく微細なグラフ構造を自動的に構築する手法を提案する。 次に、レポート生成のためのエンコーダデコーダアーキテクチャを持つディープモデルを用いてATAG埋め込みを学習する。 特に、異常とその属性間の関係を符号化するために、グラフ注意ネットワークを探索する。 ゲーティング機構が採用され、世代ごとに様々なデコーダと統合される。 提案したATAGベースディープモデルは,ベンチマークデータセットに基づく広範囲な実験を行い,SOTA法よりも大きなマージンを達成し,得られた報告の臨床的精度を向上できることを示す。

Automatic generation of medical reports from X-ray images can assist radiologists to perform the time-consuming and yet important reporting task. Yet, achieving clinically accurate generated reports remains challenging. Modeling the underlying abnormalities using the knowledge graph approach has been found promising in enhancing the clinical accuracy. In this paper, we introduce a novel fined-grained knowledge graph structure called an attributed abnormality graph (ATAG). The ATAG consists of interconnected abnormality nodes and attribute nodes, allowing it to better capture the abnormality details. In contrast to the existing methods where the abnormality graph was constructed manually, we propose a methodology to automatically construct the fine-grained graph structure based on annotations, medical reports in X-ray datasets, and the RadLex radiology lexicon. We then learn the ATAG embedding using a deep model with an encoder-decoder architecture for the report generation. In particular, graph attention networks are explored to encode the relationships among the abnormalities and their attributes. A gating mechanism is adopted and integrated with various decoders for the generation. We carry out extensive experiments based on the benchmark datasets, and show that the proposed ATAG-based deep model outperforms the SOTA methods by a large margin and can improve the clinical accuracy of the generated reports.
翻訳日:2022-07-06 12:56:30 公開日:2022-07-05
# (参考訳) 正規化流れを伴う2つの経験的分布間の最適輸送の学習

Learning Optimal Transport Between two Empirical Distributions with Normalizing Flows ( http://arxiv.org/abs/2207.01246v2 )

ライセンス: CC BY 4.0
Florentin Coeurdoux, Nicolas Dobigeon, Pierre Chainais(参考訳) 最適輸送(OT)は、確率測度の比較とマッピングに有効なツールを提供する。 ニューラルネットワークの柔軟性を活用して、近似最適輸送マップを学習することを提案する。 より正確には、第1の基底となる未知の分布に付随する有限集合のサンプルを、別の未知の分布から引き出された別の有限集合のサンプルへ輸送する問題に対処する新しいオリジナルな方法を提案する。 可逆ニューラルネットワークの特定の例、すなわち正規化フローは、一対の経験的分布の間のこのot問題の解を近似するために利用できることを示す。 本研究の目的は,対応するワッサーシュタイン距離の最小化により,プッシュフォワード測度の等式制約を置き換えることで,OTのモンジュ定式化を緩和することである。 取得するプッシュフォワード演算子は、結果のコスト関数を最適化してトレーニングされる正規化フローに制限される。 このアプローチにより、トランスポートマップは関数の合成として識別できる。 これらの関数はネットワークの1つのサブフローに関連付けられ、その出力は元の測度とターゲット測度の間の中間ステップを提供する。 この離散化はまた、二つの利害の測度の間の中間バリセンタの集合をもたらす。 おもちゃの例で行った実験と教師なし翻訳の難しい課題は,提案手法の興味を示している。 最後に、いくつかの実験により、提案手法が真のOTの良好な近似に繋がることを示した。

Optimal transport (OT) provides effective tools for comparing and mapping probability measures. We propose to leverage the flexibility of neural networks to learn an approximate optimal transport map. More precisely, we present a new and original method to address the problem of transporting a finite set of samples associated with a first underlying unknown distribution towards another finite set of samples drawn from another unknown distribution. We show that a particular instance of invertible neural networks, namely the normalizing flows, can be used to approximate the solution of this OT problem between a pair of empirical distributions. To this aim, we propose to relax the Monge formulation of OT by replacing the equality constraint on the push-forward measure by the minimization of the corresponding Wasserstein distance. The push-forward operator to be retrieved is then restricted to be a normalizing flow which is trained by optimizing the resulting cost function. This approach allows the transport map to be discretized as a composition of functions. Each of these functions is associated to one sub-flow of the network, whose output provides intermediate steps of the transport between the original and target measures. This discretization yields also a set of intermediate barycenters between the two measures of interest. Experiments conducted on toy examples as well as a challenging task of unsupervised translation demonstrate the interest of the proposed method. Finally, some experiments show that the proposed approach leads to a good approximation of the true OT.
翻訳日:2022-07-06 12:19:20 公開日:2022-07-05
# (参考訳) 潜在空間における計画によるレース学習の課題解決

Solving Learn-to-Race Autonomous Racing Challenge by Planning in Latent Space ( http://arxiv.org/abs/2207.01275v2 )

ライセンス: CC BY 4.0
Shivansh Beohar, Fabian Heinrich, Rahul Kala, Helge Ritter and Andrew Melnik(参考訳) www<dot>aicrowd<dot>comプラットフォーム上で開催されているLearning-to-Race Autonomous Racing Virtual Challengeは,シングルカメラとマルチカメラの2つのトラックで構成されていた。 われわれのUniTeamチームは、Single Cameraトラックの最終勝者の一人だった。 エージェントは、少なくともオフロード運転違反の少ない時間内に、未知のf1スタイルのトラックを通過させる必要がある。 提案手法では,道路セグメンテーションにu-netアーキテクチャ,道路バイナリマスクを符号化する変分オートコーダ,与えられた状態に対して最善のアクションを選択する最寄りのneighbor探索戦略を用いた。 我々のエージェントは、ステージ1(既知の軌道)で平均105km/h、ステージ2(知られていない軌道)で73km/hを達成した。 ここでは、解決策と結果を示す。

Learn-to-Race Autonomous Racing Virtual Challenge hosted on www<dot>aicrowd<dot>com platform consisted of two tracks: Single and Multi Camera. Our UniTeam team was among the final winners in the Single Camera track. The agent is required to pass the previously unknown F1-style track in the minimum time with the least amount of off-road driving violations. In our approach, we used the U-Net architecture for road segmentation, variational autocoder for encoding a road binary mask, and a nearest-neighbor search strategy that selects the best action for a given state. Our agent achieved an average speed of 105 km/h on stage 1 (known track) and 73 km/h on stage 2 (unknown track) without any off-road driving violations. Here we present our solution and results.
翻訳日:2022-07-06 12:05:17 公開日:2022-07-05
# LaTeRF:ラベルとテキスト駆動型オブジェクト放射場

LaTeRF: Label and Text Driven Object Radiance Fields ( http://arxiv.org/abs/2207.01583v2 )

ライセンス: Link先を確認
Ashkan Mirzaei, Yash Kant, Jonathan Kelly, and Igor Gilitschenski(参考訳) 3Dオブジェクト表現の取得は、フォトリアリスティックシミュレータの作成とAR/VRアプリケーションのアセット収集において重要である。 ニューラルネットワークは2次元画像からシーンの連続的な体積表現を学習する効果を示してきたが、これらのモデルからオブジェクト表現を取得することは依然としてオープンな課題である。 本稿では、シーン全体と既知のカメラポーズの2d画像、オブジェクトの自然言語記述、入力画像中のオブジェクトと非オブジェクトポイントの少数の点ラベルを与えられたシーンから興味のあるオブジェクトを抽出する手法である laterf を紹介する。 シーンからオブジェクトを忠実に抽出するために、LaTeRFはNeRFの定式化を各3Dポイントで追加の「対象性」確率で拡張する。 さらに、事前訓練されたCLIPモデルのリッチな潜伏空間と微分可能なオブジェクトレンダラーを組み合わせることで、オブジェクトの隠蔽部分を塗り付ける。 合成データと実データの両方で高忠実度オブジェクト抽出を行い,広範なアブレーション研究を通じて設計選択を正当化する。

Obtaining 3D object representations is important for creating photo-realistic simulators and collecting assets for AR/VR applications. Neural fields have shown their effectiveness in learning a continuous volumetric representation of a scene from 2D images, but acquiring object representations from these models with weak supervision remains an open challenge. In this paper we introduce LaTeRF, a method for extracting an object of interest from a scene given 2D images of the entire scene and known camera poses, a natural language description of the object, and a small number of point-labels of object and non-object points in the input images. To faithfully extract the object from the scene, LaTeRF extends the NeRF formulation with an additional `objectness' probability at each 3D point. Additionally, we leverage the rich latent space of a pre-trained CLIP model combined with our differentiable object renderer, to inpaint the occluded parts of the object. We demonstrate high-fidelity object extraction on both synthetic and real datasets and justify our design choices through an extensive ablation study.
翻訳日:2022-07-06 11:58:38 公開日:2022-07-05
# Lane-GNN:ドライバーのレーン変更意図を予測するGNNの統合

Lane-GNN: Integrating GNN for Predicting Drivers' Lane Change Intention ( http://arxiv.org/abs/2207.00824v2 )

ライセンス: Link先を確認
Hongde Wu and Mingming Liu(参考訳) 現在、インテリジェントな高速道路交通網は、現代の交通インフラにおいて重要な役割を担っている。 可変速度制限(VSL)システムは高速道路の交通網で容易に実現でき、ドライバーの安全を向上して走行するための有用な動的速度制限情報を提供する。 このようなシステムは、通常安定したアドバイザリスピードを念頭に設計されており、ドライバーが速度に従えば、渋滞時に速度を上げたり減速したりすることなく、トラフィックを円滑に移動させることができる。 しかし、ドライバーがvslシステムによって支配される道路網を離れた時の車両の挙動の研究には、ほとんど注意が払われておらず、これは主に予期せぬ加速、減速、頻繁な車線変更を伴う可能性がある。 本稿では,VSL後の高速道路交通網における運転者の車線変更意図による交通流異常の検出に焦点をあてる。 具体的には、道路セグメントレベルにおいて、人気のあるモビリティシミュレータSUMOが生成するトラフィックフローデータにグラフモデリングを適用する。 次に,注意時間グラフ畳み込みニューラルネットワークである lane-gnn 法を用いて車線切替検出の性能を評価し,その性能を時間畳み込みニューラルネットワーク (tcnn) のベースラインと比較した。 実験の結果,提案したレーン-GNNは,運転者の車線変更意図を90秒以内に特定条件下で99.42%の精度で検出できることがわかった。 最後に, 学習モデルにいくつかの解釈手法を適用し, さらなる知見を提示する。

Nowadays, intelligent highway traffic network is playing an important role in modern transportation infrastructures. A variable speed limit (VSL) system can be facilitated in the highway traffic network to provide useful and dynamic speed limit information for drivers to travel with enhanced safety. Such system is usually designed with a steady advisory speed in mind so that traffic can move smoothly when drivers follow the speed, rather than speeding up whenever there is a gap and slowing down at congestion. However, little attention has been given to the research of vehicles' behaviours when drivers left the road network governed by a VSL system, which may largely involve unexpected acceleration, deceleration and frequent lane changes, resulting in chaos for the subsequent highway road users. In this paper, we focus on the detection of traffic flow anomaly due to drivers' lane change intention on the highway traffic networks after a VSL system. More specifically, we apply graph modelling on the traffic flow data generated by a popular mobility simulator, SUMO, at road segment levels. We then evaluate the performance of lane changing detection using the proposed Lane-GNN scheme, an attention temporal graph convolutional neural network, and compare its performance with a temporal convolutional neural network (TCNN) as our baseline. Our experimental results show that the proposed Lane-GNN can detect drivers' lane change intention within 90 seconds with an accuracy of 99.42% under certain assumptions. Finally, some interpretation methods are applied to the trained models with a view to further illustrate our findings.
翻訳日:2022-07-06 11:58:17 公開日:2022-07-05
# 対実的手法による生成モデルのデバイアス化

De-Biasing Generative Models using Counterfactual Methods ( http://arxiv.org/abs/2207.01575v2 )

ライセンス: Link先を確認
Sunay Bhat, Jeffrey Jiang, Omead Pooladzandi, Gregory Pottie(参考訳) 変分オートエンコーダ(vaes)やその他の生成法は、その生成特性だけでなく、低次元の潜在変数空間を非絡ませる能力にも関心を集めている。 しかし、因果関係を考慮した既存の生成モデルはほとんどない。 本研究では,因果モデルの一部を学習できる部分学習可能な因果層を含む,ccgm(causal counterfactual generative model)と呼ばれる新しいデコーダベースのフレームワークを提案する。 画像意味ラベルや表変数間の因果関係を学習することにより、バイアスを分析し、生成モデルに介入し、新しいシナリオをシミュレートすることができる。 さらに、因果構造を変更することで、元のトレーニングデータのドメイン外でサンプルを生成し、そのような反ファクトモデルを使ってデータセットを非バイアスにすることができる。 したがって、既知のバイアスを持つデータセットは、まだ因果生成モデルのトレーニングや因果関係の学習に使用できるが、生成側では偏りのないデータセットを生成できる。 提案手法では,因果的忠実性を重視した因果的潜在空間vaeモデルと具体的修正を組み合わせることで,因果的階層の微調整とロバストな介入フレームワークの学習を可能にする。 因果的学習と符号化/復号化が因果的介入の質を高めるかを検討する。 また、我々のモデルと類似の研究を比較し、介入以上の明確な生成脱バイアスの必要性を示す。 最初の実験では,本モデルでは,因果関係に忠実な画像や表データを生成することができ,基幹よりも因果関係を無視する明示的な非バイアス処理が可能であった。

Variational autoencoders (VAEs) and other generative methods have garnered growing interest not just for their generative properties but also for the ability to dis-entangle a low-dimensional latent variable space. However, few existing generative models take causality into account. We propose a new decoder based framework named the Causal Counterfactual Generative Model (CCGM), which includes a partially trainable causal layer in which a part of a causal model can be learned without significantly impacting reconstruction fidelity. By learning the causal relationships between image semantic labels or tabular variables, we can analyze biases, intervene on the generative model, and simulate new scenarios. Furthermore, by modifying the causal structure, we can generate samples outside the domain of the original training data and use such counterfactual models to de-bias datasets. Thus, datasets with known biases can still be used to train the causal generative model and learn the causal relationships, but we can produce de-biased datasets on the generative side. Our proposed method combines a causal latent space VAE model with specific modification to emphasize causal fidelity, enabling finer control over the causal layer and the ability to learn a robust intervention framework. We explore how better disentanglement of causal learning and encoding/decoding generates higher causal intervention quality. We also compare our model against similar research to demonstrate the need for explicit generative de-biasing beyond interventions. Our initial experiments show that our model can generate images and tabular data with high fidelity to the causal framework and accommodate explicit de-biasing to ignore undesired relationships in the causal data compared to the baseline.
翻訳日:2022-07-06 11:57:55 公開日:2022-07-05
# 量子ニューラルネットワークの圧縮

Quantum Neural Network Compression ( http://arxiv.org/abs/2207.01578v2 )

ライセンス: Link先を確認
Zhirui Hu, Peiyan Dong, Zhepeng Wang, Youzuo Lin, Yanzhi Wang, Weiwen Jiang(参考訳) プルーニングや量子化などのモデル圧縮は、リソース制限された古典的デバイス上でのニューラルネットワークの最適化に広く応用されている。 近年、量子コンピュータ(すなわち量子ニューラルネットワーク)上のニューラルネットワークの一種である変分量子回路(vqc)への関心が高まっている。 近い将来の量子デバイスは高いノイズと限られた資源(量子ビット、量子ビットなど)を持つことが知られているが、量子ニューラルネットワークの圧縮方法はまだ十分に研究されていない。 量子シナリオに古典的な圧縮技術を適用するのは簡単だと思います。 しかし,本論文は,量子ニューラルネットワークと古典ニューラルネットワークの圧縮に違いがあることを明らかにする。 この結果から,圧縮プロセスにはコンパイル/トランススピル化が関与する必要があると結論づけた。 そこで我々は,量子ニューラルネットワーク(QNN)を圧縮するための,最初の体系的フレームワークであるCompVQCを提案する。 CompVQCでは、乗算器(ADMM)アプローチの交互方向法に基づく新しい圧縮アルゴリズムが鍵となる。 実験では、CompVQCの利点が示され、回路深さ(ほぼ2.5%)が減少し、無視できる精度が低下する(<1%)。 もう一つの有望な真実は、我々のCompVQCは、近い将来のノイズ量子デバイスにおけるQNNの堅牢性を促進することができるということです。

Model compression, such as pruning and quantization, has been widely applied to optimize neural networks on resource-limited classical devices. Recently, there are growing interest in variational quantum circuits (VQC), that is, a type of neural network on quantum computers (a.k.a., quantum neural networks). It is well known that the near-term quantum devices have high noise and limited resources (i.e., quantum bits, qubits); yet, how to compress quantum neural networks has not been thoroughly studied. One might think it is straightforward to apply the classical compression techniques to quantum scenarios. However, this paper reveals that there exist differences between the compression of quantum and classical neural networks. Based on our observations, we claim that the compilation/traspilation has to be involved in the compression process. On top of this, we propose the very first systematical framework, namely CompVQC, to compress quantum neural networks (QNNs).In CompVQC, the key component is a novel compression algorithm, which is based on the alternating direction method of multipliers (ADMM) approach. Experiments demonstrate the advantage of the CompVQC, reducing the circuit depth (almost over 2.5 %) with a negligible accuracy drop (<1%), which outperforms other competitors. Another promising truth is our CompVQC can indeed promote the robustness of the QNN on the near-term noisy quantum devices.
翻訳日:2022-07-06 11:57:26 公開日:2022-07-05
# マルチリムレスロボットの自由傾きを可能にする分散最適化による同時接触リッチ把持と移動

Simultaneous Contact-Rich Grasping and Locomotion via Distributed Optimization Enabling Free-Climbing for Multi-Limbed Robots ( http://arxiv.org/abs/2207.01418v2 )

ライセンス: Link先を確認
Yuki Shirai, Xuan Lin, Alexander Schperberg, Yusuke Tanaka, Hayato Kato, Varit Vichathorn, Dennis Hong(参考訳) 脚付きロボットの移動計画は非常に成功しているが,足型多指握りロボットの動作計画はまだ未完成である。 本稿では,ロコモーション(例えば,中心運動力学),グルーピング(例えば,パッチコンタクト),接触(例えば歩行)問題を同時に解くための効率的な動作計画フレームワークを提案する。 計画プロセスの高速化を目的として,従来の大規模混合整数非線形計画法(MINLP)を解くために,ADMM(Alternating Direction Methods of Multipliers)に基づく分散最適化フレームワークを提案する。 その結果得られたフレームワークは、混合整数二次プログラミング(miqp)を使用して接触および非線形プログラミング(nlp)を解き、より計算が容易でパラメータに対する感度が低い非線形ダイナミクスを解決する。 また,マイクロスピングリップによる限界面からのパッチ接触制約を明示的に実施する。 提案手法をハードウェア実験で実証し,傾斜角45{\deg}における自由傾きを含む様々な動作を,より短い計画時間で実現できることを示した。

While motion planning of locomotion for legged robots has shown great success, motion planning for legged robots with dexterous multi-finger grasping is not mature yet. We present an efficient motion planning framework for simultaneously solving locomotion (e.g., centroidal dynamics), grasping (e.g., patch contact), and contact (e.g., gait) problems. To accelerate the planning process, we propose distributed optimization frameworks based on Alternating Direction Methods of Multipliers (ADMM) to solve the original large-scale Mixed-Integer NonLinear Programming (MINLP). The resulting frameworks use Mixed-Integer Quadratic Programming (MIQP) to solve contact and NonLinear Programming (NLP) to solve nonlinear dynamics, which are more computationally tractable and less sensitive to parameters. Also, we explicitly enforce patch contact constraints from limit surfaces with micro-spine grippers. We demonstrate our proposed framework in the hardware experiments, showing that the multi-limbed robot is able to realize various motions including free-climbing at a slope angle 45{\deg} with a much shorter planning time.
翻訳日:2022-07-06 11:57:00 公開日:2022-07-05
# DiffML: エンドツーエンドの差別化可能なMLパイプライン

DiffML: End-to-end Differentiable ML Pipelines ( http://arxiv.org/abs/2207.01269v2 )

ライセンス: Link先を確認
Benjamin Hilprecht, Christian Hammacher, Eduardo Reis, Mohamed Abdelaal and Carsten Binnig(参考訳) 本稿では、DiffMLと呼ばれる差別化可能なMLパイプラインのビジョンを示し、エンドツーエンドでMLパイプラインの構築を自動化する。 DiffMLは、MLモデル自体だけでなく、データクリーニングや機能選択など、データ前処理ステップを含むパイプライン全体の共同トレーニングを可能にする。 私たちの中核的な考え方は、パイプライン全体をバックプロパゲーションを使ってトレーニングできるように、すべてのパイプラインステップを差別化可能な方法で定式化することです。 しかし、これは非自明な問題であり、多くの新しい研究課題を提起する。 この方向の実現可能性を示すために,データクリーニングや特徴選択,データセット選択といった典型的な前処理ステップを微分可能なプログラムとして定式化し,mlモデルと共同で学習する方法について,初期アイデアと一般的な原則を示す。 さらに、完全に差別化可能なMLパイプラインを実現するために、体系的に取り組まなければならない研究ロードマップとコア課題についても論じる。

In this paper, we present our vision of differentiable ML pipelines called DiffML to automate the construction of ML pipelines in an end-to-end fashion. The idea is that DiffML allows to jointly train not just the ML model itself but also the entire pipeline including data preprocessing steps, e.g., data cleaning, feature selection, etc. Our core idea is to formulate all pipeline steps in a differentiable way such that the entire pipeline can be trained using backpropagation. However, this is a non-trivial problem and opens up many new research questions. To show the feasibility of this direction, we demonstrate initial ideas and a general principle of how typical preprocessing steps such as data cleaning, feature selection and dataset selection can be formulated as differentiable programs and jointly learned with the ML model. Moreover, we discuss a research roadmap and core challenges that have to be systematically tackled to enable fully differentiable ML pipelines.
翻訳日:2022-07-06 11:56:41 公開日:2022-07-05
# (参考訳) ベイズ最適化手法を用いたサリエンシマップ記述のためのアンサンブル集合の忠実性

Fidelity of Ensemble Aggregation for Saliency Map Explanations using Bayesian Optimization Techniques ( http://arxiv.org/abs/2207.01565v2 )

ライセンス: CC BY 4.0
Yannik Mahlau, Christian Nolde(参考訳) 近年,ニューラルネットワークを説明するための特徴帰属法が数多く開発されている。 特にコンピュータビジョンの分野では、画素属性を提供するサリエンシマップを生成する多くの方法が存在する。 しかし、それらの説明はしばしば矛盾しており、どの説明を信用するかは明らかではない。 この問題の自然な解決策は、複数の説明の集約である。 異なるピクセルベース集約スキームと,モデル決定に対する忠実度が各説明よりも高い新たな説明の生成を目標とし,比較を行った。 ベイズ最適化の分野からの手法を用いて、個々の説明間の分散を集約プロセスに組み込む。 さらに,複数の正規化手法がアンサンブルアグリゲーションに与える影響を分析する。

In recent years, an abundance of feature attribution methods for explaining neural networks have been developed. Especially in the field of computer vision, many methods for generating saliency maps providing pixel attributions exist. However, their explanations often contradict each other and it is not clear which explanation to trust. A natural solution to this problem is the aggregation of multiple explanations. We present and compare different pixel-based aggregation schemes with the goal of generating a new explanation, whose fidelity to the model's decision is higher than each individual explanation. Using methods from the field of Bayesian Optimization, we incorporate the variance between the individual explanations into the aggregation process. Additionally, we analyze the effect of multiple normalization techniques on ensemble aggregation.
翻訳日:2022-07-06 11:55:54 公開日:2022-07-05
# 記号回帰はnpハードである

Symbolic Regression is NP-hard ( http://arxiv.org/abs/2207.01018v2 )

ライセンス: Link先を確認
Marco Virgolin, Solon P. Pissis(参考訳) シンボリック回帰(シンボリックレグレッション、英: Symbolic regression、SR)は、数学的表現の形でデータのモデルを学ぶタスクである。 その性質上、SRモデルは正確で人間に解釈できる可能性を持っている。 残念なことに、そのようなモデル、すなわちSRを実行することは、計算集約的なタスクである。 歴史的に、SRは欲求や遺伝的アルゴリズムのようなヒューリスティックな手法に取り組んでおり、SRの硬さを示唆する研究もあるが、実際にはNPハードであることの証明は与えられていない。 SRモデルを計算するための正確な多項式時間アルゴリズムはあるだろうか? SR が NP ハードであることを示すことによって、答えがおそらく負であることを示す証拠を提供する。

Symbolic regression (SR) is the task of learning a model of data in the form of a mathematical expression. By their nature, SR models have the potential to be accurate and human-interpretable at the same time. Unfortunately, finding such models, i.e., performing SR, appears to be a computationally intensive task. Historically, SR has been tackled with heuristics such as greedy or genetic algorithms and, while some works have hinted at the possible hardness of SR, no proof has yet been given that SR is, in fact, NP-hard. This begs the question: Is there an exact polynomial-time algorithm to compute SR models? We provide evidence suggesting that the answer is probably negative by showing that SR is NP-hard.
翻訳日:2022-07-06 11:41:57 公開日:2022-07-05
# 判別子誘導モデルに基づくオフライン模倣学習

Discriminator-Guided Model-Based Offline Imitation Learning ( http://arxiv.org/abs/2207.00244v2 )

ライセンス: Link先を確認
Wenjia Zhang, Haoran Xu, Haoyi Niu, Peng Cheng, Ming Li, Heming Zhang, Guyue Zhou, Xianyuan Zhan(参考訳) オフライン模倣学習(il)は、報酬ラベルなしで専門家のデモンストレーションから意思決定問題を解決する強力な方法である。 既存のオフラインILメソッドは、共変量シフトによる限られた専門家データの下での厳しい性能劣化に悩まされる。 学習されたダイナミックスモデルを含むと、専門家データの状態-作用空間カバレッジが向上する可能性があるが、モデル近似/一般化誤差やロールアウトデータの亜最適性といった問題にも直面する。 本稿では,モデルロールアウトデータのダイナミクスの正確性と下位最適化を同時に区別する判別器を導入する,モデルガイド型オフライン模倣学習(dmil)フレームワークを提案する。 DMILは,政策・力学モデルの学習過程を誘導・結合する識別器を用いて,モデル性能とロバスト性を向上させる新しい協調学習戦略を採用する。 我々のフレームワークは、デモに最適なデータが多く含まれている場合にも拡張できる。 実験結果から,DMILとその拡張は,小規模なデータセット下での最先端のオフラインIL法と比較して,優れた性能とロバスト性が得られることが示された。

Offline imitation learning (IL) is a powerful method to solve decision-making problems from expert demonstrations without reward labels. Existing offline IL methods suffer from severe performance degeneration under limited expert data due to covariate shift. Including a learned dynamics model can potentially improve the state-action space coverage of expert data, however, it also faces challenging issues like model approximation/generalization errors and suboptimality of rollout data. In this paper, we propose the Discriminator-guided Model-based offline Imitation Learning (DMIL) framework, which introduces a discriminator to simultaneously distinguish the dynamics correctness and suboptimality of model rollout data against real expert demonstrations. DMIL adopts a novel cooperative-yet-adversarial learning strategy, which uses the discriminator to guide and couple the learning process of the policy and dynamics model, resulting in improved model performance and robustness. Our framework can also be extended to the case when demonstrations contain a large proportion of suboptimal data. Experimental results show that DMIL and its extension achieve superior performance and robustness compared to state-of-the-art offline IL methods under small datasets.
翻訳日:2022-07-06 11:41:45 公開日:2022-07-05
# ABAW: 合成データとマルチタスク学習の課題から学ぶ

ABAW: Learning from Synthetic Data & Multi-Task Learning Challenges ( http://arxiv.org/abs/2207.01138v2 )

ライセンス: Link先を確認
Dimitrios Kollias(参考訳) 本稿では,欧州コンピュータビジョン会議(eccv)と共同で開催した第4回産業内行動分析(abaw)コンペティションについて述べる。 第4回ABAWコンペティションはIEEE CVPR 2022、ICCV 2021、IEEE FG 2020、IEEE CVPR 2017 Conferencesで開催されるコンペティションの継続であり、自動的に影響を分析することを目的としている。 このコンペティションの以前の実行では、チャレンジはValence-Arousal Estimation、Expression Classification、Action Unit Detectionをターゲットにしていた。 今年大会は2つの異なる課題を含む。 一 上記三つのタスクのすべてを同時に学習すること(即ち、マルチタスク学習設定において。)を目標とするマルチタスク学習 二 人工的に生成されたデータから基本表現を認識し、実データに一般化することを目的とする合成データからの学習 Aff-Wild2データベースはWild内の大規模データベースであり、valenceやarousal、式、アクションユニットのアノテーションを含む最初のデータベースである。 このデータベースは、上記の課題の基盤である。 詳細は以下の通り。 i) Aff-Wild2データベースの静的バージョンであるs-Aff-Wild2がMulti-Task-Learning Challengeのために構築され、利用されている。 二 Aff-Wild2データベースから得られた特定のフレーム画像は、合成データセットを作成するための表現操作方法として使われており、これが合成データチャレンジからの学習の基礎となっている。 本稿では,まず,活用コーパスとともに2つの課題を提示し,その評価指標を概説し,最終的に課題ごとのベースラインシステムとそれらの成果を提示する。 コンペティションに関する詳細な情報は、コンペティションのwebサイトにある。 https://ibug.doc.ic.ac.uk/resources/eccv-2023-4th-abaw/。

This paper describes the fourth Affective Behavior Analysis in-the-wild (ABAW) Competition, held in conjunction with European Conference on Computer Vision (ECCV), 2022. The 4th ABAW Competition is a continuation of the Competitions held at IEEE CVPR 2022, ICCV 2021, IEEE FG 2020 and IEEE CVPR 2017 Conferences, and aims at automatically analyzing affect. In the previous runs of this Competition, the Challenges targeted Valence-Arousal Estimation, Expression Classification and Action Unit Detection. This year the Competition encompasses two different Challenges: i) a Multi-Task-Learning one in which the goal is to learn at the same time (i.e., in a multi-task learning setting) all the three above mentioned tasks; and ii) a Learning from Synthetic Data one in which the goal is to learn to recognise the basic expressions from artificially generated data and generalise to real data. The Aff-Wild2 database is a large scale in-the-wild database and the first one that contains annotations for valence and arousal, expressions and action units. This database is the basis for the above Challenges. In more detail: i) s-Aff-Wild2 -- a static version of Aff-Wild2 database -- has been constructed and utilized for the purposes of the Multi-Task-Learning Challenge; and ii) some specific frames-images from the Aff-Wild2 database have been used in an expression manipulation manner for creating the synthetic dataset, which is the basis for the Learning from Synthetic Data Challenge. In this paper, at first we present the two Challenges, along with the utilized corpora, then we outline the evaluation metrics and finally present the baseline systems per Challenge, as well as their derived results. More information regarding the Competition can be found in the competition's website: https://ibug.doc.ic.ac.uk/resources/eccv-2023-4th-abaw/.
翻訳日:2022-07-06 11:41:26 公開日:2022-07-05
# 自然視における眼球運動に基づくADHDの検出

Detection of ADHD based on Eye Movements during Natural Viewing ( http://arxiv.org/abs/2207.01377v2 )

ライセンス: Link先を確認
Shuwen Deng, Paul Prasse, David R. Reich, Sabine Dziemian, Maja Stegenwallner-Sch\"utz, Daniel Krakowczyk, Silvia Makowski, Nicolas Langer, Tobias Scheffer, and Lena A. J\"ager(参考訳) 注意欠陥・高活動障害(ADHD: Attention-deficit/hyperactive disorder)は神経発達障害であり、臨床医に診断が必要である。 目の動きに反映される個人の観察行動は、注意機構や高次認知過程に直接関係していることが知られている。 そこで我々は,自由視聴課題における映像刺激に関する情報とともに,記録された眼球運動に基づいてADHDを検出できるかどうかを検討する。 この目的のために,我々は,より多くのデータが利用可能な関連するタスクを事前学習する,エンドツーエンドのディープラーニングに基づくシーケンスモデルを開発した。 この手法は実際にADHDを検出し、関連するベースラインを上回ります。 アブレーション研究における入力特徴の関連性について検討する。 興味深いことに、このモデルの性能はビデオの内容と密接に関連しており、将来の実験設計に対する洞察を提供する。

Attention-deficit/hyperactivity disorder (ADHD) is a neurodevelopmental disorder that is highly prevalent and requires clinical specialists to diagnose. It is known that an individual's viewing behavior, reflected in their eye movements, is directly related to attentional mechanisms and higher-order cognitive processes. We therefore explore whether ADHD can be detected based on recorded eye movements together with information about the video stimulus in a free-viewing task. To this end, we develop an end-to-end deep learning-based sequence model which we pre-train on a related task for which more data are available. We find that the method is in fact able to detect ADHD and outperforms relevant baselines. We investigate the relevance of the input features in an ablation study. Interestingly, we find that the model's performance is closely related to the content of the video, which provides insights for future experimental designs.
翻訳日:2022-07-06 11:40:54 公開日:2022-07-05
# 意味セグメンテーションにおける正負等コントラスト損失

Positive-Negative Equal Contrastive Loss for Semantic Segmentation ( http://arxiv.org/abs/2207.01417v2 )

ライセンス: Link先を確認
Jing Wang, Lingfei Xuan, Wenxuan Wang, Tianxiang Zhang, Jiangyun Li(参考訳) 様々なコンピュータビジョンタスクにおいてコンテキスト情報は重要であり、以前の作業ではプラグアンドプレイモジュールを設計し、グローバルなコンテキストを効果的に抽出し集約するために構造的損失を設計していた。 これらの方法は、モデルを最適化するためにファインラベルを使用するが、細分化された特徴もまた貴重なトレーニングリソースであり、ハードピクセル(例えば、誤った分類されたピクセル)に望ましい分布をもたらすことを無視する。 教師なしパラダイムにおけるコントラスト学習に触発され、教師なし学習のステレオタイプ(例えば、正と負の不均衡、アンカーコンピューティングの混乱)を捨てるために、教師なしの方法でコントラストの損失を適用し、損失関数を再設計する。 そこで本研究では,アンカーへの正の埋め込みによる潜在的影響を増大させ,負のサンプルペアと負のサンプルペアを等しく扱う正負の等コントラスト損失(pne損失)を提案する。 PNE損失は、既存のセマンティックセグメンテーションフレームワークに直接直接プラグインすることができ、無視可能な余分な計算コストで優れたパフォーマンスをもたらす。 我々は、多数の古典的なセグメンテーション手法(DeepLabV3、OCRNet、UperNetなど)とバックボーン(ResNet、HRNet、Swin Transformerなど)を使用して、包括的な実験を行い、2つのベンチマークデータセット(Cityscapes、COCO-Stuffなど)で最先端のパフォーマンスを達成する。 私たちのコードはまもなく公開されます。

The contextual information is critical for various computer vision tasks, previous works commonly design plug-and-play modules and structural losses to effectively extract and aggregate the global context. These methods utilize fine-label to optimize the model but ignore that fine-trained features are also precious training resources, which can introduce preferable distribution to hard pixels (i.e., misclassified pixels). Inspired by contrastive learning in unsupervised paradigm, we apply the contrastive loss in a supervised manner and re-design the loss function to cast off the stereotype of unsupervised learning (e.g., imbalance of positives and negatives, confusion of anchors computing). To this end, we propose Positive-Negative Equal contrastive loss (PNE loss), which increases the latent impact of positive embedding on the anchor and treats the positive as well as negative sample pairs equally. The PNE loss can be directly plugged right into existing semantic segmentation frameworks and leads to excellent performance with neglectable extra computational costs. We utilize a number of classic segmentation methods (e.g., DeepLabV3, OCRNet, UperNet) and backbone (e.g., ResNet, HRNet, Swin Transformer) to conduct comprehensive experiments and achieve state-of-the-art performance on two benchmark datasets (e.g., Cityscapes and COCO-Stuff). Our code will be publicly available soon.
翻訳日:2022-07-06 11:40:41 公開日:2022-07-05