このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221024となっている論文です。

PDF登録状況(公開日: 20221024)

TitleAuthorsAbstract論文公表日・翻訳日
# 建設コスト文書を国際建設評価基準に分類する機械学習手法

A Machine Learning Approach to Classifying Construction Cost Documents into the International Construction Measurement Standard ( http://arxiv.org/abs/2211.07705v1 )

ライセンス: Link先を確認
J. Ignacio Deza, Hisham Ihshaish and Lamine Mahdjoubi(参考訳) 本稿では,インフラ建設業界で普及している"Bills of Quantities"(BoQ)と呼ばれるコスト資料で提供される自然言語記述を国際構築計測基準(ICMS)に分類する最初の自動モデルを紹介する。 マルチクラスのテキスト分類のためにデプロイし、体系的に評価したモデルは、イギリスの24の大規模インフラ建設プロジェクトから取得した50万件以上の項目のデータセットから学習される。 本稿では,建設プロジェクト資料における文脈意味論の強みと時間依存性を考察するため,言語表現とその後のモデリングに対する我々のアプローチについて述べる。 そこで本研究では,2つの異なる言語表現モデルと,再帰的および畳み込み型ニューラルネットワークアーキテクチャを含む最先端のシーケンスベース分類手法に基づいて,テキストからicmsコードを推定する2つの実験パイプラインを評価する。 その結果, ICMS の自動化モデルは, 平均 F1 スコア以上の精度で, 32 のICMS カテゴリにおいて, 極めて効果的で正確なモデルであることが示唆された。 さらに,BoQsテキストの言語使用の特徴から,より単純なモデルの方が精度の高い結果に好適に比較できることが判明した。 解析の結果,より単純な汎用的時間畳み込みネットワーク(TCN)が同じ能力を持つ再帰的アーキテクチャに匹敵するメモリを表現し,その結果,その性能を向上させる可能性が示唆された。

We introduce the first automated models for classifying natural language descriptions provided in cost documents called "Bills of Quantities" (BoQs) popular in the infrastructure construction industry, into the International Construction Measurement Standard (ICMS). The models we deployed and systematically evaluated for multi-class text classification are learnt from a dataset of more than 50 thousand descriptions of items retrieved from 24 large infrastructure construction projects across the United Kingdom. We describe our approach to language representation and subsequent modelling to examine the strength of contextual semantics and temporal dependency of language used in construction project documentation. To do that we evaluate two experimental pipelines to inferring ICMS codes from text, on the basis of two different language representation models and a range of state-of-the-art sequence-based classification methods, including recurrent and convolutional neural network architectures. The findings indicate a highly effective and accurate ICMS automation model is within reach, with reported accuracy results above 90% F1 score on average, on 32 ICMS categories. Furthermore, due to the specific nature of language use in the BoQs text; short, largely descriptive and technical, we find that simpler models compare favourably to achieving higher accuracy results. Our analysis suggest that information is more likely embedded in local key features in the descriptive text, which explains why a simpler generic temporal convolutional network (TCN) exhibits comparable memory to recurrent architectures with the same capacity, and subsequently outperforms these at this task.
翻訳日:2022-11-20 14:17:42 公開日:2022-10-24
# フェアミュージックレコメンデーションのためのアイテムベース変分自動エンコーダ

Item-based Variational Auto-encoder for Fair Music Recommendation ( http://arxiv.org/abs/2211.01333v1 )

ライセンス: Link先を確認
Jinhyeok Park, Dain Kim, Dongwoo Kim(参考訳) EvalRS DataChallengeのソリューションを紹介します。 EvalRS DataChallengeは、精度、公平性、多様性を考慮したより現実的なレコメンデーションシステムの構築を目指している。 提案システムは,アイテムベース変分自動エンコーダ(VAE)とベイズパーソナライズされたランキング行列分解(BPRMF)のアンサンブルに基づく。 人気度のバイアスを軽減するため、各人気グループに対してアイテムベースのVAEを付加フェアネス正則化で使用する。 予測が不正確であっても合理的な推薦を行うため,BPRMFの推奨リストとアイテムベースVAEの推奨リストを組み合わせる。 実験により, 商品ベースVAEは, ユーザベースVAEに比べて, 人気バイアスを著しく低減することを示した。 アイテムベースのVAEとBPRMFのアンサンブルは、予測が不正確であっても、トップ1アイテムを地上の真実に類似させる。 最後に, 広範実験からの反射に基づく新しい評価指標として, 「係数分散に基づく公正性」を提案する。

We present our solution for the EvalRS DataChallenge. The EvalRS DataChallenge aims to build a more realistic recommender system considering accuracy, fairness, and diversity in evaluation. Our proposed system is based on an ensemble between an item-based variational auto-encoder (VAE) and a Bayesian personalized ranking matrix factorization (BPRMF). To mitigate the bias in popularity, we use an item-based VAE for each popularity group with an additional fairness regularization. To make a reasonable recommendation even the predictions are inaccurate, we combine the recommended list of BPRMF and that of item-based VAE. Through the experiments, we demonstrate that the item-based VAE with fairness regularization significantly reduces popularity bias compared to the user-based VAE. The ensemble between the item-based VAE and BPRMF makes the top-1 item similar to the ground truth even the predictions are inaccurate. Finally, we propose a `Coefficient Variance based Fairness' as a novel evaluation metric based on our reflections from the extensive experiments.
翻訳日:2022-11-06 14:55:26 公開日:2022-10-24
# 機械学習における論理に基づく説明可能性

Logic-Based Explainability in Machine Learning ( http://arxiv.org/abs/2211.00541v1 )

ライセンス: Link先を確認
Joao Marques-Silva(参考訳) この10年で、機械学習(ML)の成功はますます増え続けている。 これらの成功は、MLが人間に直接影響する多くのものを含め、広範囲の実用的な用途で普及しつつあるという明確な証拠を提供する。 残念ながら、最も成功したMLモデルの運用は、人間の意思決定者にとって理解できない。 結果として、特にリスクの高い安全クリティカルな設定では、MLモデルの使用に懸念はない。 近年,MLモデルを説明するためのアプローチの開発が試みられている。 これらの取り組みの多くは、いわゆるモデルに依存しないアプローチに焦点を当てている。 しかしながら、モデルに依存しないアプローチと関連するアプローチはすべて厳密さを保証せず、非形式的とみなされる。 例えば、そのような非形式的な説明は異なる予測と一致し、実際には役に立たない。 本稿では,MLモデルの厳密なモデルに基づく説明を計算するための研究成果について概説する。 これらの取り組みには、説明の実際の定義、計算説明の複雑さのキャラクタリゼーション、さまざまなMLモデルについての推論に最適な論理的エンコーディング、そして人間の意思決定者に対して説明を解釈する方法など、さまざまなトピックが含まれている。

The last decade witnessed an ever-increasing stream of successes in Machine Learning (ML). These successes offer clear evidence that ML is bound to become pervasive in a wide range of practical uses, including many that directly affect humans. Unfortunately, the operation of the most successful ML models is incomprehensible for human decision makers. As a result, the use of ML models, especially in high-risk and safety-critical settings is not without concern. In recent years, there have been efforts on devising approaches for explaining ML models. Most of these efforts have focused on so-called model-agnostic approaches. However, all model-agnostic and related approaches offer no guarantees of rigor, hence being referred to as non-formal. For example, such non-formal explanations can be consistent with different predictions, which renders them useless in practice. This paper overviews the ongoing research efforts on computing rigorous model-based explanations of ML models; these being referred to as formal explanations. These efforts encompass a variety of topics, that include the actual definitions of explanations, the characterization of the complexity of computing explanations, the currently best logical encodings for reasoning about different ML models, and also how to make explanations interpretable for human decision makers, among others.
翻訳日:2022-11-06 14:48:52 公開日:2022-10-24
# スマートエネルギーシステムにおけるAI説明可能性とガバナンス

AI Explainability and Governance in Smart Energy Systems: A Review ( http://arxiv.org/abs/2211.00069v1 )

ライセンス: Link先を確認
Roba Alsaigh, Rashid Mehmood, Iyad Katib(参考訳) 従来の電力網は長年、運用上の信頼性、不安定性、柔軟性、非効率性に悩まされてきた。 スマートグリッド(またはスマートエネルギーシステム)は、新興技術、再生可能エネルギー源、その他のトレンドでエネルギーセクターを変革し続けている。 人工知能(ai)は、スマートエネルギーシステムに適用され、このセクターで大規模で複雑なデータを処理し、スマートでタイムリーな意思決定を行う。 しかし、AIの説明可能性や統治性がないことは、エネルギーセクターにおけるAIの急速な取り込みを妨げる利害関係者にとって大きな関心事である。 本稿では,スマートエネルギーシステムにおけるAI説明可能性とガバナンスについて概説する。 我々は、Scopusデータベースから3,568件の関連論文を収集し、エネルギーにおけるAIガバナンスの15のパラメータやテーマを自動的に発見し、100以上の論文をレビューし、研究の時間的進歩を提供することで、研究の展望を精査する。 パラメータやテーマを発見するための方法論は、データ駆動型ディープラーニングベースのビッグデータ分析アプローチである“ディープジャーナリズム(deep journalism)”に基づいています。 その結果、エネルギーシステムにおけるai説明可能性の研究は分断され、いくつかのai特性とエネルギーシステムの問題に焦点を当てていることがわかった。 本稿では、エネルギー分野におけるAIガバナンスの知識を深め、エネルギー分野におけるAIの展望を理解し、エネルギーシステムのより良い設計、運用、活用、リスク管理を実現するために、政府、産業、学術、エネルギー調達者、その他の利害関係者を支援することが期待されている。

Traditional electrical power grids have long suffered from operational unreliability, instability, inflexibility, and inefficiency. Smart grids (or smart energy systems) continue to transform the energy sector with emerging technologies, renewable energy sources, and other trends. Artificial intelligence (AI) is being applied to smart energy systems to process massive and complex data in this sector and make smart and timely decisions. However, the lack of explainability and governability of AI is a major concern for stakeholders hindering a fast uptake of AI in the energy sector. This paper provides a review of AI explainability and governance in smart energy systems. We collect 3,568 relevant papers from the Scopus database, automatically discover 15 parameters or themes for AI governance in energy and elaborate the research landscape by reviewing over 100 papers and providing temporal progressions of the research. The methodology for discovering parameters or themes is based on "deep journalism", our data-driven deep learning-based big data analytics approach to automatically discover and analyse cross-sectional multi-perspective information to enable better decision-making and develop better instruments for governance. The findings show that research on AI explainability in energy systems is segmented and narrowly focussed on a few AI traits and energy system problems. This paper deepens our knowledge of AI governance in energy and is expected to help governments, industry, academics, energy prosumers, and other stakeholders to understand the landscape of AI in the energy sector, leading to better design, operations, utilisation, and risk management of energy systems.
翻訳日:2022-11-06 14:46:26 公開日:2022-10-24
# 深層網のエネルギー効率トレーニングのための2点セルのポテンシャルの解錠

Unlocking the potential of two-point cells for energy-efficient training of deep nets ( http://arxiv.org/abs/2211.01950v1 )

ライセンス: Link先を確認
Ahsan Adeel, Adewale Adetomi, Khubaib Ahmed, Amir Hussain, Tughrul Arslan, W.A. Phillips(参考訳) 文脈感受性2点層5錐体細胞(L5PC)は1999年に発見された。 しかし、この発見が有用な神経計算を提供する可能性はまだ実証されていない。 本稿では,多センサ協調コンピューティング(mcc)アーキテクチャと呼ばれる変換型l5pc駆動深層ニューラルネットワーク(dnn)が,利用可能な最善の'点'ニューロン駆動dnnに比べてはるかに少ないエネルギーで,大量の異種実世界オーディオビジュアル(av)データを効果的に処理できることを初めて示す。 xilinx ultrascale+ mpsoc デバイス上の新しい高分散並列実装は、単一のシナプスが 8e^{-5}\mu$j を消費する2,45759 \times 50000$$$\mu$j (すなわち、半教師付き学習セットアップにおけるベースラインモデルよりも6,2$%少ない) の省エネルギーを推定する。 教師あり学習のセットアップでは、省エネはベースラインモデルよりも最大1250倍(フィードフォワードトランスミッションあたり)に到達できる可能性がある。 実験実験におけるこの顕著な性能は、我々が提案したL5PCベースのMCCアーキテクチャの具体的ニューロモルフィックインテリジェンスを実証し、オンチップトレーニングの初期段階で利用された圧倒的に大きなマルチモーダル情報から、上向き送信において最も健全で関連性の高い情報を選択する。 提案手法は,将来のDNNトレーニング実装のための学際的な新たな道を開き,現在のニューロモルフィックコンピューティングパラダイムの急激な変化を示唆する。

Context-sensitive two-point layer 5 pyramidal cells (L5PC) were discovered as long ago as 1999. However, the potential of this discovery to provide useful neural computation has yet to be demonstrated. Here we show for the first time how a transformative L5PC-driven deep neural network (DNN), termed the multisensory cooperative computing (MCC) architecture, can effectively process large amounts of heterogeneous real-world audio-visual (AV) data, using far less energy compared to best available `point' neuron-driven DNNs. A novel highly-distributed parallel implementation on a Xilinx UltraScale+ MPSoC device estimates energy savings up to $245759 \times 50000$ $\mu$J (i.e., $62\%$ less than the baseline model in a semi-supervised learning setup) where a single synapse consumes $8e^{-5}\mu$J. In a supervised learning setup, the energy-saving can potentially reach up to 1250x less (per feedforward transmission) than the baseline model. This remarkable performance in pilot experiments demonstrates the embodied neuromorphic intelligence of our proposed L5PC based MCC architecture that contextually selects the most salient and relevant information for onward transmission, from overwhelmingly large multimodal information utilised at the early stages of on-chip training. Our proposed approach opens new cross-disciplinary avenues for future on-chip DNN training implementations and posits a radical shift in current neuromorphic computing paradigms.
翻訳日:2022-11-06 14:41:30 公開日:2022-10-24
# 効率的なグラフ表現学習のためのスパイキング変分グラフ自動エンコーダ

Spiking Variational Graph Auto-Encoders for Efficient Graph Representation Learning ( http://arxiv.org/abs/2211.01952v1 )

ライセンス: Link先を確認
Hanxuan Yang, Ruike Zhang, Qingchao Kong, Wenji Mao(参考訳) グラフ表現学習は基本的な研究課題であり、グラフ構造化データに対する幅広い応用に恩恵をもたらす。 グラフニューラルネットワーク(gnns)や変分グラフオートエンコーダ(vgaes)といった従来の人工ニューラルネットワークベースの手法は、グラフ上で学習することで有望な結果を得たが、トレーニングや推論の段階では非常に高いエネルギー消費に苦しめられている。 スパイキングニューラルネットワーク(SNN)の生体忠実性とエネルギー効率に触発された近年の手法は、スパイキングニューロンを活性化機能に置換することにより、GNNをSNNフレームワークに適応させようと試みている。 しかし、既存のSNNベースのGNN法は、リンク予測によって表現されるより一般的なマルチノード表現学習問題には適用できない。 さらに、これらの手法は、エネルギー効率を著しく損なうコストのかかる乗算(MAC)操作を必要とするため、SNNの生物忠実性を十分に活用しなかった。 上記の問題に対処し、エネルギー効率を向上させるために、SNNに基づく深層生成手法、すなわち、効率的なグラフ表現学習のためのスパイキング変分グラフオートエンコーダ(S-VGAE)を提案する。 マルチノード問題に対処するため、重み付き内積を経由したグラフのスパイクノード表現としてバイナリ潜在変数を生成する確率デコーダを提案する。 エネルギー効率のMAC操作を回避するため、従来のGNNアグリゲータの伝搬層と変換層をさらに分離する。 我々は,複数のベンチマークグラフデータセット上でリンク予測実験を行い,この結果から,グラフ表現学習における他のANNやSNNに匹敵する性能で,より少ないエネルギーを消費することを示した。

Graph representation learning is a fundamental research issue and benefits a wide range of applications on graph-structured data. Conventional artificial neural network-based methods such as graph neural networks (GNNs) and variational graph auto-encoders (VGAEs) have achieved promising results in learning on graphs, but they suffer from extremely high energy consumption during training and inference stages. Inspired by the bio-fidelity and energy-efficiency of spiking neural networks (SNNs), recent methods attempt to adapt GNNs to the SNN framework by substituting spiking neurons for the activation functions. However, existing SNN-based GNN methods cannot be applied to the more general multi-node representation learning problem represented by link prediction. Moreover, these methods did not fully exploit the bio-fidelity of SNNs, as they still require costly multiply-accumulate (MAC) operations, which severely harm the energy efficiency. To address the above issues and improve energy efficiency, in this paper, we propose an SNN-based deep generative method, namely the Spiking Variational Graph Auto-Encoders (S-VGAE) for efficient graph representation learning. To deal with the multi-node problem, we propose a probabilistic decoder that generates binary latent variables as spiking node representations and reconstructs graphs via the weighted inner product. To avoid the MAC operations for energy efficiency, we further decouple the propagation and transformation layers of conventional GNN aggregators. We conduct link prediction experiments on multiple benchmark graph datasets, and the results demonstrate that our model consumes significantly lower energy with the performances superior or comparable to other ANN- and SNN-based methods for graph representation learning.
翻訳日:2022-11-06 14:39:46 公開日:2022-10-24
# FullConvに基づく効率的なモンゴル語テキスト音声合成システム

Efficiently Trained Mongolian Text-to-Speech System Based On FullConv ( http://arxiv.org/abs/2211.01948v1 )

ライセンス: Link先を確認
ZiQi Liang(参考訳) リカレントニューラルネットワーク(RNN)はシーケンスデータの標準的なモデリング技術となり、多くの新しい音声合成モデルで使われている。 しかし、RNNコンポーネントを含むTSモデルのトレーニングには、GPUのパフォーマンスに一定の要件があり、長い時間がかかる。 対照的に、CNNに基づくシーケンス合成技術は、高い並列性により一定の性能を確保しつつ、テキスト音声モデルのトレーニング時間を大幅に短縮することを示した。 本稿では,rnnコンポーネント(リカレントユニット)を一切使用しない深層畳み込みニューラルネットワークに基づく新しい音声合成システムを提案する。 同時に, 時間ゆがみ, 周波数マスク, タイムマスクなどのデータ拡張手法により, モデルの汎用性とロバスト性を向上させる。 最後に,CNN成分のみを用いたTSモデルは,合成音声の品質を確保しつつ,タコトロンのような古典的TSモデルと比較してトレーニング時間を短縮できることを示した。

Recurrent Neural Networks (RNNs) have become the standard modeling technique for sequence data, and are used in a number of novel text-to-speech models. However, training a TTS model including RNN components has certain requirements for GPU performance and takes a long time. In contrast, studies have shown that CNN-based sequence synthesis technology can greatly reduce training time in text-to-speech models while ensuring a certain performance due to its high parallelism. We propose a new text-to-speech system based on deep convolutional neural networks that does not employ any RNN components (recurrent units). At the same time, we improve the generality and robustness of our model through a series of data augmentation methods such as Time Warping, Frequency Mask, and Time Mask. The final experimental results show that the TTS model using only the CNN component can reduce the training time compared to the classic TTS models such as Tacotron while ensuring the quality of the synthesized speech.
翻訳日:2022-11-06 14:39:16 公開日:2022-10-24
# 学習tcp混雑制御のためのシンボリック蒸留

Symbolic Distillation for Learned TCP Congestion Control ( http://arxiv.org/abs/2210.16987v1 )

ライセンス: Link先を確認
S P Sharan, Wenqing Zheng, Kuo-Feng Hsu, Jiarong Xing, Ang Chen, Zhangyang Wang(参考訳) 近年のTCP渋滞制御(CC)の進歩は、フィードフォワードニューラルネットワーク(NN)を用いて複雑な環境条件を学習し、より良い意思決定を行うディープ強化学習(RL)アプローチで大きな成功を収めている。 しかしながら、このような「ブラックボックス」ポリシーは解釈可能性と信頼性に欠けており、しばしば複雑なNNを使用するため、従来のTCPデータパスの外で運用する必要がある。 本稿では、まず、深層RLエージェントを訓練し、次に(過度に)パラメータ化されたNNポリシーをホワイトボックスの軽量なルールに、より理解しやすく、制約された環境で実装する、新しい2段階のソリューションを提案する。 提案手法のコアとなるのは,様々なネットワーク条件の観点からルールがコンテキストを認識し,最終的にNNポリシーをシンボリックツリーに変換する,新しいシンボリック分岐アルゴリズムである。 蒸留されたシンボル規則は、標準的なニューラルネットワークよりも高速でシンプルでありながら、最先端のNNポリシーよりも性能を保ち、しばしば改善する。 シミュレーション環境とエミュレーション環境の両方において,蒸留したシンボリックルールの性能を検証する。 私たちのコードはhttps://github.com/VITA-Group/SymbolicPCCで利用可能です。

Recent advances in TCP congestion control (CC) have achieved tremendous success with deep reinforcement learning (RL) approaches, which use feedforward neural networks (NN) to learn complex environment conditions and make better decisions. However, such "black-box" policies lack interpretability and reliability, and often, they need to operate outside the traditional TCP datapath due to the use of complex NNs. This paper proposes a novel two-stage solution to achieve the best of both worlds: first to train a deep RL agent, then distill its (over-)parameterized NN policy into white-box, light-weight rules in the form of symbolic expressions that are much easier to understand and to implement in constrained environments. At the core of our proposal is a novel symbolic branching algorithm that enables the rule to be aware of the context in terms of various network conditions, eventually converting the NN policy into a symbolic tree. The distilled symbolic rules preserve and often improve performance over state-of-the-art NN policies while being faster and simpler than a standard neural network. We validate the performance of our distilled symbolic rules on both simulation and emulation environments. Our code is available at https://github.com/VITA-Group/SymbolicPCC.
翻訳日:2022-11-06 14:37:33 公開日:2022-10-24
# 線虫Caenorhabditis elegansのためのニューラルネットワークを用いたIFT-20感覚ニューロン分類器

A Neural Network Based Automated IFT-20 Sensory Neuron Classifier for Caenorhabditis elegans ( http://arxiv.org/abs/2210.14961v1 )

ライセンス: Link先を確認
Arvind Seshan(参考訳) 画像データにおける神経の同一性を決定することは神経科学において重要な課題であり、生物間での神経活動の比較を促進する。 有機体間の比較によって、機能的ネットワークの全脳分析や特定のニューロンの活動と行動や環境刺激を結びつけるなど、幅広い研究が可能になる。 線虫 Caenorhabditis elegans における1細胞分解能を持つ3次元の汎ニューロンイメージングの最近の進歩は、あらゆる範囲でニューロンの識別、追跡、活動監視をもたらした。 線虫C. elegansは、その透明性やよく理解された神経系などの要因により、神経活動を研究するモデル生物としてしばしば用いられる。 高い精度で神経細胞を同定する主な障壁は、成人のC. elegansでは神経細胞の体の位置がステレオタイプ化されていないことである。 この問題に対処する既存のアプローチでは、遺伝子コード化されたマーカーを追加の識別機能として使用しています。 例えば、NeuroPAL株は多色の蛍光レポーターを使用する。 しかし、このアプローチは過剰な遺伝子改変による悪影響のため、使用が限られている。 本研究では,単色蛍光画像のみを用いた別の神経識別手法を提案する。 私は新しいニューラルネットワークベースの分類器をデザインしました。これは、人間が使う手動アノテーションの手順に触発された反復的なランドマークベースのニューロン識別プロセスを使って、感覚ニューロンを自動的にラベル付けします。 これは91.61%の精度でc. elegansの知覚ニューロンを標識する。

Determining neuronal identity in imaging data is an essential task in neuroscience, facilitating the comparison of neural activity across organisms. Cross-organism comparison, in turn, enables a wide variety of research including whole-brain analysis of functional networks and linking the activity of specific neurons to behavior or environmental stimuli. The recent development of three-dimensional, pan-neuronal imaging with single-cell resolution within Caenorhabditis elegans has brought neuron identification, tracking, and activity monitoring all within reach. The nematode C. elegans is often used as a model organism to study neuronal activity due to factors such as its transparency and well-understood nervous system. The principal barrier to high-accuracy neuron identification is that in adult C. elegans, the position of neuronal cell bodies is not stereotyped. Existing approaches to address this issue use genetically encoded markers as an additional identifying feature. For example, the NeuroPAL strain uses multicolored fluorescent reporters. However, this approach has limited use due to the negative effects of excessive genetic modification. In this study, I propose an alternative neuronal identification technique using only single-color fluorescent images. I designed a novel neural network based classifier that automatically labels sensory neurons using an iterative, landmark-based neuron identification process inspired by the manual annotation procedures that humans employ. This design labels sensory neurons in C. elegans with 91.61% accuracy.
翻訳日:2022-10-28 15:40:07 公開日:2022-10-24
# フェデレーション学習における毒殺攻撃の検出と防止

Detection and Prevention Against Poisoning Attacks in Federated Learning ( http://arxiv.org/abs/2210.14944v1 )

ライセンス: Link先を確認
Viktor Valadi, Madeleine Englund, Mark Spanier, Austin O'brien(参考訳) 本稿では,複数の種類の毒素攻撃が,平均精度偏差検出(AADD)を通じて集中的なフェデレート学習モデルに影響を与えることを検出・防止するための新しいアプローチを提案する。 各クライアントの精度をすべてのクライアントの平均精度と比較することにより、AADDはクライアントを精度差で検出する。 この実装は、毒殺と考えられるクライアントをブラックリスト化することができ、毒殺ノードの影響を受けないようにグローバルモデルを保証する。 提案手法では,汚染されたクライアントの検出と,グローバルモデルの精度低下を防止できる有望な結果を示す。

This paper proposes and investigates a new approach for detecting and preventing several different types of poisoning attacks from affecting a centralized Federated Learning model via average accuracy deviation detection (AADD). By comparing each client's accuracy to all clients' average accuracy, AADD detect clients with an accuracy deviation. The implementation is further able to blacklist clients that are considered poisoned, securing the global model from being affected by the poisoned nodes. The proposed implementation shows promising results in detecting poisoned clients and preventing the global model's accuracy from deteriorating.
翻訳日:2022-10-28 13:28:16 公開日:2022-10-24
# ルール:ルール埋め込みによるニューラルシンボリック知識グラフ推論

RulE: Neural-Symbolic Knowledge Graph Reasoning with Rule Embedding ( http://arxiv.org/abs/2210.14905v1 )

ライセンス: Link先を確認
Xiaojuan Tang, Song-Chun Zhu, Yitao Liang, Muhan Zhang(参考訳) 知識グラフ推論(KG)は知識グラフにとって重要な問題である。 既存の事実に基づいてリンク不足を予測する。 知識グラフ埋め込み(KGE)は、この問題に対処する最も一般的な手法の1つである。 低次元ベクトルにエンティティと関係を埋め込み、学習されたエンティティ/リレーションの埋め込みを使用して、行方不明な事実を予測する。 しかしながら、KGE は、既存の三重項(例えば ``Alice is Bob's wife" など)をエンコードするために、ゼロ階論理(命題論理)しか使用せず、一階論理(述語論理)を利用して一般に適用可能な論理的 \textbf{rules} (例えば ``$\forall x,y \colon x ~\text{is}~ y\text{'s wife} \rightarrow y ~\text{is}~x\text{'s husband}$' )を表現できない。 一方、従来のルールベースのKG推論手法は、通常はハード論理的なルール推論に依存しており、不安定であり、KGEとほとんど競合しない。 本稿では,論理規則と三重項を表現・モデル化する新奇で原則化されたフレームワークRulEを提案する。 RulEは統合埋め込み空間における実体、関係、論理規則を共同で表現する。 各論理規則の埋め込みを学習することにより、RulEは論理規則推論をソフトな方法で実行し、KGEが各三重項に信頼スコアを与えるのと同じように、各基底規則に信頼スコアを与えることができる。 KGE 単独と比較して、RulE は埋め込み空間に事前論理ルール情報を注入することができ、知識グラフの埋め込みの一般化を改善する。 さらに、学習されたルールの信頼度スコアは、各ルールの貢献をソフトに制御することで論理規則推論プロセスを改善し、論理の脆さを軽減する。 提案手法をリンク予測タスクで評価する。 複数のベンチマークKGの実験結果からRulEの有効性が示された。

Knowledge graph (KG) reasoning is an important problem for knowledge graphs. It predicts missing links by reasoning on existing facts. Knowledge graph embedding (KGE) is one of the most popular methods to address this problem. It embeds entities and relations into low-dimensional vectors and uses the learned entity/relation embeddings to predict missing facts. However, KGE only uses zeroth-order (propositional) logic to encode existing triplets (e.g., ``Alice is Bob's wife."); it is unable to leverage first-order (predicate) logic to represent generally applicable logical \textbf{rules} (e.g., ``$\forall x,y \colon x ~\text{is}~ y\text{'s wife} \rightarrow y ~\text{is}~ x\text{'s husband}$''). On the other hand, traditional rule-based KG reasoning methods usually rely on hard logical rule inference, making it brittle and hardly competitive with KGE. In this paper, we propose RulE, a novel and principled framework to represent and model logical rules and triplets. RulE jointly represents entities, relations and logical rules in a unified embedding space. By learning an embedding for each logical rule, RulE can perform logical rule inference in a soft way and give a confidence score to each grounded rule, similar to how KGE gives each triplet a confidence score. Compared to KGE alone, RulE allows injecting prior logical rule information into the embedding space, which improves the generalization of knowledge graph embedding. Besides, the learned confidence scores of rules improve the logical rule inference process by softly controlling the contribution of each rule, which alleviates the brittleness of logic. We evaluate our method with link prediction tasks. Experimental results on multiple benchmark KGs demonstrate the effectiveness of RulE.
翻訳日:2022-10-28 13:02:34 公開日:2022-10-24
# 最小エントロピー結合を用いた完全安全ステガノグラフィ

Perfectly Secure Steganography Using Minimum Entropy Coupling ( http://arxiv.org/abs/2210.14889v1 )

ライセンス: Link先を確認
Christian Schroeder de Witt, Samuel Sokota, J. Zico Kolter, Jakob Foerster, Martin Strohmeier(参考訳) ステガノグラフィ(Steganography)とは、敵の第三者が隠された意味があることに気づかないような、秘密情報を無害な内容に符号化する実践である。 この問題は古典的にセキュリティ文献で研究されてきたが、生成モデルの最近の進歩は、スケーラブルなステガノグラフィ技術を開発するセキュリティ研究者と機械学習研究者の間で共通の関心を呼んでいる。 本研究は, ステガノグラフィーが結合によって誘導される場合に限り, ステガノグラフィーの情報理論モデルの下で完全に安全であることを示す。 さらに,完全安全な手順の中で,最小エントロピーカップリングによって引き起こされる場合に限り,手続きが最大効率であることが示される。 これらの洞察は、私たちの知る限りでは、非自明な効率で完全なセキュリティ保証を達成するための最初のステガノグラフィーアルゴリズムを生み出します。 本稿では,GPT-2とWaveRNNを通信チャネルとして用いた算術符号化,Meteor,適応動的グループ化の3つの現代ベースラインに対して,最小エントロピー結合に基づくアプローチを比較検討する。 最小エントロピー結合に基づくアプローチは、より強いセキュリティ制約にもかかわらず、より優れたエンコーディング効率をもたらす。 これらの結果から, 最小エントロピー結合レンズを通して情報理論ステガノグラフィを見ることは自然である可能性が示唆された。

Steganography is the practice of encoding secret information into innocuous content in such a manner that an adversarial third party would not realize that there is hidden meaning. While this problem has classically been studied in security literature, recent advances in generative models have led to a shared interest among security and machine learning researchers in developing scalable steganography techniques. In this work, we show that a steganography procedure is perfectly secure under \citet{cachin_perfect}'s information theoretic-model of steganography if and only if it is induced by a coupling. Furthermore, we show that, among perfectly secure procedures, a procedure is maximally efficient if and only if it is induced by a minimum entropy coupling. These insights yield what are, to the best of our knowledge, the first steganography algorithms to achieve perfect security guarantees with non-trivial efficiency; additionally, these algorithms are highly scalable. To provide empirical validation, we compare a minimum entropy coupling-based approach to three modern baselines -- arithmetic coding, Meteor, and adaptive dynamic grouping -- using GPT-2 and WaveRNN as communication channels. We find that the minimum entropy coupling-based approach yields superior encoding efficiency, despite its stronger security constraints. In aggregate, these results suggest that it may be natural to view information-theoretic steganography through the lens of minimum entropy coupling.
翻訳日:2022-10-27 15:53:16 公開日:2022-10-24
# マージツリーから銀河の性質を学ぶ$\texttt{mangrove}$

$\texttt{Mangrove}$: Learning Galaxy Properties from Merger Trees ( http://arxiv.org/abs/2210.13473v1 )

ライセンス: Link先を確認
Christian Kragh Jespersen, Miles Cranmer, Peter Melchior, Shirley Ho, Rachel S. Somerville, Austen Gabrielpillai(参考訳) ダークマターへのバリオン特性の効率的なマッピングは天体物理学の大きな課題である。 半解析モデル(sams)と流体力学シミュレーションは、宇宙学的に重要な体積にわたって銀河観測可能な銀河を再現する素晴らしい進歩を遂げてきたが、これらの方法には依然としてかなりの計算時間が必要であり、多くの応用への障壁となっている。 グラフニューラルネットワーク(GNN)は、最近、物理関係を学ぶための自然な選択であることが証明されている。 天体物理学で見られるグラフのような構造は、暗黒物質ハロの進化をコードする暗黒物質融合木である。 本稿では、新しいグラフベースのエミュレータフレームワークである$\texttt{mangrove}$を導入し、samが予測したように、銀河の恒星質量、冷気質量、金属性、瞬間的および時間平均的な星形成速度、ブラックホール質量をエミュレートし、$(75 mpc/h)^3$シミュレーションボックスで、$(75 mpc/h)^3$シミュレーションボックス上の他の方法よりも2倍低い根平均二乗誤差を、40秒で、4桁の速さで示す。 我々は$\texttt{Mangrove}$が銀河の性質の合併履歴への依存の定量化を可能にすることを示した。 その結果を現在の分野の美術品と比較し,すべての対象物に対して有意な改善が見られた。 $\texttt{Mangrove}$が公開されている。

Efficiently mapping baryonic properties onto dark matter is a major challenge in astrophysics. Although semi-analytic models (SAMs) and hydrodynamical simulations have made impressive advances in reproducing galaxy observables across cosmologically significant volumes, these methods still require significant computation times, representing a barrier to many applications. Graph Neural Networks (GNNs) have recently proven to be the natural choice for learning physical relations. Among the most inherently graph-like structures found in astrophysics are the dark matter merger trees that encode the evolution of dark matter halos. In this paper we introduce a new, graph-based emulator framework, $\texttt{Mangrove}$, and show that it emulates the galactic stellar mass, cold gas mass and metallicity, instantaneous and time-averaged star formation rate, and black hole mass -- as predicted by a SAM -- with root mean squared error up to two times lower than other methods across a $(75 Mpc/h)^3$ simulation box in 40 seconds, 4 orders of magnitude faster than the SAM. We show that $\texttt{Mangrove}$ allows for quantification of the dependence of galaxy properties on merger history. We compare our results to the current state of the art in the field and show significant improvements for all target properties. $\texttt{Mangrove}$ is publicly available.
翻訳日:2022-10-26 16:10:26 公開日:2022-10-24
# コミュニケーション効率の良い分散学習のためのSGDの適応的トップK

Adaptive Top-K in SGD for Communication-Efficient Distributed Learning ( http://arxiv.org/abs/2210.13532v1 )

ライセンス: Link先を確認
Mengzhe Ruan, Guangfeng Yan, Yuanzhang Xiao, Linqi Song, Weitao Xu(参考訳) 勾配圧縮を伴う分散確率勾配降下(SGD)は,分散学習を加速する通信効率のよい解である。 top-kスパーシフィケーション(top-k sparsification)は、モデルトレーニング中に一定の程度で勾配をスパーシライズする最も一般的な勾配圧縮方法の1つである。 しかし、モデル性能やトレーニング速度の可能性を最大化するために、スペーシフィケーションの程度を適応的に調整するアプローチがない。 本稿では,新しい適応型top-k sgdフレームワークを提案し,各勾配降下ステップに対して適応的なスパーシフィケーションを可能とし,通信コストと収束誤差のトレードオフを検討することにより収束性能を最大化する。 まず、適応スカラー化スキームと損失関数に対する収束誤差の上限を導出する。 次に,通信コスト制約下での収束誤差を最小化してアルゴリズムを設計する。 最後に,SGD における適応型 Top-K は,最先端手法と比較して,はるかに優れた収束率が得られることを示す。

Distributed stochastic gradient descent (SGD) with gradient compression has emerged as a communication-efficient solution to accelerate distributed learning. Top-K sparsification is one of the most popular gradient compression methods that sparsifies the gradient in a fixed degree during model training. However, there lacks an approach to adaptively adjust the degree of sparsification to maximize the potential of model performance or training speed. This paper addresses this issue by proposing a novel adaptive Top-K SGD framework, enabling adaptive degree of sparsification for each gradient descent step to maximize the convergence performance by exploring the trade-off between communication cost and convergence error. Firstly, we derive an upper bound of the convergence error for the adaptive sparsification scheme and the loss function. Secondly, we design the algorithm by minimizing the convergence error under the communication cost constraints. Finally, numerical results show that the proposed adaptive Top-K in SGD achieves a significantly better convergence rate compared with the state-of-the-art methods.
翻訳日:2022-10-26 16:09:57 公開日:2022-10-24
# IoTセキュリティとプライバシのためのマシンラーニングとディープラーニング - アプリケーション,課題,今後の方向性

Machine and Deep Learning for IoT Security and Privacy: Applications, Challenges, and Future Directions ( http://arxiv.org/abs/2210.13547v1 )

ライセンス: Link先を確認
Subrato Bharati, Prajoy Podder(参考訳) IoT(Internet of Things)の統合は、複数のインテリジェントデバイスを人間による最小限の干渉で接続し、互いに対話する。 IoTはコンピュータ科学の分野で急速に普及しつつある。 しかし、このようなスキームの展開に関わる多分野の要素とIoTシステムの横断的な設計によって、新たなセキュリティ問題が引き起こされた。 非効率は、iotシステムのための認証、暗号化、アプリケーションセキュリティ、アクセスネットワークとそのセキュリティにおける本質的な弱点といったセキュリティプロトコルの実装である。 現在のセキュリティアプローチも改善され、IoT環境を効果的に保護できる。 近年、ディープラーニング(DL)/機械学習(ML)は様々な重要な実装で大きく進歩している。 したがって、DL/MLメソッドは、IoTシステムからセキュリティ上のインテリジェンスシステムへの安全な接触を可能にするため、IoTシステムを保護するために不可欠である。 このレビューは、拡張IoTデバイス保護方法を改善するために、MLシステムとDLメソッドの最先端開発を幅広く分析することを目的としている。 一方、IoT Securitiesの機械学習とディープラーニングに関するさまざまな新たな洞察は、今後の研究にどのように役立つかを示している。 新興または本質的な脅威に関連するIoT保護リスクと、将来のIoTデバイス攻撃と、各表面に関連する脅威を識別する。 次に、DLとML IoT保護アプローチを慎重に分析し、それぞれのアプローチのメリット、可能性、弱点を示します。 この記事では、潜在的な課題と制限について論じる。 IoTセキュリティにおけるDL/MLの将来的な作業、推奨、提案も含んでいる。

The integration of the Internet of Things (IoT) connects a number of intelligent devices with a minimum of human interference that can interact with one another. IoT is rapidly emerging in the areas of computer science. However, new security problems were posed by the cross-cutting design of the multidisciplinary elements and IoT systems involved in deploying such schemes. Ineffective is the implementation of security protocols, i.e., authentication, encryption, application security, and access network for IoT systems and their essential weaknesses in security. Current security approaches can also be improved to protect the IoT environment effectively. In recent years, deep learning (DL)/ machine learning (ML) has progressed significantly in various critical implementations. Therefore, DL/ML methods are essential to turn IoT systems protection from simply enabling safe contact between IoT systems to intelligence systems in security. This review aims to include an extensive analysis of ML systems and state-of-the-art developments in DL methods to improve enhanced IoT device protection methods. On the other hand, various new insights in machine and deep learning for IoT Securities illustrate how it could help future research. IoT protection risks relating to emerging or essential threats are identified, as well as future IoT device attacks and possible threats associated with each surface. We then carefully analyze DL and ML IoT protection approaches and present each approach's benefits, possibilities, and weaknesses. This review discusses a number of potential challenges and limitations. The future works, recommendations, and suggestions of DL/ML in IoT security are also included.
翻訳日:2022-10-26 16:09:38 公開日:2022-10-24
# クープマン直接符号化による不安定な動的システムへの適用

Learned Lifted Linearization Applied to Unstable Dynamic Systems Enabled by Koopman Direct Encoding ( http://arxiv.org/abs/2210.13602v1 )

ライセンス: Link先を確認
Jerry Ng, H. Harry Asada(参考訳) 本稿では,安定領域と不安定領域の両方を有する非線形力学系に適用可能なkoopman昇降線形化法を提案する。 DMDや他の標準データ駆動手法は不安定なシステムに適用する場合、クープマンモデルを構築する上で根本的な困難に直面していることが知られている。 ここでは, 非線形状態方程式に関する知識を, 有効観測値の集合を求める学習手法に組み込むことで, 問題を解く。 持ち上げ空間では、安定領域と不安定領域は独立部分空間に分離される。 この特性に基づいて,トレーニングデータを安定かつ不安定な軌道に分離するニューラルネットトレーニングを通じて,効果的な観測可能性を求める。 学習された可観測物は、非線形状態方程式を状態遷移行列に変換する直接符号化と呼ばれる手法を用いて線形状態遷移行列を構築するために用いられる。 提案手法は既存のDMDおよびデータ駆動方式よりも劇的に改善されている。

This paper presents a Koopman lifting linearization method that is applicable to nonlinear dynamical systems having both stable and unstable regions. It is known that DMD and other standard data-driven methods face a fundamental difficulty in constructing a Koopman model when applied to unstable systems. Here we solve the problem by incorporating knowledge about a nonlinear state equation with a learning method for finding an effective set of observables. In a lifted space, stable and unstable regions are separated into independent subspaces. Based on this property, we propose to find effective observables through neural net training where training data are separated into stable and unstable trajectories. The resultant learned observables are used for constructing a linear state transition matrix using method known as Direct Encoding, which transforms the nonlinear state equation to a state transition matrix through inner product computations with the observables. The proposed method shows a dramatic improvement over existing DMD and data-driven methods.
翻訳日:2022-10-26 16:09:17 公開日:2022-10-24
# 最適輸送のミニバッチ推定のための予算制約境界

Budget-Constrained Bounds for Mini-Batch Estimation of Optimal Transport ( http://arxiv.org/abs/2210.13630v1 )

ライセンス: Link先を確認
David Alvarez-Melis, Nicol\`o Fusi, Lester Mackey, Tal Wagner(参考訳) 最適輸送(OT)は確率分布を比較するための基本的なツールであるが、その正確な計算は大きなデータセットでは禁じられている。 本研究では,ミニバッチOT問題の解を集約して構築したOT問題に対して,上下境界の新たなファミリーを導入する。 上界ファミリーは、一方の極端における従来のミニバッチ平均化と、もう一方の極端におけるミニバッチの最適結合によって見出されるタイトな境界を含む。 これらの極小間において,固定計算予算に基づく境界を構築するための様々な手法を提案する。 様々な実験を通じて,計算予算と拘束力とのトレードオフを検討し,コンピュータビジョン応用におけるこれらの境界の有用性を示す。

Optimal Transport (OT) is a fundamental tool for comparing probability distributions, but its exact computation remains prohibitive for large datasets. In this work, we introduce novel families of upper and lower bounds for the OT problem constructed by aggregating solutions of mini-batch OT problems. The upper bound family contains traditional mini-batch averaging at one extreme and a tight bound found by optimal coupling of mini-batches at the other. In between these extremes, we propose various methods to construct bounds based on a fixed computational budget. Through various experiments, we explore the trade-off between computational budget and bound tightness and show the usefulness of these bounds in computer vision applications.
翻訳日:2022-10-26 16:09:02 公開日:2022-10-24
# SpacePhish: 機械学習を用いたフィッシングサイト検出器に対する敵攻撃空間

SpacePhish: The Evasion-space of Adversarial Attacks against Phishing Website Detectors using Machine Learning ( http://arxiv.org/abs/2210.13660v1 )

ライセンス: Link先を確認
Giovanni Apruzzese, Mauro Conti, Ying Yuan(参考訳) 敵機械学習(ML)に関する既存の文献は、すべてのMLモデルを壊す攻撃を示すことに焦点を当てている。 残念ながら、攻撃や防御の実際の \textit{cost} についてはほとんど考慮されていない。 さらに、逆のサンプルはしばしば「機能空間」で作成され、対応する値の評価が問題となる。 簡単に言えば、現在の状況は敵の攻撃によって引き起こされる実際の脅威を推定することができず、セキュアなMLシステムが欠如している。 我々はそのような混乱をこの論文で明確にすることを目指している。 フィッシングサイト検出(PWD)におけるMLの適用を考慮し,ML-PWDを騙すために対向的摂動を導入する「回避空間」を定式化する。 そこで本研究では,より安価なML-PWDに対する回避攻撃を記述した現実的な脅威モデルを提案する。 最後に,12回の回避攻撃に対して,最先端ML-PWDの統計的評価を行った。 我々の評価は (i)より起こりやすい回避の試みの真の効果 (ii)異なる蒸発空間で製作された摂動の影響 我々の現実的な回避の試みは、統計的に有意な劣化(3-10% at $p\! 価格は0.05ドル)で、その安価さは微妙な脅威となる。 しかし、いくつかのML-PWDは我々の最も現実的な攻撃に免疫を持つ(p$=0.22)。 私たちの貢献は、サイバーセキュリティのためのMLシステムに対する敵対的攻撃の再評価の道を開くものです。

Existing literature on adversarial Machine Learning (ML) focuses either on showing attacks that break every ML model, or defenses that withstand most attacks. Unfortunately, little consideration is given to the actual \textit{cost} of the attack or the defense. Moreover, adversarial samples are often crafted in the "feature-space", making the corresponding evaluations of questionable value. Simply put, the current situation does not allow to estimate the actual threat posed by adversarial attacks, leading to a lack of secure ML systems. We aim to clarify such confusion in this paper. By considering the application of ML for Phishing Website Detection (PWD), we formalize the "evasion-space" in which an adversarial perturbation can be introduced to fool a ML-PWD -- demonstrating that even perturbations in the "feature-space" are useful. Then, we propose a realistic threat model describing evasion attacks against ML-PWD that are cheap to stage, and hence intrinsically more attractive for real phishers. Finally, we perform the first statistically validated assessment of state-of-the-art ML-PWD against 12 evasion attacks. Our evaluation shows (i) the true efficacy of evasion attempts that are more likely to occur; and (ii) the impact of perturbations crafted in different evasion-spaces. Our realistic evasion attempts induce a statistically significant degradation (3-10% at $p\!<$0.05), and their cheap cost makes them a subtle threat. Notably, however, some ML-PWD are immune to our most realistic attacks ($p$=0.22). Our contribution paves the way for a much needed re-assessment of adversarial attacks against ML systems for cybersecurity.
翻訳日:2022-10-26 16:08:51 公開日:2022-10-24
# 複数の仮説テストによる機械学習におけるプライバシー漏洩の分析: fanoからの教訓

Analyzing Privacy Leakage in Machine Learning via Multiple Hypothesis Testing: A Lesson From Fano ( http://arxiv.org/abs/2210.13662v1 )

ライセンス: Link先を確認
Chuan Guo, Alexandre Sablayrolles, Maziar Sanjabi(参考訳) 微分プライバシー(DP)は、機械学習におけるプライバシーリスクを軽減するための最も広く受け入れられているフレームワークである。 しかし、実際に特定のプライバシーリスクから保護するために必要なプライバシパラメータ$\epsilon$がどの程度小さいかは、まだよく理解されていない。 本研究では,離散データに対するデータ再構成攻撃を調査し,複数の仮説テストの枠組みで解析する。 我々は、ファノの不等式の異なる変種を利用して、モデルが個人的に訓練されたときに、データ再構成敵の推論力の上限を導出する。 重要なことに、基礎となるプライベートデータが$M$のセットから値を取る場合、ターゲットのプライバシパラメータ$\epsilon$は、敵が大きな推論パワーを得る前に$O(\log M)$になる可能性がある。 本分析は,データ再構成攻撃に対するDPの有効性を,比較的大きな$\epsilon$でも理論的に証明する。

Differential privacy (DP) is by far the most widely accepted framework for mitigating privacy risks in machine learning. However, exactly how small the privacy parameter $\epsilon$ needs to be to protect against certain privacy risks in practice is still not well-understood. In this work, we study data reconstruction attacks for discrete data and analyze it under the framework of multiple hypothesis testing. We utilize different variants of the celebrated Fano's inequality to derive upper bounds on the inferential power of a data reconstruction adversary when the model is trained differentially privately. Importantly, we show that if the underlying private data takes values from a set of size $M$, then the target privacy parameter $\epsilon$ can be $O(\log M)$ before the adversary gains significant inferential power. Our analysis offers theoretical evidence for the empirical effectiveness of DP against data reconstruction attacks even at relatively large values of $\epsilon$.
翻訳日:2022-10-26 16:08:26 公開日:2022-10-24
# 機械学習を用いたメトロ需要予測における気象の影響の探索

Exploring the impact of weather on Metro demand forecasting using machine learning method ( http://arxiv.org/abs/2210.13965v1 )

ライセンス: Link先を確認
Yiming Hu, Yangchuan Huang, Shuyin Liu, Yuanyang Qi, and Danhui Bai(参考訳) 都市鉄道は大規模な交通量や高速化などの包括的利益をもたらし、都市交通建設管理と渋滞対策の最も重要な要素の1つとなっている。 本研究は、2018年4月から6月にかけてのアジア地下鉄の実際の乗客フローデータを用いて、短時間の交通流予測を用いて、乗客フローの時空間分布を解析する。 駅は旅客流量予測のために4つのタイプに分けられ、気象記録は同じ期間に収集される。 そして、異なる入力を持つ機械学習手法を適用し、各気象要素の改善効果を時間順に評価する多変量回帰を行う。 その結果、天気変数を入力すると、週末の予測精度が向上し、平日のパフォーマンスはわずかに向上したが、天候要素の違いによる寄与は異なることがわかった。 また、異なるカテゴリーの駅は天候によって異なる。 本研究は、他の予測モデルをさらに改善する方法を提供し、トランジット管理における短期スケジューリングの最適化のためのデータ駆動分析の可能性を実証する。

Urban rail transit provides significant comprehensive benefits such as large traffic volume and high speed, serving as one of the most important components of urban traffic construction management and congestion solution. Using real passenger flow data of an Asian subway system from April to June of 2018, this work analyzes the space-time distribution of the passenger flow using short-term traffic flow prediction. Stations are divided into four types for passenger flow forecasting, and meteorological records are collected for the same period. Then, machine learning methods with different inputs are applied and multivariate regression is performed to evaluate the improvement effect of each weather element on passenger flow forecasting of representative metro stations on hourly basis. Our results show that by inputting weather variables the precision of prediction on weekends enhanced while the performance on weekdays only improved marginally, while the contribution of different elements of weather differ. Also, different categories of stations are affected differently by weather. This study provides a possible method to further improve other prediction models, and attests to the promise of data-driven analytics for optimization of short-term scheduling in transit management.
翻訳日:2022-10-26 16:01:00 公開日:2022-10-24
# SleepMore:マルチデバイスWiFiセンシングによる大規模睡眠予測

SleepMore: Sleep Prediction at Scale via Multi-Device WiFi Sensing ( http://arxiv.org/abs/2210.14152v1 )

ライセンス: Link先を確認
Camellia Zakaria, Gizem Yilmaz, Priyanka Mammen, Michael Chee, Prashant Shenoy, Rajesh Balan(参考訳) 睡眠時間と品質を監視する機能を備えた商用ウェアラブルトラッカーが利用可能になったことで、より有用な睡眠健康モニタリングアプリケーションや分析が可能になった。 しかし、これらのモダリティによる睡眠モニタリングにおける長期ユーザー維持の課題について多くの研究が報告している。 現代のインターネットユーザーは複数のモバイルデバイスを所有しているため、ユビキタスなモバイルデバイスとパッシブwifiセンシング技術を用いて睡眠時間を予測できる可能性を探求し、長期的な睡眠モニタリングイニシアチブを補完する基本的な手段となる。 本論文では,ユーザのWi-Fiネットワーク上での機械学習に基づく,正確な睡眠追跡手法であるSleepMoreを提案する。 まず、無限小のジャックナイフ分散推定法を用いて、ユーザーのネットワーク活動行動を睡眠状態と覚醒状態に分類する半個人化されたランダム森林モデルを用いる。 移動平均手法により、システムはこれらの状態シーケンスを用いて、ユーザの夜間睡眠期間とその不確かさを推定する。 不確実性定量化により、sleepmoreはノイズの多いwifiデータの影響を克服し、大きな予測エラーを引き起こすことができる。 46人の大学生を対象とした1ヶ月にわたるユーザー調査データを用いて、SleepMoreを検証し、Oura Ringウェアラブルと比較した。 大学キャンパス以外では、異なる住宅プロフィールを持つ非学生を対象に、SleepMoreを評価した。 以上の結果から,sleepmoreはウラ環のベースラインから統計的に識別不能な睡眠統計を生成し,5%の不確実性率で予測した。 これらの誤差は、睡眠時間を決定するのに15-28分、覚醒時間を決定するのに7-29分であり、事前の作業よりも統計的に有意な改善が見られた。 私たちの詳細な分析では、エラーの原因を説明しています。

The availability of commercial wearable trackers equipped with features to monitor sleep duration and quality has enabled more useful sleep health monitoring applications and analyses. However, much research has reported the challenge of long-term user retention in sleep monitoring through these modalities. Since modern Internet users own multiple mobile devices, our work explores the possibility of employing ubiquitous mobile devices and passive WiFi sensing techniques to predict sleep duration as the fundamental measure for complementing long-term sleep monitoring initiatives. In this paper, we propose SleepMore, an accurate and easy-to-deploy sleep-tracking approach based on machine learning over the user's WiFi network activity. It first employs a semi-personalized random forest model with an infinitesimal jackknife variance estimation method to classify a user's network activity behavior into sleep and awake states per minute granularity. Through a moving average technique, the system uses these state sequences to estimate the user's nocturnal sleep period and its uncertainty rate. Uncertainty quantification enables SleepMore to overcome the impact of noisy WiFi data that can yield large prediction errors. We validate SleepMore using data from a month-long user study involving 46 college students and draw comparisons with the Oura Ring wearable. Beyond the college campus, we evaluate SleepMore on non-student users of different housing profiles. Our results demonstrate that SleepMore produces statistically indistinguishable sleep statistics from the Oura ring baseline for predictions made within a 5% uncertainty rate. These errors range between 15-28 minutes for determining sleep time and 7-29 minutes for determining wake time, proving statistically significant improvements over prior work. Our in-depth analysis explains the sources of errors.
翻訳日:2022-10-26 15:59:41 公開日:2022-10-24
# 二元行列分解を用いた高速・低メモリディープニューラルネットワーク

Fast and Low-Memory Deep Neural Networks Using Binary Matrix Factorization ( http://arxiv.org/abs/2210.13468v1 )

ライセンス: Link先を確認
Alireza Bordbar, Mohammad Hossein Kahaei(参考訳) 異なるアプリケーションにおけるディープニューラルネットワークの卓越した性能にもかかわらず、それらはまだ計算的に広く、大量のメモリを必要とする。 これにより、そのようなネットワークを実装するのに必要なリソースを減らす研究が促進される。 この目的のために効果的なアプローチは行列分解であり、異なるネットワークで有効であることが示されている。 本稿では,二元行列の分解を応用し,深層ニューラルネットワークにおける資源量の削減に優れた効率性を示す。 実際、この技術はそのようなネットワークの実用的な実装に繋がる可能性がある。

Despite the outstanding performance of deep neural networks in different applications, they are still computationally extensive and require a great number of memories. This motivates more research on reducing the resources required for implementing such networks. An efficient approach addressed for this purpose is matrix factorization, which has been shown to be effective on different networks. In this paper, we utilize binary matrix factorization and show its great efficiency in reducing the required number of resources in deep neural networks. In effect, this technique can lead to the practical implementation of such networks.
翻訳日:2022-10-26 15:52:19 公開日:2022-10-24
# Microsoftにおけるステアリングクエリ最適化ツールの運用

Deploying a Steered Query Optimizer in Production at Microsoft ( http://arxiv.org/abs/2210.13625v1 )

ライセンス: Link先を確認
Wangda Zhang, Matteo Interlandi, Paul Mineiro, Shi Qiao, Nasim Ghazanfari Karlen Lie, Marc Friedman, Rafah Hosn, Hiren Patel, Alekh Jindal(参考訳) 現代の分析ワークロードは非常に異質で複雑で、汎用的なクエリオプティマイザを多くの顧客やシナリオで使用できないものにしている。 結果として、これらのオプティマイザをワークロードのインスタンスに特化することが重要です。 本稿では,あるワークロードに対するより良い計画に向けてクエリオプティマイザを管理するための最近の作業を続け,以前の研究アイデアを本番環境にプッシュする上で大きな一歩を踏み出します。 その過程で、ステアリングアクションの管理性の向上、予算内でステアリングコストの維持、プロダクションにおける予期しないパフォーマンス低下の回避など、いくつかの運用上の課題を解決します。 我々のシステムであるQQ-advisorは、クエリプランナを巨大なオフラインパイプラインに外部化し、探索と特殊化を改善します。 我々は設計のさまざまな側面を議論し、現在システムがデフォルトで有効になっているmicrosoftの製品スコープワークロードに関する詳細な結果を示す。

Modern analytical workloads are highly heterogeneous and massively complex, making generic query optimizers untenable for many customers and scenarios. As a result, it is important to specialize these optimizers to instances of the workloads. In this paper, we continue a recent line of work in steering a query optimizer towards better plans for a given workload, and make major strides in pushing previous research ideas to production deployment. Along the way we solve several operational challenges including, making steering actions more manageable, keeping the costs of steering within budget, and avoiding unexpected performance regressions in production. Our resulting system, QQ-advisor, essentially externalizes the query planner to a massive offline pipeline for better exploration and specialization. We discuss various aspects of our design and show detailed results over production SCOPE workloads at Microsoft, where the system is currently enabled by default.
翻訳日:2022-10-26 15:52:11 公開日:2022-10-24
# データセット推論のロバスト性について

On the Robustness of Dataset Inference ( http://arxiv.org/abs/2210.13631v1 )

ライセンス: Link先を確認
Sebastian Szyller, Rui Zhang, Jian Liu, N. Asokan(参考訳) 機械学習(ML)モデルは、大量のデータ、計算リソース、技術的専門知識を必要とするため、トレーニングにコストがかかる。 そのため、敵からの保護を必要とする貴重な知的財産を構成している。 所有者認証技術により、モデル盗難事件の被害者は、容疑者モデルが実際に彼らから盗まれたことを実証することができる。 透かしや指紋認証に基づくいくつかの所有権検証技術が提案されているが、そのほとんどはセキュリティ保証(十分に装備された敵は検証を回避できる)や計算コストの面で不足している。 ICLR '21で導入されたフィンガープリント技術であるデータセット推論(DI)は、従来の方法よりも堅牢性と効率がよいことを示した。 DIの著者は線形(スペクトル)モデルに対する正当性証明を提供した。 しかし、同じ設定で、DIが高い偽陽性(FPs)に悩まされていることを証明します。 さらに、DIが現実的で非線形な疑似モデルでFPをトリガーすることを示す。 次に、DIがFPにつながることを実証的に確認し、高い信頼を得る。 第二に、DIは偽陰性(FN)にも苦しんでいることを示します -- 敵は、敵のトレーニングを使用して、盗まれたモデルの決定境界を規則化することによってDIを騙すことができるため、FNにつながるのです。 最後に, 本研究の意義, 指紋認証による所有権確認の実施可能性, 今後の課題の方向性について考察する。

Machine learning (ML) models are costly to train as they can require a significant amount of data, computational resources and technical expertise. Thus, they constitute valuable intellectual property that needs protection from adversaries wanting to steal them. Ownership verification techniques allow the victims of model stealing attacks to demonstrate that a suspect model was in fact stolen from theirs. Although a number of ownership verification techniques based on watermarking or fingerprinting have been proposed, most of them fall short either in terms of security guarantees (well-equipped adversaries can evade verification) or computational cost. A fingerprinting technique introduced at ICLR '21, Dataset Inference (DI), has been shown to offer better robustness and efficiency than prior methods. The authors of DI provided a correctness proof for linear (suspect) models. However, in the same setting, we prove that DI suffers from high false positives (FPs) -- it can incorrectly identify an independent model trained with non-overlapping data from the same distribution as stolen. We further prove that DI also triggers FPs in realistic, non-linear suspect models. We then confirm empirically that DI leads to FPs, with high confidence. Second, we show that DI also suffers from false negatives (FNs) -- an adversary can fool DI by regularising a stolen model's decision boundaries using adversarial training, thereby leading to an FN. To this end, we demonstrate that DI fails to identify a model adversarially trained from a stolen dataset -- the setting where DI is the hardest to evade. Finally, we discuss the implications of our findings, the viability of fingerprinting-based ownership verification in general, and suggest directions for future work.
翻訳日:2022-10-26 15:51:54 公開日:2022-10-24
# 等価拡散モデルを用いた構造に基づく薬物設計

Structure-based Drug Design with Equivariant Diffusion Models ( http://arxiv.org/abs/2210.13695v1 )

ライセンス: Link先を確認
Arne Schneuing, Yuanqi Du, Charles Harris, Arian Jamasb, Ilia Igashov, Weitao Du, Tom Blundell, Pietro Li\'o, Carla Gomes, Max Welling, Michael Bronstein, Bruno Correia(参考訳) SBDD(Structure-based drug design)は、タンパク質標的に高親和性と特異性に結合する小分子リガンドを設計することを目的としている。 従来のsbddパイプラインは、公開データベースから複合ライブラリを大規模にドッキングすることから始まる。 近年の機械学習手法では、計算コストの高い原子単位生成手法を用いてこの問題にアプローチしている。 本稿では,SBDDを3次元条件生成問題として定式化し,タンパク質ポケットに条件付きリガンドを生成するE(3)等価な3次元条件拡散モデルDiffSBDDを提案する。 さらに、Binding MOADから実験的に決定された複雑なデータの新しいデータセットをキュレートし、CrossDockedデータセットを補完する現実的なバインディングシナリオを提供する。 包括的なシリコ実験では、シリコドッキングで予測されるように、タンパク質ポケットに高い結合エネルギーを持つ新規で多様な薬物様リガンドを生成する際のdiffsbddの効率を示す。

Structure-based drug design (SBDD) aims to design small-molecule ligands that bind with high affinity and specificity to pre-determined protein targets. Traditional SBDD pipelines start with large-scale docking of compound libraries from public databases, thus limiting the exploration of chemical space to existent previously studied regions. Recent machine learning methods approached this problem using an atom-by-atom generation approach, which is computationally expensive. In this paper, we formulate SBDD as a 3D-conditional generation problem and present DiffSBDD, an E(3)-equivariant 3D-conditional diffusion model that generates novel ligands conditioned on protein pockets. Furthermore, we curate a new dataset of experimentally determined binding complex data from Binding MOAD to provide a realistic binding scenario that complements the synthetic CrossDocked dataset. Comprehensive in silico experiments demonstrate the efficiency of DiffSBDD in generating novel and diverse drug-like ligands that engage protein pockets with high binding energies as predicted by in silico docking.
翻訳日:2022-10-26 15:51:27 公開日:2022-10-24
# スマートフォンリアルタイムアプリケーションのための知覚画像強調

Perceptual Image Enhancement for Smartphone Real-Time Applications ( http://arxiv.org/abs/2210.13552v1 )

ライセンス: Link先を確認
Marcos V. Conde, Florin Vasluianu, Javier Vazquez-Corral, Radu Timofte(参考訳) 近年のカメラ設計や画像パイプラインの進歩により,スマートフォンによる高品質な画像の撮影が可能になった。 しかし、スマートフォンカメラの小型化とレンズの限界のため、一般的には加工画像のアーチファクトや劣化が見られる。 最も不快な効果は、ノイズアーティファクト、回折アーティファクト、ぼかし、HDR過剰露光である。 画像復元のためのディープラーニング手法は、これらのアーティファクトをうまく取り除くことができる。 しかし、多くのアプローチは、計算量とメモリ要件が重いため、モバイルデバイスのリアルタイムアプリケーションには適していない。 本稿では,知覚的画像強調のための軽量ネットワークであるLPIENetを提案する。 実験の結果,パラメータや操作がはるかに少ないため,提案したアーティファクトに対処でき,標準ベンチマークの最先端手法と比較して競争性能が向上することがわかった。 さらに,提案手法の効率性と信頼性を証明するため,市販スマートフォンに直接モデルを配置し,性能評価を行った。 我々のモデルは中級商用スマートフォンで1秒未満で2K解像度画像を処理することができる。

Recent advances in camera designs and imaging pipelines allow us to capture high-quality images using smartphones. However, due to the small size and lens limitations of the smartphone cameras, we commonly find artifacts or degradation in the processed images. The most common unpleasant effects are noise artifacts, diffraction artifacts, blur, and HDR overexposure. Deep learning methods for image restoration can successfully remove these artifacts. However, most approaches are not suitable for real-time applications on mobile devices due to their heavy computation and memory requirements. In this paper, we propose LPIENet, a lightweight network for perceptual image enhancement, with the focus on deploying it on smartphones. Our experiments show that, with much fewer parameters and operations, our model can deal with the mentioned artifacts and achieve competitive performance compared with state-of-the-art methods on standard benchmarks. Moreover, to prove the efficiency and reliability of our approach, we deployed the model directly on commercial smartphones and evaluated its performance. Our model can process 2K resolution images under 1 second in mid-level commercial smartphones.
翻訳日:2022-10-26 15:44:07 公開日:2022-10-24
# dilatedsegnet:ポリプセグメンテーションのための深層拡張セグメンテーションネットワーク

DilatedSegNet: A Deep Dilated Segmentation Network for Polyp Segmentation ( http://arxiv.org/abs/2210.13595v1 )

ライセンス: Link先を確認
Nikhil Kumar Tomar, Debesh Jha, Ulas Bagci(参考訳) 大腸癌 (crc) は世界で2番目に多いがん関連死因である。 大腸内視鏡検査中のポリープの切除はcrcの死亡率と死亡率を低下させる。 ディープラーニングを利用したコンピュータ支援診断システム(CAD)は、大腸内視鏡検査中に医師が見落としている大腸の領域を検出することができる。 高い精度とリアルタイム速度の欠如は、そのようなシステムの臨床的統合を成功させるために克服すべき重要な障害である。 文学は精度の向上に重点を置いているが、速度パラメータはしばしば無視される。 この重要なニーズに向けて,我々は,リアルタイム深層学習に基づく新しいアーキテクチャ DilatedSegNet を開発し,その場でポリプセグメンテーションを行う。 dilatedsegnetは、プリトレーニングされたresnet50をエンコーダとして使用するエンコーダ/デコーダネットワークである。 これらの特徴マップはそれぞれ、拡張畳み込みプール(DCP)ブロックに渡される。 dcpブロックからの出力は連結され、セグメンテーションマスクを予測する一連の4つのデコーダブロックを通過する。 提案手法は,実時間動作速度33.68フレーム/秒,平均サイクリング係数0.90,miou 0.83を実現する。 さらに,本手法の信頼性を高めるため,ポリプ位置の説明を行う定性的な結果とともにヒートマップも提供する。 一般に公開されているKvasir-SEGとBKAI-IGHデータセットの結果は、DilatedSegNetが高い‘ac{DSC}’を維持しながらリアルタイムにフィードバックできることを示している。 ソースコードのgithubリンクは、ここで見ることができる。

Colorectal cancer (CRC) is the second leading cause of cancer-related death worldwide. Excision of polyps during colonoscopy helps reduce mortality and morbidity for CRC. Powered by deep learning, computer-aided diagnosis (CAD) systems can detect regions in the colon overlooked by physicians during colonoscopy. Lacking high accuracy and real-time speed are the essential obstacles to be overcome for successful clinical integration of such systems. While literature is focused on improving accuracy, the speed parameter is often ignored. Toward this critical need, we intend to develop a novel real-time deep learning-based architecture, DilatedSegNet, to perform polyp segmentation on the fly. DilatedSegNet is an encoder-decoder network that uses pre-trained ResNet50 as the encoder from which we extract four levels of feature maps. Each of these feature maps is passed through a dilated convolution pooling (DCP) block. The outputs from the DCP blocks are concatenated and passed through a series of four decoder blocks that predicts the segmentation mask. The proposed method achieves a real-time operation speed of 33.68 frames per second with an average dice coefficient of 0.90 and mIoU of 0.83. Additionally, we also provide heatmap along with the qualitative results that shows the explanation for the polyp location, which increases the trustworthiness of the method. The results on the publicly available Kvasir-SEG and BKAI-IGH datasets suggest that DilatedSegNet can give real-time feedback while retaining a high \ac{DSC}, indicating high potential for using such models in real clinical settings in the near future. The GitHub link of the source code can be found here: \url{https://github.com/nikhilroxtomar/DilatedSegNet}.
翻訳日:2022-10-26 15:43:50 公開日:2022-10-24
# glassesgan: 合成外観発見とターゲット部分空間モデリングを用いた眼鏡のパーソナライズ

GlassesGAN: Eyewear Personalization using Synthetic Appearance Discovery and Targeted Subspace Modeling ( http://arxiv.org/abs/2210.14145v1 )

ライセンス: Link先を確認
Richard Plesh, Peter Peer, Vitomir \v{S}truc(参考訳) 本稿では,メガネのカスタムデザインのための新しい画像編集フレームワークであるglassganについて紹介する。 そこで,GlassesGAN を用いた編集プロセスを容易にするために,GAN 生成装置の潜時空間における(合成)外観発見機構を基盤として,編集フレームワークが利用できる眼鏡専用(潜時)サブスペースを構築することを目的とした,TSM (Targeted Subspace Modelling) 手法を提案する。 学習した編集の信頼性を向上させるために,我々は,構築された部分空間のよく定義された部分において,与えられた入力画像の潜在表現を中心化できる外観制約付き部分空間初期化(si)技術も導入する。 我々はGlassesGANを3つの多様なデータセット(CelebA-HQ、SiblingsDB-HQf、MetFaces)でテストし、現在最先端の競合であるInterfaceGAN、GANSpace、MaskGANと比較する。 実験結果から,GlassesGANは眼鏡のリアルなマルチスタイル編集を実現し,競合製品と比較した。 ソースコードは無料で入手できる。

We present GlassesGAN, a novel image editing framework for custom design of glasses, that sets a new standard in terms of image quality, edit realism, and continuous multi-style edit capability. To facilitate the editing process with GlassesGAN, we propose a Targeted Subspace Modelling (TSM) procedure that, based on a novel mechanism for (synthetic) appearance discovery in the latent space of a pre-trained GAN generator, constructs an eyeglasses-specific (latent) subspace that the editing framework can utilize. To improve the reliability of our learned edits, we also introduce an appearance-constrained subspace initialization (SI) technique able to center the latent representation of a given input image in the well-defined part of the constructed subspace. We test GlassesGAN on three diverse datasets (CelebA-HQ, SiblingsDB-HQf, and MetFaces) and compare it against three state-of-the-art competitors, i.e., InterfaceGAN, GANSpace, and MaskGAN. Our experimental results show that GlassesGAN achieves photo-realistic, multi-style edits to eyeglasses while comparing favorably to its competitors. The source code is made freely available.
翻訳日:2022-10-26 15:41:40 公開日:2022-10-24
# Datavoidant: ソーシャルメディア上の政治データボイドに対処するAIシステム

Datavoidant: An AI System for Addressing Political Data Voids on Social Media ( http://arxiv.org/abs/2210.13594v1 )

ライセンス: Link先を確認
Claudia Flores-Saviaga, Shangbin Feng, Saiph Savage(参考訳) 少数派社会の政治的話題に関する限られた情報(データ・ヴォイド)は、偽情報の拡散を促している。 表現不足のコミュニティで偽情報と戦っている独立系ジャーナリストは、データ無効をモニターし対処するために必要なツールが欠如しているため、圧倒されたと報告している。 本稿では,過疎なコミュニティ内での政治的データ無効を識別し,対処するシステムを提案する。 独立系ニュースメディアが対処する可能性を示唆するインタビュー調査を機に、我々はdatavoidantと呼ばれるインテリジェントな協調システムを設計した。 Datavoidantは最先端の機械学習モデルを使用し、独立したジャーナリストにデータヴォイドの集合的理解を提供し、ヴォイドをカバーするコンテンツ生成を容易にする新しいデザイン空間を提供する。 独立系ニュースメディアジャーナリスト (n=22) とユーザインタフェースの評価を行った。 これらのジャーナリストは、datavoidantの機能により、情報エコシステムで何が起きているのかを容易に把握して、データの空白に対処することができると報告した。 彼らはまた、彼らが作成したコンテンツや、空白をカバーするために提案したユニークな視点について、より自信を感じていると報告した。 我々は、Datavoidantが、個人が協力して情報エコシステムを理解し、偽情報を防ぐための戦略を積極的に考案できる新しいデザイン空間を実現する方法について論じる。

The limited information (data voids) on political topics relevant to underrepresented communities has facilitated the spread of disinformation. Independent journalists who combat disinformation in underrepresented communities have reported feeling overwhelmed because they lack the tools necessary to make sense of the information they monitor and address the data voids. In this paper, we present a system to identify and address political data voids within underrepresented communities. Armed with an interview study, indicating that the independent news media has the potential to address them, we designed an intelligent collaborative system, called Datavoidant. Datavoidant uses state-of-the-art machine learning models and introduces a novel design space to provide independent journalists with a collective understanding of data voids to facilitate generating content to cover the voids. We performed a user interface evaluation with independent news media journalists (N=22). These journalists reported that Datavoidant's features allowed them to more rapidly while easily having a sense of what was taking place in the information ecosystem to address the data voids. They also reported feeling more confident about the content they created and the unique perspectives they had proposed to cover the voids. We conclude by discussing how Datavoidant enables a new design space wherein individuals can collaborate to make sense of their information ecosystem and actively devise strategies to prevent disinformation.
翻訳日:2022-10-26 15:40:55 公開日:2022-10-24
# OSS Mentor - ディープ強化学習による開発者のコントリビューション向上のためのフレームワーク

OSS Mentor A framework for improving developers contributions via deep reinforcement learning ( http://arxiv.org/abs/2210.13990v1 )

ライセンス: Link先を確認
Jiakuan Fan and Haoyue Wang and Wei Wang and Ming Gao and Shengyu Zhao(参考訳) オープンソースプロジェクトのガバナンスでは、開発者の貢献度を測定する方法について多くの懸念があった。 しかしながら、非常に少ない作業は、開発者がコントリビューションを改善することに重点を置いている。 本稿では,オープンソースソフトウェア(oss)メンターと呼ばれる深層強化学習フレームワークを提案する。 大規模な実験により、OSS Mentorは優れた実験結果よりも優れていることが示された。 さらに、提示されたフレームワークが、オープンソースソフトウェアを管理するための深い強化学習テクニックを探求するのは初めてであり、それによって、開発者のコントリビューションを改善するために、より堅牢なフレームワークを設計することができます。

In open source project governance, there has been a lot of concern about how to measure developers' contributions. However, extremely sparse work has focused on enabling developers to improve their contributions, while it is significant and valuable. In this paper, we introduce a deep reinforcement learning framework named Open Source Software(OSS) Mentor, which can be trained from empirical knowledge and then adaptively help developers improve their contributions. Extensive experiments demonstrate that OSS Mentor significantly outperforms excellent experimental results. Moreover, it is the first time that the presented framework explores deep reinforcement learning techniques to manage open source software, which enables us to design a more robust framework to improve developers' contributions.
翻訳日:2022-10-26 15:33:31 公開日:2022-10-24
# 短期言語的影響による長期引用の予測

Predicting Long-Term Citations from Short-Term Linguistic Influence ( http://arxiv.org/abs/2210.13628v1 )

ライセンス: Link先を確認
Sandeep Soni and David Bamman and Jacob Eisenstein(参考訳) 研究論文の影響の標準的な尺度は、引用回数である。 しかし、多くの理由から論文は引用され、引用数にはその後の出版物の内容にどの程度影響したかという限られた情報がある。 そこで我々は,タイムスタンプ文書コレクションにおける言語的影響を定量化する新しい手法を提案する。 まず、文脈埋め込みと単語周波数を用いて語彙と意味の変化を識別し、次に、低ランクパラメータ行列を用いて高次元ホークス過程を推定することにより、これらの変化を文書ごとの影響スコアに集約する。 論文発表から2年後の言語的影響の推定は,次の3年間の引用数と相関し,予測する。 これは、漸進的な時間的トレーニング/テスト分割によるオンライン評価と、初期引用数、トピック、語彙特徴の予測子を含む強力なベースラインを用いて実証される。

A standard measure of the influence of a research paper is the number of times it is cited. However, papers may be cited for many reasons, and citation count offers limited information about the extent to which a paper affected the content of subsequent publications. We therefore propose a novel method to quantify linguistic influence in timestamped document collections. There are two main steps: first, identify lexical and semantic changes using contextual embeddings and word frequencies; second, aggregate information about these changes into per-document influence scores by estimating a high-dimensional Hawkes process with a low-rank parameter matrix. We show that this measure of linguistic influence is predictive of $\textit{future}$ citations: the estimate of linguistic influence from the two years after a paper's publication is correlated with and predictive of its citation count in the following three years. This is demonstrated using an online evaluation with incremental temporal training/test splits, in comparison with a strong baseline that includes predictors for initial citation counts, topics, and lexical features.
翻訳日:2022-10-26 15:32:47 公開日:2022-10-24
# 帰納的行動推論

Abductive Action Inference ( http://arxiv.org/abs/2210.13984v1 )

ライセンス: Link先を確認
Clement Tan, Chai Kiat Yeo, Cheston Tan, Basura Fernando(参考訳) 帰納的推論(abductive reasoning)は、与えられた不完全な観測集合の最も可能性の高い推論を行うことを目的としている。 本研究は、状況やシナリオを踏まえて、「この現状に到達するために人間によって実行された行動の集合は何か」という問いに答えることを目的としており、これは帰納的行動推論(英語版)として造語するものである。 与えられたシーンにおける人間と対象の関係とその状態に基づくソリューションを提供する。 具体的には、まずシーン内のオブジェクトと人間を検出し、次に人間中心の関係の表現を生成します。 これらの人間中心の関係を用いて、我々は、人間がこの状態に着くために実行したであろう行動の最も可能性の高いセットを導き出す。 人中心型リレーショナル表現を生成するために,トランスフォーマー,新しいグラフニューラルネットワークを用いたエンコーダデコーダ,新しいリレーショナルバイリニアプール法などのモデルについて検討する。 本稿では,これらの新しいモデルを用いて,アクションゲノムデータセットの課題に対して有望な結果を得る。

Abductive reasoning aims to make the most likely inference for a given set of incomplete observations. In this work, given a situation or a scenario, we aim to answer the question 'what is the set of actions that were executed by the human in order to come to this current state?', which we coin as abductive action inference. We provide a solution based on the human-object relations and their states in the given scene. Specifically, we first detect objects and humans in the scene, and then generate representations for each human-centric relation. Using these human-centric relations, we derive the most likely set of actions the human may have executed to arrive in this state. To generate human-centric relational representations, we investigate several models such as Transformers, a novel graph neural network-based encoder-decoder, and a new relational bilinear pooling method. We obtain promising results using these new models on this challenging task on the Action Genome dataset.
翻訳日:2022-10-26 15:17:00 公開日:2022-10-24
# リプシッツ非線形単一ニューロンモデルの能動的学習

Active Learning for Single Neuron Models with Lipschitz Non-Linearities ( http://arxiv.org/abs/2210.13601v1 )

ライセンス: Link先を確認
Aarshvi Gajjar, Chinmay Hegde, Christopher Musco(参考訳) 単一ニューロンモデルのアクティブラーニングの問題(しばしば「リッジ関数」とも呼ばれる)を、不可知な設定(逆ラベル雑音下で)において検討する。 このようなモデルは、物理現象のモデリングや偏微分方程式の代理データ駆動モデルの構築に広く有効であることが示されている。 驚くべきことに、任意のリプシッツ非線形性(relu、sgmoid、絶対値、低次多項式など)を持つ単一ニューロンモデルの場合、無依存な設定で \emph{linear function} を満たすための有名なアクティブ学習戦略を用いて、強い証明可能な近似保証が得られる。 % --すなわち、非線形性が存在しない場合である。 すなわち、他のアクティブな学習シナリオでほぼ最適であることが示されている統計値 \emph{leverage score sampling} によってサンプルを収集できる。 実験的なシミュレーションにより,単一ニューロンモデルに適合する場合に,スコアサンプリング法(通常)に匹敵する一様サンプリングを活用し,アクティブラーニング戦略を提案する。

We consider the problem of active learning for single neuron models, also sometimes called ``ridge functions'', in the agnostic setting (under adversarial label noise). Such models have been shown to be broadly effective in modeling physical phenomena, and for constructing surrogate data-driven models for partial differential equations. Surprisingly, we show that for a single neuron model with any Lipschitz non-linearity (such as the ReLU, sigmoid, absolute value, low-degree polynomial, among others), strong provable approximation guarantees can be obtained using a well-known active learning strategy for fitting \emph{linear functions} in the agnostic setting. % -- i.e. for the case when there is no non-linearity. Namely, we can collect samples via statistical \emph{leverage score sampling}, which has been shown to be near-optimal in other active learning scenarios. We support our theoretical results with empirical simulations showing that our proposed active learning strategy based on leverage score sampling outperforms (ordinary) uniform sampling when fitting single neuron models.
翻訳日:2022-10-26 15:14:28 公開日:2022-10-24
# GliTr:オンライン行動予測のための時空間整合性を有する傾斜変圧器

GliTr: Glimpse Transformers with Spatiotemporal Consistency for Online Action Prediction ( http://arxiv.org/abs/2210.13605v1 )

ライセンス: Link先を確認
Samrudhdhi B Rangrej, Kevin J Liang, Tal Hassner, James J Clark(参考訳) 多くのオンライン行動予測モデルは、全フレームを観察し、グローバルおよびローカル情報に基づいて現在進行中の行動を認識する。 しかし、制約のあるアプリケーションでは、エージェントは完全なフレームを観測できないかもしれないが、ローカル情報のみに基づいて不完全なアクションを予測するのに有用な見落としを見つけなければならない。 本稿では,これまで収集された部分的時空間情報に基づいて,常に狭い間隙のみを観測する間欠的トランスフォーマー (glitr) を開発し,現在進行中の動作と,それに続く最も有意義な間欠的位置を予測する。 我々はglitrに、対応する完全フレーム(すなわち空間的一貫性)に類似した特徴を持ち、結果として得られるクラスロジットが、t までのフレームで予測されるもの(すなわち時間的一貫性)と同等の時間 t で一致する特徴を持つスピープに出席するよう要求する。 提案手法を適用すれば,Something-v2 (SSv2) データセットの精度は,ベースラインのクロスエントロピー目標よりも約10%高い。 全体では、1フレームあたりの総面積の約33%しか観測していないが、glitrはssv2とjesterデータセットでそれぞれ53.02%と93.91%の精度を達成している。

Many online action prediction models observe complete frames to locate and attend to informative subregions in the frames called glimpses and recognize an ongoing action based on global and local information. However, in applications with constrained resources, an agent may not be able to observe the complete frame, yet must still locate useful glimpses to predict an incomplete action based on local information only. In this paper, we develop Glimpse Transformers (GliTr), which observe only narrow glimpses at all times, thus predicting an ongoing action and the following most informative glimpse location based on the partial spatiotemporal information collected so far. In the absence of a ground truth for the optimal glimpse locations for action recognition, we train GliTr using a novel spatiotemporal consistency objective: We require GliTr to attend to the glimpses with features similar to the corresponding complete frames (i.e. spatial consistency) and the resultant class logits at time t equivalent to the ones predicted using whole frames up to t (i.e. temporal consistency). Inclusion of our proposed consistency objective yields ~10% higher accuracy on the Something-Something-v2 (SSv2) dataset than the baseline cross-entropy objective. Overall, despite observing only ~33% of the total area per frame, GliTr achieves 53.02%and 93.91% accuracy on the SSv2 and Jester datasets, respectively.
翻訳日:2022-10-26 14:59:30 公開日:2022-10-24
# NeRF-SLAM:ニューラルネットワークを用いたリアルタイム高密度単分子SLAM

NeRF-SLAM: Real-Time Dense Monocular SLAM with Neural Radiance Fields ( http://arxiv.org/abs/2210.13641v1 )

ライセンス: Link先を確認
Antoni Rosinol, John J. Leonard, Luca Carlone(参考訳) モノクロ画像からの高精度かつリアルタイムなシーン再構成のための幾何学的・測光的3次元マッピングパイプラインを提案する。 これを実現するために、高密度単分子SLAMおよびリアルタイム階層型体積神経放射場における最近の進歩を活用する。 我々の洞察では、密集した単眼のスラムは、正確なポーズ推定と、関連する不確実性を伴う深度マップを提供することによって、シーンの神経放射野にリアルタイムに適合する適切な情報を提供する。 提案した不確実性に基づく深度損失は, 優れた測光精度だけでなく, 優れた幾何精度も達成できる。 実際、提案するパイプラインは、競合するアプローチ(最大179%のpsnrと86%のl1深度)よりも幾何学的および測光的精度が向上し、リアルタイムに動作し、単眼画像のみを使用する。

We propose a novel geometric and photometric 3D mapping pipeline for accurate and real-time scene reconstruction from monocular images. To achieve this, we leverage recent advances in dense monocular SLAM and real-time hierarchical volumetric neural radiance fields. Our insight is that dense monocular SLAM provides the right information to fit a neural radiance field of the scene in real-time, by providing accurate pose estimates and depth-maps with associated uncertainty. With our proposed uncertainty-based depth loss, we achieve not only good photometric accuracy, but also great geometric accuracy. In fact, our proposed pipeline achieves better geometric and photometric accuracy than competing approaches (up to 179% better PSNR and 86% better L1 depth), while working in real-time and using only monocular images.
翻訳日:2022-10-26 14:59:02 公開日:2022-10-24
# MISm:弱いラベル付きデータの評価のための医用画像分割基準

MISm: A Medical Image Segmentation Metric for Evaluation of weak labeled Data ( http://arxiv.org/abs/2210.13642v1 )

ライセンス: Link先を確認
Dennis Hartmann, Verena Schmid, Philip Meyer, I\~naki Soto-Rey, Dominik M\"uller, Frank Kramer(参考訳) さまざまな医用画像分割アルゴリズムを評価・比較する上で,性能測定は重要なツールである。 残念ながら、現在の対策は、特定のエッジケースを評価する際の弱点がある。 これらの制限は、非常に小さな関心領域や全く関心のない領域が評価されるときに刺激される。 これらの制約に対する解決策として,新しい医用画像分割尺度MISmを提案する。 MISmを評価するために, 磁気共鳴トモグラフィ画像を用いて, 医用画像のセグメンテーションとMISmの一般的な測定値を比較した。 コミュニティでの応用と実験結果の再現性を実現するため、MISmを公開評価フレームワークMISevalに含めました。

Performance measures are an important tool for assessing and comparing different medical image segmentation algorithms. Unfortunately, the current measures have their weaknesses when it comes to assessing certain edge cases. These limitations arouse when images with a very small region of interest or without a region of interest at all are assessed. As a solution for these limitations, we propose a new medical image segmentation metric: MISm. To evaluate MISm, the popular metrics in the medical image segmentation and MISm were compared using images of magnet resonance tomography from several scenarios. In order to allow application in the community and reproducibility of experimental results, we included MISm in the publicly available evaluation framework MISeval: https://github.com/frankkramer-lab/miseval/tree/master/miseval
翻訳日:2022-10-26 14:58:45 公開日:2022-10-24
# 単一画像からの注意型エンコーダデコーダネットワークによる奥行き単眼推定

Depth Monocular Estimation with Attention-based Encoder-Decoder Network from Single Image ( http://arxiv.org/abs/2210.13646v1 )

ライセンス: Link先を確認
Xin Zhang and Rabab Abdelfattah and Yuqi Song and Samuel A. Dauchert and Xiaofeng wang(参考訳) 深度情報は知覚の基礎であり、自律運転、ロボティクス、その他のソース制約された応用に不可欠である。 正確で効率的な深度情報を得ることで、動的環境における迅速な応答が可能になる。 LIDARとRADARを用いたセンサベース方式は、高消費電力、価格、ボリュームのコストで高精度を実現する。 ディープラーニングの進歩により、視覚ベースのアプローチは最近多くの注目を集め、これらの欠点を克服することができる。 本研究では,格子状アーチファクトやぼやけたエッジに悩まされている1つの単眼画像から深度マップを推定する。 このシナリオに対処するために,まず,チャネル注意と空間注意からなる畳み込み注意機構ブロック(camb)を順次設計し,これらのcambをスキップ接続に挿入する。 その結果,本手法は最小のオーバーヘッドで現在の画像の焦点を見つけることができ,奥行き特徴の損失を回避できる。 次に,X軸,Y軸,対角方向の勾配と構造類似度指数測定(SSIM)を組み合わせることで,新しい損失関数を提案する。 さらに,画素ブロックを用いて損失関数の計算を高速化する。 最後に,2つの大規模画像データセット,すなわちkittiとnyu-v2の包括的実験を通じて,提案手法がいくつかの代表的なベースラインを上回ることを示す。

Depth information is the foundation of perception, essential for autonomous driving, robotics, and other source-constrained applications. Promptly obtaining accurate and efficient depth information allows for a rapid response in dynamic environments. Sensor-based methods using LIDAR and RADAR obtain high precision at the cost of high power consumption, price, and volume. While due to advances in deep learning, vision-based approaches have recently received much attention and can overcome these drawbacks. In this work, we explore an extreme scenario in vision-based settings: estimate a depth map from one monocular image severely plagued by grid artifacts and blurry edges. To address this scenario, We first design a convolutional attention mechanism block (CAMB) which consists of channel attention and spatial attention sequentially and insert these CAMBs into skip connections. As a result, our novel approach can find the focus of current image with minimal overhead and avoid losses of depth features. Next, by combining the depth value, the gradients of X axis, Y axis and diagonal directions, and the structural similarity index measure (SSIM), we propose our novel loss function. Moreover, we utilize pixel blocks to accelerate the computation of the loss function. Finally, we show, through comprehensive experiments on two large-scale image datasets, i.e. KITTI and NYU-V2, that our method outperforms several representative baselines.
翻訳日:2022-10-26 14:58:25 公開日:2022-10-24
# ラベル欠落によるマルチラベル分類の効果的なアプローチ

An Effective Approach for Multi-label Classification with Missing Labels ( http://arxiv.org/abs/2210.13651v1 )

ライセンス: Link先を確認
Xin Zhang and Rabab Abdelfattah and Yuqi Song and Xiaofeng Wang(参考訳) マルチクラス分類と比較すると、複数のクラスを含むマルチラベル分類は現実のシナリオに適している。 しかし、マルチラベル分類問題のための完全ラベル付き高品質データセットを持つことは、特にラベル空間が大きすぎる場合には、アノテーションの取り組みに関して非常に高価であり、時には不可能である。 これは部分ラベル分類の研究を動機付け、限られた数のラベルが注釈付けされ、他のラベルが欠落している。 この問題に対処するため,我々はまず,既存の分類ネットワークを複雑化することなく,アノテーションのコストを削減できる擬似ラベル方式を提案する。 次に,欠落ラベルが分類器の性能に与える影響を定量的に検討する。 さらに、新しい損失関数を設計することにより、各インスタンスが少なくとも1つの正のラベルを含む必要があるという要求を緩和することができる。 大規模なマルチラベル画像データセットであるMS-COCO, NUS-WIDE, Pascal VOC12の総合的な実験により, 正のラベルと負のラベルとの不均衡を扱える一方で, 既存の欠落ラベル学習手法よりも優れていることを示す。

Compared with multi-class classification, multi-label classification that contains more than one class is more suitable in real life scenarios. Obtaining fully labeled high-quality datasets for multi-label classification problems, however, is extremely expensive, and sometimes even infeasible, with respect to annotation efforts, especially when the label spaces are too large. This motivates the research on partial-label classification, where only a limited number of labels are annotated and the others are missing. To address this problem, we first propose a pseudo-label based approach to reduce the cost of annotation without bringing additional complexity to the existing classification networks. Then we quantitatively study the impact of missing labels on the performance of classifier. Furthermore, by designing a novel loss function, we are able to relax the requirement that each instance must contain at least one positive label, which is commonly used in most existing approaches. Through comprehensive experiments on three large-scale multi-label image datasets, i.e. MS-COCO, NUS-WIDE, and Pascal VOC12, we show that our method can handle the imbalance between positive labels and negative labels, while still outperforming existing missing-label learning approaches in most cases, and in some cases even approaches with fully labeled datasets.
翻訳日:2022-10-26 14:57:59 公開日:2022-10-24
# 衛星画像中の雲を検出する自己構成型nnU-Net

Self-Configuring nnU-Nets Detect Clouds in Satellite Images ( http://arxiv.org/abs/2210.13659v1 )

ライセンス: Link先を確認
Bartosz Grabowski, Maciej Ziaja, Michal Kawulok, Nicolas Long\'ep\'e, Bertrand Le Saux, Jakub Nalepa(参考訳) クラウド検出は、地上でも衛星上でも有用な画像にタグを付けることができる、重要な衛星画像前処理ステップである。 後者の場合、クラウドエリアを刈り取ることでダウンリンクへのデータ転送量を削減したり、あるいはデータ駆動によるクラウドエリアの再スケジュールを通じて衛星をより自律的にすることができる。 nnu-netsは、様々なデータセット上でセグメンテーションネットワークのメタラーニングを実行できる自己再構成可能なフレームワークです。 Sentinel-2とLandsat-8のマルチスペクトル画像を用いて行った実験により,nnU-Netsは手動設計なしで最先端のクラウドセグメンテーション性能を実現することがわかった。 On Cloud N: Cloud Cover Detection Challengeでは、10k以上の目に見えないSentinel-2イメージパッチ(勝者が0.897を得たのに対して、ResNet-34バックボーンをエンコーダとして使用するベースラインのU-Netは0.817、従来のSentinel-2イメージしきい値0.652)に対して、Jaccardインデックス0.882に達しました。

Cloud detection is a pivotal satellite image pre-processing step that can be performed both on the ground and on board a satellite to tag useful images. In the latter case, it can help to reduce the amount of data to downlink by pruning the cloudy areas, or to make a satellite more autonomous through data-driven acquisition re-scheduling of the cloudy areas. We approach this important task with nnU-Nets, a self-reconfigurable framework able to perform meta-learning of a segmentation network over various datasets. Our experiments, performed over Sentinel-2 and Landsat-8 multispectral images revealed that nnU-Nets deliver state-of-the-art cloud segmentation performance without any manual design. Our approach was ranked within the top 7% best solutions (across 847 participating teams) in the On Cloud N: Cloud Cover Detection Challenge, where we reached the Jaccard index of 0.882 over more than 10k unseen Sentinel-2 image patches (the winners obtained 0.897, whereas the baseline U-Net with the ResNet-34 backbone used as an encoder: 0.817, and the classic Sentinel-2 image thresholding: 0.652).
翻訳日:2022-10-26 14:57:37 公開日:2022-10-24
# LidarAugment: スケーラブルな3D LiDARデータ拡張の検索

LidarAugment: Searching for Scalable 3D LiDAR Data Augmentations ( http://arxiv.org/abs/2210.13488v1 )

ライセンス: Link先を確認
Zhaoqi Leng, Guowang Li, Chenxi Liu, Ekin Dogus Cubuk, Pei Sun, Tong He, Dragomir Anguelov, Mingxing Tan(参考訳) データ拡張は、ポイントクラウドのための高性能な3Dオブジェクト検出器のトレーニングにおいて重要である。 最近の新しいデータ拡張の設計努力にもかかわらず、おそらく驚くべきことに、ほとんどの最先端の3D検出器は単純なデータ拡張しか使っていない。 特に、2d画像データ拡張とは異なり、3dデータ拡張は入力データの異なる表現を考慮しなければならず、異なるモデル用にカスタマイズする必要がある。 本稿では,3次元物体検出のための実用的かつ効果的なデータ拡張戦略であるlidaraugmentを提案する。 指数関数的に大きな探索空間で全ての拡張ポリシーを調整した従来のアプローチとは異なり、20以上のハイパーパラメータを2に減らし、探索の複雑さを大幅に減らし、各データ拡張の探索空間を分解・調整することを提案する。 単純な2Dグリッド探索によって異なる入力表現を持つ異なるモデルアーキテクチャ向けにLidarAugmentをカスタマイズできることを示し、畳み込みベースのUPillars/StarNet/RSNと変換器ベースのSWFormerの両方を一貫して改善する。 さらに、LidarAugmentはオーバーフィッティングを軽減し、3D検出器をはるかに大きな容量にスケールアップすることができます。 特に、最新の3D検出器と組み合わせることで、Waymo Open Dataset上で新しい最先端の74.8 mAPH L2を実現しました。

Data augmentations are important in training high-performance 3D object detectors for point clouds. Despite recent efforts on designing new data augmentations, perhaps surprisingly, most state-of-the-art 3D detectors only use a few simple data augmentations. In particular, different from 2D image data augmentations, 3D data augmentations need to account for different representations of input data and require being customized for different models, which introduces significant overhead. In this paper, we resort to a search-based approach, and propose LidarAugment, a practical and effective data augmentation strategy for 3D object detection. Unlike previous approaches where all augmentation policies are tuned in an exponentially large search space, we propose to factorize and align the search space of each data augmentation, which cuts down the 20+ hyperparameters to 2, and significantly reduces the search complexity. We show LidarAugment can be customized for different model architectures with different input representations by a simple 2D grid search, and consistently improve both convolution-based UPillars/StarNet/RSN and transformer-based SWFormer. Furthermore, LidarAugment mitigates overfitting and allows us to scale up 3D detectors to much larger capacity. In particular, by combining with latest 3D detectors, our LidarAugment achieves a new state-of-the-art 74.8 mAPH L2 on Waymo Open Dataset.
翻訳日:2022-10-26 14:48:51 公開日:2022-10-24
# 逆運動学と精密化による多人数3次元ポーズと形状推定

Multi-Person 3D Pose and Shape Estimation via Inverse Kinematics and Refinement ( http://arxiv.org/abs/2210.13529v1 )

ライセンス: Link先を確認
Junuk Cha, Muhammad Saqlain, GeonU Kim, Mingyu Shin, Seungryul Baek(参考訳) モノクロRGB画像からメッシュ形状の3Dポーズと形状を推定することは困難である。 明らかに、骨格やヒートマップの形でのみ3Dのポーズを推定するよりも難しい。 相互作用する人物が関与する場合、対人咬合による曖昧さのため、3次元メッシュ再構成がより困難になる。 課題に対処するため,我々は粗大なパイプラインを提案する。 1)咬合・ロバスト3次元骨格推定と逆運動学 2)トランスフォーマーを用いたリレーションアウェアリファインメント技術 パイプラインでは,まずRGB画像から複数人用のオクルージョン・ロバスト3D骨格を抽出する。 次に, 逆運動学を用いて推定された骨格を変形可能な3次元メッシュパラメータに変換する。 最後に, 3次元メッシュの対人関係を考慮した, 得られたメッシュパラメータを洗練するトランスフォーマティブ・メッシュ・リファインメントを適用する。 3DPW, MuPoTS および AGORA データセット上で, 最先端技術よりも優れた性能を示すため, 提案手法の有効性を実証した。

Estimating 3D poses and shapes in the form of meshes from monocular RGB images is challenging. Obviously, it is more difficult than estimating 3D poses only in the form of skeletons or heatmaps. When interacting persons are involved, the 3D mesh reconstruction becomes more challenging due to the ambiguity introduced by person-to-person occlusions. To tackle the challenges, we propose a coarse-to-fine pipeline that benefits from 1) inverse kinematics from the occlusion-robust 3D skeleton estimation and 2) Transformer-based relation-aware refinement techniques. In our pipeline, we first obtain occlusion-robust 3D skeletons for multiple persons from an RGB image. Then, we apply inverse kinematics to convert the estimated skeletons to deformable 3D mesh parameters. Finally, we apply the Transformer-based mesh refinement that refines the obtained mesh parameters considering intra- and inter-person relations of 3D meshes. Via extensive experiments, we demonstrate the effectiveness of our method, outperforming state-of-the-arts on 3DPW, MuPoTS and AGORA datasets.
翻訳日:2022-10-26 14:48:28 公開日:2022-10-24
# Strong-TransCenter:Dense Representations を用いたマルチオブジェクト追跡の改善

Strong-TransCenter: Improved Multi-Object Tracking based on Transformers with Dense Representations ( http://arxiv.org/abs/2210.13570v1 )

ライセンス: Link先を確認
Amit Galor, Roy Orfaig, Ben-Zion Bobrovsky(参考訳) トランスフォーマーネットワークは近年、様々なコンピュータビジョンタスクにおける最先端の性能を超えることができる多くの分野の研究の焦点となっている。 この手法を複数のオブジェクト追跡(mot)のタスクに適用する試みがいくつか行われており、中でも最新技術はtranscenter(トランスフォーマーベースのmotアーキテクチャ)である。 TransCenterは、MOTのための最初のセンターベースのトランスフォーマーフレームワークであり、MOTにトランスフォーマーベースのアーキテクチャを使用するメリットを示す最初のフレームワークである。 本稿では,カルマンフィルタを用いた動きモデル推定と埋め込みネットワークを用いたターゲット再同定という,トラックバイ検出パラダイムに基づくポスト処理機構を用いたトラッカの改良を提案する。 新しいトラッカーは、MOT20テストデータセット上でのIDF1とHOTAメトリクスの大幅な改善と、MOT20テストデータセット上でのMOTAメトリック(それぞれ70.9%、59.8%、75.8%)と、すべての3メトリクス(67.5%、56.3%、73.0%)の改善を示している。 私たちのトラッカーは現在、これらのデータセットでトランスフォーマーベースのトラッカーの中で第1位です。 コードは、https://github.com/amitgalor18/STC_Trackerで公開されている。

Transformer networks have been a focus of research in many fields in recent years, being able to surpass the state-of-the-art performance in different computer vision tasks. A few attempts have been made to apply this method to the task of Multiple Object Tracking (MOT), among those the state-of-the-art was TransCenter, a transformer-based MOT architecture with dense object queries for accurately tracking all the objects while keeping reasonable runtime. TransCenter is the first center-based transformer framework for MOT, and is also among the first to show the benefits of using transformer-based architectures for MOT. In this paper we show an improvement to this tracker using post processing mechanism based in the Track-by-Detection paradigm: motion model estimation using Kalman filter and target Re-identification using an embedding network. Our new tracker shows significant improvements in the IDF1 and HOTA metrics and comparable results on the MOTA metric (70.9%, 59.8% and 75.8% respectively) on the MOTChallenge MOT17 test dataset and improvement on all 3 metrics (67.5%, 56.3% and 73.0%) on the MOT20 test dataset. Our tracker is currently ranked first among transformer-based trackers in these datasets. The code is publicly available at: https://github.com/amitgalor18/STC_Tracker
翻訳日:2022-10-26 14:48:11 公開日:2022-10-24
# 幻覚による学習--弱い監督を伴う視覚言語事前学習

Learning by Hallucinating: Vision-Language Pre-training with Weak Supervision ( http://arxiv.org/abs/2210.13591v1 )

ライセンス: Link先を確認
Tzu-Jui Julius Wang, Jorma Laaksonen, Tomas Langer, Heikki Arponen, and Tom E. Bishop(参考訳) 弱教師付き視覚言語 (V-L) 事前訓練 (W-VLP) は、画像やキャプションの整列など、ペア化されたデータが少ない、あるいは全くペア化されていないクロスモーダルアライメントを学習することを目的としている。 オブジェクトタグと視覚的特徴をペアリングする最近のW-VLP手法は、様々なV-L下流タスクで整列ペアで訓練された一部のVLPモデルと同等のパフォーマンスを達成する。 しかし、これはクロスモーダル検索(XMR)ではそうではない。 このようなW-VLPモデルの学習は、限定的な意味論のオブジェクトタグによって抑制され、偏りがあると主張する。 我々は,W-VLPモデルとして弱い監督によって訓練され,キャプションと組み合わせた画像を必要としない新しいビジュアル語彙ベースの特徴幻覚器 (WFH) を用いたモデル管理のためのペアV-Lデータの欠如に対処する。 WFHはテキストから視覚的な幻覚を生成し、元の未読テキストとペアリングすることで、モダリティ間のより多様な相互作用を可能にする。 WFHは、例えばU-VisualBERT(U-VB)のような以前のW-VLPワークを、XMR、Visual Question Answeringなど様々なV-Lタスクで継続的に強化している。 recall@{1,5,10}でベンチマークした結果、flickr30kとmscocoという2つの人気データセットで、画像からテキストへのu-vbとテキストから画像への検索が一貫して改善されている。 一方、XMRタスクのクロスデータセットの一般化テストでは、少なくとも14.5%向上している。 さらに、他のV-L下流タスクでは、私たちのWFHモデルはペア化されたV-Lデータで訓練されたモデルと同等であり、未ペアデータの有用性を明らかにしている。 これらの結果はWFHを用いたW-VLPモデルのより一般化されたものである。

Weakly-supervised vision-language (V-L) pre-training (W-VLP) aims at learning cross-modal alignment with little or no paired data, such as aligned images and captions. Recent W-VLP methods, which pair visual features with object tags, help achieve performances comparable with some VLP models trained with aligned pairs in various V-L downstream tasks. This, however, is not the case in cross-modal retrieval (XMR). We argue that the learning of such a W-VLP model is curbed and biased by the object tags of limited semantics. We address the lack of paired V-L data for model supervision with a novel Visual Vocabulary based Feature Hallucinator (WFH), which is trained via weak supervision as a W-VLP model, not requiring images paired with captions. WFH generates visual hallucinations from texts, which are then paired with the originally unpaired texts, allowing more diverse interactions across modalities. Empirically, WFH consistently boosts the prior W-VLP works, e.g. U-VisualBERT (U-VB), over a variety of V-L tasks, i.e. XMR, Visual Question Answering, etc. Notably, benchmarked with recall@{1,5,10}, it consistently improves U-VB on image-to-text and text-to-image retrieval on two popular datasets Flickr30K and MSCOCO. Meanwhile, it gains by at least 14.5% in cross-dataset generalization tests on these XMR tasks. Moreover, in other V-L downstream tasks considered, our WFH models are on par with models trained with paired V-L data, revealing the utility of unpaired data. These results demonstrate greater generalization of the proposed W-VLP model with WFH.
翻訳日:2022-10-26 14:47:44 公開日:2022-10-24
# expunations: punsをキーワードと説明で強化する

ExPUNations: Augmenting Puns with Keywords and Explanations ( http://arxiv.org/abs/2210.13513v1 )

ライセンス: Link先を確認
Jiao Sun, Anjali Narayan-Chen, Shereen Oraby, Alessandra Cervone, Tagyoung Chung, Jing Huang, Yang Liu, Nanyun Peng(参考訳) ユーモアの理解と生成のタスクは、人間にとっても挑戦的で主観的であり、マスターするには常識と現実世界の知識を必要とする。 特にパントは、その知識を語彙論的曖昧さを解釈する能力と融合させることの難しさを付け加えている。 本稿では,ExPUNations(ExPUN)データセットを提示し,テキストを面白くする最も独特な単語を表すキーワードの詳細なクラウドソースアノテーション,テキストが面白い理由を説明する句説明,きめ細かなファニネス評価を用いて,既存の句のデータセットを拡張した。 これは、パント専用の広範囲できめ細かいアノテーションを備えた最初のユーモアデータセットである。 これらのアノテーションに基づいて,句分類とキーワード条件付き句生成を支援する説明生成と,現在最先端の自然言語理解とユーモアの理解・生成能力に挑戦する2つのタスクを提案する。 提案する注釈付きキーワードは,人間の評価において,より新しいユーモラステキストを生成するのに有効であり,自然言語の説明を活用すれば,ユーモラス分類器の精度と堅牢性を向上させることができることを示す。

The tasks of humor understanding and generation are challenging and subjective even for humans, requiring commonsense and real-world knowledge to master. Puns, in particular, add the challenge of fusing that knowledge with the ability to interpret lexical-semantic ambiguity. In this paper, we present the ExPUNations (ExPUN) dataset, in which we augment an existing dataset of puns with detailed crowdsourced annotations of keywords denoting the most distinctive words that make the text funny, pun explanations describing why the text is funny, and fine-grained funniness ratings. This is the first humor dataset with such extensive and fine-grained annotations specifically for puns. Based on these annotations, we propose two tasks: explanation generation to aid with pun classification and keyword-conditioned pun generation, to challenge the current state-of-the-art natural language understanding and generation models' ability to understand and generate humor. We showcase that the annotated keywords we collect are helpful for generating better novel humorous texts in human evaluation, and that our natural language explanations can be leveraged to improve both the accuracy and robustness of humor classifiers.
翻訳日:2022-10-26 14:33:05 公開日:2022-10-24
# 文脈定位パン生成

Context-Situated Pun Generation ( http://arxiv.org/abs/2210.13522v1 )

ライセンス: Link先を確認
Jiao Sun, Anjali Narayan-Chen, Shereen Oraby, Shuyang Gao, Tagyoung Chung, Jing Huang, Yang Liu, Nanyun Peng(参考訳) パント生成に関する以前の研究は、通常、与えられたパント語(ヘテログラフィック・パント生成のためのホモフォンと、ホモグラフィック・パント生成のためのポリセム)から始まり、適切なパントを生成する。 これは効率的なスパン生成を可能にするかもしれないが、ある状況や対話のような特定のコンテキストに適切に適合すれば、スパンが最も面白くなると信じている。 そこで本研究では,キーワードのセットで表される特定のコンテキストが提供され,そのコンテキストに適した句語を最初に識別し,その文脈キーワードと特定された句語に基づいて句を生成するタスクである,コンテキストスプリット生成(context-situated pun generation)を提案する。 CUP(Context-sitUated Pun)は、コンテキストワードと句ペアの4.5kタプルを含む。 新たなデータと設定に基づいて、所定の文脈に適した句語を識別する句語検索モジュールと、文脈キーワードや句語から句を生成する生成モジュールを含む、文脈選択型句生成のためのパイプラインシステムを提案する。 人間の評価では,トップ検索語のうち69%が文脈選択語の生成に利用でき,生成モジュールは,文脈語と句ペアのもっともらしいタプルを与えられた時間の31%を成功語とし,最先端の句生成モデルの収量をほぼ3倍にしている。 エンド・ツー・エンドの評価では、与えられたコンテキストに対するトップ1検索されたパントペアを持つパイプラインシステムは、他のすべてのモデリングのバリエーションよりも良いが、人間の成功率よりも32%低い、40%の成功パントを生成することができる。 これはタスクの難しさを強調し、この方向へのさらなる研究を促進する。

Previous work on pun generation commonly begins with a given pun word (a pair of homophones for heterographic pun generation and a polyseme for homographic pun generation) and seeks to generate an appropriate pun. While this may enable efficient pun generation, we believe that a pun is most entertaining if it fits appropriately within a given context, e.g., a given situation or dialogue. In this work, we propose a new task, context-situated pun generation, where a specific context represented by a set of keywords is provided, and the task is to first identify suitable pun words that are appropriate for the context, then generate puns based on the context keywords and the identified pun words. We collect CUP (Context-sitUated Pun), containing 4.5k tuples of context words and pun pairs. Based on the new data and setup, we propose a pipeline system for context-situated pun generation, including a pun word retrieval module that identifies suitable pun words for a given context, and a generation module that generates puns from context keywords and pun words. Human evaluation shows that 69% of our top retrieved pun words can be used to generate context-situated puns, and our generation module yields successful puns 31% of the time given a plausible tuple of context words and pun pair, almost tripling the yield of a state-of-the-art pun generation model. With an end-to-end evaluation, our pipeline system with the top-1 retrieved pun pair for a given context can generate successful puns 40% of the time, better than all other modeling variations but 32% lower than the human success rate. This highlights the difficulty of the task, and encourages more research in this direction.
翻訳日:2022-10-26 14:32:43 公開日:2022-10-24
# 変圧器を用いたオートエンコーダの効果的な事前学習目標

Effective Pre-Training Objectives for Transformer-based Autoencoders ( http://arxiv.org/abs/2210.13536v1 )

ライセンス: Link先を確認
Luca Di Liello, Matteo Gabburo, Alessandro Moschitti(参考訳) 本稿では,事前学習対象の異なるトランスフォーマーエンコーダの効率,コスト,精度のトレードオフについて検討する。 この目的のために、我々は共通の目的の特徴を分析し、それらを組み合わせて、新しい効果的な事前学習アプローチを作成する。 具体的には, 直観的な統計的手法に基づいて軽量トークン生成器を設計し, エレクトラ計算量の多い発電機を置き換え, コストを大幅に削減した。 私たちの実験は (i)BERTのMLMより効率的な代替品があり、 (II)軽量発電機を用いてトランスフォーマーをベースとしたモデルを効率よく事前訓練することが可能であり,性能は低下しない。

In this paper, we study trade-offs between efficiency, cost and accuracy when pre-training Transformer encoders with different pre-training objectives. For this purpose, we analyze features of common objectives and combine them to create new effective pre-training approaches. Specifically, we designed light token generators based on a straightforward statistical approach, which can replace ELECTRA computationally heavy generators, thus highly reducing cost. Our experiments also show that (i) there are more efficient alternatives to BERT's MLM, and (ii) it is possible to efficiently pre-train Transformer-based models using lighter generators without a significant drop in performance.
翻訳日:2022-10-26 14:32:12 公開日:2022-10-24
# ニューラルネットワークモデルにおける動詞の短期記憶特性

Characterizing Verbatim Short-Term Memory in Neural Language Models ( http://arxiv.org/abs/2210.13569v1 )

ライセンス: Link先を確認
Kristijan Armeni, Christopher Honey, Tal Linzen(参考訳) 自然言語列を予測するために言語モデルが訓練されると、各時点におけるその予測は、事前の文脈の表現に依存する。 事前のコンテキストに関するどのような情報が言語モデルで取得できるのか? 我々は、言語モデルが以前にテキストで発生した正確な単語を検索できるかどうかをテストした。 このパラダイムでは、言語モデル(トランスフォーマーとLSTM)が英語のテキストを処理し、名詞のリストが2回発生した。 検索は,第1リストから第2リストへのサブプライムの減少として運用した。 トランスフォーマーが最初のリストから名詞のアイデンティティと順序の両方を取り戻したことがわかった。 さらに、変圧器の回収は、より大きなコーパスとより大きなモデル深度で訓練されたときに著しく強化された。 最後に、事前トークンをインデックスする能力は、学習した注意パターンに依存する。 対照的に、LSTMは、リスト初期トークンや短いインターベンションテキストに限られる、精度の低い検索結果を示した。 LSTMの検索は名詞の順序に敏感ではなく,意味論的に一貫性のあるリストであった。 その結果、トランスフォーマーは、任意の遅延で個々のトークン表現を柔軟に検索できるワーキングメモリシステムに類似するものを実装しており、逆にLSTMは、先行トークンの粗いセマンティックガイストを最初期の項目に重み付けして維持した。

When a language model is trained to predict natural language sequences, its prediction at each moment depends on a representation of prior context. What kind of information about the prior context can language models retrieve? We tested whether language models could retrieve the exact words that occurred previously in a text. In our paradigm, language models (transformers and an LSTM) processed English text in which a list of nouns occurred twice. We operationalized retrieval as the reduction in surprisal from the first to the second list. We found that the transformers retrieved both the identity and ordering of nouns from the first list. Further, the transformers' retrieval was markedly enhanced when they were trained on a larger corpus and with greater model depth. Lastly, their ability to index prior tokens was dependent on learned attention patterns. In contrast, the LSTM exhibited less precise retrieval, which was limited to list-initial tokens and to short intervening texts. The LSTM's retrieval was not sensitive to the order of nouns and it improved when the list was semantically coherent. We conclude that transformers implemented something akin to a working memory system that could flexibly retrieve individual token representations across arbitrary delays; conversely, the LSTM maintained a coarser and more rapidly-decaying semantic gist of prior tokens, weighted toward the earliest items.
翻訳日:2022-10-26 14:32:00 公開日:2022-10-24
# ReaRev: 知識グラフに対する質問応答のための適応型推論

ReaRev: Adaptive Reasoning for Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2210.13650v1 )

ライセンス: Link先を確認
Costas Mavromatis, George Karypis(参考訳) 知識グラフ質問回答(KGQA)は、自然言語クエリを使用して知識グラフ(KG)からの回答としてエンティティを検索する。 課題は、KGエンティティを横断し、疑問答えにつながる疑問関連KG事実を推論することである。 推論を容易にするために、質問はKGトラバーサルを導くために使用される密度の高い質問表現である命令にデコードされる。 しかし、導出命令が基礎となるkg情報と正確に一致しない場合、無関係な文脈下で推論に繋がる可能性がある。 我々の手法はReaRevと呼ばれ、命令デコーディングと実行の両方に関してKGQA推論に新しい方法を導入する。 命令復号化を改善するため、KG認識情報を用いて初期命令を反復的に更新する適応的な推論を行う。 命令実行を改善するため,グラフニューラルネットワーク(GNN)を用いた広帯域探索(BFS)をエミュレートする。 BFS戦略は命令を集合として扱い、我々の手法が実行順序を決定できる。 3つのKGQAベンチマークの実験結果は、特にKGが不完全である場合や複雑な問題に取り組む場合のReaRevの有効性を示す。 私たちのコードはhttps://github.com/cmavro/rearev_kgqaで公開されています。

Knowledge Graph Question Answering (KGQA) involves retrieving entities as answers from a Knowledge Graph (KG) using natural language queries. The challenge is to learn to reason over question-relevant KG facts that traverse KG entities and lead to the question answers. To facilitate reasoning, the question is decoded into instructions, which are dense question representations used to guide the KG traversals. However, if the derived instructions do not exactly match the underlying KG information, they may lead to reasoning under irrelevant context. Our method, termed ReaRev, introduces a new way to KGQA reasoning with respect to both instruction decoding and execution. To improve instruction decoding, we perform reasoning in an adaptive manner, where KG-aware information is used to iteratively update the initial instructions. To improve instruction execution, we emulate breadth-first search (BFS) with graph neural networks (GNNs). The BFS strategy treats the instructions as a set and allows our method to decide on their execution order on the fly. Experimental results on three KGQA benchmarks demonstrate the ReaRev's effectiveness compared with previous state-of-the-art, especially when the KG is incomplete or when we tackle complex questions. Our code is publicly available at https://github.com/cmavro/ReaRev_KGQA.
翻訳日:2022-10-26 14:31:39 公開日:2022-10-24
# 単語をローカライズする視覚にインスパイアされた手法

I see what you hear: a vision-inspired method to localize words ( http://arxiv.org/abs/2210.13567v1 )

ライセンス: Link先を確認
Mohammad Samragh, Arnav Kundu, Ting-Yao Hu, Minsik Cho, Aman Chadha, Ashish Shrivastava, Oncel Tuzel, Devang Naik(参考訳) 本稿では,視覚物体検出手法を音声データの単語定位に応用する可能性について検討する。 オブジェクト検出は、ビジュアルデータのための現代文献で徹底的に研究されている。 音声を1次元画像として解釈することは可能であり、オブジェクトのローカライゼーション技術は単語のローカライゼーションに根本的に有用である。 この考え方に基づいて,単語検出とローカライゼーションのための軽量なソリューションを提案する。 単語のローカライゼーションにはバウンディングボックス回帰(bounding box regression)を用い,与えられた音声ストリームにおけるキーワードの発生,オフセット,持続時間を検出する。 我々は、librispeechを用いて実験を行い、1000語をローカライズするモデルを訓練する。 既存の作業と比較して,モデルサイズを94%削減し,F1スコアを6.5\%改善する。

This paper explores the possibility of using visual object detection techniques for word localization in speech data. Object detection has been thoroughly studied in the contemporary literature for visual data. Noting that an audio can be interpreted as a 1-dimensional image, object localization techniques can be fundamentally useful for word localization. Building upon this idea, we propose a lightweight solution for word detection and localization. We use bounding box regression for word localization, which enables our model to detect the occurrence, offset, and duration of keywords in a given audio stream. We experiment with LibriSpeech and train a model to localize 1000 words. Compared to existing work, our method reduces model size by 94%, and improves the F1 score by 6.5\%.
翻訳日:2022-10-26 14:24:04 公開日:2022-10-24
# 2段階移動学習を用いた内視鏡画像におけるキドニー石の同定

Boosting Kidney Stone Identification in Endoscopic Images Using Two-Step Transfer Learning ( http://arxiv.org/abs/2210.13654v1 )

ライセンス: Link先を確認
Francisco Lopez-Tiro, Juan Pablo Betancur-Rengifo, Arturo Ruiz-Sanchez, Ivan Reyes-Amezcua, Jonathan El-Beze, Jacques Hubert, Michel Daudon, Gilberto Ochoa-Ruiz, Christian Daul(参考訳) 腎臓結石形成の原因を知ることは再発を予防する治療法を確立する上で重要である。 現在、腎臓石の種類を決定するための異なるアプローチがある。 しかし、参照元vivo識別手順は最大数週間かかるが、vivo内視覚認識には高度に訓練された専門家が必要である。 尿管内視鏡検査中に腎臓結石の自動分類を行うための機械学習モデルが開発されているが、トレーニングデータと方法の品質には一般的に欠如している。 本研究では, 腎臓結石分類器の訓練に2段階トランスファー学習手法を用いる。 提案手法は,CCDカメラ(ex-vivo データセット)で取得した腎臓結石の画像に基づいて得られた知識を,内視鏡画像(ex-vivo データセット)からイメージを分類する最終モデルに伝達する。 その結果、類似した情報を持つ異なる領域からの学習特徴は、実環境(例えば、制御されていない照明条件やぼやけなど)の分類を行うモデルの性能向上に役立つことがわかった。 最後に,スクラッチやイメージネットの重みを初期化することによって学習したモデルと比較し,この2段階のアプローチは,内視鏡画像における腎臓結石の同定を改善する特徴を抽出していることが示唆された。

Knowing the cause of kidney stone formation is crucial to establish treatments that prevent recurrence. There are currently different approaches for determining the kidney stone type. However, the reference ex-vivo identification procedure can take up to several weeks, while an in-vivo visual recognition requires highly trained specialists. Machine learning models have been developed to provide urologists with an automated classification of kidney stones during an ureteroscopy; however, there is a general lack in terms of quality of the training data and methods. In this work, a two-step transfer learning approach is used to train the kidney stone classifier. The proposed approach transfers knowledge learned on a set of images of kidney stones acquired with a CCD camera (ex-vivo dataset) to a final model that classifies images from endoscopic images (ex-vivo dataset). The results show that learning features from different domains with similar information helps to improve the performance of a model that performs classification in real conditions (for instance, uncontrolled lighting conditions and blur). Finally, in comparison to models that are trained from scratch or by initializing ImageNet weights, the obtained results suggest that the two-step approach extracts features improving the identification of kidney stones in endoscopic images.
翻訳日:2022-10-26 14:23:52 公開日:2022-10-24
# 非等方性雑音を伴う異種データからの部分空間の復元

Subspace Recovery from Heterogeneous Data with Non-isotropic Noise ( http://arxiv.org/abs/2210.13497v1 )

ライセンス: Link先を確認
John Duchi, Vitaly Feldman, Lunjia Hu, Kunal Talwar(参考訳) データから線形部分空間を復元することは統計学と機械学習における基本的な重要なタスクである。 フェデレーション学習環境における不均一性により動機づけられた主成分分析(PCA)の基本的な定式化について検討し,不規則雑音に対処することに焦点を当てた。 われわれのデータは$n$ユーザーからで、$i$は$d$-dimensionalディストリビューションからデータサンプルを寄付し、$\mu_i$です。 我々の目標は、すべてのユーザからのデータポイントを使用して、$\mu_1,\ldots,\mu_n$で共有される線形部分空間を復元することである。 すべてのユーザから1つのデータポイントしか持たなければ、ノイズベクトルの共分散行列が非球形になり得る場合、サブスペースリカバリは情報理論的に不可能である。 各ユーザから少なくとも2つのデータポイントを利用すれば,非球面およびユーザ依存ノイズ下で効率的に計算可能な推定器を設計できる。 本研究では,ユーザ間でデータポイント数やノイズ量が異なる場合の一般的なシナリオにおいて推定誤差の上限を証明し,上限値から定数値までの値に一致するだけでなく,球面ガウス雑音に対しても保持する情報理論上の誤差を証明した。 これは,雑音の不規則性による推定誤差(定数係数まで)が付加されないことを示唆している。 同様の設定で線形回帰問題に対するさらなる結果を示す。

Recovering linear subspaces from data is a fundamental and important task in statistics and machine learning. Motivated by heterogeneity in Federated Learning settings, we study a basic formulation of this problem: the principal component analysis (PCA), with a focus on dealing with irregular noise. Our data come from $n$ users with user $i$ contributing data samples from a $d$-dimensional distribution with mean $\mu_i$. Our goal is to recover the linear subspace shared by $\mu_1,\ldots,\mu_n$ using the data points from all users, where every data point from user $i$ is formed by adding an independent mean-zero noise vector to $\mu_i$. If we only have one data point from every user, subspace recovery is information-theoretically impossible when the covariance matrices of the noise vectors can be non-spherical, necessitating additional restrictive assumptions in previous work. We avoid these assumptions by leveraging at least two data points from each user, which allows us to design an efficiently-computable estimator under non-spherical and user-dependent noise. We prove an upper bound for the estimation error of our estimator in general scenarios where the number of data points and amount of noise can vary across users, and prove an information-theoretic error lower bound that not only matches the upper bound up to a constant factor, but also holds even for spherical Gaussian noise. This implies that our estimator does not introduce additional estimation error (up to a constant factor) due to irregularity in the noise. We show additional results for a linear regression problem in a similar setup.
翻訳日:2022-10-26 14:21:01 公開日:2022-10-24
# 専門家によるプライベートオンライン予測:分離と高速化

Private Online Prediction from Experts: Separations and Faster Rates ( http://arxiv.org/abs/2210.13537v1 )

ライセンス: Link先を確認
Hilal Asi, Vitaly Feldman, Tomer Koren, Kunal Talwar(参考訳) 専門家によるオンライン予測は機械学習の基本的な問題であり、いくつかの研究がプライバシーの制約の下でこの問題を研究している。 我々は,非適応的敵に対する最善の既存アルゴリズムの後悔の限界を克服する新しいアルゴリズムを提案し,解析する。 近似微分プライバシーのために、我々のアルゴリズムは、確率的な設定に対して$\tilde{O}(\sqrt{T \log d} + \log d/\varepsilon)$と、不快な敵に対して$\tilde O(\sqrt{T \log d} + T^{1/3} \log d/\varepsilon)$の後悔境界を達成する。 純粋なDPに対して、我々のアルゴリズムは、高次元のアレンジメント$d \ge T$において、不愉快な敵に対して、初めてサブ線形後悔を得る。 さらに,適応的敵に対する新しい下限を証明した。 この結果から,非私的設定とは違い,適応的かつ適応的でない敵に対する最適な後悔と,この問題に対する非適応的対立との間には強い相違があることが示唆された。 我々の下限はまた、非プライベートな$o(\sqrt{t})$ regretを達成するために後者が必要となる適応的敵に対する純粋な微分プライバシーと近似微分プライバシーの分離を示す。

Online prediction from experts is a fundamental problem in machine learning and several works have studied this problem under privacy constraints. We propose and analyze new algorithms for this problem that improve over the regret bounds of the best existing algorithms for non-adaptive adversaries. For approximate differential privacy, our algorithms achieve regret bounds of $\tilde{O}(\sqrt{T \log d} + \log d/\varepsilon)$ for the stochastic setting and $\tilde O(\sqrt{T \log d} + T^{1/3} \log d/\varepsilon)$ for oblivious adversaries (where $d$ is the number of experts). For pure DP, our algorithms are the first to obtain sub-linear regret for oblivious adversaries in the high-dimensional regime $d \ge T$. Moreover, we prove new lower bounds for adaptive adversaries. Our results imply that unlike the non-private setting, there is a strong separation between the optimal regret for adaptive and non-adaptive adversaries for this problem. Our lower bounds also show a separation between pure and approximate differential privacy for adaptive adversaries where the latter is necessary to achieve the non-private $O(\sqrt{T})$ regret.
翻訳日:2022-10-26 14:13:57 公開日:2022-10-24
# 時間的アンタングル表現学習

Temporally Disentangled Representation Learning ( http://arxiv.org/abs/2210.13647v1 )

ライセンス: Link先を確認
Weiran Yao, Guangyi Chen, Kun Zhang(参考訳) 近年,教師なし表現学習の分野では,クラスラベルなどの特定のサイド情報を独立性に加えて活用することにより,因果関係の潜在変数の不等角化に対する強い識別性が確立されている。 しかし、既存のほとんどの研究は、独立元や線型遷移などの関数形式仮定や、定常的、指数関数的な家族分布のような分布仮定に制約されている。 基礎となる潜在変数とその因果関係が、それらの間に任意で非パラメトリックな因果的影響があるかどうかは不明である。 本研究では, 時間的因果関係の一定条件下での非線形混合から非パラメトリック潜時因果過程の同定可能性理論を確立し, 分布変化がさらなる絡み合いの恩恵をもたらすか分析する。 本研究では,時間制約付き潜在因果変数を回収し,定常環境下および異なる分布シフト下で測定された逐次データからそれらの関係を同定する原則付きフレームワークである \textbf{\textt{tdrl}} を提案する。 具体的には, 未知の分布変化を時間的・時間的に変化した因果関係の下での遷移分布変化に分解することができる。 実験を通じて,時間的遅延の潜在因果的影響が確実に同定され,このモジュール表現を正しく活用しない既存のベースラインをかなり上回ることを示す。 私たちのコードは、 \url{https://github.com/weirayao/tdrl} で利用可能です。

Recently in the field of unsupervised representation learning, strong identifiability results for disentanglement of causally-related latent variables have been established by exploiting certain side information, such as class labels, in addition to independence. However, most existing work is constrained by functional form assumptions such as independent sources or further with linear transitions, and distribution assumptions such as stationary, exponential family distribution. It is unknown whether the underlying latent variables and their causal relations are identifiable if they have arbitrary, nonparametric causal influences in between. In this work, we establish the identifiability theories of nonparametric latent causal processes from their nonlinear mixtures under fixed temporal causal influences and analyze how distribution changes can further benefit the disentanglement. We propose \textbf{\texttt{TDRL}}, a principled framework to recover time-delayed latent causal variables and identify their relations from measured sequential data under stationary environments and under different distribution shifts. Specifically, the framework can factorize unknown distribution shifts into transition distribution changes under fixed and time-varying latent causal relations, and under observation changes in observation. Through experiments, we show that time-delayed latent causal influences are reliably identified and that our approach considerably outperforms existing baselines that do not correctly exploit this modular representation of changes. Our code is available at: \url{https://github.com/weirayao/tdrl}.
翻訳日:2022-10-26 14:13:25 公開日:2022-10-24
# 変圧器を用いた映像ベース物体6次元ポーズ推定

Video based Object 6D Pose Estimation using Transformers ( http://arxiv.org/abs/2210.13540v1 )

ライセンス: Link先を確認
Apoorva Beedu, Huda Alamri, Irfan Essa(参考訳) 本稿では,ビデオ中の正確な6dオブジェクトポーズを推定するために,先行フレームに随伴するエンド・ツー・エンドの注意に基づくモデリングアーキテクチャからなるトランスフォーマ6dオブジェクトポーズ推定フレームワークvideoposeを提案する。 提案手法は,映像系列からの時間的情報を利用してポーズ修正を行い,計算効率が高く,堅牢である。 既存の手法と比較して、我々のアーキテクチャは長距離の依存関係を効率的に捉えて推論することができ、ビデオシーケンスを反復的に精錬することができます。 YCB-Videoデータセットの実験的評価により,我々の手法は最先端のTransformer法と同等であり,CNNベースの手法と比較して有意に優れていることがわかった。 さらに、33fpsの速度では、より効率的であり、したがってリアルタイムオブジェクトのポーズ推定を必要とする様々なアプリケーションに適用できる。 トレーニングコードと事前トレーニングされたモデルはhttps://github.com/apoorvabeedu/videoposeで入手できる。

We introduce a Transformer based 6D Object Pose Estimation framework VideoPose, comprising an end-to-end attention based modelling architecture, that attends to previous frames in order to estimate accurate 6D Object Poses in videos. Our approach leverages the temporal information from a video sequence for pose refinement, along with being computationally efficient and robust. Compared to existing methods, our architecture is able to capture and reason from long-range dependencies efficiently, thus iteratively refining over video sequences. Experimental evaluation on the YCB-Video dataset shows that our approach is on par with the state-of-the-art Transformer methods, and performs significantly better relative to CNN based approaches. Further, with a speed of 33 fps, it is also more efficient and therefore applicable to a variety of applications that require real-time object pose estimation. Training code and pretrained models are available at https://github.com/ApoorvaBeedu/VideoPose
翻訳日:2022-10-26 14:12:01 公開日:2022-10-24
# 共同学習は本当に音声翻訳に役立つのか?

Does Joint Training Really Help Cascaded Speech Translation? ( http://arxiv.org/abs/2210.13700v1 )

ライセンス: Link先を確認
Viet Anh Khoa Tran, David Thulke, Yingbo Gao, Christian Herold, Hermann Ney(参考訳) 現在、音声翻訳において、音声認識システムを翻訳システムでカスケードする簡単なアプローチは、最先端の結果を提供する。 しかし,音声認識システムからの誤り伝播などの根本的な課題は依然として残っている。 これらの問題を解決するため,近年では,直接データに注意を向け,様々な共同トレーニング手法を提案する。 本研究では,共同学習が音声翻訳に本当に役立つのかという疑問に答える。 本研究は最近の論文をレビューし,転写後確率の限界化による共同訓練基準の検討も行った。 以上の結果から, 強いカスケードベースラインは, 関節トレーニングによる改善を減少させる可能性が示唆され, 関節トレーニングの代替案を提案する。 私たちは、この研究が現在の音声翻訳の状況のリフレッシュに役立ち、より効率的で創造的な方法で音声翻訳の直接データを活用するための研究を動機付けることを望んでいる。

Currently, in speech translation, the straightforward approach - cascading a recognition system with a translation system - delivers state-of-the-art results. However, fundamental challenges such as error propagation from the automatic speech recognition system still remain. To mitigate these problems, recently, people turn their attention to direct data and propose various joint training methods. In this work, we seek to answer the question of whether joint training really helps cascaded speech translation. We review recent papers on the topic and also investigate a joint training criterion by marginalizing the transcription posterior probabilities. Our findings show that a strong cascaded baseline can diminish any improvements obtained using joint training, and we suggest alternatives to joint training. We hope this work can serve as a refresher of the current speech translation landscape, and motivate research in finding more efficient and creative ways to utilize the direct data for speech translation.
翻訳日:2022-10-26 14:05:35 公開日:2022-10-24
# 動的エッジコンピューティングにおけるグラフ強化学習に基づくcnn推論オフロード

Graph Reinforcement Learning-based CNN Inference Offloading in Dynamic Edge Computing ( http://arxiv.org/abs/2210.13464v1 )

ライセンス: Link先を確認
Nan Li, Alexandros Iosifidis, Qi Zhang(参考訳) 本稿では,動的マルチアクセスエッジコンピューティング(MEC)ネットワークにおけるCNN推論の計算オフロードについて検討する。 通信時間とエッジサーバの利用可能な容量の不確実性に対処するために、早期終了機構を用いて、推論タスクの期限に間に合うように計算を早期終了させる。 我々は,通信,計算,推論の精度をトレードオフする報奨関数を設計し,CNN推論のオフロード問題を長期平均推定精度とスループットの最大化を目的とし,最大化問題として定式化する。 この最大化問題を解決するために,グラフ強化学習に基づく早期退避機構(GRLE)を提案する。これは,最先端の作業,深層強化学習に基づくオンラインオフロード(DROO),およびその拡張手法であるDROOと早期退避機構(DROOE)を異なる動的シナリオ下で上回る。 実験結果から,grleは最大3.41倍のグラフ強化学習(grl)と1.45倍のdrooeを達成し,動的mecにおける意思決定のオフロードに対するgrleのアドバンテージを示した。

This paper studies the computational offloading of CNN inference in dynamic multi-access edge computing (MEC) networks. To address the uncertainties in communication time and Edge servers' available capacity, we use early-exit mechanism to terminate the computation earlier to meet the deadline of inference tasks. We design a reward function to trade off the communication, computation and inference accuracy, and formulate the offloading problem of CNN inference as a maximization problem with the goal of maximizing the average inference accuracy and throughput in long term. To solve the maximization problem, we propose a graph reinforcement learning-based early-exit mechanism (GRLE), which outperforms the state-of-the-art work, deep reinforcement learning-based online offloading (DROO) and its enhanced method, DROO with early-exit mechanism (DROOE), under different dynamic scenarios. The experimental results show that GRLE achieves the average accuracy up to 3.41x over graph reinforcement learning (GRL) and 1.45x over DROOE, which shows the advantages of GRLE for offloading decision-making in dynamic MEC.
翻訳日:2022-10-26 14:04:34 公開日:2022-10-24
# 急激な差別化を伴う微分計画のスケールアップと安定化

Scaling up and Stabilizing Differentiable Planning with Implicit Differentiation ( http://arxiv.org/abs/2210.13542v1 )

ライセンス: Link先を確認
Linfeng Zhao, Huazhe Xu, Lawson L.S. Wong(参考訳) 異なるプランニングはエンドツーエンドの差別性と適応性を約束します。 しかし、この問題は、前方の反復層を通じてグラデーションを計算し、前方の計算と後方の伝播を混在させ、前方のプランナーのパフォーマンスと後方のパスの計算コストのバランスをとる必要があるという、より大規模な問題へのスケールアップを妨げている。 この問題を緩和するために,我々はベルマンの不動点方程式を用いて,バリューイテレーションネットワークとその変種に対する前方・後方パスを分離し,一定の後方コスト(計画的地平線)と柔軟な前方予算を実現するとともに,大規模タスクへのスケールアップを支援することを提案する。 提案する暗黙のバージョンであるvinとその派生品の収束安定性,スケーラビリティ,効率について検討し,構成空間と作業空間における2dof操作と2dナビゲーション,視覚ナビゲーションなど,様々な計画タスクにおいてその優位性を実証した。

Differentiable planning promises end-to-end differentiability and adaptivity. However, an issue prevents it from scaling up to larger-scale problems: they need to differentiate through forward iteration layers to compute gradients, which couples forward computation and backpropagation, and needs to balance forward planner performance and computational cost of the backward pass. To alleviate this issue, we propose to differentiate through the Bellman fixed-point equation to decouple forward and backward passes for Value Iteration Network and its variants, which enables constant backward cost (in planning horizon) and flexible forward budget and helps scale up to large tasks. We study the convergence stability, scalability, and efficiency of the proposed implicit version of VIN and its variants and demonstrate their superiorities on a range of planning tasks: 2D navigation, visual navigation, and 2-DOF manipulation in configuration space and workspace.
翻訳日:2022-10-26 14:04:13 公開日:2022-10-24
# 強化学習を用いたP2Pエネルギーシステムのエネルギー価格設定

Energy Pricing in P2P Energy Systems Using Reinforcement Learning ( http://arxiv.org/abs/2210.13555v1 )

ライセンス: Link先を確認
Nicolas Avila, Shahad Hardan, Elnura Zhalieva, Moayad Aloqaily, Mohsen Guizani(参考訳) 消費者側の再生可能エネルギーの増加は、エネルギーグリッドの新たなダイナミクスに取って代わる。 マイクログリッドの参加者はエネルギーを生産し、エネルギー提供者の許可を得て仲間(ピアツーピア)と交換することができる。 このようなシナリオでは、分散再生可能エネルギー発生器の確率的性質とエネルギー消費は、エネルギーの購入と販売の公正価格を定義する複雑さを増大させる。 本研究では,マイクログリッド内のすべてのコンポーネントの利益を最大化する価格設定をエージェントに訓練し,現実のシナリオにおけるp2pグリッドの実装を容易にすることを目的とした強化学習フレームワークを提案する。 microgridはコンシューマ、プロシューマー、サービスプロバイダ、コミュニティバッテリを考慮に入れている。 データセット \textit{pymgrid} の実験結果は、マイクログリッドの全コンポーネントの価格最適化に成功していることを示している。 提案するフレームワークは,これらのコンポーネントの関心やマイクログリッドのコンシューマとプロデューサの比率を考慮し,柔軟性を確保する。 また,コミュニティバッテリーの容量変更がシステムの利益に与える影響についても検討した。 実装コードは \href{https://github.com/artifitialleap-mbzuai/rl-p2p-price-prediction}{here} である。

The increase in renewable energy on the consumer side gives place to new dynamics in the energy grids. Participants in a microgrid can produce energy and trade it with their peers (peer-to-peer) with the permission of the energy provider. In such a scenario, the stochastic nature of distributed renewable energy generators and energy consumption increases the complexity of defining fair prices for buying and selling energy. In this study, we introduce a reinforcement learning framework to help solve this issue by training an agent to set the prices that maximize the profit of all components in the microgrid, aiming to facilitate the implementation of P2P grids in real-life scenarios. The microgrid considers consumers, prosumers, the service provider, and a community battery. Experimental results on the \textit{Pymgrid} dataset show a successful approach to price optimization for all components in the microgrid. The proposed framework ensures flexibility to account for the interest of these components, as well as the ratio of consumers and prosumers in the microgrid. The results also examine the effect of changing the capacity of the community battery on the profit of the system. The implementation code is available \href{https://github.com/Artifitialleap-MBZUAI/rl-p2p-price-prediction}{here}.
翻訳日:2022-10-26 14:03:55 公開日:2022-10-24
# マルチリレーショナルトランスフォーマによる補助項目関係の逐次推薦

Sequential Recommendation with Auxiliary Item Relationships via Multi-Relational Transformer ( http://arxiv.org/abs/2210.13572v1 )

ライセンス: Link先を確認
Ziwei Fan, Zhiwei Liu, Chen Wang, Peijie Huang, Hao Peng, Philip S. Yu(参考訳) Sequential Recommendation (SR) はユーザダイナミクスをモデル化し、ユーザ履歴に基づいて次の推奨項目を予測する。 既存のSRメソッドは、シーケンスで観察される「以前に相互作用した」アイテム-イテム遷移をモデル化する。 しかし、類似ブランドのアイテムや、現実世界のシナリオで類似したコンテンツなど、複数の補助アイテムの関係がある。 補助項目の関係は、複数の異なるセマンティクスにおける項目と項目間の親和性を記述し、推奨の中で長く続くコールドスタート問題を緩和する。 しかし,srにおける補助項目関係のモデル化は依然として大きな課題である。 高次項目遷移と補助項目関係を同時にモデル化するために,sr(mt4sr)の補助項目関係をモデル化できるマルチリレーショナルトランスフォーマを提案する。 具体的には,任意の項目関係と項目関係の重み付けを組み込んだ新たな自己注意モジュールを提案する。 第二に,新しい正規化モジュールを用いて列内アイテム関係を規則化し,注意力計算を監督する。 第3に,系列間関係ペアに対して,新たな系列間関連項目モデリングモジュールを導入する。 最後に、4つのベンチマークデータセットの実験を行い、最先端手法に対するMT4SRの有効性とコールドスタート問題の改善を実証する。 コードはhttps://github.com/zfan20/mt4srで入手できる。

Sequential Recommendation (SR) models user dynamics and predicts the next preferred items based on the user history. Existing SR methods model the 'was interacted before' item-item transitions observed in sequences, which can be viewed as an item relationship. However, there are multiple auxiliary item relationships, e.g., items from similar brands and with similar contents in real-world scenarios. Auxiliary item relationships describe item-item affinities in multiple different semantics and alleviate the long-lasting cold start problem in the recommendation. However, it remains a significant challenge to model auxiliary item relationships in SR. To simultaneously model high-order item-item transitions in sequences and auxiliary item relationships, we propose a Multi-relational Transformer capable of modeling auxiliary item relationships for SR (MT4SR). Specifically, we propose a novel self-attention module, which incorporates arbitrary item relationships and weights item relationships accordingly. Second, we regularize intra-sequence item relationships with a novel regularization module to supervise attentions computations. Third, for inter-sequence item relationship pairs, we introduce a novel inter-sequence related items modeling module. Finally, we conduct experiments on four benchmark datasets and demonstrate the effectiveness of MT4SR over state-of-the-art methods and the improvements on the cold start problem. The code is available at https://github.com/zfan20/MT4SR.
翻訳日:2022-10-26 14:03:38 公開日:2022-10-24
# 潜在構造因果モデルを学ぶ

Learning Latent Structural Causal Models ( http://arxiv.org/abs/2210.13583v1 )

ライセンス: Link先を確認
Jithendaraa Subramanian, Yashas Annadani, Ivaxi Sheth, Nan Rosemary Ke, Tristan Deleu, Stefan Bauer, Derek Nowrouzezahrai, Samira Ebrahimi Kahou(参考訳) 因果学習は、基礎となる因果メカニズムの正確な回復に長い間関わってきた。 このような因果モデリングは、分散データのより良い説明を可能にする。 因果学習における先行研究は、高レベル因果変数が与えられると仮定する。 しかし、機械学習タスクでは、画像ピクセルや高次元ベクトルのような低レベルのデータを扱うことが多い。 このような設定では、構造因果モデル(Structure Causal Model, SCM) -- 構造、パラメータ、 \textit{and} 高レベルの因果変数 -- は観測されず、低レベルのデータから学ぶ必要がある。 我々はこの問題を,低レベルデータを与えられた潜在SCMのベイズ推定として扱う。 線形ガウス加算雑音scmに対して, 未知の既知の介入による潜在scmの因果変数, 構造, パラメータの同時推論を行う, 扱いやすい近似推定法を提案する。 提案手法の有効性を示すために, 合成データセットと因果生成画像データセットを用いて実験を行った。 また,未発見の介入による画像生成を行い,提案する因果モデルの分布一般化の検証を行う。

Causal learning has long concerned itself with the accurate recovery of underlying causal mechanisms. Such causal modelling enables better explanations of out-of-distribution data. Prior works on causal learning assume that the high-level causal variables are given. However, in machine learning tasks, one often operates on low-level data like image pixels or high-dimensional vectors. In such settings, the entire Structural Causal Model (SCM) -- structure, parameters, \textit{and} high-level causal variables -- is unobserved and needs to be learnt from low-level data. We treat this problem as Bayesian inference of the latent SCM, given low-level data. For linear Gaussian additive noise SCMs, we present a tractable approximate inference method which performs joint inference over the causal variables, structure and parameters of the latent SCM from random, known interventions. Experiments are performed on synthetic datasets and a causally generated image dataset to demonstrate the efficacy of our approach. We also perform image generation from unseen interventions, thereby verifying out of distribution generalization for the proposed causal model.
翻訳日:2022-10-26 14:03:17 公開日:2022-10-24
# Embodied, Situated, and Grounded Intelligence: AIの意味

Embodied, Situated, and Grounded Intelligence: Implications for AI ( http://arxiv.org/abs/2210.13589v1 )

ライセンス: Link先を確認
Tyler Millhouse, Melanie Moses, Melanie Mitchell(参考訳) 2022年4月、サンタフェ研究所はインテリジェンス財団のプロジェクトの一環として、インテリジェンスに関するワークショップを開催した。 このワークショップは、コンピュータ科学者、心理学者、哲学者、社会科学者などを集めて、人間の知性における実施の科学と関連する問題、そして、堅牢で人間レベルのAIを構築するためのその意味について議論した。 本報告では,各講演とその後の議論について要約する。 また、いくつかの重要なテーマを描き、将来の研究において重要なフロンティアを特定します。

In April of 2022, the Santa Fe Institute hosted a workshop on embodied, situated, and grounded intelligence as part of the Institute's Foundations of Intelligence project. The workshop brought together computer scientists, psychologists, philosophers, social scientists, and others to discuss the science of embodiment and related issues in human intelligence, and its implications for building robust, human-level AI. In this report, we summarize each of the talks and the subsequent discussions. We also draw out a number of key themes and identify important frontiers for future research.
翻訳日:2022-10-26 14:03:02 公開日:2022-10-24
# SoTAビジョンモデルの自然変動に対するロバスト性限界

The Robustness Limits of SoTA Vision Models to Natural Variation ( http://arxiv.org/abs/2210.13604v1 )

ライセンス: Link先を確認
Mark Ibrahim, Quentin Garrido, Ari Morcos, Diane Bouchacourt(参考訳) 最近の最先端のビジョンモデルは、新しいアーキテクチャ、学習パラダイム、より大きな事前学習データを導入し、分類のようなタスクにおける印象的なパフォーマンスをもたらした。 以前の世代の視覚モデルはポーズなどの要因に対する堅牢性が欠如していることが示されているが、この次世代のモデルがどの程度堅牢であるかは明らかではない。 そこで本研究では,ポーズ,位置,背景,照明,サイズを制御した700万枚以上の画像のデータセットを構築した。 我々は、最近の最先端モデルがどれほど堅牢かだけでなく、トレーニング中に存在するときの要因の変化をモデルが一般化できる範囲についても研究している。 視覚変換器(ViT)、マスク付きオートエンコーダ(MAE)などの自己教師型モデル、CLIPなどの大規模データセットでトレーニングされたモデルなど、最近のビジョンモデルのカタログを検討する。 今日の最良のモデルは、ポーズ、サイズ、背景の一般的な変化に対して堅牢ではありません。 トレーニング中にいくつかのサンプルが変化すると、モデルの一般化にはかなりの多様性が必要であることが分かりました。 しかし、多様性が一部のクラスでのみ見られる場合、トレーニング中に見られるクラスと非常によく似たクラスでない限り、モデルが他のクラスに一般化しないことが判明した。 私たちは、SoTAモデルの盲点にさらなる光を当て、より堅牢なビジョンモデルの開発を促進することを願っています。

Recent state-of-the-art vision models introduced new architectures, learning paradigms, and larger pretraining data, leading to impressive performance on tasks such as classification. While previous generations of vision models were shown to lack robustness to factors such as pose, it's unclear the extent to which this next generation of models are more robust. To study this question, we develop a dataset of more than 7 million images with controlled changes in pose, position, background, lighting, and size. We study not only how robust recent state-of-the-art models are, but also the extent to which models can generalize variation in factors when they're present during training. We consider a catalog of recent vision models, including vision transformers (ViT), self-supervised models such as masked autoencoders (MAE), and models trained on larger datasets such as CLIP. We find out-of-the-box, even today's best models are not robust to common changes in pose, size, and background. When some samples varied during training, we found models required a significant portion of diversity to generalize -- though eventually robustness did improve. When diversity is only seen for some classes however, we found models did not generalize to other classes, unless the classes were very similar to those seen varying during training. We hope our work will shed further light on the blind spots of SoTA models and spur the development of more robust vision models.
翻訳日:2022-10-26 13:56:35 公開日:2022-10-24
# ConvLSTMによるアフリカにおける植生緑度予測の学習

Learning to forecast vegetation greenness at fine resolution over Africa with ConvLSTMs ( http://arxiv.org/abs/2210.13648v1 )

ライセンス: Link先を確認
Claire Robin, Christian Requena-Mesa, Vitus Benson, Lazaro Alonso, Jeran Poehls, Nuno Carvalhais and Markus Reichstein(参考訳) 気候や気象イベントに応じて植生の状態を予測することは大きな課題である。 その実施は、作物の収量、森林被害、あるいはより一般的には、不在が人道的災害に繋がる社会経済的機能に関連する生態系サービスへの影響を予測する上で極めて重要であることが証明される。 植生状態は、いくつかの時間スケールで起こる複雑な生態過程を調節する天候や環境条件に依存する。 植生と異なる環境ドライバの相互作用は瞬時に応答を表現し、また時間的に遅延した効果を示し、しばしば景観や地域規模での新たな空間的文脈を示す。 地表面予測タスクを,地形と気象変数を用いて非常に微細な解像度で植生発達を予測し,予測を導くことを目的とした,強誘導ビデオ予測タスクとして定式化する。 我々は,この課題に対処するためにコンボリューショナルLSTM(ConvLSTM)アーキテクチャを使用し,ERA5気象分析,SMAP衛星計測,地形(DEM of SRTMv4.1)を変数としたセンチネル2衛星NDVIを用いてアフリカの植生変化を予測した。 以上の結果から,ConvLSTMモデルがNDVIの季節変動を高分解能で予測できるだけでなく,観測基準値に対する気象異常の影響も明らかとなった。 このモデルは、干ばつ関連災害の文脈で予測行動を支援することを約束している、ターゲット長の非常に高いNDVI変動量でさえ、異なる植生タイプを予測できる。

Forecasting the state of vegetation in response to climate and weather events is a major challenge. Its implementation will prove crucial in predicting crop yield, forest damage, or more generally the impact on ecosystems services relevant for socio-economic functioning, which if absent can lead to humanitarian disasters. Vegetation status depends on weather and environmental conditions that modulate complex ecological processes taking place at several timescales. Interactions between vegetation and different environmental drivers express responses at instantaneous but also time-lagged effects, often showing an emerging spatial context at landscape and regional scales. We formulate the land surface forecasting task as a strongly guided video prediction task where the objective is to forecast the vegetation developing at very fine resolution using topography and weather variables to guide the prediction. We use a Convolutional LSTM (ConvLSTM) architecture to address this task and predict changes in the vegetation state in Africa using Sentinel-2 satellite NDVI, having ERA5 weather reanalysis, SMAP satellite measurements, and topography (DEM of SRTMv4.1) as variables to guide the prediction. Ours results highlight how ConvLSTM models can not only forecast the seasonal evolution of NDVI at high resolution, but also the differential impacts of weather anomalies over the baselines. The model is able to predict different vegetation types, even those with very high NDVI variability during target length, which is promising to support anticipatory actions in the context of drought-related disasters.
翻訳日:2022-10-26 13:56:10 公開日:2022-10-24
# アトラス流 : 多様体上の互換局所構造

Atlas flow : compatible local structures on the manifold ( http://arxiv.org/abs/2210.14149v1 )

ライセンス: Link先を確認
Taejin Paik, Jaemin Park, Jung Ho Park(参考訳) 本稿では,多様体の局所構造の交点に着目し,多様体の大域構造を分析する。 トポロジ的データ解析のツールであるMapperを用いて,StyleGAN2の潜在空間などのデータ多様体上の局所領域を求める。 我々は、局所的な構造を多様体の全体構造に結合できることを保証し、重複する局所的な領域にグルーイング相互換性条件を課す。 本稿では,Atlas Flowと呼ばれる新しい生成フローモデルを提案する。 本モデルでは,ノイズのあるよく知られた多様体の合成データセットにおいて,生成過程が良好に機能することを示す。 さらに,本モデルを用いて,StyleGAN2のスタイルベクトル多様体について検討する。

In this paper, we focus on the intersections of a manifold's local structures to analyze the global structure of a manifold. We obtain local regions on data manifolds such as the latent space of StyleGAN2, using Mapper, a tool from topological data analysis. We impose gluing compatibility conditions on overlapping local regions, which guarantee that the local structures can be glued together to the global structure of a manifold. We propose a novel generative flow model called Atlas flow that uses compatibility to reattach the local regions. Our model shows that the generating processes perform well on synthetic dataset samples of well-known manifolds with noise. Furthermore, we investigate the style vector manifold of StyleGAN2 using our model.
翻訳日:2022-10-26 13:55:01 公開日:2022-10-24
# Vitruvio:Single Perspective Sketchesによる3Dビルディングメッシュ

Vitruvio: 3D Building Meshes via Single Perspective Sketches ( http://arxiv.org/abs/2210.13634v1 )

ライセンス: Link先を確認
Alberto Tono and Martin Fischer(参考訳) 今日の建築工学と建設(AEC)ソフトウェアは、3次元の建物表現を生成するために学習曲線を必要とする。 これにより、単一のスケッチを通じて伝達される初期設計思想のボリューム的含意を迅速に検証する能力が制限される。 デザイナーが1枚のスケッチを3dのビルに翻訳できるので、オーナーは認知的負荷なしに簡単に3dのプロジェクト情報を視覚化できる。 従来のSOTA(State-of-the-art)データ駆動型単一ビュー再構成(SVR)が単一画像やスケッチからの再構成プロセスにおいて優れた結果を示した場合、AECにおける具体的な応用、分析、実験が欠如している。 そこで本研究では,このギャップに対処し,深層学習手法であるVitruvioを導入する。 Vitruvioは、特定のビルディングデータセット(Manhattan 1K)上のSVRタスクにOccupancy Networkを適用する。 この適応は2つの大きな改善をもたらす。 まず、推論プロセスを26\%以上加速する(0.5sから0.37s)。 第2に、復元精度(シャムファー距離による測定)を18\%向上させる。 AEC領域におけるこの適応中に、重要な設計要素を構成するため、学習手順における建物配向の影響を評価する。 すべての建物を標準的な姿勢に合わせることで、全体的な定量的指標が向上したが、より複雑な建物形状(質的分析で示されるように)で細粒度の詳細を捉えなかった。 最後に、vitruvioは任意のトポロジーと種数を持つ3dプリント可能なビルディングメッシュを単一の視点スケッチから出力し、所有者とデザイナーが2d、効果的、直感的、そして普遍的なコミュニケーションメディアであるthe sketchを通じて3d情報を伝えるためのステップを提供する。

Today's architectural engineering and construction (AEC) software require a learning curve to generate a three-dimension building representation. This limits the ability to quickly validate the volumetric implications of an initial design idea communicated via a single sketch. Allowing designers to translate a single sketch to a 3D building will enable owners to instantly visualize 3D project information without the cognitive load required. If previous state-of-the-art (SOTA) data-driven methods for single view reconstruction (SVR) showed outstanding results in the reconstruction process from a single image or sketch, they lacked specific applications, analysis, and experiments in the AEC. Therefore, this research addresses this gap, introducing a deep learning method: Vitruvio. Vitruvio adapts Occupancy Network for SVR tasks on a specific building dataset (Manhattan 1K). This adaptation brings two main improvements. First, it accelerates the inference process by more than 26\% (from 0.5s to 0.37s). Second, it increases the reconstruction accuracy (measured by the Chamfer Distance) by 18\%. During this adaptation in the AEC domain, we evaluate the effect of the building orientation in the learning procedure since it constitutes an important design factor. While aligning all the buildings to a canonical pose improved the overall quantitative metrics, it did not capture fine-grain details in more complex building shapes (as shown in our qualitative analysis). Finally, Vitruvio outputs a 3D-printable building mesh with arbitrary topology and genus from a single perspective sketch, providing a step forward to allow owners and designers to communicate 3D information via a 2D, effective, intuitive, and universal communication medium: the sketch.
翻訳日:2022-10-26 13:54:50 公開日:2022-10-24
# 逆インデックスによる言語モデルの質問応答タスクの高速化

Speeding Up Question Answering Task of Language Models via Inverted Index ( http://arxiv.org/abs/2210.13578v1 )

ライセンス: Link先を確認
Xiang Ji and Yesim Sungu-Eryilmaz and Elaheh Momeni and Reza Rawassizadeh(参考訳) 会話エージェントやその質問応答能力といった自然言語処理アプリケーションは、現実世界で広く使われている。 大きな言語モデル(LLM)が広く普及しているにもかかわらず、LLMを利用する現実世界の会話エージェントはほとんどない。 llmsが消費する広範なリソースにより、開発者はエンドユーザアプリケーションに統合できない。 本研究では,LLMと組み合わされた逆インデックス化機構を活用し,クローズドドメイン質問に対する質問応答モデルの効率を向上させる。 この指標を用いて平均応答時間を97.44%向上させる実験を行った。 また,検索範囲の縮小により,逆インデックスを用いた場合の平均bleuスコアは0.23に向上した。

Natural language processing applications, such as conversational agents and their question-answering capabilities, are widely used in the real world. Despite the wide popularity of large language models (LLMs), few real-world conversational agents take advantage of LLMs. Extensive resources consumed by LLMs disable developers from integrating them into end-user applications. In this study, we leverage an inverted indexing mechanism combined with LLMs to improve the efficiency of question-answering models for closed-domain questions. Our experiments show that using the index improves the average response time by 97.44%. In addition, due to the reduced search scope, the average BLEU score improved by 0.23 while using the inverted index.
翻訳日:2022-10-26 13:54:12 公開日:2022-10-24
# 条件付きリスク-逆コンテキスト帯域

Conditionally Risk-Averse Contextual Bandits ( http://arxiv.org/abs/2210.13573v1 )

ライセンス: Link先を確認
M\'onika Farsang and Paul Mineiro and Wangda Zhang(参考訳) 平均ケース統計保証が不十分なシナリオに、文脈的帯域幅を適用したいと考えています。 幸いなことに、オンライン回帰への還元と期待損失の合成は分析的に抽出可能であり、計算上便利であり、実証的に有効である。 その結果、オンラインの後悔を保証した最初のリスク回避コンテキストバンディットアルゴリズムとなる。 我々は,動的価格設定,在庫管理,セルフチューニングソフトウェアといったさまざまなシナリオから,実運用用クラウドデータ処理システムによる結果を含む,正確な後悔の保証と実験を行う。

We desire to apply contextual bandits to scenarios where average-case statistical guarantees are inadequate. Happily, we discover the composition of reduction to online regression and expectile loss is analytically tractable, computationally convenient, and empirically effective. The result is the first risk-averse contextual bandit algorithm with an online regret guarantee. We state our precise regret guarantee and conduct experiments from diverse scenarios in dynamic pricing, inventory management, and self-tuning software; including results from a production exascale cloud data processing system.
翻訳日:2022-10-26 13:46:35 公開日:2022-10-24
# 離散イベントシステムのオンライン故障診断のための機械学習によるアプローチ

Machine learning-based approach for online fault Diagnosis of Discrete Event System ( http://arxiv.org/abs/2210.13466v1 )

ライセンス: Link先を確認
R Saddem (CRESTIC), D Baptiste(参考訳) 本稿では,センサとアクチュエータが離散イベントシステムとしてモデル化可能な離散バイナリ信号を伝達する自動生産システムのオンライン診断について述べる。 多数の診断方法があるが、効率的な診断システム(インテリジェントなソリューション、平均的な労力、合理的なコスト、オンライン診断、偽アラームの少ないなど)を実装するためのすべての基準を満たすことはできない。 さらに、これらのテクニックは、システムの正確で堅牢で代表的なモデル、あるいは関連するデータや継続的な更新を必要とする専門家の知識を必要とする。 本稿では,診断システムの機械学習に基づくアプローチを提案する。 植物状態を予測する多クラス分類器であると考えられており、正常か欠陥か、動作が失敗する場合に発生する欠陥である。

The problem considered in this paper is the online diagnosis of Automated Production Systems with sensors and actuators delivering discrete binary signals that can be modeled as Discrete Event Systems. Even though there are numerous diagnosis methods, none of them can meet all the criteria of implementing an efficient diagnosis system (such as an intelligent solution, an average effort, a reasonable cost, an online diagnosis, fewer false alarms, etc.). In addition, these techniques require either a correct, robust, and representative model of the system or relevant data or experts' knowledge that require continuous updates. In this paper, we propose a Machine Learning-based approach of a diagnostic system. It is considered as a multi-class classifier that predicts the plant state: normal or faulty and what fault that has arisen in the case of failing behavior.
翻訳日:2022-10-26 13:37:49 公開日:2022-10-24
# 階層的協調型多車追従のための情報エンハンス状態エンコーダを用いたグレードドドq強化学習

Graded-Q Reinforcement Learning with Information-Enhanced State Encoder for Hierarchical Collaborative Multi-Vehicle Pursuit ( http://arxiv.org/abs/2210.13470v1 )

ライセンス: Link先を確認
Yiying Yang, Xinhang Li, Zheng Yuan, Qinwen Wang, Chen Xu, Lin Zhang(参考訳) 様々な現実のシナリオから抽象化された問題として、多車追跡(MVP)は、インテリジェントトランスポーテーションシステム(ITS)においてホットな研究トピックになりつつある。 人工知能(ai)とコネクテッドカーの組み合わせは、mvpの研究開発を大いに推進してきた。 しかし、mvpの既存事業は、複雑な都市交通環境下での情報交換と協調の重要性にほとんど注意を払わなかった。 本稿では,この階層的協調型マルチ車両追従(HCMVP)問題に対処するため,GQRL-IESE(Information-enhanced State Encoder)フレームワークを用いたグレードQ強化学習を提案する。 GQRL-IESEでは、車両の追従効率を向上させるための意思決定を容易にするために、協調的なグレードQスキームが提案されている。 各追撃車両はさらにディープqネットワーク(dqn)を使用して、エンコードされた状態に基づいて意思決定を行う。 協調q最適化ネットワークは、現在の環境交通情報に基づいて個々の決定を調整し、グローバル最適動作セットを得る。 さらに、複数の視点から臨界情報を抽出する情報強調状態符号化器を設計し、注目機構を用いて各追尾車両を支援して目標を効果的に決定する。 SUMOに基づく大規模な実験結果によると、提案したGQRL-IESEの総時間は平均47.64%以下であり、GQRL-IESEの優れた追従効率を示す。 コードはhttps://github.com/ANT-ITS/GQRL-IESEで公開されている。

The multi-vehicle pursuit (MVP), as a problem abstracted from various real-world scenarios, is becoming a hot research topic in Intelligent Transportation System (ITS). The combination of Artificial Intelligence (AI) and connected vehicles has greatly promoted the research development of MVP. However, existing works on MVP pay little attention to the importance of information exchange and cooperation among pursuing vehicles under the complex urban traffic environment. This paper proposed a graded-Q reinforcement learning with information-enhanced state encoder (GQRL-IESE) framework to address this hierarchical collaborative multi-vehicle pursuit (HCMVP) problem. In the GQRL-IESE, a cooperative graded Q scheme is proposed to facilitate the decision-making of pursuing vehicles to improve pursuing efficiency. Each pursuing vehicle further uses a deep Q network (DQN) to make decisions based on its encoded state. A coordinated Q optimizing network adjusts the individual decisions based on the current environment traffic information to obtain the global optimal action set. In addition, an information-enhanced state encoder is designed to extract critical information from multiple perspectives and uses the attention mechanism to assist each pursuing vehicle in effectively determining the target. Extensive experimental results based on SUMO indicate that the total timestep of the proposed GQRL-IESE is less than other methods on average by 47.64%, which demonstrates the excellent pursuing efficiency of the GQRL-IESE. Codes are outsourced in https://github.com/ANT-ITS/GQRL-IESE.
翻訳日:2022-10-26 13:37:37 公開日:2022-10-24
# 機会論的エピソード強化学習

Opportunistic Episodic Reinforcement Learning ( http://arxiv.org/abs/2210.13504v1 )

ライセンス: Link先を確認
Xiaoxiao Wang, Nader Bouacida, Xueying Guo, Xin Liu(参考訳) 本稿では, 変動要因として知られる外部環境条件下で, 最適動作選択の後悔が変化する強化学習問題の新たな変種である, 機会論的強化学習を提案し, 研究する。 変動係数が低い場合、副最適作用を選択することを後悔するし、その逆もする。 我々の直感は、変動係数が高いときにさらに活用し、変動係数が低いときにさらに探索することである。 我々は,OppUCRL2アルゴリズムとOppPSRLアルゴリズムを設計,評価することで,有限水平エピソードMDPのための新しいフレームワークの利点を実証する。 提案手法は,探索のガイドに変分因子依存的楽観主義を導入することで,強化学習のための探索-探索トレードオフを動的にバランスさせる。 我々は、OppUCRL2アルゴリズムに対して$\tilde{O}(HS \sqrt{AT})$ regret boundを定め、OppUCRL2アルゴリズムとOppPSRLアルゴリズムの両方が元の対応するアルゴリズムより優れていることを示すシミュレーションを通して示す。

In this paper, we propose and study opportunistic reinforcement learning - a new variant of reinforcement learning problems where the regret of selecting a suboptimal action varies under an external environmental condition known as the variation factor. When the variation factor is low, so is the regret of selecting a suboptimal action and vice versa. Our intuition is to exploit more when the variation factor is high, and explore more when the variation factor is low. We demonstrate the benefit of this novel framework for finite-horizon episodic MDPs by designing and evaluating OppUCRL2 and OppPSRL algorithms. Our algorithms dynamically balance the exploration-exploitation trade-off for reinforcement learning by introducing variation factor-dependent optimism to guide exploration. We establish an $\tilde{O}(HS \sqrt{AT})$ regret bound for the OppUCRL2 algorithm and show through simulations that both OppUCRL2 and OppPSRL algorithm outperform their original corresponding algorithms.
翻訳日:2022-10-26 13:37:10 公開日:2022-10-24
# 強化学習のための因果説明:状態と時間的重要性の定量化

Causal Explanation for Reinforcement Learning: Quantifying State and Temporal Importance ( http://arxiv.org/abs/2210.13507v1 )

ライセンス: Link先を確認
Xiaoxiao Wang, Fanyu Meng, Zhaodan Kong, Xin Chen, Xin Liu(参考訳) 説明責任は機械学習においてますます重要な役割を果たす。 強化学習(RL)は、時間とともに状態と行動の間の相互作用を伴うため、RLポリシーを説明することは教師付き学習よりも難しい。 さらに、人間は因果レンズから世界を見るため、関連レンズよりも因果説明を好む。 そこで本稿では,行動における状態の因果的重要性と時間的重要性を定量化する因果的説明機構を開発する。 さらに, 農作物の灌水, ブラックジャック, 衝突回避, 月面着陸などのシミュレーション研究を通じて, RL政策の説明の観点から, 最先端の連成手法に対する我々のメカニズムの利点を実証した。

Explainability plays an increasingly important role in machine learning. Because reinforcement learning (RL) involves interactions between states and actions over time, explaining an RL policy is more challenging than that of supervised learning. Furthermore, humans view the world from causal lens and thus prefer causal explanations over associational ones. Therefore, in this paper, we develop a causal explanation mechanism that quantifies the causal importance of states on actions and such importance over time. Moreover, via a series of simulation studies including crop irrigation, Blackjack, collision avoidance, and lunar lander, we demonstrate the advantages of our mechanism over state-of-the-art associational methods in terms of RL policy explanation.
翻訳日:2022-10-26 13:36:53 公開日:2022-10-24
# MEET: バッファサンプリングのためのモンテカルロ探査-エクスプロイテーショントレードオフ

MEET: A Monte Carlo Exploration-Exploitation Trade-off for Buffer Sampling ( http://arxiv.org/abs/2210.13545v1 )

ライセンス: Link先を確認
Julius Ott, Lorenzo Servadei, Jose Arjona-Medina, Enrico Rinaldi, Gianfranco Mauro, Daniela S\'anchez Lopera, Michael Stephan, Thomas Stadelmayer, Avik Santra, Robert Wille(参考訳) データ選択は強化学習のようなあらゆるデータベースの最適化技術に不可欠である。 経験再生バッファのための最先端サンプリング戦略は強化学習エージェントの性能を向上させる。 しかし、Q値推定には不確実性は組み込まれていない。 したがって、移行の探索や搾取を含むサンプリング戦略をタスクの複雑さに適応させることはできない。 そこで本稿では,探索・爆発トレードオフを利用した新たなサンプリング戦略を提案する。 これは、サンプリングを導くq値関数の不確実性推定によって実現され、より重要な遷移を探索し、より効率的なポリシーを学ぶ。 古典的制御環境の実験は、様々な環境にまたがって安定した結果を示す。 提案手法は,集中的な報酬に対する最先端のサンプリング戦略を上回っており,平均で26%の収束率とピーク性能が得られた。

Data selection is essential for any data-based optimization technique, such as Reinforcement Learning. State-of-the-art sampling strategies for the experience replay buffer improve the performance of the Reinforcement Learning agent. However, they do not incorporate uncertainty in the Q-Value estimation. Consequently, they cannot adapt the sampling strategies, including exploration and exploitation of transitions, to the complexity of the task. To address this, this paper proposes a new sampling strategy that leverages the exploration-exploitation trade-off. This is enabled by the uncertainty estimation of the Q-Value function, which guides the sampling to explore more significant transitions and, thus, learn a more efficient policy. Experiments on classical control environments demonstrate stable results across various environments. They show that the proposed method outperforms state-of-the-art sampling strategies for dense rewards w.r.t. convergence and peak performance by 26% on average.
翻訳日:2022-10-26 13:36:39 公開日:2022-10-24
# 深層強化学習における線形領域の進化の理解

Understanding the Evolution of Linear Regions in Deep Reinforcement Learning ( http://arxiv.org/abs/2210.13611v1 )

ライセンス: Link先を確認
Setareh Cohen, Nam Hee Kim, David Rolnick, Michiel van de Panne(参考訳) 深い強化学習によって生み出される政策は、典型的には学習曲線によって特徴づけられるが、他の多くの点で理解されていない。 ReLUベースのポリシーは、入力空間を断片的に線形領域に分割する。 我々は、連続制御タスクとポリシーネットワークの次元にまたがる経験的結果を用いて、深層強化学習中に観測された領域数とその密度がどのように進化するかを理解しようとする。 直感的には、訓練中、政策が頻繁に訪れる地域において、地域密度が増加し、きめ細かい制御が可能となることを期待する。 近年,ニューラルネットワークによって誘導される線形領域に対して,教師付き学習環境における理論的および経験的結果を用いて,基礎化と比較を行った。 実験により,最終方針から得られる固定軌道に沿って測定すると,地域密度はトレーニングを通じて中程度に増大することがわかった。 しかし、軌跡自体も訓練中に長さが増加するため、現在の軌跡から見て地域密度は減少する。 以上の結果から,深層強化学習方針の複雑さは,政策の軌道上で観察される機能の複雑さが著しく増大することから生じるものではないことが示唆された。

Policies produced by deep reinforcement learning are typically characterised by their learning curves, but they remain poorly understood in many other respects. ReLU-based policies result in a partitioning of the input space into piecewise linear regions. We seek to understand how observed region counts and their densities evolve during deep reinforcement learning using empirical results that span a range of continuous control tasks and policy network dimensions. Intuitively, we may expect that during training, the region density increases in the areas that are frequently visited by the policy, thereby affording fine-grained control. We use recent theoretical and empirical results for the linear regions induced by neural networks in supervised learning settings for grounding and comparison of our results. Empirically, we find that the region density increases only moderately throughout training, as measured along fixed trajectories coming from the final policy. However, the trajectories themselves also increase in length during training, and thus the region densities decrease as seen from the perspective of the current trajectory. Our findings suggest that the complexity of deep reinforcement learning policies does not principally emerge from a significant growth in the complexity of functions observed on-and-around trajectories of the policy.
翻訳日:2022-10-26 13:36:25 公開日:2022-10-24
# 自然言語処理とリカレントニューラルネットワークを用いた新論文における誤情報の分類

Classification of Misinformation in New Articles using Natural Language Processing and a Recurrent Neural Network ( http://arxiv.org/abs/2210.13534v1 )

ライセンス: Link先を確認
Brendan Cunha and Lydia Manikonda(参考訳) 本稿では,Long Short Term Memory Recurrent Neural Networkを用いて,ニュース記事の誤情報分類について検討する。 2018年の記事は、ドナルド・トランプ米大統領、ロバート・ムラー特別検察官、fifaワールドカップ、ロシアについて書いた記者で埋め尽くされた。 提示されたモデルは、これらの項目を精度スコア0.779944で分類する。 これは、このモデルが英語以外の言語や不完全、あるいは断片化された記事を含む記事に基づいて訓練されたためであると考えている。

This paper seeks to address the classification of misinformation in news articles using a Long Short Term Memory Recurrent Neural Network. Articles were taken from 2018; a year that was filled with reporters writing about President Donald Trump, Special Counsel Robert Mueller, the Fifa World Cup, and Russia. The model presented successfully classifies these articles with an accuracy score of 0.779944. We consider this to be successful because the model was trained on articles that included languages other than English as well as incomplete, or fragmented, articles.
翻訳日:2022-10-26 13:29:13 公開日:2022-10-24
# LANS: 大規模アラビア語ニュース要約コーパス

LANS: Large-scale Arabic News Summarization Corpus ( http://arxiv.org/abs/2210.13600v1 )

ライセンス: Link先を確認
Abdulaziz Alhamadani, Xuchao Zhang, Jianfeng He, Chang-Tien Lu(参考訳) テキスト要約は多くの言語で研究され、いくつかの言語は先進的な段階に達した。 しかし、アラビア語のテキスト要約(ATS)はまだ発展段階にある。 既存のATSデータセットは小さいか多様性がないかのいずれかだ。 アラビア語のテキスト要約タスクのための大規模で多様なデータセットを構築します。 LANSは1999年から2019年にかけて、新聞のウェブサイトから抽出した840万記事と要約を提供している。 高品質で多彩な要約は、22のアラブの主要新聞のジャーナリストによって書かれており、それぞれのソースから少なくとも7つのトピックが混ざり合っている。 我々は,自動評価と人的評価の両方により,LANSの本質的な評価を行う。 1000個のランダムサンプルの人間による評価は、収集した要約の95.4%の精度を報告し、自動評価は要約の多様性と抽象性を定量化する。 データセットは要求に応じて公開されている。

Text summarization has been intensively studied in many languages, and some languages have reached advanced stages. Yet, Arabic Text Summarization (ATS) is still in its developing stages. Existing ATS datasets are either small or lack diversity. We build, LANS, a large-scale and diverse dataset for Arabic Text Summarization task. LANS offers 8.4 million articles and their summaries extracted from newspapers websites metadata between 1999 and 2019. The high-quality and diverse summaries are written by journalists from 22 major Arab newspapers, and include an eclectic mix of at least more than 7 topics from each source. We conduct an intrinsic evaluation on LANS by both automatic and human evaluations. Human evaluation of 1000 random samples reports 95.4% accuracy for our collected summaries, and automatic evaluation quantifies the diversity and abstractness of the summaries. The dataset is publicly available upon request.
翻訳日:2022-10-26 13:29:05 公開日:2022-10-24
# VLC-BERT: 文脈的コモンセンス知識を用いた視覚的質問応答

VLC-BERT: Visual Question Answering with Contextualized Commonsense Knowledge ( http://arxiv.org/abs/2210.13626v1 )

ライセンス: Link先を確認
Sahithya Ravi, Aditya Chinchure, Leonid Sigal, Renjie Liao, Vered Shwartz(参考訳) VQA(Visual Question Answering)タスクの解決への関心が高まっている。 本研究では,常識的推論を必要とする質問に焦点をあてる。 静的知識ベースから知識を注入する従来の手法とは対照的に,人間による知識ベースで学習された既存の知識モデルであるcommonsense transformer (comet) を用いた文脈的知識の組み込みについて検討する。 本稿では,視覚とテキストを併用した視覚・言語・コモンセンス変換モデル VLC-BERT の作成,選択,符号化を行う手法を提案する。 知識集約型OK-VQAおよびA-OKVQAデータセットの評価を通じて,VLC-BERTが静的知識ベースを利用した既存モデルより優れていることを示す。 さらに,comet のコンテキスト化されたコモンセンス知識から,どの質問が有益か,どちらが有益かを説明する。

There has been a growing interest in solving Visual Question Answering (VQA) tasks that require the model to reason beyond the content present in the image. In this work, we focus on questions that require commonsense reasoning. In contrast to previous methods which inject knowledge from static knowledge bases, we investigate the incorporation of contextualized knowledge using Commonsense Transformer (COMET), an existing knowledge model trained on human-curated knowledge bases. We propose a method to generate, select, and encode external commonsense knowledge alongside visual and textual cues in a new pre-trained Vision-Language-Commonsense transformer model, VLC-BERT. Through our evaluation on the knowledge-intensive OK-VQA and A-OKVQA datasets, we show that VLC-BERT is capable of outperforming existing models that utilize static knowledge bases. Furthermore, through a detailed analysis, we explain which questions benefit, and which don't, from contextualized commonsense knowledge from COMET.
翻訳日:2022-10-26 13:20:36 公開日:2022-10-24
# 燃焼深度評価のための人中心XAI

Human-centered XAI for Burn Depth Characterization ( http://arxiv.org/abs/2210.13535v1 )

ライセンス: Link先を確認
Maxwell J. Jacobson, Daniela Chanci Arrubla, Maria Romeo Tricas, Gayle Gordillo, Yexiang Xue, Chandan Sen, Juan Wachs(参考訳) 米国では毎年約1億2500万人が火傷の治療を受けている。 正確な焼傷分類は、医療AI分野における重要な側面である。 本研究では,火傷超音波分類モデルを改善するためのヒューマン・イン・ザ・ループフレームワークを提案する。 このフレームワークは、lime分類説明器に基づく説明システムを利用して、バーンエキスパートの知識をコラボレートし、統合する -- 新機能の提案とモデルの妥当性の保証を行う。 この枠組みを用いることで,Bモード超音波分類器の音質特性を向上できることがわかった。 具体的には, 超音波フレームのGray Level Co-occurance Matrix (GLCM) に基づくテクスチャ特性が, 燃焼深度分類器の伝達精度を向上させることを確認する。 私たちは豚の被験者の実際のデータで仮説を検証します。 フレームワークに従って修正すると、バーン深さ分類の精度が88%から94%に向上しました。

Approximately 1.25 million people in the United States are treated each year for burn injuries. Precise burn injury classification is an important aspect of the medical AI field. In this work, we propose an explainable human-in-the-loop framework for improving burn ultrasound classification models. Our framework leverages an explanation system based on the LIME classification explainer to corroborate and integrate a burn expert's knowledge -- suggesting new features and ensuring the validity of the model. Using this framework, we discover that B-mode ultrasound classifiers can be enhanced by supplying textural features. More specifically, we confirm that texture features based on the Gray Level Co-occurance Matrix (GLCM) of ultrasound frames can increase the accuracy of transfer learned burn depth classifiers. We test our hypothesis on real data from porcine subjects. We show improvements in the accuracy of burn depth classification -- from ~88% to ~94% -- once modified according to our framework.
翻訳日:2022-10-26 13:20:19 公開日:2022-10-24
# von Mises-Fisher混合モデルを用いた顔認識における性バイアスの緩和

Mitigating Gender Bias in Face Recognition Using the von Mises-Fisher Mixture Model ( http://arxiv.org/abs/2210.13664v1 )

ライセンス: Link先を確認
Jean-R\'emy Conti, Nathan Noiry, Vincent Despiegel, St\'ephane Gentric, St\'ephan Cl\'emen\c{c}on(参考訳) 深層学習アルゴリズムの幅広い日常的応用における高い性能と信頼性にもかかわらず、多くの研究は、多くのモデルが偏りを示し、人口の特定のサブグループ(例えば、性別、民族性)と区別していることを示している。 これにより、センシティブなグループ間で均一で比較可能なパフォーマンスを持つ公平なシステムを開発することが求められます。 本研究では,深部顔認識ネットワークの性別バイアスについて検討する。 このバイアスを測定するために、顔認識システム固有のデプロイメントニーズを反映した、$\mathrm{BFAR}$と$\mathrm{BFRR}$という2つの新しいメトリクスを導入します。 幾何学的考察により、私たちは、事前学習されたモデルの深い埋め込みを変換し、識別されたサブグループにより表現力を与える新しい後処理手法により、性別バイアスを軽減する。 浅層ニューラルネットワークを訓練し、fair von mises-fisherの損失を最小化し、そのハイパーパラメータがそれぞれの性別のクラス内分散を規定する。 興味深いことに、これらのハイパーパラメータは我々のフェアネス指標と相関している。 実際、様々なデータセットに対する広範囲な数値実験は、慎重に選択することで男女のバイアスが著しく減少することを示している。

In spite of the high performance and reliability of deep learning algorithms in a wide range of everyday applications, many investigations tend to show that a lot of models exhibit biases, discriminating against specific subgroups of the population (e.g. gender, ethnicity). This urges the practitioner to develop fair systems with a uniform/comparable performance across sensitive groups. In this work, we investigate the gender bias of deep Face Recognition networks. In order to measure this bias, we introduce two new metrics, $\mathrm{BFAR}$ and $\mathrm{BFRR}$, that better reflect the inherent deployment needs of Face Recognition systems. Motivated by geometric considerations, we mitigate gender bias through a new post-processing methodology which transforms the deep embeddings of a pre-trained model to give more representation power to discriminated subgroups. It consists in training a shallow neural network by minimizing a Fair von Mises-Fisher loss whose hyperparameters account for the intra-class variance of each gender. Interestingly, we empirically observe that these hyperparameters are correlated with our fairness metrics. In fact, extensive numerical experiments on a variety of datasets show that a careful selection significantly reduces gender bias.
翻訳日:2022-10-26 13:20:06 公開日:2022-10-24
# マルチラベル学習による食品成分認識

Food Ingredients Recognition through Multi-label Learning ( http://arxiv.org/abs/2210.14147v1 )

ライセンス: Link先を確認
Rameez Ismail, Zhaorui Yuan(参考訳) ダイエット自動評価システムにおいて, 食材中のさまざまな食材を識別する能力は重要な決定要因である。 本研究は,食事の自動評価の必要性を動機付け,これを実現するための枠組みを提案する。 本フレームワークでは,各種成分を視覚的に認識する機能のひとつに焦点をあてる。 この目的のために,我々は深層マルチラベル学習手法を採用し,料理画像中の任意の数の成分を検出する能力について,最先端ニューラルネットワークの評価を行った。 この研究で評価されたモデルは、エンコーダとデコーダコンポーネントからなる一定のメタ構造に従う。 グローバル平均プーリングと注意機構に基づく2つの異なる復号方式を評価し,ベンチマークを行った。 エンコーディングに関しては、DenseNet、EfficientNet、MobileNet、Inception、Xceptionといった有名なアーキテクチャが採用されている。 本稿では,難解なデータセットである nutrition5k を用いて,深層学習に基づく成分検出のための予備的な結果を示し,今後の探索のための強固なベースラインを確立する。

The ability to recognize various food-items in a generic food plate is a key determinant for an automated diet assessment system. This study motivates the need for automated diet assessment and proposes a framework to achieve this. Within this framework, we focus on one of the core functionalities to visually recognize various ingredients. To this end, we employed a deep multi-label learning approach and evaluated several state-of-the-art neural networks for their ability to detect an arbitrary number of ingredients in a dish image. The models evaluated in this work follow a definite meta-structure, consisting of an encoder and a decoder component. Two distinct decoding schemes, one based on global average pooling and the other on attention mechanism, are evaluated and benchmarked. Whereas for encoding, several well-known architectures, including DenseNet, EfficientNet, MobileNet, Inception and Xception, were employed. We present promising preliminary results for deep learning-based ingredients detection, using a challenging dataset, Nutrition5K, and establish a strong baseline for future explorations.
翻訳日:2022-10-26 13:11:59 公開日:2022-10-24
# 認知科学における計算推論:操作,社会,倫理的考察

Computational Inference in Cognitive Science: Operational, Societal and Ethical Considerations ( http://arxiv.org/abs/2210.13526v1 )

ライセンス: Link先を確認
Baihan Lin(参考訳) 新たな研究のフロンティアと計算の進歩は、徐々に認知科学を多分野とデータ駆動の分野へと変化させてきた。 その結果、異なる学術レンズと異なる抽象レベルにおいて、様々な認知理論が研究され、解釈されるようになっている。 本稿では,この課題の応用的側面を計算認知推論として定式化し,計算手法の主要な経路について述べる。 認知科学におけるデータ駆動時代の速度とスケールのバランスをとるために,この傾向を,認知科学における計算推論による研究の実施と結果の解釈において,運用上の課題や社会的影響,倫理的ガイドラインを特定することによって,より実証的な観点から検証することを提案する。

Emerging research frontiers and computational advances have gradually transformed cognitive science into a multidisciplinary and data-driven field. As a result, there is a proliferation of cognitive theories investigated and interpreted from different academic lens and in different levels of abstraction. We formulate this applied aspect of this challenge as the computational cognitive inference, and describe the major routes of computational approaches. To balance the potential optimism alongside the speed and scale of the data-driven era of cognitive science, we propose to inspect this trend in more empirical terms by identifying the operational challenges, societal impacts and ethical guidelines in conducting research and interpreting results from the computational inference in cognitive science.
翻訳日:2022-10-26 13:11:00 公開日:2022-10-24
# 自己帰属化は純粋相関にロバスト性を改善するか?

Does Self-Rationalization Improve Robustness to Spurious Correlations? ( http://arxiv.org/abs/2210.13575v1 )

ライセンス: Link先を確認
Alexis Ross, Matthew E. Peters, Ana Marasovi\'c(参考訳) 合理化は人間の推論と学習の基本である。 自己有理化モデル(Self-rationalization model)と呼ばれる予測とともに有理性を生成するために訓練されたNLPモデルは、エンドユーザーへの解釈性と有用性について研究されている。 しかし、人文的合理化による学習が学習を助長する程度は未解明のままである。 自己合理化のためのトレーニングモデルが、正しい理由でタスクを解決するための学習に役立つかどうかを問う。 具体的には,6種類の大きさの微調整エンコーダ・デコーダモデルとデコーダのみモデルにおいて,自由文理論を用いた自己有理化モデルの学習がロバスト性にどのように影響するかを評価する。 性能測定による突発的相関に対するロバスト性の評価 1)手動で注釈付きチャレンジデータセットと 2) 突発的相関に依存して正しい回答を得られないような,元のテストセットのサブセット。 自己合理化は、低リソース設定のスプリアス相関に対するロバスト性を改善するが、高リソース設定ではロバスト性が損なわれる傾向がある。 さらに、これらの効果はモデルファミリーとサイズ、そして合理的な内容に依存する。 その結果,より信頼性の高いモデルを作成するために,自己合理化モデルのトレーニングを行う際に適切な注意が必要であることが示唆された。

Rationalization is fundamental to human reasoning and learning. NLP models trained to produce rationales along with predictions, called self-rationalization models, have been investigated for their interpretability and utility to end-users. However, the extent to which training with human-written rationales facilitates learning remains an under-explored question. We ask whether training models to self-rationalize can aid in their learning to solve tasks for the right reasons. Specifically, we evaluate how training self-rationalization models with free-text rationales affects robustness to spurious correlations in fine-tuned encoder-decoder and decoder-only models of six different sizes. We evaluate robustness to spurious correlations by measuring performance on 1) manually annotated challenge datasets and 2) subsets of original test sets where reliance on spurious correlations would fail to produce correct answers. We find that while self-rationalization can improve robustness to spurious correlations in low-resource settings, it tends to hurt robustness in higher-resource settings. Furthermore, these effects depend on model family and size, as well as on rationale content. Together, our results suggest that explainability can come at the cost of robustness; thus, appropriate care should be taken when training self-rationalizing models with the goal of creating more trustworthy models.
翻訳日:2022-10-26 13:10:25 公開日:2022-10-24
# 多言語知識とテキストのモデリング強化のためのアダプタ

Adapters for Enhanced Modeling of Multilingual Knowledge and Text ( http://arxiv.org/abs/2210.13617v1 )

ライセンス: Link先を確認
Yifan Hou, Wenxiang Jiao, Meizhen Liu, Zhaopeng Tu, Carl Allen, Mrinmaya Sachan(参考訳) 大きな言語モデルは、訓練された大きなテキストコーパスから事実を学ぶように見える。 このような事実は多くのパラメータに暗黙的にエンコードされるため、学習した知識の検証や操作が困難になる。 言語モデルは、最近MLLM(Multilingual Language Model)に拡張され、何百もの言語で知識を学ぶことができるようになった。 一方、知識グラフは事実を明示的な三重形式に含み、注意とコストのかかるキュレーションを必要とし、いくつかの高リソース言語でのみ利用可能であり、研究と応用を制限している。 これらの課題に対処するため,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,低リソース言語を含む多くの言語における言語および知識グラフタスクに取り組むことを提案する。 具体的には,言語間エンティティアライメントとMLKGからのファクトを多言語で実現する軽量なアダプタセットを提案する。 共通ベンチマークによる実験では、このような拡張はmllmとmlkgの両方に有益であり、(1)知識グラフ補完と、特に低リソース言語(知識グラフが使用できない言語)に対するエンティティアライメントに対する比較または改善、(2)多言語事実知識を必要とする言語理解タスクにおけるmllmの性能向上、そして、すべて他の汎用言語タスクのパフォーマンスを維持しながら達成されている。

Large language models appear to learn facts from the large text corpora they are trained on. Such facts are encoded implicitly within their many parameters, making it difficult to verify or manipulate what knowledge has been learned. Language models have recently been extended to multilingual language models (MLLMs), enabling knowledge to be learned across hundreds of languages. Meanwhile, knowledge graphs contain facts in an explicit triple format, which require careful and costly curation and are only available in a few high-resource languages, restricting their research and application. To address these issues, we propose to enhance MLLMs with knowledge from multilingual knowledge graphs (MLKGs) so as to tackle language and knowledge graph tasks across many languages, including low-resource ones. Specifically, we introduce a lightweight adapter set to enhance MLLMs with cross-lingual entity alignment and facts from MLKGs for many languages. Experiments on common benchmarks show that such enhancement benefits both MLLMs and MLKGs, achieving: (1) comparable or improved performance for knowledge graph completion and entity alignment relative to baselines, especially for low-resource languages (for which knowledge graphs are unavailable); and (2) improved MLLM performance on language understanding tasks that require multilingual factual knowledge; all while maintaining performance on other general language tasks.
翻訳日:2022-10-26 13:10:02 公開日:2022-10-24
# 最悪の場合最適化のためのシャープネス認識最小化

Sharpness-aware Minimization for Worst Case Optimization ( http://arxiv.org/abs/2210.13533v1 )

ライセンス: Link先を確認
Taero Kim, Sungjun Lim, Kyungwoo Song(参考訳) 最悪のグループパフォーマンスの改善と一般化は、現在の機械学習の中核的な問題である。 重量規範のペナルティやデータ拡張など、パフォーマンス向上のためのさまざまな取り組みがあるが、改善は限られている。 近年,最悪のグループ性能と一般化性能をそれぞれ向上させる,有望なアプローチが2つある。 分散ロバスト最適化(DRO)は、最悪のグループまたは最も難しいグループに焦点を当て、最悪のグループのパフォーマンスを改善する。 さらに、シャープネス・アウェア・ミニミゼーション(sam: sharpness-aware minimization)は、見えないデータセットの一般化能力を高めるためにフラットミニマ(flat minima)を見つける。 最悪のグループデータセットと未発見のデータセットでは、パフォーマンスが大幅に向上している。 しかし、DROは平坦さを保証せず、SAMはグループパフォーマンスの最悪の改善を保証していない。 言い換えれば、DROとSAMはトレーニングとテストデータセットのシフトが発生すると、最悪のグループパフォーマンスを向上できない可能性がある。 本研究では,spikeness-aware group distributionally robust optimization (sgdro) という新しい手法を提案する。 SGDROは、最悪のグループデータセットでよく一般化されるフラットミニマを見つける。 DRO や SAM とは異なり、SGDRO は分布シフトさえも一般化能力の向上に寄与する。 その結果,SGDROは最大固有値が小さく,最悪のグループでは性能が向上した。

Improvement of worst group performance and generalization performance are core problems of current machine learning. There are diverse efforts to increase performance, such as weight norm penalty and data augmentation, but the improvements are limited. Recently, there have been two promising approaches to increase the worst group performance and generalization performance, respectively. Distributionally robust optimization (DRO) focuses on the worst or hardest group to improve the worst-group performance. Besides, sharpness-aware minimization (SAM) finds the flat minima to increase the generalization ability on an unseen dataset. They show significant performance improvements on the worst-group dataset and unseen dataset, respectively. However, DRO does not guarantee flatness, and SAM does not guarantee the worst group performance improvement. In other words, DRO and SAM may fail to increase the worst group performance when the training and test dataset shift occurs. In this study, we propose a new approach, the sharpness-aware group distributionally robust optimization (SGDRO). SGDRO finds the flat-minima that generalizes well on the worst group dataset. Different from DRO and SAM, SGDRO contributes to improving the generalization ability even the distribution shift occurs. We validate that SGDRO shows the smaller maximum eigenvalue and improved performance in the worst group.
翻訳日:2022-10-26 13:03:42 公開日:2022-10-24
# 深層学習ダイナミクスのプローブとしてのノイズインジェクション

Noise Injection as a Probe of Deep Learning Dynamics ( http://arxiv.org/abs/2210.13599v1 )

ライセンス: Link先を確認
Noam Levi, Itay Bloch, Marat Freytsis, Tomer Volansky(参考訳) 本研究では,ノイズ注入ノード(NIN)を用いたシステム摂動により,ディープニューラルネットワーク(DNN)の学習メカニズムを探索する手法を提案する。 これらのノードは、最適化アルゴリズムを変更することなく、既存のフィードフォワードネットワークアーキテクチャに追加の最適化可能な重みによる非相関ノイズを注入する。 このシステムは,音の音量によって予測される訓練中に異なる位相を呈することがわかった。 まず,ネットワークのダイナミクスを表す表現を導出し,テストケースとして単純な線形モデルを用いる。 ノイズノードの進化は乱れのない損失と類似している場合もあり,NINを用いて将来,システム全体についてより深く学ぶことが可能であることが示唆される。

We propose a new method to probe the learning mechanism of Deep Neural Networks (DNN) by perturbing the system using Noise Injection Nodes (NINs). These nodes inject uncorrelated noise via additional optimizable weights to existing feed-forward network architectures, without changing the optimization algorithm. We find that the system displays distinct phases during training, dictated by the scale of injected noise. We first derive expressions for the dynamics of the network and utilize a simple linear model as a test case. We find that in some cases, the evolution of the noise nodes is similar to that of the unperturbed loss, thus indicating the possibility of using NINs to learn more about the full system in the future.
翻訳日:2022-10-26 13:03:24 公開日:2022-10-24
# 重み付けネットワーク

Weight Fixing Networks ( http://arxiv.org/abs/2210.13554v1 )

ライセンス: Link先を確認
Christopher Subia-Waud and Srinandan Dasmahapatra(参考訳) 現代のディープラーニングモデルの反復には、bビット数で表されるユニークなパラメータが数百万(ビリオン)含まれている。 ニューラルネットワークを圧縮する一般的な試み(プルーニングや量子化など)は、多くのパラメータが過剰であり、性能を妨げることなく、除去(プルーニング)またはbビット未満(量子化)で表現できることを示した。 ここでは、ネットワークの情報コンテンツの最小化にさらに力を入れたい。 チャネルや層単位の符号化よりも、ネットワーク内のユニークなパラメータのエントロピーと数を最小化するために、損失のないネットワーク全体の量子化に注目します。 提案手法は重み付けネットワーク(wfn)と呼ばれ、4つのモデル結果を実現するために設計する。 i) 独特な重みはほとんどない。 二 低エントロピー重量符号化 三 ハードウェア乗算の省エネ版に対応可能なユニークな重量値 iv) 損失のないタスクパフォーマンス。 これらの目標のいくつかは矛盾している。 これらの対立を最大限にバランスさせるために、私たちはいくつかの新しい(そして、よく訓練された)トリックを組み合わせます。 二 相対的距離変化としてのクラスタリングコストの考え方(i,ii) 四)および重みの網目再使用(i,i)に焦点を当てる。 iii)。 imagenet実験では,soma量子化法よりも56倍少ない固有重みと1.9倍低い重み空間エントロピーでロスレス圧縮を実証した。

Modern iterations of deep learning models contain millions (billions) of unique parameters, each represented by a b-bit number. Popular attempts at compressing neural networks (such as pruning and quantisation) have shown that many of the parameters are superfluous, which we can remove (pruning) or express with less than b-bits (quantisation) without hindering performance. Here we look to go much further in minimising the information content of networks. Rather than a channel or layer-wise encoding, we look to lossless whole-network quantisation to minimise the entropy and number of unique parameters in a network. We propose a new method, which we call Weight Fixing Networks (WFN) that we design to realise four model outcome objectives: i) very few unique weights, ii) low-entropy weight encodings, iii) unique weight values which are amenable to energy-saving versions of hardware multiplication, and iv) lossless task-performance. Some of these goals are conflicting. To best balance these conflicts, we combine a few novel (and some well-trodden) tricks; a novel regularisation term, (i, ii) a view of clustering cost as relative distance change (i, ii, iv), and a focus on whole-network re-use of weights (i, iii). Our Imagenet experiments demonstrate lossless compression using 56x fewer unique weights and a 1.9x lower weight-space entropy than SOTA quantisation approaches.
翻訳日:2022-10-26 13:00:28 公開日:2022-10-24
# midpoint mixupによるマルチビューデータの多様な特徴の学習

Provably Learning Diverse Features in Multi-View Data with Midpoint Mixup ( http://arxiv.org/abs/2210.13512v1 )

ライセンス: Link先を確認
Muthu Chidambaram, Xiang Wang, Chenwei Wu, Rong Ge(参考訳) Mixupはデータポイントとラベルのランダムな凸組み合わせを使用したトレーニングに依存するデータ拡張技術である。 近年、ミックスアップは、一般化とロバスト性に関して経験的リスク最小化よりもメリットがあるため、最先端の画像分類モデルのトレーニングで使用される標準的なプリミティブとなっている。 本研究では、機能学習の観点から、この成功のいくつかを説明しようとしている。 我々は,各クラスがクラスを正確に予測できる複数の関連する特徴(あるいはビュー)を持つ可能性のある分類問題に注目する。 実験的リスク最小化を用いた2層畳み込みネットワークの学習は, クラス毎に2つの特徴を持つ非自明なデータ分布のクラスでは, ほぼすべてのクラスで1つの特徴しか学習できない一方で, Mixup の特定のインスタンス化による学習は各クラスで2つの特徴の学習に成功していることを示す。 また,これらの理論的知見が,さらなる合成機能を有するように修正された画像ベンチマークの実用的な設定にまで拡張できることを実証的に示す。

Mixup is a data augmentation technique that relies on training using random convex combinations of data points and their labels. In recent years, Mixup has become a standard primitive used in the training of state-of-the-art image classification models due to its demonstrated benefits over empirical risk minimization with regards to generalization and robustness. In this work, we try to explain some of this success from a feature learning perspective. We focus our attention on classification problems in which each class may have multiple associated features (or views) that can be used to predict the class correctly. Our main theoretical results demonstrate that, for a non-trivial class of data distributions with two features per class, training a 2-layer convolutional network using empirical risk minimization can lead to learning only one feature for almost all classes while training with a specific instantiation of Mixup succeeds in learning both features for every class. We also show empirically that these theoretical insights extend to the practical settings of image benchmarks modified to have additional synthetic features.
翻訳日:2022-10-26 12:53:41 公開日:2022-10-24
# 音声・言語処理のための強化学習と帯域:チュートリアル, レビュー, 展望

Reinforcement Learning and Bandits for Speech and Language Processing: Tutorial, Review and Outlook ( http://arxiv.org/abs/2210.13623v1 )

ライセンス: Link先を確認
Baihan Lin(参考訳) 近年、強化学習とバンディットは、医療、金融、レコメンデーションシステム、ロボティクス、そして最後には、スピーチと自然言語処理を含む、幅広い現実世界のアプリケーションを変えてきた。 強化学習アルゴリズムのほとんどの音声および言語応用は、その柔軟な最適化特性によってディープニューラルネットワークのトレーニングを改善することに集中しているが、報酬駆動適応性、状態表現、時間構造、一般化性など強化学習の利点を活用すべき多くの理由がある。 本稿では,近年の強化学習とバンディットの進歩について概説し,適応的,対話的,スケーラブルなモデルを用いて,音声および自然言語処理の問題を効果的に解く方法について論じる。

In recent years, reinforcement learning and bandits have transformed a wide range of real-world applications including healthcare, finance, recommendation systems, robotics, and last but not least, the speech and natural language processing. While most speech and language applications of reinforcement learning algorithms are centered around improving the training of deep neural networks with its flexible optimization properties, there are still many grounds to explore to utilize the benefits of reinforcement learning, such as its reward-driven adaptability, state representations, temporal structures and generalizability. In this survey, we present an overview of recent advancements of reinforcement learning and bandits, and discuss how they can be effectively employed to solve speech and natural language processing problems with models that are adaptive, interactive and scalable.
翻訳日:2022-10-26 12:52:33 公開日:2022-10-24
# 法的テキストにおける議論マイニングのための知的指導システムの提案

Toward an Intelligent Tutoring System for Argument Mining in Legal Texts ( http://arxiv.org/abs/2210.13635v1 )

ライセンス: Link先を確認
Hannes Westermann, Jaromir Savelka, Vern R. Walker, Kevin D. Ashley, Karim Benyekhlef(参考訳) 本稿では,機械学習(ML)能力とユーザの習熟度を慎重にマッチングする新しい認知コンピューティングフレームワークに基づいて,ケースロー解析(キー引数要素の同定)を支援する適応環境(CABINET)を提案する。 カビネットは、法律を学ぶ学生や仕事の専門職を支援している。 提案フレームワークの実現可能性に着目した実験の結果は有望である。 提案システムは,非常に低い偽陽性率 (2.0-3.5%) の分析における潜在的な誤差を同定でき,また,F1スコア (0.74) の高いキー引数要素タイプ (例えば,問題や保持) を予測可能であることを示す。

We propose an adaptive environment (CABINET) to support caselaw analysis (identifying key argument elements) based on a novel cognitive computing framework that carefully matches various machine learning (ML) capabilities to the proficiency of a user. CABINET supports law students in their learning as well as professionals in their work. The results of our experiments focused on the feasibility of the proposed framework are promising. We show that the system is capable of identifying a potential error in the analysis with very low false positives rate (2.0-3.5%), as well as of predicting the key argument element type (e.g., an issue or a holding) with a reasonably high F1-score (0.74).
翻訳日:2022-10-26 12:52:19 公開日:2022-10-24
# AfroLID: アフリカの言語のための言語識別ツール

AfroLID: A Neural Language Identification Tool for African Languages ( http://arxiv.org/abs/2210.11744v2 )

ライセンス: Link先を確認
Ife Adebara, AbdelRahim Elmadany, Muhammad Abdul-Mageed and Alcides Alcoba Inciarte(参考訳) 言語識別(LID)は、特にWebデータのマイニングにおいて、NLPにとって重要な前駆体である。 現在の世界の7000以上の言語のほとんどは、LID技術によってカバーされていない。 AfroLIDは517ドルのアフリカの言語と品種のためのニューラルネットワークLIDツールキットである。 AfroLIDは5つの正書法システムを利用して14の言語ファミリーから手作業でキュレートされたマルチドメインのWebデータセットを利用する。 ブラインドテストセットで評価すると、AfroLIDは95.89F_1スコアを達成する。 私たちはまた、AfroLIDを、アフリカの少数の言語をカバーする5つの既存のLIDツールと比較し、ほとんどの言語でそれらより優れています。 AfroLIDの実用性はさらに、高度にサービス不足のTwitterドメインでテストすることで明らかにします。 最後に、制御されたケーススタディを多数提供し、言語的に動機づけられたエラー分析を行い、AfroLIDの強力な能力と限界を実証します。

Language identification (LID) is a crucial precursor for NLP, especially for mining web data. Problematically, most of the world's 7000+ languages today are not covered by LID technologies. We address this pressing issue for Africa by introducing AfroLID, a neural LID toolkit for $517$ African languages and varieties. AfroLID exploits a multi-domain web dataset manually curated from across 14 language families utilizing five orthographic systems. When evaluated on our blind Test set, AfroLID achieves 95.89 F_1-score. We also compare AfroLID to five existing LID tools that each cover a small number of African languages, finding it to outperform them on most languages. We further show the utility of AfroLID in the wild by testing it on the acutely under-served Twitter domain. Finally, we offer a number of controlled case studies and perform a linguistically-motivated error analysis that allow us to both showcase AfroLID's powerful capabilities and limitations.
翻訳日:2022-10-26 10:32:39 公開日:2022-10-24
# おそらく2倍に加速するフェデレーションラーニング: ローカルトレーニングと圧縮コミュニケーションを組み合わせた理論上最初の成功例

Provably Doubly Accelerated Federated Learning: The First Theoretically Successful Combination of Local Training and Compressed Communication ( http://arxiv.org/abs/2210.13277v1 )

ライセンス: Link先を確認
Laurent Condat, Ivan Agarsky, Peter Richt\'arik(参考訳) フェデレーション学習の現代的パラダイムでは、多くのユーザが協力的な方法でグローバルな学習タスクに関与しています。 ローカル計算と遠隔オーケストレーションサーバとの双方向通信を交互に行う。 通信は遅くてコストがかかる可能性があるが、この設定の主なボトルネックは通信だ。 通信負荷を低減し、分散勾配降下を加速するために、2つの戦略が人気がある。 1) 通信頻度が低くなること,すなわち,通信ラウンド間の局所計算を複数回行うこと, 2) 全次元ベクトルの代わりに圧縮情報を伝達する。 本稿では,分散最適化とフェデレート学習のための最初のアルゴリズムを提案し,これら2つの戦略を協調的に活用し,2倍の高速化率で線形に収束させる。

In the modern paradigm of federated learning, a large number of users are involved in a global learning task, in a collaborative way. They alternate local computations and two-way communication with a distant orchestrating server. Communication, which can be slow and costly, is the main bottleneck in this setting. To reduce the communication load and therefore accelerate distributed gradient descent, two strategies are popular: 1) communicate less frequently; that is, perform several iterations of local computations between the communication rounds; and 2) communicate compressed information instead of full-dimensional vectors. In this paper, we propose the first algorithm for distributed optimization and federated learning, which harnesses these two strategies jointly and converges linearly to an exact solution, with a doubly accelerated rate: our algorithm benefits from the two acceleration mechanisms provided by local training and compression, namely a better dependency on the condition number of the functions and on the dimension of the model, respectively.
翻訳日:2022-10-25 22:20:08 公開日:2022-10-24
# 普遍因果深層学習モデルの設計:確率解析による無限次元力学系の場合

Designing Universal Causal Deep Learning Models: The Case of Infinite-Dimensional Dynamical Systems from Stochastic Analysis ( http://arxiv.org/abs/2210.13300v1 )

ライセンス: Link先を確認
Luca Galimberti, Giulia Livieri and Anastasis Kratsios(参考訳) ディープラーニング(dl)は現代の統計解析や金融に欠かせないものであるが、無限次元因果演算子を近似するための原理的dlフレームワークをどのように設計するかはまだ不明である。 本稿では,任意の無限次元線型距離空間を入力とし,これらの線形幾何に適応した普遍的な逐次 dl モデルを返す dl モデル設計フレームワークを導入することで,このオープン問題に対するジオメトリ・アウェア (geometry-aware) な解法を提案する。 我々の主な結果は、我々のフレームワークが生成したモデルは、与えられた線型距離空間間の列を因果的にマッピングする任意の有限時間地平線 H\"older あるいは滑らかなトレースクラス作用素上で、コンパクトな集合上で均一に近似できることを示している。 その結果,単一のCNOが解演算子を広い範囲のSDEに効率的に近似することができ,SDEモデルのファミリーからの予測を同時に近似できることがわかった。 我々は、CNOが解演算子をほとんどの確率的フィルタリング問題に近似できると推定し、一つのCNOが部分的に観測された確率的ボラティリティモデルの族を同時にフィルタできることを示唆する。

Deep learning (DL) is becoming indispensable to contemporary stochastic analysis and finance; nevertheless, it is still unclear how to design a principled DL framework for approximating infinite-dimensional causal operators. This paper proposes a "geometry-aware" solution to this open problem by introducing a DL model-design framework that takes a suitable infinite-dimensional linear metric spaces as inputs and returns a universal sequential DL models adapted to these linear geometries: we call these models Causal Neural Operators (CNO). Our main result states that the models produced by our framework can uniformly approximate on compact sets and across arbitrarily finite-time horizons H\"older or smooth trace class operators which causally map sequences between given linear metric spaces. Consequentially, we deduce that a single CNO can efficiently approximate the solution operator to a broad range of SDEs, thus allowing us to simultaneously approximate predictions from families of SDE models, which is vital to computational robust finance. We deduce that the CNO can approximate the solution operator to most stochastic filtering problems, implying that a single CNO can simultaneously filter a family of partially observed stochastic volatility models.
翻訳日:2022-10-25 22:19:53 公開日:2022-10-24
# 非有界サポートを持つ独立確率変数の学習と総和

Learning and Covering Sums of Independent Random Variables with Unbounded Support ( http://arxiv.org/abs/2210.13313v1 )

ライセンス: Link先を確認
Alkis Kalavasis, Konstantinos Stavropoulos, Manolis Zampetakis(参考訳) 独立整数値確率変数の和 $X = X_1 + \cdots + X_n$ を非有界あるいは無限なサポート付きでカバーし学習する問題について検討する。 de et al. は、focs 2018で、$x_i$'s の集団的サポートの最大値は、必ず $x$ の学習のサンプル複雑さに現れることを示した。 この作品では2つの疑問に答えます (i)$n$ とサポートの最大要素の両方に依存しないサンプル複雑性で学べる、無制限のサポートを持つsiirvの一般的なファミリーは存在するか? (ii)全変動距離において適切なスパースカバーを許容する非有界なサポートを持つsiirvの一般ファミリーは存在するか? 質問として i) 上述した下界をバイパスする複雑性$\text{poly}(1/\epsilon)$ で、非有界な SIIRV を学習できる一連の単純な条件を提供する。 我々はさらに疑問に答える (ii) 各変数 $x_i$ がユニモーダル確率質量関数を持ち、いくつかの構造的性質を満たす、おそらくは多パラメータの指数関数族 $\mathcal{e}$ の異なるメンバーである一般設定において。 これらの性質により、$\mathcal{E}$ は重い尾と非対数分布を含むことができる。 さらに、$\epsilon > 0$ および $k$-parameter family $\mathcal{E}$ がいくつかの構造的仮定を満たす場合、$\tilde{O}(k) \cdot \text{poly}(1/\epsilon)$ のサンプルを持つアルゴリズムが存在し、$\mathcal{E}$ の任意のメンバーの$n$の和をTV距離で学習する。 学習アルゴリズムの出力は、分布が $\mathcal{e}$ に属する確率変数の和でもある。 経路において、定数度中央モーメントが有界な任意の離散単項指数族は、初期(非有界)パラメータ空間の有界部分集合に対応する族によって近似できることを示す。

We study the problem of covering and learning sums $X = X_1 + \cdots + X_n$ of independent integer-valued random variables $X_i$ (SIIRVs) with unbounded, or even infinite, support. De et al. at FOCS 2018, showed that the maximum value of the collective support of $X_i$'s necessarily appears in the sample complexity of learning $X$. In this work, we address two questions: (i) Are there general families of SIIRVs with unbounded support that can be learned with sample complexity independent of both $n$ and the maximal element of the support? (ii) Are there general families of SIIRVs with unbounded support that admit proper sparse covers in total variation distance? As for question (i), we provide a set of simple conditions that allow the unbounded SIIRV to be learned with complexity $\text{poly}(1/\epsilon)$ bypassing the aforementioned lower bound. We further address question (ii) in the general setting where each variable $X_i$ has unimodal probability mass function and is a different member of some, possibly multi-parameter, exponential family $\mathcal{E}$ that satisfies some structural properties. These properties allow $\mathcal{E}$ to contain heavy tailed and non log-concave distributions. Moreover, we show that for every $\epsilon > 0$, and every $k$-parameter family $\mathcal{E}$ that satisfies some structural assumptions, there exists an algorithm with $\tilde{O}(k) \cdot \text{poly}(1/\epsilon)$ samples that learns a sum of $n$ arbitrary members of $\mathcal{E}$ within $\epsilon$ in TV distance. The output of the learning algorithm is also a sum of random variables whose distribution lies in the family $\mathcal{E}$. En route, we prove that any discrete unimodal exponential family with bounded constant-degree central moments can be approximated by the family corresponding to a bounded subset of the initial (unbounded) parameter space.
翻訳日:2022-10-25 22:19:29 公開日:2022-10-24
# 未知数の異常値によるマップリカバリのマッチング

Matching Map Recovery with an Unknown Number of Outliers ( http://arxiv.org/abs/2210.13354v1 )

ライセンス: Link先を確認
Arshak Minasyan, Tigran Galstyan, Sona Hunanyan, Arnak Dalalyan(参考訳) 我々は,2組の$d$次元雑音特徴ベクトル間のマッチング写像を求める問題を考察する。 私たちの設定の特徴的な特徴は、第1集合のすべてのベクトルが対応するベクトルを第2集合に持つと仮定しないことである。 もし$n$ と $m$ がこれらの2つの集合のサイズであれば、回復すべきマッチング写像は未知の濃度 $k^*\le \min(n,m)$ の部分集合上で定義されると仮定する。 高次元設定では、信号-雑音比が5(d\log(4nm/\alpha))^{1/4}$より大きい場合、真のマッチングマップは確率1-\alpha$で復元可能であることを示す。 興味深いことに、このしきい値は$k^*$に依存しず、$k = \min(n,m)$の場合の前の作業で得られたものと同じである。 上記の性質が証明された手順は、候補マッピング $\{\hat\pi_k:k\in[\min(n,m)]\}$ 間のデータ駆動選択によって得られる。 各$\hat\pi_k$ は、2つのサイズ $k$ の間の距離の平方和を最小化する。 結果の最適化問題は最小コストのフロー問題として定式化することができ、効率よく解ける。 最後に, 合成データと実世界データの両方における数値実験の結果について報告し, 本研究で研究したアルゴリズムの性質について考察する。

We consider the problem of finding the matching map between two sets of $d$-dimensional noisy feature-vectors. The distinctive feature of our setting is that we do not assume that all the vectors of the first set have their corresponding vector in the second set. If $n$ and $m$ are the sizes of these two sets, we assume that the matching map that should be recovered is defined on a subset of unknown cardinality $k^*\le \min(n,m)$. We show that, in the high-dimensional setting, if the signal-to-noise ratio is larger than $5(d\log(4nm/\alpha))^{1/4}$, then the true matching map can be recovered with probability $1-\alpha$. Interestingly, this threshold does not depend on $k^*$ and is the same as the one obtained in prior work in the case of $k = \min(n,m)$. The procedure for which the aforementioned property is proved is obtained by a data-driven selection among candidate mappings $\{\hat\pi_k:k\in[\min(n,m)]\}$. Each $\hat\pi_k$ minimizes the sum of squares of distances between two sets of size $k$. The resulting optimization problem can be formulated as a minimum-cost flow problem, and thus solved efficiently. Finally, we report the results of numerical experiments on both synthetic and real-world data that illustrate our theoretical results and provide further insight into the properties of the algorithms studied in this work.
翻訳日:2022-10-25 22:18:49 公開日:2022-10-24
# オフライン混雑ゲーム:フィードバックタイプがデータカバレッジ要求に与える影響

Offline congestion games: How feedback type affects data coverage requirement ( http://arxiv.org/abs/2210.13396v1 )

ライセンス: Link先を確認
Haozhe Jiang, Qiwen Cui, Zhihan Xiong, Maryam Fazel, Simon S. Du(参考訳) 本稿では,オフラインの混雑ゲームにおけるナッシュ均衡(ne)を効率的に回復できる場合について検討する。オフラインの汎用ゲームにおける既存のデータセットカバレッジの仮定は,混雑ゲームにおいて指数関数的に大きいアクション数に必然的に依存する。 情報量を減らすことで,3種類のフィードバックを考察する。 施設レベルのフィードバック(すなわち半帯域)から始めて、新しい一単位偏差被覆条件を提案し、近似neを回復できる悲観的型アルゴリズムを与える。 エージェントレベル(つまりbandit)のフィードバック設定では、興味深いことに、1単位の偏差カバレッジ条件が不十分である。 一方,ゲームをマルチエージェントリニアバンディットに変換し,オフラインリニアバンディットにおける一般的なデータカバレッジ仮定により,近似neを効率的に回収できることを示す。 最後に、新たなタイプのフィードバック、すなわち、すべてのエージェントからの全報酬のみを開示するゲームレベルのフィードバックについて検討する。 また,ゲームレベルのフィードバック設定ではエージェントレベルのフィードバック設定のカバレッジ設定が不十分であることを示すとともに,線形帯域に対するデータカバレッジ設定のより強力なバージョンにより,近似NEを復元できることを示す。 共に,オフラインの混雑ゲームに関する最初の研究であり,フィードバックの形式的分離を示唆する。

This paper investigates when one can efficiently recover an approximate Nash Equilibrium (NE) in offline congestion games.The existing dataset coverage assumption in offline general-sum games inevitably incurs a dependency on the number of actions, which can be exponentially large in congestion games. We consider three different types of feedback with decreasing revealed information. Starting from the facility-level (a.k.a., semi-bandit) feedback, we propose a novel one-unit deviation coverage condition and give a pessimism-type algorithm that can recover an approximate NE. For the agent-level (a.k.a., bandit) feedback setting, interestingly, we show the one-unit deviation coverage condition is not sufficient. On the other hand, we convert the game to multi-agent linear bandits and show that with a generalized data coverage assumption in offline linear bandits, we can efficiently recover the approximate NE. Lastly, we consider a novel type of feedback, the game-level feedback where only the total reward from all agents is revealed. Again, we show the coverage assumption for the agent-level feedback setting is insufficient in the game-level feedback setting, and with a stronger version of the data coverage assumption for linear bandits, we can recover an approximate NE. Together, our results constitute the first study of offline congestion games and imply formal separations between different types of feedback.
翻訳日:2022-10-25 22:18:24 公開日:2022-10-24
# 非構造化データ畳み込み用連続学習型フィルタ

A continuous trainable filter for convolution with unstructured data ( http://arxiv.org/abs/2210.13416v1 )

ライセンス: Link先を確認
Dario Coscia, Laura Meneghetti, Nicola Demo, Giovanni Stabile, Gianluigi Rozza(参考訳) 畳み込みニューラルネットワーク(CNN)はディープラーニングにおいて最も重要なアーキテクチャの一つである。 cnnの基本構成ブロックは、離散グリッドとして表現され、離散入力データで畳み込みを実行するために使用される訓練可能なフィルタである。 本研究では,非構造化データでも動作可能なトレーニング可能な畳み込みフィルタの連続バージョンを提案する。 この新しいフレームワークは、多くの複雑な問題に対するこの重要な学習テクニックの使用を拡大し、個別のドメインを越えてcnnを探索することを可能にする。 実験により,連続フィルタは最先端の離散フィルタに匹敵する精度を実現でき,非構造化領域の問題を解決するためのビルディングブロックとして,現在のディープラーニングアーキテクチャで使用できることを示した。

Convolutional Neural Network (CNN) is one of the most important architectures in deep learning. The fundamental building block of a CNN is a trainable filter, represented as a discrete grid, used to perform convolution on discrete input data. In this work, we propose a continuous version of a trainable convolutional filter able to work also with unstructured data. This new framework allows exploring CNNs beyond discrete domains, enlarging the usage of this important learning technique for many more complex problems. Our experiments show that the continuous filter can achieve a level of accuracy comparable to the state-of-the-art discrete filter, and that it can be used in current deep learning architectures as a building block to solve problems with unstructured domains as well.
翻訳日:2022-10-25 22:18:00 公開日:2022-10-24
# 物理形ニューラルネットワークのための新しい適応因果サンプリング法

A Novel Adaptive Causal Sampling Method for Physics-Informed Neural Networks ( http://arxiv.org/abs/2210.12914v1 )

ライセンス: Link先を確認
Jia Guo, Haifeng Wang, Chenping Hou(参考訳) 物理インフォームドニューラルネットワーク(PINN)は偏微分方程式(PDE)の解を得るための魅力的な機械学習手法である。 トレーニングPINNは、前向きの問題を解決するために初期値と境界点の正確な値しか取得できない半教師付き学習タスクと見なすことができ、時空間の座標点全体を正確なラベルなしでサンプリングすることで、トレーニングの困難をもたらす。 したがって,訓練ピンではコロケーションポイントの選択とサンプリング手法が極めて重要である。 既存のサンプリング手法には固定型と動的型が含まれており、後者ではサンプリングは通常PDE残留損失によって制御される。 適応サンプリングとサンプリングの残留損失を時間的因果性に従うだけでは十分ではないと指摘する。 さらに、適応サンプリングに時間因果性を導入し、新しい適応因果サンプリング法を提案し、PINNの性能と効率を改善する。 Cahn Hilliard 方程式や KdV 方程式など,高次微分と強い非線形性を持つ複数の PDE の数値実験により,提案手法はコロケーション点の少ない PINN の性能を向上させることができることを示した。 このような比較的単純なサンプリング手法を用いることで、特に点が制限された場合には、計算コストをほとんど必要とせず、最先端の結果と比較して予測性能を最大2桁改善できることを示す。

Physics-Informed Neural Networks (PINNs) have become a kind of attractive machine learning method for obtaining solutions of partial differential equations (PDEs). Training PINNs can be seen as a semi-supervised learning task, in which only exact values of initial and boundary points can be obtained in solving forward problems, and in the whole spatio-temporal domain collocation points are sampled without exact labels, which brings training difficulties. Thus the selection of collocation points and sampling methods are quite crucial in training PINNs. Existing sampling methods include fixed and dynamic types, and in the more popular latter one, sampling is usually controlled by PDE residual loss. We point out that it is not sufficient to only consider the residual loss in adaptive sampling and sampling should obey temporal causality. We further introduce temporal causality into adaptive sampling and propose a novel adaptive causal sampling method to improve the performance and efficiency of PINNs. Numerical experiments of several PDEs with high-order derivatives and strong nonlinearity, including Cahn Hilliard and KdV equations, show that the proposed sampling method can improve the performance of PINNs with few collocation points. We demonstrate that by utilizing such a relatively simple sampling method, prediction performance can be improved up to two orders of magnitude compared with state-of-the-art results with almost no extra computation cost, especially when points are limited.
翻訳日:2022-10-25 22:10:28 公開日:2022-10-24
# 完全畳み込みネットワークを用いた単一チャネル表面EMGのECGアーチファクト除去

ECG Artifact Removal from Single-Channel Surface EMG Using Fully Convolutional Networks ( http://arxiv.org/abs/2210.13271v1 )

ライセンス: Link先を確認
Kuan-Chen Wang, Kai-Chun Liu, Sheng-Yu Peng, Yu Tsao(参考訳) 心電図(ECG)アーティファクト汚染は、測定された筋肉が心臓に近接しているときに表面筋電図(sEMG)応用で発生することが多い。 従来, ハイパスフィルタ, テンプレートサブトラクションなど, 様々な手法が開発され, 提案されてきた。 しかし、これらの手法は、参照信号の要求と元のsEMGの歪みによって制限されている。 本研究では,完全畳み込みネットワーク(FCN)を用いた単一チャネルsEMG信号からECGアーチファクトを除去する新しいデノナイズ手法を提案する。 提案手法は,SEMG復調用ニューラルネットワークのデノイズ自己エンコーダ構造と強力な非線形マッピング機能を採用する。 非侵襲適応人工装具データベースとmit-bih正規正弦波リズムデータベースと呼ばれるオープンデータセット上で,提案手法をハイパスフィルタやテンプレート減算など従来の手法と比較した。 実験結果から, FCNは信号-雑音比の広い入力条件下で, sEMG再構成品質の従来の手法よりも優れていた。

Electrocardiogram (ECG) artifact contamination often occurs in surface electromyography (sEMG) applications when the measured muscles are in proximity to the heart. Previous studies have developed and proposed various methods, such as high-pass filtering, template subtraction and so forth. However, these methods remain limited by the requirement of reference signals and distortion of original sEMG. This study proposed a novel denoising method to eliminate ECG artifacts from the single-channel sEMG signals using fully convolutional networks (FCN). The proposed method adopts a denoise autoencoder structure and powerful nonlinear mapping capability of neural networks for sEMG denoising. We compared the proposed approach with conventional approaches, including high-pass filters and template subtraction, on open datasets called the Non-Invasive Adaptive Prosthetics database and MIT-BIH normal sinus rhythm database. The experimental results demonstrate that the FCN outperforms conventional methods in sEMG reconstruction quality under a wide range of signal-to-noise ratio inputs.
翻訳日:2022-10-25 21:55:47 公開日:2022-10-24
# NASA: ハードウェアにインスパイアされたハイブリッドネットワークのためのニューラルアーキテクチャ検索と高速化

NASA: Neural Architecture Search and Acceleration for Hardware Inspired Hybrid Networks ( http://arxiv.org/abs/2210.13361v1 )

ライセンス: Link先を確認
Huihong Shi, Haoran You, Yang Zhao, Zhongfeng Wang, and Yingyan Lin(参考訳) 乗算は、現代のディープニューラルネットワーク(DNN)において最もコストがかかる演算であり、達成可能な効率を制限し、リソース制約のあるアプリケーションへのより広範なデプロイを可能にする。 この制限に対処するために、先駆的な作業は、専門家の知識と時間を要する手作業によるイテレーションを必要とする、手作りの乗算不要のDNNを開発した。 この目的のために,NASA というニューラル・アーキテクチャ・サーチ・アクセラレーション・フレームワークを提案し,DNN の達成可能な効率を向上するために,自動乗算還元 DNN 開発を実現し,専用乗算還元加速器を統合する。 Specifically, NASA adopts neural architecture search (NAS) spaces that augment the state-of-the-art one with hardware-inspired multiplication-free operators, such as shift and adder, armed with a novel progressive pretrain strategy (PGP) together with customized training recipes to automatically search for optimal multiplication-reduced DNNs; On top of that, NASA further develops a dedicated accelerator, which advocates a chunk-based template and auto-mapper dedicated for NASA-NAS resulting DNNs to better leverage their algorithmic properties for boosting hardware efficiency. 実験結果とアブレーション研究は、達成可能な精度と効率のトレードオフの観点から、NASAのアルゴリズム・ハードウェアの共同設計フレームワークの利点を一貫して評価している。 コードはhttps://github.com/RICE-EIC/NASAで公開されている。

Multiplication is arguably the most cost-dominant operation in modern deep neural networks (DNNs), limiting their achievable efficiency and thus more extensive deployment in resource-constrained applications. To tackle this limitation, pioneering works have developed handcrafted multiplication-free DNNs, which require expert knowledge and time-consuming manual iteration, calling for fast development tools. To this end, we propose a Neural Architecture Search and Acceleration framework dubbed NASA, which enables automated multiplication-reduced DNN development and integrates a dedicated multiplication-reduced accelerator for boosting DNNs' achievable efficiency. Specifically, NASA adopts neural architecture search (NAS) spaces that augment the state-of-the-art one with hardware-inspired multiplication-free operators, such as shift and adder, armed with a novel progressive pretrain strategy (PGP) together with customized training recipes to automatically search for optimal multiplication-reduced DNNs; On top of that, NASA further develops a dedicated accelerator, which advocates a chunk-based template and auto-mapper dedicated for NASA-NAS resulting DNNs to better leverage their algorithmic properties for boosting hardware efficiency. Experimental results and ablation studies consistently validate the advantages of NASA's algorithm-hardware co-design framework in terms of achievable accuracy and efficiency tradeoffs. Codes are available at https://github.com/RICE-EIC/NASA.
翻訳日:2022-10-25 21:55:27 公開日:2022-10-24
# 精密機械学習

Precision Machine Learning ( http://arxiv.org/abs/2210.13447v1 )

ライセンス: Link先を確認
Eric J. Michaud, Ziming Liu, Max Tegmark(参考訳) 我々は、科学応用にしばしば必要とされるように、非常に高精度なデータにMLモデルを適用することに関わるユニークな考察を探求する。 様々な関数近似法を実験的に比較し,パラメータやデータの増加に伴う拡張性について検討した。 ニューラルネットワークは、モジュラー構造の自動発見と活用によって、高次元の例で古典的近似法を上回ることがしばしばある。 しかし、共通のオプティマイザで訓練されたニューラルネットワークは、低次元のケースでは強力ではないため、ニューラルネットワークの損失景観のユニークな特性と、高い精度で発生する最適化の課題を研究する動機となっている。 低次元の最適化問題に対処するために,数値精度で許容される限界に近い極めて低い損失でニューラルネットワークをトレーニングできるトレーニング手法を開発した。

We explore unique considerations involved in fitting ML models to data with very high precision, as is often required for science applications. We empirically compare various function approximation methods and study how they scale with increasing parameters and data. We find that neural networks can often outperform classical approximation methods on high-dimensional examples, by auto-discovering and exploiting modular structures therein. However, neural networks trained with common optimizers are less powerful for low-dimensional cases, which motivates us to study the unique properties of neural network loss landscapes and the corresponding optimization challenges that arise in the high precision regime. To address the optimization issue in low dimensions, we develop training tricks which enable us to train neural networks to extremely low loss, close to the limits allowed by numerical precision.
翻訳日:2022-10-25 21:55:04 公開日:2022-10-24
# 局所的に異なる私的メカニズムの収縮

Contraction of Locally Differentially Private Mechanisms ( http://arxiv.org/abs/2210.13386v1 )

ライセンス: Link先を確認
Shahab Asoodeh and Huanyu Zhang(参考訳) 局所微分プライベート機構の収縮特性について検討する。 具体的には、$PK$と$QK$の出力分布が$\epsilon$-LDPメカニズムの$K$のばらつきについて、対応する入力分布の$P$と$Q$のばらつきについて厳密な上限を導出する。 我々の最初の技術結果は、$\chi^2$-divergence $\chi^2(PK\|QK)$と$\epsilon$という条件でシャープな上限を示す。 また、KL偏差や正方形ヘルリンガー距離を含む大きな分岐族についても同様の結果が得られた。 第2の技術的結果は、合計変動距離$TV(P, Q)$と$\epsilon$の点で、$\chi^2(PK\|QK)$の上界を与える。 次に、これらの境界を利用して、最小推定リスクをバウンディングするための強力なツールであるCram\'er-Rao境界、Le Cam's、Assouad境界、および相互情報手法の局所的プライベートバージョンを確立する。 これらの結果は、エントロピーや離散分布推定、非パラメトリック密度推定、仮説テストといったいくつかの統計問題において、最先端技術よりも優れたプライバシー分析をもたらすことが示されている。

We investigate the contraction properties of locally differentially private mechanisms. More specifically, we derive tight upper bounds on the divergence between $PK$ and $QK$ output distributions of an $\epsilon$-LDP mechanism $K$ in terms of a divergence between the corresponding input distributions $P$ and $Q$, respectively. Our first main technical result presents a sharp upper bound on the $\chi^2$-divergence $\chi^2(PK\|QK)$ in terms of $\chi^2(P\|Q)$ and $\epsilon$. We also show that the same result holds for a large family of divergences, including KL-divergence and squared Hellinger distance. The second main technical result gives an upper bound on $\chi^2(PK\|QK)$ in terms of total variation distance $TV(P, Q)$ and $\epsilon$. We then utilize these bounds to establish locally private versions of the Cram\'er-Rao bound, Le Cam's, Assouad's, and the mutual information methods, which are powerful tools for bounding minimax estimation risks. These results are shown to lead to better privacy analyses than the state-of-the-arts in several statistical problems such as entropy and discrete distribution estimation, non-parametric density estimation, and hypothesis testing.
翻訳日:2022-10-25 21:54:04 公開日:2022-10-24
# 変圧器を用いた物理系の高精度余剰予測

Accurate Extrinsic Prediction of Physical Systems Using Transformers ( http://arxiv.org/abs/2210.11269v2 )

ライセンス: Link先を確認
Arnaud Pannatier, Kyle Matoba, Fran\c{c}ois Fleuret(参考訳) 航空管制には正確な高度風速予測が重要である。 そして、このタスクで利用可能な大量のデータによって、ディープニューラルネットワークベースのモデルが可能になる。 しかし、データは僅かに測定されるため、特別な方法が必要であり、主な航空機の軌道に沿って配置され、空間、すなわち主気道に沿って配置される。 いくつかのディープラーニングアプローチが提案されており、本研究では、トランスフォーマーがこのデータに効率よく適合し、コンテキスト集合からコヒーレントに外挿できることを示す。 そこで本論文では,トランスフォーマーと既存のディープラーニングベースラインとの広範な比較を行った。 高高度風速予測の他に、他の力学物理系、すなわち偏微分方程式、特にポアソン方程式とダーシー流方程式によってモデル化されたモデルの比較を行った。 これらの実験では、データが非正規に宇宙に配置されている場合、トランスフォーマーは他の全ての評価方法を上回る。 また、グリッド上にデータを配置するより標準的な設定で比較し、通常の間隔を必要としない場合でもトランスフォーマーが最先端の手法と競合することを示す。 さまざまな実験のコードとデータセットは、公開時に公開される予定だ。

Accurate high-altitude wind forecasting is important for air traffic control. And the large volume of data available for this task makes deep neural network-based models a possibility. However, special methods are required because the data is measured only sparsely: along the main aircraft trajectories and arranged sparsely in space, namely along the main air corridors. Several deep learning approaches have been proposed, and in this work, we show that Transformers can fit this data efficiently and are able to extrapolate coherently from a context set. We show this by an extensive comparison of Transformers to numerous existing deep learning-based baselines in the literature. Besides high-altitude wind forecasting, we compare competing models on other dynamical physical systems, namely those modelled by partial differential equations, in particular the Poisson equation and Darcy Flow equation. For these experiments, in the case where the data is arranged non-regularly in space, Transformers outperform all the other evaluated methods. We also compared them in a more standard setup where the data is arranged on a grid and show that the Transformers are competitive with state-of-the-art methods, even though it does not require regular spacing. The code and datasets of the different experiments will be made publicly available at publication time.
翻訳日:2022-10-25 21:53:36 公開日:2022-10-24
# 学術誌のCitation CountとCiteScoreの1年間の予測

Predicting the Citation Count and CiteScore of Journals One Year in Advance ( http://arxiv.org/abs/2210.12908v1 )

ライセンス: Link先を確認
William Croft, J\"org-R\"udiger Sack(参考訳) 学術雑誌の将来のパフォーマンスの予測は、編集スタッフ、発行者、索引サービス、研究者、大学管理者、認可機関を含む様々な利害関係者に利益をもたらすタスクである。 ジャーナルのパフォーマンスに関する履歴データを使用することで、機械学習回帰問題とみなすことができる。 本研究では,2つの回帰課題について考察する。 1)次年度にジャーナルが受け取る引用回数の予測 2) Elsevier CiteScoreの予測は、来年のカレンダーに割り当てられる。 これらの課題に対処するために、まず、スコパスで索引付けされたジャーナルの歴史的文献データデータセットを作成する。 本稿では,データセット上でトレーニングしたニューラルネットワークモデルを用いて,将来のジャーナルの性能を予測することを提案する。 この目的のために,多層パーセプトロンとLong Short-Term Memoryの機能選択とモデル構成を行う。 ヒューリスティックな予測ベースラインと古典的な機械学習モデルとの実験的比較により,提案モデルにおいて,将来の引用とCiteScore値の予測に優れた性能を示す。

Prediction of the future performance of academic journals is a task that can benefit a variety of stakeholders including editorial staff, publishers, indexing services, researchers, university administrators and granting agencies. Using historical data on journal performance, this can be framed as a machine learning regression problem. In this work, we study two such regression tasks: 1) prediction of the number of citations a journal will receive during the next calendar year, and 2) prediction of the Elsevier CiteScore a journal will be assigned for the next calendar year. To address these tasks, we first create a dataset of historical bibliometric data for journals indexed in Scopus. We propose the use of neural network models trained on our dataset to predict the future performance of journals. To this end, we perform feature selection and model configuration for a Multi-Layer Perceptron and a Long Short-Term Memory. Through experimental comparisons to heuristic prediction baselines and classical machine learning models, we demonstrate superior performance in our proposed models for the prediction of future citation and CiteScore values.
翻訳日:2022-10-25 21:47:00 公開日:2022-10-24
# 積み重ねオートエンコーダを用いたオーロラキロメトリー放射の周波数干渉除去

Removing Radio Frequency Interference from Auroral Kilometric Radiation with Stacked Autoencoders ( http://arxiv.org/abs/2210.12931v1 )

ライセンス: Link先を確認
Allen Chang, Mary Knapp, James LaBelle, John Swoboda, Ryan Volz, Philip J. Erickson(参考訳) 天文学における電波データにより、科学者は天体現象を解析できる。 しかし、これらのデータは、根底にある自然過程を観測する能力を制限する無線周波数干渉(RFI)源によって破壊される可能性がある。 本研究では,地球のオーロラ帯から放射されるコヒーレント放射であるオーロラ線放射(AKR)を含む時間周波数スペクトルからRFIを除去するための画像処理の最近の研究を拡張した。 南ポール駅で収集したAKRスペクトログラムを識別するために,合成スペクトログラムで訓練したオーロラ放射用デノナイジングオートエンコーダ(DAARE)を提案する。 DAAREは合成されたAKR観測で42.2のピーク信号-雑音比(PSNR)と0.981の構造的類似性(SSIM)を達成し、最先端のフィルタリングやデノイングネットワークと比較してPSNRを3.9倍、SSIMを0.064倍改善した。 質的な比較は、シミュレーションされたAKRのデータセットで完全にトレーニングされているにもかかわらず、DAAREが実際のAKR観測からRFIを効果的に除去する機能を示している。 AKRをシミュレートし、DAAREをトレーニングし、DAAREを使用するためのフレームワークはhttps://github.com/Cylumn/daare.comでアクセスできる。

Radio frequency data in astronomy enable scientists to analyze astrophysical phenomena. However, these data can be corrupted by a host of radio frequency interference (RFI) sources that limit the ability to observe underlying natural processes. In this study, we extended recent work in image processing to remove RFI from time-frequency spectrograms containing auroral kilometric radiation (AKR), a coherent radio emission originating from the Earth's auroral zones that is used to study astrophysical plasmas. We present a Denoising Autoencoder for Auroral Radio Emissions (DAARE) trained with synthetic spectrograms to denoise AKR spectrograms collected at the South Pole Station. DAARE achieved 42.2 peak-signal-to-noise ratio (PSNR) and 0.981 structural similarity (SSIM) on synthesized AKR observations, improving PSNR by 3.9 and SSIM by 0.064 compared to state-of-the-art filtering and denoising networks. Qualitative comparisons demonstrate DAARE's denoising capability to effectively remove RFI from real AKR observations, despite being trained completely on a dataset of simulated AKR. The framework for simulating AKR, training DAARE, and employing DAARE can be accessed at https://github.com/Cylumn/daare.
翻訳日:2022-10-25 21:46:42 公開日:2022-10-24
# セッションベースレコメンダシステムのためのグラフ上の異種情報交差

Heterogeneous Information Crossing on Graphs for Session-based Recommender Systems ( http://arxiv.org/abs/2210.12940v1 )

ライセンス: Link先を確認
Xiaolin Zheng, Rui Wu, Zhongxuan Han, Chaochao Chen, Linxun Chen, Bing Han(参考訳) リコメンダシステムは、ユーザの個性と潜在的なニーズを満たすコンテンツやアイテムを推薦する基本的な情報フィルタリング技術である。 ユーザ識別の難しさと履歴情報の有効性に対処する重要なソリューションとして,セッションベースの推薦システムは,現在のセッションにおけるユーザの行動のみに依存するレコメンデーションサービスを提供する。 しかし、既存の研究のほとんどは、異種ユーザの振る舞いをモデル化し、それらの関係を現実的なシナリオで捉えるために十分に設計されていない。 本稿では,このギャップを埋めるために,新しいグラフベースの手法,すなわちヘテロジニアス・インフォメーション・クロス・オン・グラフ(HICG)を提案する。 HICGはセッション内の複数の種類のユーザ行動を利用して不均一なグラフを構築し、不均一な情報を効果的に渡すことで、長期的嗜好によってユーザの現在の関心を捉える。 また,項目表現能力を高めるために,コントラスト学習(CL)技術を取り入れたHICG-CLという拡張版も提案する。 HICG-CLは,各セッション間の項目共起関係を利用して,HICGの推薦性能を向上させる。 3つの実世界のレコメンデーションデータセットについて広範な実験を行い,その検証を行った。 (i)HICGは異種グラフ上の複数種類の挙動を利用して最先端の性能を達成する。 (II)HICG-CLは、提案したコントラスト学習モジュールによるHICGの推奨性能をさらに向上させる。

Recommender systems are fundamental information filtering techniques to recommend content or items that meet users' personalities and potential needs. As a crucial solution to address the difficulty of user identification and unavailability of historical information, session-based recommender systems provide recommendation services that only rely on users' behaviors in the current session. However, most existing studies are not well-designed for modeling heterogeneous user behaviors and capturing the relationships between them in practical scenarios. To fill this gap, in this paper, we propose a novel graph-based method, namely Heterogeneous Information Crossing on Graphs (HICG). HICG utilizes multiple types of user behaviors in the sessions to construct heterogeneous graphs, and captures users' current interests with their long-term preferences by effectively crossing the heterogeneous information on the graphs. In addition, we also propose an enhanced version, named HICG-CL, which incorporates contrastive learning (CL) technique to enhance item representation ability. By utilizing the item co-occurrence relationships across different sessions, HICG-CL improves the recommendation performance of HICG. We conduct extensive experiments on three real-world recommendation datasets, and the results verify that (i) HICG achieves the state-of-the-art performance by utilizing multiple types of behaviors on the heterogeneous graph. (ii) HICG-CL further significantly improves the recommendation performance of HICG by the proposed contrastive learning module.
翻訳日:2022-10-25 21:46:16 公開日:2022-10-24
# 量子アニールを用いた学習因子化機械推薦システムの開発

Implementation of Trained Factorization Machine Recommendation System on Quantum Annealer ( http://arxiv.org/abs/2210.12953v1 )

ライセンス: Link先を確認
Chen-Yu Liu, Hsin-Yu Wang, Pei-Yen Liao, Ching-Jui Lai, Min-Hsiu Hsieh(参考訳) 因子化マシン(FM)は、サイド情報を組み込んで性能を向上させるため、推奨システムを構築するのに最もよく使われるモデルである。 しかし、訓練されたFMを持つユーザに対してアイテム提案を作成するのに時間を要する。 ランタイムは$O((N_m \log N_m)^2)$で、$N_m$はデータセットの項目数である。 この問題に対処するために、FMと組み合わせて量子アニーリング(QA)計算を適用する2次非制約バイナリ最適化(QUBO)方式を提案する。 従来の手法と比較して、このハイブリッドアルゴリズムは良いユーザ提案を見つけるのに2次的なスピードアップよりも高速である。 次に、D-Waveアニーラーの実例を実験することにより、現在のNISQハードウェア上での計算上の優位性を実証する。

Factorization Machine (FM) is the most commonly used model to build a recommendation system since it can incorporate side information to improve performance. However, producing item suggestions for a given user with a trained FM is time-consuming. It requires a run-time of $O((N_m \log N_m)^2)$, where $N_m$ is the number of items in the dataset. To address this problem, we propose a quadratic unconstrained binary optimization (QUBO) scheme to combine with FM and apply quantum annealing (QA) computation. Compared to classical methods, this hybrid algorithm provides a faster than quadratic speedup in finding good user suggestions. We then demonstrate the aforementioned computational advantage on current NISQ hardware by experimenting with a real example on a D-Wave annealer.
翻訳日:2022-10-25 21:45:50 公開日:2022-10-24
# ベイズ深層学習の最適化と刈り取りについて

On the optimization and pruning for Bayesian deep learning ( http://arxiv.org/abs/2210.12957v1 )

ライセンス: Link先を確認
Xiongwen Ke and Yanan Fan(参考訳) ベイズ深層学習の目的は、後方分布による不確実性定量化を提供することである。 しかし、ニューラルネットワークの超高次元のため、重み空間上の正確な推論は計算的に難解である。 変分推論(VI)は有望なアプローチであるが、重み空間への単純適用はうまくスケールせず、しばしば予測精度に劣る。 本稿では,予測精度の高い重み空間上でニューラルネットワークを学習するための適応型変分ベイズアルゴリズムを提案する。 予備条件行列を持つ確率勾配ハミルトンモンテカルロ(sghmc)の等価性を示すことによって、ニューラルネットワークのスパーシティを捉える前にスパイク・アンド・スラブを組み込んだemアルゴリズム内のmcmcを提案する。 EM-MCMCアルゴリズムにより,ワンショットで最適化とモデルプルーニングを行うことができる。 我々は、cifar-10、cifar-100、imagenetデータセットの手法を評価し、我々の密集したモデルが最先端の性能に到達できることを実証し、我々のスパースモデルは、以前提案していたプルーニング方式と比較して非常によく機能することを示した。

The goal of Bayesian deep learning is to provide uncertainty quantification via the posterior distribution. However, exact inference over the weight space is computationally intractable due to the ultra-high dimensions of the neural network. Variational inference (VI) is a promising approach, but naive application on weight space does not scale well and often underperform on predictive accuracy. In this paper, we propose a new adaptive variational Bayesian algorithm to train neural networks on weight space that achieves high predictive accuracy. By showing that there is an equivalence to Stochastic Gradient Hamiltonian Monte Carlo(SGHMC) with preconditioning matrix, we then propose an MCMC within EM algorithm, which incorporates the spike-and-slab prior to capture the sparsity of the neural network. The EM-MCMC algorithm allows us to perform optimization and model pruning within one-shot. We evaluate our methods on CIFAR-10, CIFAR-100 and ImageNet datasets, and demonstrate that our dense model can reach the state-of-the-art performance and our sparse model perform very well compared to previously proposed pruning schemes.
翻訳日:2022-10-25 21:45:37 公開日:2022-10-24
# 負荷・太陽光発電予測を用いた最適動作とバッテリースケジューリングアルゴリズム

Optimal activity and battery scheduling algorithm using load and solar generation forecasts ( http://arxiv.org/abs/2210.12990v1 )

ライセンス: Link先を確認
Yogesh Pipada Sunil Kumar, Rui Yuan, Nam Trong Dinh and S. Ali Pourmousavi(参考訳) エネルギー利用の最適スケジューリングは、様々な手法が提案されている電力システムコミュニティにおいて大きな注目を集めている。 しかし、現実のアプリケーションでは、最適なスケジューリング問題は信頼できるエネルギー予測を必要とするため、スケジューリング問題のジョイントソリューションとしてはほとんど議論されていない。 5\textsuperscript{th} IEEEComputational Intelligence Society (IEEE-CIS)コンペティションは、太陽エネルギーの発生と建設消費の予測が不可欠である建築活動のスケジューリングによる電力料金の削減という実践的な問題を提起した。 そこで,本稿では,太陽光発電の予測手法と大学講義スケジューリングアルゴリズムを提案するため,太陽光発電と需要予測と最適スケジューリング問題に取り組むための技術シーケンスを提案する。

Energy usage optimal scheduling has attracted great attention in the power system community, where various methodologies have been proposed. However, in real-world applications, the optimal scheduling problems require reliable energy forecasting, which is scarcely discussed as a joint solution to the scheduling problem. The 5\textsuperscript{th} IEEE Computational Intelligence Society (IEEE-CIS) competition raised a practical problem of decreasing the electricity bill by scheduling building activities, where forecasting the solar energy generation and building consumption is a necessity. To solve this problem, we propose a technical sequence for tackling the solar PV and demand forecast and optimal scheduling problems, where solar generation prediction methods and an optimal university lectures scheduling algorithm are proposed.
翻訳日:2022-10-25 21:45:16 公開日:2022-10-24
# アウト・オブ・ディストリビューション・シークエンシャル・イベント予測に向けて:因果的治療

Towards Out-of-Distribution Sequential Event Prediction: A Causal Treatment ( http://arxiv.org/abs/2210.13005v1 )

ライセンス: Link先を確認
Chenxiao Yang, Qitian Wu, Qingsong Wen, Zhiqiang Zhou, Liang Sun, Junchi Yan(参考訳) 逐次イベント予測の目標は, 逐次的レコメンデーション, ユーザ行動分析, 臨床治療への応用を含む, 過去の事象の系列に基づいて次の事象を推定することである。 実際には、次のイベント予測モデルは、一度に収集されたシーケンシャルなデータでトレーニングされ、トレーニングからテストへの時間的分散シフトを処理するモデルを必要とする、リモートで新たに到着したシーケンスに一般化する必要がある。 本稿では,まずデータ生成の観点から,過去事象と次の事象の共通原因である潜在コンテクストの共同設立者による分散シフトにおいて,最大確率推定による既存アプローチが失敗するという負の結果を明らかにする。 そして,バックドア調整に基づく新しい学習目標を考案し,さらに変分推論を活用し,シーケンス学習問題に適用可能とした。 さらに,コンテキスト固有の表現を学習するための階層的分岐構造を持つフレームワークを提案する。 多様なタスク(例えばシーケンシャルレコメンデーション)に関する総合的な実験は、様々なオフザシェルフモデルをバックボーンとして、我々の手法の有効性、適用性、拡張性を実証する。

The goal of sequential event prediction is to estimate the next event based on a sequence of historical events, with applications to sequential recommendation, user behavior analysis and clinical treatment. In practice, the next-event prediction models are trained with sequential data collected at one time and need to generalize to newly arrived sequences in remote future, which requires models to handle temporal distribution shift from training to testing. In this paper, we first take a data-generating perspective to reveal a negative result that existing approaches with maximum likelihood estimation would fail for distribution shift due to the latent context confounder, i.e., the common cause for the historical events and the next event. Then we devise a new learning objective based on backdoor adjustment and further harness variational inference to make it tractable for sequence learning problems. On top of that, we propose a framework with hierarchical branching structures for learning context-specific representations. Comprehensive experiments on diverse tasks (e.g., sequential recommendation) demonstrate the effectiveness, applicability and scalability of our method with various off-the-shelf models as backbones.
翻訳日:2022-10-25 21:45:00 公開日:2022-10-24
# occam学習

Occam learning ( http://arxiv.org/abs/2210.13179v1 )

ライセンス: Link先を確認
Rongrong Xie and Matteo Marsili(参考訳) 隠れ層の分布が固定された教師なし学習のための確率論的ニューラルネットワークモデルについて議論する。 このアーキテクチャで学習する機械には,多くの望ましい特性がある,と我々は主張する。 例えば、モデルは単純で解釈可能なものとして選択することができ、過剰なパラメータを持つ必要はなく、熱力学的な意味での効率的なトレーニングが主張されている。 隠れ単位がバイナリ変数である場合、これらのモデルは特徴の観点から自然な解釈を持つ。 特徴のない状態は特徴に関する最大無知の状態に対応し、最初の特徴の学習はデータの非ガウス統計特性に依存することを示した。 隠れた変数の分布は、最大関連性の原理に従って選択すべきである。 我々は,この原則を満たし,特徴空間の事前構造を符号化するモデルの一例として,階層的特徴モデルを紹介する。 大規模数値実験を順に提示する。 一 学習機械の内部表現が、実際に訓練されたデータから独立して行うことができることをテストすること。 ii)データセットを記述するのに必要な機能は有限個しかないこと。

We discuss probabilistic neural network models for unsupervised learning where the distribution of the hidden layer is fixed. We argue that learning machines with this architecture enjoy a number of desirable properties. For example, the model can be chosen as a simple and interpretable one, it does not need to be over-parametrised and training is argued to be efficient in a thermodynamic sense. When hidden units are binary variables, these models have a natural interpretation in terms of features. We show that the featureless state corresponds to a state of maximal ignorance about the features and that learning the first feature depends on non-Gaussian statistical properties of the data. We suggest that the distribution of hidden variables should be chosen according to the principle of maximal relevance. We introduce the Hierarchical Feature Model as an example of a model that satisfies this principle, and that encodes an a priori organisation of the feature space. We present extensive numerical experiments in order i) to test that the internal representation of learning machines can indeed be independent of the data with which they are trained and ii) that only a finite number of features are needed to describe a datasets.
翻訳日:2022-10-25 21:44:26 公開日:2022-10-24
# データのバイアス同定によるMLモデルフェアネスと性能の同時向上

Simultaneous Improvement of ML Model Fairness and Performance by Identifying Bias in Data ( http://arxiv.org/abs/2210.13182v1 )

ライセンス: Link先を確認
Bhushan Chaudhari, Akash Agarwal, Tanmoy Bhowmik(参考訳) さまざまな要因に起因する識別インスタンスを含むデータセット上に構築された機械学習モデルは、バイアスと不公平な結果をもたらす。 既存のバイアス軽減戦略が、公正性を確保するために正確さを犠牲にすることがよくあります。 しかし、aiエンジンの予測が、信用リスクモデリングのような収益や運用効率を反映した意思決定に使用される場合、正確性が合理的に保たれるならば、ビジネスにとって望ましいでしょう。 このAIの正確性と公正性を維持するという矛盾する要件は、我々の研究を動機付けている。 本稿では,現実パラダイムにおけるMLモデルの公平性と精度を同時に向上するための新しいアプローチを提案する。 私たちの研究の本質は、トレーニング前にデータセットから削除すべき特定の種類のバイアスを記述したインスタンスを検出できるデータ前処理技術です。 特に,類似した機能を持つインスタンスが存在するが,保護属性の変動に起因するラベルが異なる問題では,データセットに固有のバイアスが引き起こされ,新たなスキームを通じて識別・緩和できると主張している。 2つのオープンソースデータセットに対する実験的な評価は、提案手法が精度を劣化させるよりもバイアスを緩和し、エンドユーザーに一定の制御を提供することを実証している。

Machine learning models built on datasets containing discriminative instances attributed to various underlying factors result in biased and unfair outcomes. It's a well founded and intuitive fact that existing bias mitigation strategies often sacrifice accuracy in order to ensure fairness. But when AI engine's prediction is used for decision making which reflects on revenue or operational efficiency such as credit risk modelling, it would be desirable by the business if accuracy can be somehow reasonably preserved. This conflicting requirement of maintaining accuracy and fairness in AI motivates our research. In this paper, we propose a fresh approach for simultaneous improvement of fairness and accuracy of ML models within a realistic paradigm. The essence of our work is a data preprocessing technique that can detect instances ascribing a specific kind of bias that should be removed from the dataset before training and we further show that such instance removal will have no adverse impact on model accuracy. In particular, we claim that in the problem settings where instances exist with similar feature but different labels caused by variation in protected attributes , an inherent bias gets induced in the dataset, which can be identified and mitigated through our novel scheme. Our experimental evaluation on two open-source datasets demonstrates how the proposed method can mitigate bias along with improving rather than degrading accuracy, while offering certain set of control for end user.
翻訳日:2022-10-25 21:44:10 公開日:2022-10-24
# AACHER:Hindsight Experience Replayによるアクター批判的深層強化学習

AACHER: Assorted Actor-Critic Deep Reinforcement Learning with Hindsight Experience Replay ( http://arxiv.org/abs/2210.12892v1 )

ライセンス: Link先を確認
Adarsh Sehgal, Muskan Sehgal and Hung Manh La(参考訳) アクター学習と批判学習は、卓越した、主に使われているDeep Deterministic Policy Gradient(DDPG)強化学習法の2つの構成要素である。 アクターと批評家の学習はロボット全体の学習において重要な役割を果たすため、DDPGアプローチのパフォーマンスは比較的敏感で不安定である。 本稿では,DDPGの性能と安定性をさらに向上させるために,信頼性の高いアクター・クリティック学習のためのマルチアクタ・クリティックDDPGを提案する。 このマルチアクター批判型DDPGは、Hindsight Experience Replay(HER)と統合され、AACHERと呼ばれる新しいディープラーニングフレームワークを形成します。 AACHERは、複数の俳優や批評家の平均値を用いて、DDPGの1人の俳優や批評家に代えて、1人の俳優や批評家が不運な場合の抵抗を高める。 多くの独立系俳優や批評家は、環境からより広く知識を得ることができる。 提案したAACHERを,AuboReach,FetchReach-v1,FetchPush-v1,FetchSlide-v1,FetchPickAndPlace-v1という目標ベースの環境に実装した。 実験では,a10c10とa20c20が最適な組み合わせであるアクタ/クリティックの組み合わせを多用した。 その結果、AACHERは従来のアルゴリズム(DDPG+HER)よりも、評価に用いられるアクター/批評家の数字の組み合わせに優れていた。 FetchPickAndPlace-v1で使用する場合、A20C20のパフォーマンス向上率はDDPG+HERの約3.8倍である。

Actor learning and critic learning are two components of the outstanding and mostly used Deep Deterministic Policy Gradient (DDPG) reinforcement learning method. Since actor and critic learning plays a significant role in the overall robot's learning, the performance of the DDPG approach is relatively sensitive and unstable as a result. We propose a multi-actor-critic DDPG for reliable actor-critic learning to further enhance the performance and stability of DDPG. This multi-actor-critic DDPG is then integrated with Hindsight Experience Replay (HER) to form our new deep learning framework called AACHER. AACHER uses the average value of multiple actors or critics to substitute the single actor or critic in DDPG to increase resistance in the case when one actor or critic performs poorly. Numerous independent actors and critics can also gain knowledge from the environment more broadly. We implemented our proposed AACHER on goal-based environments: AuboReach, FetchReach-v1, FetchPush-v1, FetchSlide-v1, and FetchPickAndPlace-v1. For our experiments, we used various instances of actor/critic combinations, among which A10C10 and A20C20 were the best-performing combinations. Overall results show that AACHER outperforms the traditional algorithm (DDPG+HER) in all of the actor/critic number combinations that are used for evaluation. When used on FetchPickAndPlace-v1, the performance boost for A20C20 is as high as roughly 3.8 times the success rate in DDPG+HER.
翻訳日:2022-10-25 21:35:05 公開日:2022-10-24
# ディファレンシャル・プライバシ・レンズを用いた一般確率比テスト

Generalised Likelihood Ratio Testing Adversaries through the Differential Privacy Lens ( http://arxiv.org/abs/2210.13028v1 )

ライセンス: Link先を確認
Georgios Kaissis, Alexander Ziller, Stefan Kolek Martinez de Azagra, Daniel Rueckert(参考訳) 差別化プライバシ(DP)は最適な敵の能力に厳格な上限を与えるが、そのような敵が実際に遭遇することは稀である。 DPの仮説テスト/メンバーシップ推論の解釈では、ガウスのメカニズムを検証し、一般的なNPO(Neyman-Pearson-Optimal)とGLRT(Generalized Likelihood Test)の対立の仮定を緩和する。 この緩やかな緩和によりプライバシー保証が改善され、ガウシアンDPと$(\varepsilon, \delta)$-DPの精神を表現し、合成結果とサブサンプリング結果を含む。 実験結果を数値的に評価し,理論上界に合致する結果を得た。

Differential Privacy (DP) provides tight upper bounds on the capabilities of optimal adversaries, but such adversaries are rarely encountered in practice. Under the hypothesis testing/membership inference interpretation of DP, we examine the Gaussian mechanism and relax the usual assumption of a Neyman-Pearson-Optimal (NPO) adversary to a Generalized Likelihood Test (GLRT) adversary. This mild relaxation leads to improved privacy guarantees, which we express in the spirit of Gaussian DP and $(\varepsilon, \delta)$-DP, including composition and sub-sampling results. We evaluate our results numerically and find them to match the theoretical upper bounds.
翻訳日:2022-10-25 21:19:30 公開日:2022-10-24
# 自動運転はどれくらい悪いのか? 都市走行ゲームにおける平衡の非効率性

How Bad is Selfish Driving? Bounding the Inefficiency of Equilibria in Urban Driving Games ( http://arxiv.org/abs/2210.13064v1 )

ライセンス: Link先を確認
Alessandro Zanardi, Pier Giuseppe Sessa, Nando K\"aslin, Saverio Bolognani, Andrea Censi, Emilio Frazzoli(参考訳) 我々は,運転作業に携わるエージェント間のインタラクションを検討し,それを汎用ゲームとしてモデル化する。 このクラスのゲームは、平衡選択の問題を示す複数の異なる平衡を示す。 最も効率的な均衡(社会的コストの観点で)を選択することは、しばしば計算の観点からは非現実的であるが、この研究では、任意の均衡選手の効率性について研究する。 より具体的には、時空間資源上の特定の種類の混雑ゲームとして駆動ゲームをモデル化することで平衡非効率性に縛り付ける。 問題依存型ゲームパラメータの関数として,Price of Anarchy (PoA) の既存の境界を洗練できることを保証する。 例えば、近接コストと快適さや進歩といった個人的な目的との相対的なトレードオフ。 その結果, エージェントが分散型マルチエージェント強化学習を用いて訓練された閉ループポリシーを採用する場合においても, 効率の良い平衡性が得られることがわかった。

We consider the interaction among agents engaging in a driving task and we model it as general-sum game. This class of games exhibits a plurality of different equilibria posing the issue of equilibrium selection. While selecting the most efficient equilibrium (in term of social cost) is often impractical from a computational standpoint, in this work we study the (in)efficiency of any equilibrium players might agree to play. More specifically, we bound the equilibrium inefficiency by modeling driving games as particular type of congestion games over spatio-temporal resources. We obtain novel guarantees that refine existing bounds on the Price of Anarchy (PoA) as a function of problem-dependent game parameters. For instance, the relative trade-off between proximity costs and personal objectives such as comfort and progress. Although the obtained guarantees concern open-loop trajectories, we observe efficient equilibria even when agents employ closed-loop policies trained via decentralized multi-agent reinforcement learning.
翻訳日:2022-10-25 21:19:10 公開日:2022-10-24
# SLSアルゴリズムの長期実行の理解に向けて

Towards an Understanding of Long-Tailed Runtimes of SLS Algorithms ( http://arxiv.org/abs/2210.13159v1 )

ライセンス: Link先を確認
Jan-Hendrik Lorenz and Florian W\"orz(参考訳) 満足度問題はコンピュータ科学における最も有名な問題の1つである。 そのNP完全性は、SATは難解であると主張するのに使われている。 しかし、SATソルバが数百万の変数でインスタンスを解くことができるような大きな進歩があった。 特に成功したパラダイムは確率的局所探索である。 ほとんどの場合、基礎となる問題を定式化する方法は様々である。 これはソルバのランタイムに影響を与えることが知られているが、有用な定式化を見つけることは概して簡単ではない。 最近導入されたGapSATソルバ [Lorenz and W\"orz 2020] は、元の問題から論理的に関連する追加情報を学習することで、SLSソルバの性能を平均的に向上する方法を実証した。 しかし、パフォーマンスがわずかに悪化するケースもあった。 これは、論理的含意の学習がSLSのランタイムに与える影響について、詳細な調査を正当化する。 本稿では,論理的に等価な問題定式化を生成する手法を提案し,GapSATの考え方を一般化する。 これにより、slsソルバのランタイムに与える影響の厳密な数学的研究が可能になる。 修正過程がランダムに扱われる場合、ジョンソンsb分布は硬さの完全な特徴付けを提供する。 観測されたJohnson SB分布は対数正規分布に近づいたため、我々の分析は硬度が長いことも示唆している。 第2の貢献として、再起動が長期分布に有用であることを理論的に証明する。 このことは、追加の再起動が上記の修正技法を用いた全てのアルゴリズムをさらに洗練することを意味する。 実験的な研究は、ランタイム分布がJohnson SB分布に従うことを強く示唆するので、理論的にこの性質を調査する。 我々はSch\"oningのランダムウォークアルゴリズムのランタイムがおよそJohnson SBであることを証明することに成功している。

The satisfiability problem is one of the most famous problems in computer science. Its NP-completeness has been used to argue that SAT is intractable. However, there have been tremendous advances that allow SAT solvers to solve instances with millions of variables. A particularly successful paradigm is stochastic local search. In most cases, there are different ways of formulating the underlying problem. While it is known that this has an impact on the runtime of solvers, finding a helpful formulation is generally non-trivial. The recently introduced GapSAT solver [Lorenz and W\"orz 2020] demonstrated a successful way to improve the performance of an SLS solver on average by learning additional information which logically entails from the original problem. Still, there were cases in which the performance slightly deteriorated. This justifies in-depth investigations into how learning logical implications affects runtimes for SLS. In this work, we propose a method for generating logically equivalent problem formulations, generalizing the ideas of GapSAT. This allows a rigorous mathematical study of the effect on the runtime of SLS solvers. If the modification process is treated as random, Johnson SB distributions provide a perfect characterization of the hardness. Since the observed Johnson SB distributions approach lognormal distributions, our analysis also suggests that the hardness is long-tailed. As a second contribution, we theoretically prove that restarts are useful for long-tailed distributions. This implies that additional restarts can further refine all algorithms employing above mentioned modification technique. Since the empirical studies compellingly suggest that the runtime distributions follow Johnson SB distributions, we investigate this property theoretically. We succeed in proving that the runtimes for Sch\"oning's random walk algorithm are approximately Johnson SB.
翻訳日:2022-10-25 21:18:53 公開日:2022-10-24
# メタバースのための安全で信頼できる人工知能拡張現実感(AI-XR)

Secure and Trustworthy Artificial Intelligence-Extended Reality (AI-XR) for Metaverses ( http://arxiv.org/abs/2210.13289v1 )

ライセンス: Link先を確認
Adnan Qayyum, Muhammad Atif Butt, Hassan Ali, Muhammad Usman, Osama Halabi, Ala Al-Fuqaha, Qammer H. Abbasi, Muhammad Ali Imran, and Junaid Qadir(参考訳) メタバースは、次世代インターネットの新しいパラダイムとして登場し、完全没入的でパーソナライズされた体験を提供し、自己持続的で時空間的な仮想世界(s)におけるソーシャル化、作業、プレイを提供する。 拡張現実、仮想現実、拡張現実(XR)、人工知能(AI)、および5G/6G通信といったさまざまな技術の進歩が、AI-XRメタバースアプリケーションの実現の鍵となる。 AI自身は、前述の技術(アバター生成、ネットワーク最適化など)における多くの潜在的なアプリケーションを持っているが、AI-XRメタバースアプリケーションのような重要なアプリケーションにおけるAIのセキュリティは、ユーザのプライバシと安全性を損なうような望ましくない行為を避けるために極めて重要である。 この目的のために、AI-XRメタバースアプリケーションにおける各種AI技術の使用に伴う、セキュリティ、プライバシ、信頼性の側面を分析する。 具体的には、このような課題を数多く議論し、セキュアでプライベートで堅牢で信頼できるAI-XRアプリケーションを開発するために活用できる潜在的なソリューションの分類を提示します。 AI関連対人脅威の真の意味を明らかにするために、メタバース特異的ケーススタディを設計し、対人レンズを通して分析した。 最後に、コミュニティからのさらなる研究の関心を必要とする様々なオープンな問題について詳しく述べる。

Metaverse is expected to emerge as a new paradigm for the next-generation Internet, providing fully immersive and personalised experiences to socialize, work, and play in self-sustaining and hyper-spatio-temporal virtual world(s). The advancements in different technologies like augmented reality, virtual reality, extended reality (XR), artificial intelligence (AI), and 5G/6G communication will be the key enablers behind the realization of AI-XR metaverse applications. While AI itself has many potential applications in the aforementioned technologies (e.g., avatar generation, network optimization, etc.), ensuring the security of AI in critical applications like AI-XR metaverse applications is profoundly crucial to avoid undesirable actions that could undermine users' privacy and safety, consequently putting their lives in danger. To this end, we attempt to analyze the security, privacy, and trustworthiness aspects associated with the use of various AI techniques in AI-XR metaverse applications. Specifically, we discuss numerous such challenges and present a taxonomy of potential solutions that could be leveraged to develop secure, private, robust, and trustworthy AI-XR applications. To highlight the real implications of AI-associated adversarial threats, we designed a metaverse-specific case study and analyzed it through the adversarial lens. Finally, we elaborate upon various open issues that require further research interest from the community.
翻訳日:2022-10-25 21:18:29 公開日:2022-10-24
# 対話的推論:協調行動のマルチエージェントモデル

Interactive inference: a multi-agent model of cooperative joint actions ( http://arxiv.org/abs/2210.13113v1 )

ライセンス: Link先を確認
Domenico Maisto, Francesco Donnarumma, Giovanni Pezzulo(参考訳) 我々は,能動推論の認知的枠組みに根ざした,多エージェント協調行動の新しい計算モデルを構築した。 このモデルは、赤または青のボタンを2つ(またはそれ以上)のエージェントが結合したタスクを、対話的な推論のプロセスで解決する、と仮定している。 各エージェントは、共同作業の目的(例えば、赤または青のボタンを押すべきか?)に関する確率論的信念を維持し、他のエージェントの動きを観察してそれらを更新する一方で、自身の意図を正当かつ容易に他のエージェントによって推測できる動きを選択する。 時間とともに、対話的推論はエージェントの信念と行動戦略の両方を整合させ、共同行動の成功を確実にする。 2つのシミュレーションでモデルの機能を例示する。 最初のシミュレーションは'リーダーレス'のジョイントアクションを示している。 その結果,2人のエージェントが共同作業目標に対する強い嗜好を欠いている場合,お互いの動きを観察することで,共同で推論できることが示唆された。 逆に、これは彼らの信念と行動戦略のインタラクティブなアライメントに役立つ。 第2のシミュレーションでは、"リーダーフォロー"の合同動作が示されている。 これは、あるエージェント(リーダー)が真のジョイントゴールを知っている場合、他のエージェント(フォロー)がよりコストのかかる個々のプランを選択する必要があるとしても、他のエージェント(フォロー)がそれを推測するのを手助けするためにセンサーモブター通信を使用することを示している。 これらのシミュレーションは、対話的推論がマルチエージェント関節行動の成功を支持し、人間と人間の実験で観察された「リーダーレス」および「リーダーフォロワー」関節行動の重要な認知的・行動的ダイナミクスを再現することを示している。 まとめると、対話的推論は、マルチエージェントシステムにおいて協調的な協調行動とコンセンサスを実現する認知的にインスパイアされた形式的枠組みを提供する。

We advance a novel computational model of multi-agent, cooperative joint actions that is grounded in the cognitive framework of active inference. The model assumes that to solve a joint task, such as pressing together a red or blue button, two (or more) agents engage in a process of interactive inference. Each agent maintains probabilistic beliefs about the goal of the joint task (e.g., should we press the red or blue button?) and updates them by observing the other agent's movements, while in turn selecting movements that make his own intentions legible and easy to infer by the other agent (i.e., sensorimotor communication). Over time, the interactive inference aligns both the beliefs and the behavioral strategies of the agents, hence ensuring the success of the joint action. We exemplify the functioning of the model in two simulations. The first simulation illustrates a ''leaderless'' joint action. It shows that when two agents lack a strong preference about their joint task goal, they jointly infer it by observing each other's movements. In turn, this helps the interactive alignment of their beliefs and behavioral strategies. The second simulation illustrates a "leader-follower" joint action. It shows that when one agent ("leader") knows the true joint goal, it uses sensorimotor communication to help the other agent ("follower") infer it, even if doing this requires selecting a more costly individual plan. These simulations illustrate that interactive inference supports successful multi-agent joint actions and reproduces key cognitive and behavioral dynamics of "leaderless" and "leader-follower" joint actions observed in human-human experiments. In sum, interactive inference provides a cognitively inspired, formal framework to realize cooperative joint actions and consensus in multi-agent systems.
翻訳日:2022-10-25 21:17:24 公開日:2022-10-24
# 不均衡画像データセットにおける核分割と分類のためのGradMix

GradMix for nuclei segmentation and classification in imbalanced pathology image datasets ( http://arxiv.org/abs/2210.12938v1 )

ライセンス: Link先を確認
Tan Nhu Nhat Doan, Kyungeun Kim, Boram Song, and Jin Tae Kwak(参考訳) 核の自動分割と分類は、デジタル病理学において重要な課題である。 現在のディープラーニングベースのアプローチは、病理学者による大量の注釈付きデータセットを必要とする。 しかし、既存のデータセットは一般に異なる種類の核の間で不均衡であり、性能が著しく低下する。 本稿では,核のセグメンテーションと分類のために特別に設計されたgradmixと呼ばれる,単純かつ効果的なデータ拡張手法を提案する。 gradmixは、主要なクラス核とレアクラス核のペアを取り、カスタマイズされたミキシングマスクを作成し、それらを組み合わせて新しいレアクラス核を生成する。 2つの核を組み合わせることで、gradmixはカスタマイズされたミキシングマスクを用いて、核と隣接環境の両方を考察する。 これにより、様々な環境下で現実的なレアクラスの核を生成することができる。 GradMixの有効性を評価するために2つのデータセットを使用した。 実験の結果, gradmixは不均衡病理画像データセットにおいて, 核セグメンテーションと分類の性能を向上できることが示唆された。

An automated segmentation and classification of nuclei is an essential task in digital pathology. The current deep learning-based approaches require a vast amount of annotated datasets by pathologists. However, the existing datasets are imbalanced among different types of nuclei in general, leading to a substantial performance degradation. In this paper, we propose a simple but effective data augmentation technique, termed GradMix, that is specifically designed for nuclei segmentation and classification. GradMix takes a pair of a major-class nucleus and a rare-class nucleus, creates a customized mixing mask, and combines them using the mask to generate a new rare-class nucleus. As it combines two nuclei, GradMix considers both nuclei and the neighboring environment by using the customized mixing mask. This allows us to generate realistic rare-class nuclei with varying environments. We employed two datasets to evaluate the effectiveness of GradMix. The experimental results suggest that GradMix is able to improve the performance of nuclei segmentation and classification in imbalanced pathology image datasets.
翻訳日:2022-10-25 21:09:45 公開日:2022-10-24
# CMU-Net: 医用超音波画像分割ネットワーク

CMU-Net: A Strong ConvMixer-based Medical Ultrasound Image Segmentation Network ( http://arxiv.org/abs/2210.13012v1 )

ライセンス: Link先を確認
Fenghe Tang, Lingtao Wang, Chunping Ning, Min Xian, Jianrui Ding(参考訳) U-Netとその拡張セグメンテーションモデルは、医用画像セグメンテーションタスクにおいて大きな成功を収めた。 しかし,通常の畳み込み操作の局所的特徴から,エンコーダはグローバルな文脈情報を効果的に抽出できない。 さらに、単純なスキップ接続は、正常な特徴をキャプチャできない。 本研究では,ハイブリッド畳み込みとマルチスケールアテンションゲートを組み込んだ完全な畳み込みセグメンテーションネットワーク(CMU-Net)を提案する。 ConvMixerモジュールは、グローバルコンテキスト情報を抽出するために、遠く離れた空間位置を混合する。 さらに、マルチスケールアテンションゲートは、重要な特徴を強調し、効率的なスキップ接続を実現するのに役立つ。 オープンソースの乳房超音波画像と民間の甲状腺超音波画像データセットの評価によると、CMU-Netの平均IOUは73.27%、84.75%、F1値は84.16%、91.71%である。 コードはhttps://github.com/fenghetan9/cmu-netで入手できる。

U-Net and its extended segmentation model have achieved great success in medical image segmentation tasks. However, due to the inherent local characteristics of ordinary convolution operations, the encoder cannot effectively extract the global context information. In addition, simple skip connection cannot capture salient features. In this work, we propose a full convolutional segmentation network (CMU-Net) which incorporate hybrid convolution and multi-scale attention gate. The ConvMixer module is to mix distant spatial locations for extracting the global context information. Moreover, the multi-scale attention gate can help to emphasize valuable features and achieve efficient skip connections. Evaluations on open-source breast ultrasound images and private thyroid ultrasound image datasets show that CMU-Net achieves an average IOU of 73.27% and 84.75%, F1-value is 84.16% and 91.71%. The code is available at https://github.com/FengheTan9/CMU-Net.
翻訳日:2022-10-25 21:09:29 公開日:2022-10-24
# 境界線:局所的近傍統計による3次元点雲のニューラル境界とエッジ検出

BoundED: Neural Boundary and Edge Detection in 3D Point Clouds via Local Neighborhood Statistics ( http://arxiv.org/abs/2210.13305v1 )

ライセンス: Link先を確認
Lukas Bode (1), Michael Weinmann (2) and Reinhard Klein (1) ((1) University of Bonn, (2) Delft University of Technology)(参考訳) 3Dポイントクラウドから高レベルの構造情報を抽出することは難しいが、都市計画や自動運転といったタスクには、現場の高度な理解を必要とする。 既存のアプローチでは、対話性を必要とするシナリオにデプロイできるほど高速でありながら、高品質な結果が一貫して得られない。 そこで本研究では,一階と二階の統計情報を用いて,与えられたデータ中の非端点,鋭端点,境界点を識別する,単純でコンパクトな分類ネットワークの入力として,局所的な近傍を記述する新しい特徴セットを提案する。 この機能を組み込むことで、アルゴリズムは品質と処理時間の観点から最先端の技術を上回ることができる。

Extracting high-level structural information from 3D point clouds is challenging but essential for tasks like urban planning or autonomous driving requiring an advanced understanding of the scene at hand. Existing approaches are still not able to produce high-quality results consistently while being fast enough to be deployed in scenarios requiring interactivity. We propose to utilize a novel set of features describing the local neighborhood on a per-point basis via first and second order statistics as input for a simple and compact classification network to distinguish between non-edge, sharp-edge, and boundary points in the given data. Leveraging this feature embedding enables our algorithm to outperform the state-of-the-art techniques in terms of quality and processing time.
翻訳日:2022-10-25 21:09:11 公開日:2022-10-24
# 共同学習型ビジョンランゲージモデルを用いた指示追従エージェント

Instruction-Following Agents with Jointly Pre-Trained Vision-Language Models ( http://arxiv.org/abs/2210.13431v1 )

ライセンス: Link先を確認
Hao Liu, Lisa Lee, Kimin Lee, Pieter Abbeel(参考訳) 人間は言語やビジョンを理解するのに優れており、幅広いタスクをこなす。 対照的に、一般的な指示追従型エージェントの作成は難しい課題である。 純粋言語のみのモデルを使用する以前の作業では、視覚的な接地が欠如しており、言語命令と視覚的な観察をつなぐことが困難になっている。 一方、事前訓練された視覚言語モデルを使用する手法は、一般的に言語と視覚表現を分割し、それらを融合させるために特殊なネットワークアーキテクチャを設計する必要がある。 本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。 我々のShaours法は、視覚観察と言語指示を符号化するマルチモーダルトランスフォーマーと、符号化された表現に基づいてアクションを予測するポリシートランスフォーマーから構成される。 マルチモーダル変換器は、数百万のイメージテキストペアと自然言語テキストで事前訓練され、観察と指示の一般的なクロスモーダル表現を生成する。 ポリシートランスフォーマは観察と行動の全履歴を追跡し、自己回帰的に行動を予測する。 この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのメソッドよりも優れていることを示す。 我々のモデルは、事前の作業よりも優れたモデルスケーラビリティと一般化能力を示す。

Humans are excellent at understanding language and vision to accomplish a wide range of tasks. In contrast, creating general instruction-following embodied agents remains a difficult challenge. Prior work that uses pure language-only models lack visual grounding, making it difficult to connect language instructions with visual observations. On the other hand, methods that use pre-trained vision-language models typically come with divided language and visual representations, requiring designing specialized network architecture to fuse them together. We propose a simple yet effective model for robots to solve instruction-following tasks in vision-based environments. Our \ours method consists of a multimodal transformer that encodes visual observations and language instructions, and a policy transformer that predicts actions based on encoded representations. The multimodal transformer is pre-trained on millions of image-text pairs and natural language text, thereby producing generic cross-modal representations of observations and instructions. The policy transformer keeps track of the full history of observations and actions, and predicts actions autoregressively. We show that this unified transformer model outperforms all state-of-the-art pre-trained or trained-from-scratch methods in both single-task and multi-task settings. Our model also shows better model scalability and generalization ability than prior work.
翻訳日:2022-10-25 21:08:56 公開日:2022-10-24
# 赤外・可視画像融合のための注意誘導・ウェーブレット拘束型生成対向ネットワーク

An Attention-Guided and Wavelet-Constrained Generative Adversarial Network for Infrared and Visible Image Fusion ( http://arxiv.org/abs/2210.11018v2 )

ライセンス: Link先を確認
Xiaowen Liu, Renhua Wang, Hongtao Huo, Xin Yang, Jing Li(参考訳) ganベースの赤外線および可視画像融合法は、その有効性と優れているため、ますます注目を集めている。 しかし,既存の手法では,画像のグローバルな画素分布を識別の基盤として採用しており,重要なモダリティ情報に焦点をあてることができない。 さらに、両判別器に基づく手法は、判別器間の対立に苦しむ。 本研究では,赤外線および可視画像融合(awfgan)のための注意誘導およびウェーブレット制約ganを提案する。 本手法では,核融合性能を向上させるために2つの特異な識別戦略を考案する。 具体的には、空間注意モジュール(sam)を発電機に導入して空間注意マップを得るとともに、赤外線画像の識別を対象領域に集中させるために注意マップを利用する。 さらに,可視情報の識別範囲をウェーブレット部分空間に拡張することで,可視画像の高周波詳細を復元することができる。 アブレーション実験は,判別器間の対立を解消する手法の有効性を示す。 また,公開データセットの比較実験により,提案手法の有効性と優位性を示した。

The GAN-based infrared and visible image fusion methods have gained ever-increasing attention due to its effectiveness and superiority. However, the existing methods adopt the global pixel distribution of source images as the basis for discrimination, which fails to focus on the key modality information. Moreover, the dual-discriminator based methods suffer from the confrontation between the discriminators. To this end, we propose an attention-guided and wavelet-constrained GAN for infrared and visible image fusion (AWFGAN). In this method, two unique discrimination strategies are designed to improve the fusion performance. Specifically, we introduce the spatial attention modules (SAM) into the generator to obtain the spatial attention maps, and then the attention maps are utilized to force the discrimination of infrared images to focus on the target regions. In addition, we extend the discrimination range of visible information to the wavelet subspace, which can force the generator to restore the high-frequency details of visible images. Ablation experiments demonstrate the effectiveness of our method in eliminating the confrontation between discriminators. And the comparison experiments on public datasets demonstrate the effectiveness and superiority of the proposed method.
翻訳日:2022-10-25 18:59:33 公開日:2022-10-24
# ドメイン選択が自動音声認識性能に及ぼす影響の検討:バングラデシュ・バングラデシュを事例として

Investigating the effect of domain selection on automatic speech recognition performance: a case study on Bangladeshi Bangla ( http://arxiv.org/abs/2210.12921v1 )

ライセンス: Link先を確認
Ahnaf Mozib Samin, M. Humayan Kobir, Md. Mushtaq Shahriyar Rafee, M. Firoz Ahmed, Shafkat Kibria, and M. Shahidur Rahman(参考訳) データ駆動自然言語処理システムの性能はコーパスの品質に起因している。 しかし、主コーパス設計基準はしばしば同定されず、特に音声処理分野において適切に検討される。 音声コーパスの開発には、クリーン/ノイズ、読み書き、マルチトーク、アクセント/ダイアレクタなどに関する追加の注意が必要である。 ドメイン選択は、音声コーパス開発においても重要な決定点である。 本研究では、バングラデシュのマルチドメインバングラデシュであるバングラデシュ・バングラasr評価ベンチマーク(banspeech)において、最新のバングラデシュ自動音声認識(asr)モデルを評価することにより、19の異なるドメインから7.2時間音声と9802発話を含むドメイン選択の重要性を示す。 ASRモデルは深層畳み込みニューラルネットワーク(CNN)、層正規化技術、および低リソースで形態的に豊かなバングラ語のためのほとんど読み上げ音声コーパスであるSUBAK.KO上の接続性時間分類(CTC)損失基準を用いて訓練されている。 実験的評価により,asrモデルでは自発的発話のほとんどを含む領域からの音声認識が困難であり,語彙外単語(oov)が多いことが明らかとなった。 一方、同じASRモデルでは、読み上げ音声領域では性能が良く、OOVワードが少ない。 さらに,我々は,層正規化,入力特徴抽出,畳み込み層数などを用いた実験の結果を報告し,subak.koにベースラインを設定した。 BanSpeechは、Bangla ASRの挑戦的な評価ベンチマークの必要性を満たすために、一般公開される予定である。

The performance of data-driven natural language processing systems is contingent upon the quality of corpora. However, principal corpus design criteria are often not identified and examined adequately, particularly in the speech processing discipline. Speech corpora development requires additional attention with regard to clean/noisy, read/spontaneous, multi-talker speech, accents/dialects, etc. Domain selection is also a crucial decision point in speech corpus development. In this study, we demonstrate the significance of domain selection by assessing a state-of-the-art Bangla automatic speech recognition (ASR) model on a novel multi-domain Bangladeshi Bangla ASR evaluation benchmark - BanSpeech, which contains 7.2 hours of speech and 9802 utterances from 19 distinct domains. The ASR model has been trained with deep convolutional neural network (CNN), layer normalization technique, and Connectionist Temporal Classification (CTC) loss criterion on SUBAK.KO, a mostly read speech corpus for the low-resource and morphologically rich language Bangla. Experimental evaluation reveals the ASR model on SUBAK.KO faces difficulty recognizing speech from domains with mostly spontaneous speech and has a high number of out-of-vocabulary (OOV) words. The same ASR model, on the other hand, performs better in read speech domains and contains fewer OOV words. In addition, we report the outcomes of our experiments with layer normalization, input feature extraction, number of convolutional layers, etc., and set a baseline on SUBAK.KO. The BanSpeech will be publicly available to meet the need for a challenging evaluation benchmark for Bangla ASR.
翻訳日:2022-10-25 18:49:46 公開日:2022-10-24
# 事前学習した音声エンコーダの自己教師ありリワイリング : 音声処理におけるラベルの少ない高速微調整に向けて

Self-supervised Rewiring of Pre-trained Speech Encoders: Towards Faster Fine-tuning with Less Labels in Speech Processing ( http://arxiv.org/abs/2210.13030v1 )

ライセンス: Link先を確認
Hao Yang, Jinming Zhao, Gholamreza Haffari and Ehsan Shareghi(参考訳) 事前学習された音声トランスフォーマは、様々な音声処理タスクで大きな成功を収めた。 しかし、下流タスクのためにこれらのエンコーダを微調整するには、十分に大きなトレーニングデータが必要となる。 テキストドメインでは、これは部分的には事前訓練されたトランスフォーマーの表現空間の準最適性に起因する。 本研究では,事前学習した音声エンコーダを精査し,タスク固有のラベルを必要とせずに表現空間を再構成する。 本手法では,音声入力を中性的に合成し,フレームマスキングを行い,自己教師付き学習のための正のペアを構築する。 wav2vec2エンコーダの強化に用いられる場合、表現空間における等方性の一貫した改善が観察される。 6つの音声処理タスクの実験では,タスク微調整時の収束速度が著しく向上し,特に低リソース環境でのタスク改善が一貫した。

Pre-trained speech Transformers have facilitated great success across various speech processing tasks. However, fine-tuning these encoders for downstream tasks require sufficiently large training data to converge or to achieve state-of-the-art. In text domain this has been partly attributed to sub-optimality of the representation space in pre-trained Transformers. In this work, we take a sober look into pre-trained speech encoders and rewire their representation space without requiring any task-specific labels. Our method utilises neutrally synthesised version of audio inputs along with frame masking to construct positive pairs for contrastive self-supervised learning. When used for augmenting the wav2vec 2 encoder, we observe consistent improvement of isotropy in the representation space. Our experiments on 6 speech processing tasks, exhibit a significant convergence speedup during task fine-tuning as well as consistent task improvement, specially in low-resource settings.
翻訳日:2022-10-25 18:49:06 公開日:2022-10-24
# メッセージパッシングモデルの非逐次階層

A non-sequential hierarchy of message-passing models ( http://arxiv.org/abs/2210.13062v1 )

ライセンス: Link先を確認
Cinzia Di Giusto (C&A), Davide Ferr\'e, Laetitia Laversa, Etienne Lozes(参考訳) 同期''レンデブー'通信から完全な非同期/アウトオブオーダ通信まで、さまざまなメッセージパッシング通信モデルが存在する。 大規模分散システムの場合、通信モデルはネットワークのトランスポート層によって決定され、分散コンピューティングの初期においてメッセージ配信の順序(FIFO、因果順序)がいくつか特定されている。 単一のマシンで動作するようなローカルスケールのメッセージパッシングアプリケーションの場合、通信モデルは実際のメッセージバッファの実装とFIFOキューの使用方法によって決定される。 因果順序付けのような大規模通信モデルは論理公理によって定義されるが、局所的モデルはしばしば操作的意味論によって定義される。 本研究では,これらの2つの手法を結合し,その非順序的挙動に基づいて,大規模モデルと局所モデルの両方を含む通信モデルの統一階層を示す。 また,モナディック二階述語論理では,すべての通信モデルを公理化することができ,従って有界木幅に基づく有界検証手法の恩恵を受けることができることを示す。 ccs の概念: $\bullet$ 計算理論 $\rightarrow$ モデルチェックによる検証; モード論理および時間論理; 分散コンピューティングモデル。

There is a wide variety of message-passing communication models, ranging from synchronous ''rendez-vous'' communications to fully asynchronous/out-of-order communications. For large-scale distributed systems, the communication model is determined by the transport layer of the network, and a few classes of orders of message delivery (FIFO, causally ordered) have been identified in the early days of distributed computing. For local-scale message-passing applications, e.g., running on a single machine, the communication model may be determined by the actual implementation of message buffers and by how FIFO queues are used. While large-scale communication models, such as causal ordering, are defined by logical axioms, local-scale models are often defined by an operational semantics. In this work, we connect these two approaches, and we present a unified hierarchy of communication models encompassing both large-scale and local-scale models, based on their non-sequential behaviors. We also show that all the communication models we consider can be axiomatised in the monadic second order logic, and may therefore benefit from several bounded verification techniques based on bounded special treewidth. CCS Concepts: $\bullet$ Theory of computation $\rightarrow$ Verification by model checking; Modal and temporal logics; Distributed computing models.
翻訳日:2022-10-25 18:48:49 公開日:2022-10-24
# wav2vec 2.0を用いたl2話者英語の習熟度評価

Proficiency assessment of L2 spoken English using wav2vec 2.0 ( http://arxiv.org/abs/2210.13168v1 )

ライセンス: Link先を確認
Stefano Bann\`o and Marco Matassoni(参考訳) 第二言語としての英語学習の需要が高まり、言語習熟度を自動的に評価する方法への関心が高まっている。 ほとんどのアプローチでは手作りの特徴を用いるが、その効力は特定の前提に依存しており、熟練度に関する潜在的に有能な情報を捨てるリスクがある。 他のアプローチは、特定のシナリオ(例えば、非ネイティブな子供の自発的な発話)で学習者の発話を忠実に再現しないASRシステムによって生成される転写に依存している。 さらに、転写はイントネーション、リズム、韻律といった関連する側面に関する情報を与えない。 本稿では,2つの小データセットの総合的および個別的な習熟度評価にwav2vec 2.0を用いることを検討した。 その結果,本手法は,ASRと手書きによる手書き文字起こしを訓練したBERTベースのベースラインシステムよりも優れていることがわかった。

The increasing demand for learning English as a second language has led to a growing interest in methods for automatically assessing spoken language proficiency. Most approaches use hand-crafted features, but their efficacy relies on their particular underlying assumptions and they risk discarding potentially salient information about proficiency. Other approaches rely on transcriptions produced by ASR systems which may not provide a faithful rendition of a learner's utterance in specific scenarios (e.g., non-native children's spontaneous speech). Furthermore, transcriptions do not yield any information about relevant aspects such as intonation, rhythm or prosody. In this paper, we investigate the use of wav2vec 2.0 for assessing overall and individual aspects of proficiency on two small datasets, one of which is publicly available. We find that this approach significantly outperforms the BERT-based baseline system trained on ASR and manual transcriptions used for comparison.
翻訳日:2022-10-25 18:48:27 公開日:2022-10-24
# ESB:マルチドメインエンドツーエンド音声認識のためのベンチマーク

ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition ( http://arxiv.org/abs/2210.13352v1 )

ライセンス: Link先を確認
Sanchit Gandhi, Patrick von Platen and Alexander M. Rush(参考訳) 音声認識アプリケーションは、様々な話し方、バックグラウンドノイズ、書き起こし句読点、文字のケーシングなど、様々な音声およびテキストの分布をカバーする。 しかし、多くの音声認識システムはデータセット固有のチューニング(オーディオフィルタリング、句読点除去、ケーシングの正規化)を必要とするため、オーディオとテキストの分布のaプライオリ知識を仮定している。 このチューニング要件により、システムは他のデータセットやドメインに一般化できない可能性がある。 マルチドメイン音声システムの開発を促進するため,広義の音声データセットを対象とした単一自動音声認識(ASR)システムの性能評価を行うエンド・ツー・エンド音声ベンチマーク(ESB)を導入する。 ベンチマークされたシステムは、データセット間で同じデータ前処理と後処理のアルゴリズムを使用する必要がある。 本ベンチマークでは,複数の最先端(SoTA)エンドツーエンド(E2E)システムを比較し,多種多様なデータ分布に対して単一音声システムを適用・評価する方法を示す。 公正な比較では、E2Eシステムは特定のデータセットに調整されたSoTAシステムの2.6%以内に達成される。 解析の結果, 句読点やケーシングなどの転写アーチファクトは, ASR システムでは困難であり, 評価に含めるべきであることが判明した。 様々なデータセットに対するE2Eベンチマークは、マルチドメイン音声認識システムの研究を促進すると考えている。 ESBはhttps://huggingface.co/esb.comで入手できる。

Speech recognition applications cover a range of different audio and text distributions, with different speaking styles, background noise, transcription punctuation and character casing. However, many speech recognition systems require dataset-specific tuning (audio filtering, punctuation removal and normalisation of casing), therefore assuming a-priori knowledge of both the audio and text distributions. This tuning requirement can lead to systems failing to generalise to other datasets and domains. To promote the development of multi-domain speech systems, we introduce the End-to-end Speech Benchmark (ESB) for evaluating the performance of a single automatic speech recognition (ASR) system across a broad set of speech datasets. Benchmarked systems must use the same data pre- and post-processing algorithm across datasets - assuming the audio and text data distributions are a-priori unknown. We compare a series of state-of-the-art (SoTA) end-to-end (E2E) systems on this benchmark, demonstrating how a single speech system can be applied and evaluated on a wide range of data distributions. We find E2E systems to be effective across datasets: in a fair comparison, E2E systems achieve within 2.6% of SoTA systems tuned to a specific dataset. Our analysis reveals that transcription artefacts, such as punctuation and casing, pose difficulties for ASR systems and should be included in evaluation. We believe E2E benchmarking over a range of datasets promotes the research of multi-domain speech recognition systems. ESB is available at https://huggingface.co/esb.
翻訳日:2022-10-25 18:48:14 公開日:2022-10-24
# 低資源医療領域会話型電話音声のためのハイブリッドasrシステムの開発

Development of Hybrid ASR Systems for Low Resource Medical Domain Conversational Telephone Speech ( http://arxiv.org/abs/2210.13397v1 )

ライセンス: Link先を確認
Christoph L\"uscher and Mohammad Zeineldeen and Zijian Yang and Peter Vieting and Khai Le-Duc and Weiyue Wang and Ralf Schl\"uter and Hermann Ney(参考訳) 近年、ASRシステムは、LibriSpeechのような十分な量のトレーニングデータが利用できる特定のタスクにおいて、顕著なパフォーマンスに達している。 しかし、様々な音響・記録条件や話し方、十分なドメイン内トレーニングデータが不足しているため、正確なモデルの開発には依然として課題がある。 本研究では,医師と患者の言語障壁を越えた緊急室の対話を支援するために,医学領域(アラビア語,ドイツ語,ベトナム語)における会話音声翻訳タスクのためのASRシステムの開発に向けた取り組みについて述べる。 システムの性能を向上させるため,異なるトレーニングスケジュールとデータ組み合わせのアプローチについて検討し,利用可能なデータが最も効率的な場所を分析する。

In recent years, ASR systems have reached remarkable performance on specific tasks for which sufficient amounts of training data are available, like e.g. LibriSpeech. However, varying acoustic and recording conditions and speaking styles and a lack of sufficient in-domain training data still pose challenges to the development of accurate models. In this work, we present our efforts for the development of ASR systems for a conversational telephone speech translation task in the medical domain for three languages (Arabic, German, Vietnamese) to support emergency room interaction between physician and patient across language barriers. We study different training schedules and data combination approaches in order to improve the system's performance, as well as analyze where limited available data is used most efficiently.
翻訳日:2022-10-25 18:47:49 公開日:2022-10-24
# 制御の二分法:コントロールできないものからコントロールできるものを切り離す

Dichotomy of Control: Separating What You Can Control from What You Cannot ( http://arxiv.org/abs/2210.13435v1 )

ライセンス: Link先を確認
Mengjiao Yang, Dale Schuurmans, Pieter Abbeel, Ofir Nachum(参考訳) future- or return-conditioned supervised learningは、オフライン強化学習(rl)のための新しいパラダイムであり、観察されたアクションシーケンスに関連する将来の結果(つまりリターン)が、これら同じアクションを模倣するように訓練されたポリシーへの入力として使用される。 回帰条件付けは、決定変換器(DT)のような一般的なアルゴリズムの中心にあるが、これらの手法は高度に確率的な環境では、アクション自体よりも環境内のランダム性からしばしば高いリターンが発生する。 このような状況は、条件付け入力と矛盾する学習方針、すなわち、特定の所望のリターンを条件付けする場合、環境に作用するポリシーを使用することによって、所望と大きく異なる実リターンの分布につながる可能性がある。 本研究では、政策の制御(行動)と政策の制御(環境確率性)以外のメカニズムを分離する将来の条件付き教師あり学習フレームワークである制御二分法(DoC)を提案する。 この分離は、将来の潜在変数表現のポリシーを条件付けし、環境のランダム性に関連する潜在変数から任意の情報を削除する相互情報制約を設計することにより達成される。 理論的には、DoCは条件付入力と整合したポリシーを出力し、学習したポリシーを所望のハイリターン将来の結果に条件付けすることで、高リターン動作を正しく引き起こすことを示す。 経験的に、確率的な報酬と遷移を持つ環境において、DoCはDTよりもはるかに優れた性能を達成できることが示される。

Future- or return-conditioned supervised learning is an emerging paradigm for offline reinforcement learning (RL), where the future outcome (i.e., return) associated with an observed action sequence is used as input to a policy trained to imitate those same actions. While return-conditioning is at the heart of popular algorithms such as decision transformer (DT), these methods tend to perform poorly in highly stochastic environments, where an occasional high return can arise from randomness in the environment rather than the actions themselves. Such situations can lead to a learned policy that is inconsistent with its conditioning inputs; i.e., using the policy to act in the environment, when conditioning on a specific desired return, leads to a distribution of real returns that is wildly different than desired. In this work, we propose the dichotomy of control (DoC), a future-conditioned supervised learning framework that separates mechanisms within a policy's control (actions) from those beyond a policy's control (environment stochasticity). We achieve this separation by conditioning the policy on a latent variable representation of the future, and designing a mutual information constraint that removes any information from the latent variable associated with randomness in the environment. Theoretically, we show that DoC yields policies that are consistent with their conditioning inputs, ensuring that conditioning a learned policy on a desired high-return future outcome will correctly induce high-return behavior. Empirically, we show that DoC is able to achieve significantly better performance than DT on environments that have highly stochastic rewards and transition
翻訳日:2022-10-25 18:42:14 公開日:2022-10-24
# deep edge intelligence: アーキテクチャ、キー機能、テクノロジと課題の実現

Deep Edge Intelligence: Architecture, Key Features, Enabling Technologies and Challenges ( http://arxiv.org/abs/2210.12944v1 )

ライセンス: Link先を確認
Prabath Abeysekara, Hai Dong, A.K. Qin(参考訳) 近年、Deep Learningのブレークスルーにより、人工知能のアプリケーションやサービスが大幅に急増している。 一方、モバイルコンピューティングとモノのインターネットの急速な進歩により、インターネットに接続された数十億のモバイルおよびスマートセンシングデバイスが増加し、ネットワークエッジでゼタバイトのデータを生成する。 これら2つの技術分野を組み合わせることで、相互接続されたデバイスとインテリジェンスを両立させる機会は、新しいテクノロジー革命の波の道を開くだろう。 この技術革命を受け入れるため、この記事ではDeep Edge Intelligence(DEI)という新しいコンピューティングビジョンを提示します。 deiは、ディープラーニング、人工知能、クラウドとエッジコンピューティング、5g/6gネットワーク、モノのインターネット、マイクロサービスなどを採用しており、ユーザエクスペリエンスの優れた任意の場所で、信頼できるセキュアなインテリジェンスサービスをすべての人や組織に提供することを目的としている。 DEIのビジョン、システムアーキテクチャ、重要なレイヤ、機能についても詳しく述べられている。 最後に,実現可能な技術とそれに関連する研究課題を明らかにする。

With the breakthroughs in Deep Learning, recent years have witnessed a massive surge in Artificial Intelligence applications and services. Meanwhile, the rapid advances in Mobile Computing and Internet of Things has also given rise to billions of mobile and smart sensing devices connected to the Internet, generating zettabytes of data at the network edge. The opportunity to combine these two domains of technologies to power interconnected devices with intelligence is likely to pave the way for a new wave of technology revolutions. Embracing this technology revolution, in this article, we present a novel computing vision named Deep Edge Intelligence (DEI). DEI employs Deep Learning, Artificial Intelligence, Cloud and Edge Computing, 5G/6G networks, Internet of Things, Microservices, etc. aiming to provision reliable and secure intelligence services to every person and organisation at any place with better user experience. The vision, system architecture, key layers and features of DEI are also detailed. Finally, we reveal the key enabling technologies and research challenges associated with it.
翻訳日:2022-10-25 18:40:04 公開日:2022-10-24
# ガイドドッグロボットのシステム構成とナビゲーション:動物ガイドドッグレベル誘導作業に向けて

System Configuration and Navigation of a Guide Dog Robot: Toward Animal Guide Dog-Level Guiding Work ( http://arxiv.org/abs/2210.13368v1 )

ライセンス: Link先を確認
Hochul Hwang, Tim Xia, Ibrahima Keita, Ken Suzuki, Joydeep Biswas, Sunghoon I. Lee, and Donghyun Kim(参考訳) ロボットガイド犬は、コスト効率、大量生産の可能性、メンテナンスの負担が低いため、動物ガイド犬よりも強力なアドバンテージを持っている。 しかし、ガイドドッグロボット研究の長い歴史にもかかわらず、ガイドドッグハンドラーとガイドドッグがナビゲーションチームとしてどのように機能するかをほとんど考慮せずに、これまでの研究は行われなかった。 視覚障害者や視覚障害者にとって真に有益であるロボットガイドシステムを開発するために,ガイドドッグハンドラーやトレーナーへのインタビューや,ガイドドッグによる目隠し歩行体験など,質的研究を行った。 実体験とインタヴューから得られた事実に基づいて,速度や方向制御などの望ましい機能を備えたガイドドッグロボットのための協調的な屋内ナビゲーションスキームを構築した。 協調ナビゲーションのために,環境に関するセマンティック情報を活用し,ハンドラの位置や方向を考慮し,衝突のない経路を決定することで,安全かつ効率的な案内作業を可能にするセマンティック・アウェア・ローカル・パス・プランナを提案する。 室内環境下での目隠し歩行による統合型ロボットシステムの評価と,典型的な歩行速度(0.7 \mathrm{m/s}$)での障害物回避によるガイド犬のようなナビゲーション行動の実証を行った。

A robot guide dog has compelling advantages over animal guide dogs for its cost-effectiveness, potential for mass production, and low maintenance burden. However, despite the long history of guide dog robot research, previous studies were conducted with little or no consideration of how the guide dog handler and the guide dog work as a team for navigation. To develop a robotic guiding system that is genuinely beneficial to blind or visually impaired individuals, we performed qualitative research, including interviews with guide dog handlers and trainers and first-hand blindfold walking experiences with various guide dogs. Grounded on the facts learned from vivid experience and interviews, we build a collaborative indoor navigation scheme for a guide dog robot that includes preferred features such as speed and directional control. For collaborative navigation, we propose a semantic-aware local path planner that enables safe and efficient guiding work by utilizing semantic information about the environment and considering the handler's position and directional cues to determine the collision-free path. We evaluate our integrated robotic system by testing guide blindfold walking in indoor settings and demonstrate guide dog-like navigation behavior by avoiding obstacles at typical gait speed ($0.7 \mathrm{m/s}$).
翻訳日:2022-10-25 18:39:45 公開日:2022-10-24
# 機械学習の薬理ゲノミクスへの応用:血漿濃度-時間曲線のクラスタリング

Applications of Machine Learning in Pharmacogenomics: Clustering Plasma Concentration-Time Curves ( http://arxiv.org/abs/2210.13310v1 )

ライセンス: Link先を確認
Jackson P. Lautier, Stella Grosser, Jessica Kim, Hyewon Kim, Junghi Kim(参考訳) 製薬研究者は、薬物開発プロセスと患者の成果の両方を改善する技術を模索し続けている。 近年の関心領域は、薬理学における機械学習応用の可能性である。 あまり研究されていない応用の1つは、血漿濃度-時間曲線(以下、pk曲線)の教師なしクラスタリングである。 これは、pk曲線を時系列オブジェクトとして扱い、その後、時系列データオブジェクトのクラスタリングに関連する広範な研究成果を活用することで実現できる。 本稿では,PK曲線のクラスタリングにおける階層的クラスタリングを導入し,類似した形状のPK曲線の同定と,そのデンドログラムデータ可視化によるPK曲線のパターン理解に有効であることを示す。 また,pk曲線のクラスタリングに最も適したユークリッド距離を同定するために,時系列オブジェクト間の多くの相似性尺度も検討した。 さらに, 動的時間ゆがみ, fr\'echet, 構造に基づく相関性などの異質性尺度が予期しない結果をもたらすことを示した。 最後に,これらの手法を250pk曲線のデータセットに適用し,pk曲線のクラスタリングが複雑なpkデータを要約・可視化するための記述的ツールとしてどのように利用できるかを示す。

Pharmaceutical researchers are continually searching for techniques to improve both drug development processes and patient outcomes. An area of recent interest is the potential for machine learning applications within pharmacology. One such application not yet given close study is the unsupervised clustering of plasma concentration-time curves, hereafter, pharmacokinetic (PK) curves. This can be done by treating a PK curve as a time series object and subsequently utilizing the extensive body of research related to the clustering of time series data objects. In this paper, we introduce hierarchical clustering within the context of clustering PK curves and find it to be effective at identifying similar-shaped PK curves and informative for understanding patterns of PK curves via its dendrogram data visualization. We also examine many dissimilarity measures between time series objects to identify Euclidean distance as generally most appropriate for clustering PK curves. We further show that dynamic time warping, Fr\'echet, and structure-based measures of dissimilarity like correlation may produce unexpected results. Finally, we apply these methods to a dataset of 250 PK curves as an illustrative case study to demonstrate how the clustering of PK curves can be used as a descriptive tool for summarizing and visualizing complex PK data, which may enhance the study of pharmacogenomics in the context of precision medicine.
翻訳日:2022-10-25 18:39:22 公開日:2022-10-24
# 確率分布に関する量子生成モデルの古典的学習のためのプロトコル

Protocols for classically training quantum generative models on probability distributions ( http://arxiv.org/abs/2210.13442v1 )

ライセンス: Link先を確認
Sachin Kasture, Oleksandr Kyriienko, Vincent E. Elfving(参考訳) qgm(quantum generative modelling)は、量子状態の生成とそれらの状態からのサンプル生成を隠れた確率分布として依存する。 ある種の量子状態(回路)の分布は古典的にはサンプリングが難しいため、QGMは量子超越実験において優れたテストベッドである。 さらに、生成タスクは産業用機械学習アプリケーションにますます関係しているため、QGMは実用的な量子優位性を示す強力な候補である。 しかし、これには量子回路を工業的に関連のある分布を表すように訓練することが必要であり、それに対応する訓練段階は現在の量子ハードウェアの訓練コストが膨大である。 そこで本研究では,効率的な勾配計算を行う特定のタイプの回路をベースとしたQGMの古典的訓練のためのプロトコルを提案する。 特に、Instantaneous Quantum Polynomial(IQP)回路とその拡張について考察する。 時間的複雑性, 疎度, 反集束特性の観点から, それらの古典的シミュラビリティを示すことによって, 出力確率分布をシミュレートし, 古典的トレーニングを目標確率分布にすることができる。 IQPの量子サンプリングは、古典的なサンプリングとは異なり、効率的に行うことができる。 デスクトップコンピュータ上で最大30キュービットの確率分布を用いたiqp回路のエンドツーエンドトレーニングを数値的に示す。 産業的に関係のある分布に適用すると、古典的なトレーニングと量子サンプリングの組み合わせは、NISQ時代に優位に立つための道のりである。

Quantum Generative Modelling (QGM) relies on preparing quantum states and generating samples from these states as hidden - or known - probability distributions. As distributions from some classes of quantum states (circuits) are inherently hard to sample classically, QGM represents an excellent testbed for quantum supremacy experiments. Furthermore, generative tasks are increasingly relevant for industrial machine learning applications, and thus QGM is a strong candidate for demonstrating a practical quantum advantage. However, this requires that quantum circuits are trained to represent industrially relevant distributions, and the corresponding training stage has an extensive training cost for current quantum hardware in practice. In this work, we propose protocols for classical training of QGMs based on circuits of the specific type that admit an efficient gradient computation, while remaining hard to sample. In particular, we consider Instantaneous Quantum Polynomial (IQP) circuits and their extensions. Showing their classical simulability in terms of the time complexity, sparsity and anti-concentration properties, we develop a classically tractable way of simulating their output probability distributions, allowing classical training to a target probability distribution. The corresponding quantum sampling from IQPs can be performed efficiently, unlike when using classical sampling. We numerically demonstrate the end-to-end training of IQP circuits using probability distributions for up to 30 qubits on a regular desktop computer. When applied to industrially relevant distributions this combination of classical training with quantum sampling represents an avenue for reaching advantage in the NISQ era.
翻訳日:2022-10-25 18:38:58 公開日:2022-10-24
# All-Action Policy Gradientsについて

On All-Action Policy Gradients ( http://arxiv.org/abs/2210.13011v1 )

ライセンス: Link先を確認
Michal Nauman and Marek Cygan(参考訳) 本稿では,各状態当たりのアクションサンプル(全アクションSPG)による確率的政策勾配のばらつきを解析する。 SPGの分散を分解し、全作用SPGの最適条件を導出する。 最適条件は、全作用 SPG が単作用よりも優先される場合を示し、SPG 推定における分散最小化サンプリングスキームを決定することができる。 さらに,環境を操作せずに全動作サンプリングが可能な動的全動作モジュール(DAA)を提案する。 DAAは全アクションサンプリングにQ-networkを使用する際の問題に対処し、任意のオンラインSPGアルゴリズムに容易に適用できる。 そこで本研究では,DAAをPPO (canonical on-policy algorithm) で使用することにより,サンプル効率が向上し,多様な継続的な行動環境において高いポリシリターンが得られることを示す。

In this paper, we analyze the variance of stochastic policy gradient with many action samples per state (all-action SPG). We decompose the variance of SPG and derive an optimality condition for all-action SPG. The optimality condition shows when all-action SPG should be preferred over single-action counterpart and allows to determine a variance-minimizing sampling scheme in SPG estimation. Furthermore, we propose dynamics-all-action (DAA) module, an augmentation that allows for all-action sampling without manipulation of the environment. DAA addresses the problems associated with using a Q-network for all-action sampling and can be readily applied to any on-policy SPG algorithm. We find that using DAA with a canonical on-policy algorithm (PPO) yields better sample efficiency and higher policy returns on a variety of challenging continuous action environments.
翻訳日:2022-10-25 18:33:12 公開日:2022-10-24
# 幾何学的知識蒸留:グラフニューラルネットワークのトポロジー圧縮

Geometric Knowledge Distillation: Topology Compression for Graph Neural Networks ( http://arxiv.org/abs/2210.13014v1 )

ライセンス: Link先を確認
Chenxiao Yang, Qitian Wu, Junchi Yan(参考訳) 我々は,グラフトポロジ情報をグラフニューラルネットワーク(GNN)に符号化することを目的とした知識伝達のパラダイムを,完全グラフ上で訓練された教師GNNモデルから,より小さいあるいはスペーサーグラフで動作する学生GNNモデルへの知識を抽出することによって検討した。 そこで我々は, 熱力学とGNNの挙動の関連性を再考し, GNNのアーキテクチャに関する基礎となる多様体の幾何学的性質をカプセル化するニューラルヒートカーネル(NHK)を提案する。 基本的な原理的解法は、NHKを幾何学的知識蒸留(Geometric Knowledge Distillation)と呼ばれる教師モデルと学生モデルに合わせることで導かれる。 本研究では,異なる種類の特権的トポロジカル情報と教師学生のスキームに関する知識蒸留実験において,非・パラメトリックなインスタンス化を開発し,その効果を実証する。

We study a new paradigm of knowledge transfer that aims at encoding graph topological information into graph neural networks (GNNs) by distilling knowledge from a teacher GNN model trained on a complete graph to a student GNN model operating on a smaller or sparser graph. To this end, we revisit the connection between thermodynamics and the behavior of GNN, based on which we propose Neural Heat Kernel (NHK) to encapsulate the geometric property of the underlying manifold concerning the architecture of GNNs. A fundamental and principled solution is derived by aligning NHKs on teacher and student models, dubbed as Geometric Knowledge Distillation. We develop non- and parametric instantiations and demonstrate their efficacy in various experimental settings for knowledge distillation regarding different types of privileged topological information and teacher-student schemes.
翻訳日:2022-10-25 18:32:57 公開日:2022-10-24
# マルコフ決定過程における硬さ:理論と実践

Hardness in Markov Decision Processes: Theory and Practice ( http://arxiv.org/abs/2210.13075v1 )

ライセンス: Link先を確認
Michelangelo Conserva, Paulo Rauber(参考訳) ハード環境における強化学習法の実証的強みと弱みを慎重に分析することは、イノベーションを刺激し、この分野の進歩を評価するために不可欠である。 表型強化学習では、そのような分析を行うための環境の標準的選択は確立されていないが、これは部分的には環境の硬さに関する豊富な理論が広く理解されていないためである。 本論の目的は,4つの主要な貢献を通じて,この理論の実用的有用性を解き明かすことである。 まず,有望な研究方向性を示す硬度理論の体系的な調査について述べる。 第2に,経験的ハードネス分析を可能にする先駆的パッケージであるcolosseumを紹介し,異なるハードネス尺度に関して多様な環境からなる原則ベンチマークを実装した。 第3に,計算可能な尺度に対する新たな洞察を提供する経験的分析を提案する。 最後に,新たに提案するベンチマークにおいて,5つの表型エージェントをベンチマークする。 非タブラキ強化学習における難易度の理論的理解を推し進めていくことは依然として不可欠であるが、表面設定における我々の貢献は、原則化された非タブラキベンチマークに向けた確かなステップである。 そこで我々は,コロッセウム環境の非タブラルバージョンの4つのエージェントをベンチマークし,表層硬度測定の一般性を示す結果を得た。

Meticulously analysing the empirical strengths and weaknesses of reinforcement learning methods in hard (challenging) environments is essential to inspire innovations and assess progress in the field. In tabular reinforcement learning, there is no well-established standard selection of environments to conduct such analysis, which is partially due to the lack of a widespread understanding of the rich theory of hardness of environments. The goal of this paper is to unlock the practical usefulness of this theory through four main contributions. First, we present a systematic survey of the theory of hardness, which also identifies promising research directions. Second, we introduce Colosseum, a pioneering package that enables empirical hardness analysis and implements a principled benchmark composed of environments that are diverse with respect to different measures of hardness. Third, we present an empirical analysis that provides new insights into computable measures. Finally, we benchmark five tabular agents in our newly proposed benchmark. While advancing the theoretical understanding of hardness in non-tabular reinforcement learning remains essential, our contributions in the tabular setting are intended as solid steps towards a principled non-tabular benchmark. Accordingly, we benchmark four agents in non-tabular versions of Colosseum environments, obtaining results that demonstrate the generality of tabular hardness measures.
翻訳日:2022-10-25 18:32:41 公開日:2022-10-24
# ディープシーケンス分類器は非Trivial Generalizationに優れているか?

Are Deep Sequence Classifiers Good at Non-Trivial Generalization? ( http://arxiv.org/abs/2210.13082v1 )

ライセンス: Link先を確認
Francesco Cazzaro, Ariadna Quattoni, Xavier Carreras(参考訳) シーケンス分類のためのディープラーニングモデルの最近の進歩は、特に大きなトレーニングセットがある場合に、その分類精度を大幅に向上させた。 しかし、いくつかの研究は、いくつかの設定の下では、これらのモデルによる予測は、調整が不十分であることを示唆している。 本研究では、二項列分類問題について検討し、異なる観点からモデルの校正について質問する: ディープラーニングモデルは、基礎となる対象クラス分布を学習できるのか? 対象クラスが稀な問題であるスパースシーケンス分類に注目し,3つのディープラーニングシーケンス分類モデルを比較した。 そこで我々は,分類器が対象クラス分布の学習能力を評価する評価手法を開発した。 さらに,本評価では,トレーニングシーケンスの単なる圧縮による性能向上と,適切なモデル一般化による性能向上を両立させる。 このバイナリ設定では、ディープラーニングモデルは、データ圧縮を超えた適切な一般化によって、基礎となるクラス分布を非自明な方法で学習することができることを示唆する。

Recent advances in deep learning models for sequence classification have greatly improved their classification accuracy, specially when large training sets are available. However, several works have suggested that under some settings the predictions made by these models are poorly calibrated. In this work we study binary sequence classification problems and we look at model calibration from a different perspective by asking the question: Are deep learning models capable of learning the underlying target class distribution? We focus on sparse sequence classification, that is problems in which the target class is rare and compare three deep learning sequence classification models. We develop an evaluation that measures how well a classifier is learning the target class distribution. In addition, our evaluation disentangles good performance achieved by mere compression of the training sequences versus performance achieved by proper model generalization. Our results suggest that in this binary setting the deep-learning models are indeed able to learn the underlying class distribution in a non-trivial manner, i.e. by proper generalization beyond data compression.
翻訳日:2022-10-25 18:32:18 公開日:2022-10-24
# 一定規則保証付き線形コンテキスト帯域におけるスケーラブル表現学習

Scalable Representation Learning in Linear Contextual Bandits with Constant Regret Guarantees ( http://arxiv.org/abs/2210.13083v1 )

ライセンス: Link先を確認
Andrea Tirinzoni, Matteo Papini, Ahmed Touati, Alessandro Lazaric, Matteo Pirotta(参考訳) 確率的文脈線形バンディットにおける表現学習の問題について検討する。 この領域の主要な関心事は、通常、実現可能な表現(すなわち、任意の文脈-作用対で報酬関数を正確に予測できるもの)を見つけることであるが、最近、特定のスペクトル特性を持つ表現(HLSと呼ばれる)が探索-探索作業においてより効果的であることが示され、LinUCBは一定の(地平線に依存しない)後悔を達成できる。 本稿では,新しい制約付き最適化問題と良好なスペクトル特性の学習を組み合わせた表現学習アルゴリズムbanditsrlを提案する。 我々は、BanditSRLが任意の非regretアルゴリズムとペアリング可能であることを証明し、HLS表現が利用可能であれば常に後悔する。 さらに、BanditSRLはディープニューラルネットワークと簡単に結合することができ、標準ベンチマークにおいてHLS表現への正規化がいかに有用かを示す。

We study the problem of representation learning in stochastic contextual linear bandits. While the primary concern in this domain is usually to find realizable representations (i.e., those that allow predicting the reward function at any context-action pair exactly), it has been recently shown that representations with certain spectral properties (called HLS) may be more effective for the exploration-exploitation task, enabling LinUCB to achieve constant (i.e., horizon-independent) regret. In this paper, we propose BanditSRL, a representation learning algorithm that combines a novel constrained optimization problem to learn a realizable representation with good spectral properties with a generalized likelihood ratio test to exploit the recovered representation and avoid excessive exploration. We prove that BanditSRL can be paired with any no-regret algorithm and achieve constant regret whenever an HLS representation is available. Furthermore, BanditSRL can be easily combined with deep neural networks and we show how regularizing towards HLS representations is beneficial in standard benchmarks.
翻訳日:2022-10-25 18:32:01 公開日:2022-10-24
# 容量探索を伴うバイナリグラフ畳み込みネットワーク

Binary Graph Convolutional Network with Capacity Exploration ( http://arxiv.org/abs/2210.13149v1 )

ライセンス: Link先を確認
Junfu Wang, Yuanfang Guo, Liang Yang, Yunhong Wang(参考訳) グラフニューラルネットワーク(GNN)の現在の成功は、通常、属性グラフ全体を処理するためにロードすることに依存しており、特に属性グラフが大きい場合、限られたメモリリソースで満たされない可能性がある。 本稿では,ネットワークパラメータと入力ノード属性の両方を二項化して,ネットワーク圧縮と高速化のために浮動小数点行列乗算の代わりにバイナリ演算を利用するバイナリグラフ畳み込みネットワーク(Bi-GCN)を提案する。 また,Bio-GCNを適切にトレーニングするための勾配近似に基づくバックプロパゲーション手法を提案する。 この理論解析により,Bi-GCNは,ネットワークパラメータと入力データの両方に対して平均 ~31x のメモリ消費を低減し,Cora,PubMed,CiteSeer の3つの励磁ネットワーク上で,平均 ~51x の推論速度を高速化する。 さらに,本手法を他の変種GNNに一般化し,同様の効率性を実現するための一般手法を提案する。 提案されたBi-GCNとBi-GNNは単純で効率的であるが、圧縮されたネットワークは潜在的な容量の問題も抱える可能性がある。 この容量問題に対処するために,Bi-GNN隠れ層の幅の低い境界を予測するために,エントロピー被覆仮説を提案する。 広範な実験により,我々のbi-gcnおよびbi-gnnは7つのノード分類データセットで対応する全精度ベースラインに対して同等の性能を与えることができ,エントロピーカバー仮説の有効性を検証した。

The current success of Graph Neural Networks (GNNs) usually relies on loading the entire attributed graph for processing, which may not be satisfied with limited memory resources, especially when the attributed graph is large. This paper pioneers to propose a Binary Graph Convolutional Network (Bi-GCN), which binarizes both the network parameters and input node attributes and exploits binary operations instead of floating-point matrix multiplications for network compression and acceleration. Meanwhile, we also propose a new gradient approximation based back-propagation method to properly train our Bi-GCN. According to the theoretical analysis, our Bi-GCN can reduce the memory consumption by an average of ~31x for both the network parameters and input data, and accelerate the inference speed by an average of ~51x, on three citation networks, i.e., Cora, PubMed, and CiteSeer. Besides, we introduce a general approach to generalize our binarization method to other variants of GNNs, and achieve similar efficiencies. Although the proposed Bi-GCN and Bi-GNNs are simple yet efficient, these compressed networks may also possess a potential capacity problem, i.e., they may not have enough storage capacity to learn adequate representations for specific tasks. To tackle this capacity problem, an Entropy Cover Hypothesis is proposed to predict the lower bound of the width of Bi-GNN hidden layers. Extensive experiments have demonstrated that our Bi-GCN and Bi-GNNs can give comparable performances to the corresponding full-precision baselines on seven node classification datasets and verified the effectiveness of our Entropy Cover Hypothesis for solving the capacity problem.
翻訳日:2022-10-25 18:31:41 公開日:2022-10-24
# (LA)yer-neigh(BOR)サンプリング:GNNにおける近隣爆発の回避

(LA)yer-neigh(BOR) Sampling: Defusing Neighborhood Explosion in GNNs ( http://arxiv.org/abs/2210.13339v1 )

ライセンス: Link先を確認
Muhammed Fatih Bal{\i}n and \"Umit V. \c{C}ataly\"urek(参考訳) グラフニューラルネットワークは近年大きな注目を集めているが、大規模にトレーニングすることは依然として難しい課題である。 この課題を緩和するために、ミニバッチトレーニングとサンプリングが使用される。 それにもかかわらず、既存のアプローチは近隣の爆発現象に苦しむか、性能が良くない。 これらの問題に対処するため,LABOR (Layer-neighBOR sample) と呼ばれる新しいサンプリングアルゴリズムを提案する。 品質を犠牲にすることなく、より少ない頂点をサンプリングしながら、同じファンアウトハイパーパラメータで近隣サンプリングを直接置き換えるように設計されている。 設計により、各頂点の推定器のばらつきは、1つの頂点の観点から隣のサンプリングと一致する。 実験では,近接サンプリングに対するモデル収束行動や,同じ制限された頂点サンプリング予算制約下での他の層サンプリングアプローチにおいて,我々のアプローチが優れていることを示す。

Graph Neural Networks have recently received a significant attention, however, training them at a large scale still remains a challenge. Minibatch training coupled with sampling is used to alleviate this challenge. Even so existing approaches either suffer from the neighborhood explosion phenomenon or do not have good performance. To deal with these issues, we propose a new sampling algorithm called LAyer-neighBOR sampling (LABOR). It is designed to be a direct replacement for Neighborhood Sampling with the same fanout hyperparameter while sampling much fewer vertices, without sacrificing quality. By design, the variance of the estimator of each vertex matches Neighbor Sampling from the point of view of a single vertex. In our experiments, we demonstrate the superiority of our approach when it comes to model convergence behaviour against Neighbor Sampling and also the other Layer Sampling approaches under the same limited vertex sampling budget constraints.
翻訳日:2022-10-25 18:30:19 公開日:2022-10-24
# 連続行動を伴う文脈帯域におけるオフポリティ評価のための局所的メトリクス学習

Local Metric Learning for Off-Policy Evaluation in Contextual Bandits with Continuous Actions ( http://arxiv.org/abs/2210.13373v1 )

ライセンス: Link先を確認
Haanvid Lee, Jongmin Lee, Yunseon Choi, Wonseok Jeon, Byung-Jun Lee, Yung-Kyun Noh, Kee-Eung Kim(参考訳) 我々は,連続的な行動空間を持つ文脈的バンディットにおける決定論的ポリシーのオフポリシー評価(op)のための局所カーネルメトリック学習を考える。 本研究の動機は,治療費の処方や医薬の持続時間といったドメイン要件により,対象方針を決定する必要がある,という現実的なシナリオにある。 重要サンプリング(IS)はOPEの基本原理を提供するが、連続行動を伴う決定論的目標政策には不適当である。 本研究の主な考え方は,カーネル平均二乗誤差(MSE)を最小化するためにカーネルメトリックスを学習するカーネルベースの推定法として,ターゲットポリシーを緩和し,問題を提起することである。 本稿では,バイアスと分散の分析に基づく最適計量の分析解を提案する。 以前の作業はスカラー動作空間やカーネル帯域選択に限定されていたが、我々の作業はさらにベクトルアクション空間とメトリック最適化の能力を持たせている。 評価器は整合性を示し, 各種領域の実験によるベースラインOPE法と比較して, MSEを著しく低減する。

We consider local kernel metric learning for off-policy evaluation (OPE) of deterministic policies in contextual bandits with continuous action spaces. Our work is motivated by practical scenarios where the target policy needs to be deterministic due to domain requirements, such as prescription of treatment dosage and duration in medicine. Although importance sampling (IS) provides a basic principle for OPE, it is ill-posed for the deterministic target policy with continuous actions. Our main idea is to relax the target policy and pose the problem as kernel-based estimation, where we learn the kernel metric in order to minimize the overall mean squared error (MSE). We present an analytic solution for the optimal metric, based on the analysis of bias and variance. Whereas prior work has been limited to scalar action spaces or kernel bandwidth selection, our work takes a step further being capable of vector action spaces and metric optimization. We show that our estimator is consistent, and significantly reduces the MSE compared to baseline OPE methods through experiments on various domains.
翻訳日:2022-10-25 18:30:03 公開日:2022-10-24
# OLLA:アレーの寿命と位置を最適化することでニューラルネットワークのメモリ使用量を減らす

OLLA: Decreasing the Memory Usage of Neural Networks by Optimizing the Lifetime and Location of Arrays ( http://arxiv.org/abs/2210.12924v1 )

ライセンス: Link先を確認
Benoit Steiner, Mostafa Elhoushi, Jacob Kahn, James Hegarty(参考訳) 近年、ディープニューラルネットワークのサイズは指数関数的に増加している。 残念ながら、ハードウェアデバイスは急速に増加するメモリ要件に対応していない。 これに対処するために、研究者はフラッシングや再計算などの技術に目を向け、トレーニング時間を短縮したり、精度を低下させたり、モデルの精度に影響を及ぼすモデルプルーニングを行ったりしている。 ニューラルネットワークのトレーニングに使用されるテンソルの寿命とメモリ位置を最適化するアルゴリズムであるOLLAを提案する。 提案手法は,既存のニューラルネットワークのメモリ使用量を,モデルやトレーニング手順を変更することなく削減する。 我々は、問題を合同整数線形プログラム(ilp)として定式化する。 我々は,問題の符号化を単純化し,既製のICPソルバを用いて最先端のニューラルネットワークのサイズにスケールできる手法をいくつか提示する。 実験により、ollaは平均3分の1のメモリでニューラルネットワークのトレーニングを行うのにほんの数分しかかからないことを示した。

The size of deep neural networks has grown exponentially in recent years. Unfortunately, hardware devices have not kept pace with the rapidly increasing memory requirements. To cope with this, researchers have turned to techniques such as spilling and recomputation, which increase training time, or reduced precision and model pruning, which can affect model accuracy. We present OLLA, an algorithm that optimizes the lifetime and memory location of the tensors used to train neural networks. Our method reduces the memory usage of existing neural networks, without needing any modification to the models or their training procedures. We formulate the problem as a joint integer linear program (ILP). We present several techniques to simplify the encoding of the problem, and enable our approach to scale to the size of state-of-the-art neural networks using an off-the-shelf ILP solver. We experimentally demonstrate that OLLA only takes minutes if not seconds to allow the training of neural networks using one-third less memory on average.
翻訳日:2022-10-25 18:21:58 公開日:2022-10-24
# ディープニューラルネットワークのための学習率ポリシの選択と構成

Selecting and Composing Learning Rate Policies for Deep Neural Networks ( http://arxiv.org/abs/2210.12936v1 )

ライセンス: Link先を確認
Yanzhao Wu, Ling Liu(参考訳) 学習率(LR)関数とポリシーの選択は、単純な固定LRから減衰LRと循環LRへと進化し、Deep Neural Networks(DNN)の精度を改善し、トレーニング時間を短縮することを目指している。 本稿では, DNN 訓練における LR ポリシーの選択と構成に関する体系的なアプローチを提案し, 目標精度を満足し, 事前定義された訓練イテレーションにおけるトレーニング時間を短縮する。 3つのオリジナル・コントリビューションがある。 まず、予め定義されたトレーニング時間制約の下で、所望の精度目標に対して、所定のLRポリシーを自動検証するためのLRチューニング機構を開発する。 第2に,各学習課題,DNNモデル,データセットに対して,動的チューニングを通じて,同一および/又は異なるLR関数から優れたLRポリシーを選択し,構成するLRポリシー推薦システム(LRBench)を開発する。 第三に、異なるDNNオプティマイザをサポートしてLRBenchを拡張し、異なるLRポリシーと異なるオプティマイザの相互影響を示す。 一般的なベンチマークデータセットと異なるDNNモデル(LeNet、CNN3、ResNet)を用いて評価した結果、我々のアプローチは、DNNテストの精度を効果的に提供し、既存の推奨デフォルトLRポリシーを上回り、ターゲットモデル精度を満たすためにDNNトレーニング時間を1.6$\sim$6.7$\times$に削減できることが示されている。

The choice of learning rate (LR) functions and policies has evolved from a simple fixed LR to the decaying LR and the cyclic LR, aiming to improve the accuracy and reduce the training time of Deep Neural Networks (DNNs). This paper presents a systematic approach to selecting and composing an LR policy for effective DNN training to meet desired target accuracy and reduce training time within the pre-defined training iterations. It makes three original contributions. First, we develop an LR tuning mechanism for auto-verification of a given LR policy with respect to the desired accuracy goal under the pre-defined training time constraint. Second, we develop an LR policy recommendation system (LRBench) to select and compose good LR policies from the same and/or different LR functions through dynamic tuning, and avoid bad choices, for a given learning task, DNN model and dataset. Third, we extend LRBench by supporting different DNN optimizers and show the significant mutual impact of different LR policies and different optimizers. Evaluated using popular benchmark datasets and different DNN models (LeNet, CNN3, ResNet), we show that our approach can effectively deliver high DNN test accuracy, outperform the existing recommended default LR policies, and reduce the DNN training time by 1.6$\sim$6.7$\times$ to meet a targeted model accuracy.
翻訳日:2022-10-25 18:21:40 公開日:2022-10-24
# 教師なしグラフ異常検出において、私たちは本当に大きな進歩を遂げていますか? 新しい洞察と優れた手法で問題を再考する

Are we really making much progress in unsupervised graph outlier detection? Revisiting the problem with new insight and superior method ( http://arxiv.org/abs/2210.12941v1 )

ライセンス: Link先を確認
Yihong Huang, Liping Wang, Fan Zhang, Xuemin Lin(参考訳) 近年,属性ネットワーク上のunsupervised Node Outlier Detection (UNOD) が重要な領域となっているため,グラフアウトレイラ検出(GOD)に関する研究が盛んに行われている。 UNODは、グラフにおける典型的な2種類の外れ値を検出することに焦点を当てている。 既存の作品の多くは、インジェクションされた外れ値を持つデータセットに基づいて実験を行う。 しかし、最も広く使われているoutlier injectionアプローチには、深刻なデータ漏洩問題があることが分かりました。 このようなデータ漏洩のみを利用することで、単純なアプローチで異常値検出時の最先端のパフォーマンスを実現することができる。 さらに,既存のアルゴリズムの多くは,インジェクション設定の異なる性能低下を観測する。 もう1つの大きな問題は、既存の研究では考慮されていない2種類の異常値間の平衡検出性能である。 本稿では,UNODを推進するためのビルディングブロックであるインジェクションアプローチから,データ漏洩問題の原因を深く分析する。 さらに, 異なるインジェクション設定に対してより頑健な構造異常を検出するために, 分散に基づく新しいモデルを開発した。 これに加えて,分散ベースのモデルと属性再構成モデルを組み合わせた分散ベースのグラフ異常検出(vgod)という新しいフレームワークを提案する。 最後に,VGODの有効性と効率を実証するための広範な実験を行った。 5つの実世界のデータセットの結果は、vgodが異常値の検出において最高の性能を発揮するだけでなく、構造的外れ値と文脈的外れ値の間のバランスの取れた検出性能を達成することを検証している。

A large number of studies on Graph Outlier Detection (GOD) have emerged in recent years due to its wide applications, in which Unsupervised Node Outlier Detection (UNOD) on attributed networks is an important area. UNOD focuses on detecting two kinds of typical outliers in graphs: the structural outlier and the contextual outlier. Most existing works conduct the experiments based on the datasets with injected outliers. However, we find that the most widely-used outlier injection approach has a serious data leakage issue. By only utilizing such data leakage, a simple approach can achieve the state-of-the-art performance in detecting outliers. In addition, we observe that most existing algorithms have performance drops with varied injection settings. The other major issue is on balanced detection performance between the two types of outliers, which has not been considered by existing studies. In this paper, we analyze the cause of the data leakage issue in depth since the injection approach is a building block to advance UNOD. Moreover, we devise a novel variance-based model to detect structural outliers, which is more robust to different injection settings. On top of this, we propose a new framework, Variance-based Graph Outlier Detection (VGOD), which combines our variance-based model and attribute reconstruction model to detect outliers in a balanced way. Finally, we conduct extensive experiments to demonstrate the effectiveness and the efficiency of VGOD. The results on 5 real-world datasets validate that VGOD achieves not only the best performance in detecting outliers but also a balanced detection performance between structural and contextual outliers.
翻訳日:2022-10-25 18:21:13 公開日:2022-10-24
# 不確実性学習による人物画像検索の信頼性・認識予測

Reliability-Aware Prediction via Uncertainty Learning for Person Image Retrieval ( http://arxiv.org/abs/2210.13440v1 )

ライセンス: Link先を確認
Zhaopeng Dou, Zhongdao Wang, Weihua Chen, Yali Li, and Shengjin Wang(参考訳) 現在の人物画像検索法は精度の指標を大幅に改善した。 しかし、予測の信頼性はめったに説明されない。 本稿では,この問題を解決するための不確実性認識学習(UAL)手法を提案する。 UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性を考慮した予測を提供することを目指している。 データ不確実性はサンプル固有の『ノイズ』を捉え、モデル不確実性はサンプルの予測に対するモデルの信頼を表現します。 具体的には,UALにおいて,トレーニング中に異なるサンプルに適応的に重みを割り当てるサンプリング不要なデータ不確実性学習手法を提案する。 2)ネットワークのパラメータがベルヌーイ分布に従うと仮定し,ベイズフレームワークを用いてモデル不確かさをモデル化する。 3)データ不確かさとモデル不確実性は,統合ネットワークで共同で学習し,信頼性評価のための2つの基本的な基準として,プローブが高品質(低データ不確実性)で,モデルがプローブの予測(低モデル不確実性)に自信を持つ場合,最終ランキングは信頼性評価として評価される。 リスク制御設定とマルチクエリ設定による実験は,提案する信頼性評価が有効であることを示す。 提案手法は,バニラ単一クエリ設定において,3つの難易度ベンチマークにおいて優れた性能を示す。

Current person image retrieval methods have achieved great improvements in accuracy metrics. However, they rarely describe the reliability of the prediction. In this paper, we propose an Uncertainty-Aware Learning (UAL) method to remedy this issue. UAL aims at providing reliability-aware predictions by considering data uncertainty and model uncertainty simultaneously. Data uncertainty captures the ``noise" inherent in the sample, while model uncertainty depicts the model's confidence in the sample's prediction. Specifically, in UAL, (1) we propose a sampling-free data uncertainty learning method to adaptively assign weights to different samples during training, down-weighting the low-quality ambiguous samples. (2) we leverage the Bayesian framework to model the model uncertainty by assuming the parameters of the network follow a Bernoulli distribution. (3) the data uncertainty and the model uncertainty are jointly learned in a unified network, and they serve as two fundamental criteria for the reliability assessment: if a probe is high-quality (low data uncertainty) and the model is confident in the prediction of the probe (low model uncertainty), the final ranking will be assessed as reliable. Experiments under the risk-controlled settings and the multi-query settings show the proposed reliability assessment is effective. Our method also shows superior performance on three challenging benchmarks under the vanilla single query settings.
翻訳日:2022-10-25 17:56:33 公開日:2022-10-24
# モノキュラーダイナミックビュー合成:現実チェック

Monocular Dynamic View Synthesis: A Reality Check ( http://arxiv.org/abs/2210.13445v1 )

ライセンス: Link先を確認
Hang Gao, Ruilong Li, Shubham Tulsiani, Bryan Russell, Angjoo Kanazawa(参考訳) モノクロビデオからの動的ビュー合成(DVS)の最近の進歩について検討する。 既存のアプローチは目覚ましい結果を示したが、実測と既存の実験プロトコルの相違が示され、訓練中にマルチビュー信号が効果的に漏洩する。 我々は,カメラシーンの相対的な動きに基づいて,入力キャプチャシーケンスに存在するマルチビュー信号の量を定量化するために,効果的なマルチビュー因子(EMF)を定義する。 我々は、既存のプロトコルの問題を克服する2つの新しいメトリクス、共可視マスキング画像メトリクスと対応精度を導入する。 また,より多様な変形シーケンスを含む新しいiphoneデータセットを提案する。 提案手法を用いて, 複雑な動きをモデル化する際に, マスク付きPSNRの1-2dB滴と4-5dB滴が欠如していることが実証された。 コードとデータはhttps://hangg7.com/dycheckで確認できる。

We study the recent progress on dynamic view synthesis (DVS) from monocular video. Though existing approaches have demonstrated impressive results, we show a discrepancy between the practical capture process and the existing experimental protocols, which effectively leaks in multi-view signals during training. We define effective multi-view factors (EMFs) to quantify the amount of multi-view signal present in the input capture sequence based on the relative camera-scene motion. We introduce two new metrics: co-visibility masked image metrics and correspondence accuracy, which overcome the issue in existing protocols. We also propose a new iPhone dataset that includes more diverse real-life deformation sequences. Using our proposed experimental protocol, we show that the state-of-the-art approaches observe a 1-2 dB drop in masked PSNR in the absence of multi-view cues and 4-5 dB drop when modeling complex motion. Code and data can be found at https://hangg7.com/dycheck.
翻訳日:2022-10-25 17:56:11 公開日:2022-10-24
# SimANS: テキスト検索のための単純な曖昧な否定

SimANS: Simple Ambiguous Negatives Sampling for Dense Text Retrieval ( http://arxiv.org/abs/2210.11773v2 )

ライセンス: Link先を確認
Kun Zhou, Yeyun Gong, Xiao Liu, Wayne Xin Zhao, Yelong Shen, Anlei Dong, Jingwen Lu, Rangan Majumder, Ji-Rong Wen, Nan Duan and Weizhu Chen(参考訳) 大きなドキュメントプールから適切な負をサンプリングすることは、密集した検索モデルを効果的に訓練するのに不可欠である。 しかし、既存の負のサンプリング戦略は、不正または偽の負の問題に悩まされている。 本研究は,測定結果から,正値を中心にランク付けされた負値が概して有益であり,偽陰性である可能性が低いことを実証的に示す。 直感的には、これらの負はそれほど難しくない(偽陰性である)か、簡単すぎる(偽陰性)。 それらはあいまいなネガティブであり、トレーニング中にもっと注意が必要である。 そこで本研究では,新しいサンプリング確率分布を組み込んだ簡易なあいまいな負のサンプリング法であるsimansを提案する。 4つのパブリックデータセットと1つの業界データセットに関する広範な実験は、このアプローチの有効性を示しています。 コードとモデルは \url{https://github.com/microsoft/SimXNS} で公開しました。

Sampling proper negatives from a large document pool is vital to effectively train a dense retrieval model. However, existing negative sampling strategies suffer from the uninformative or false negative problem. In this work, we empirically show that according to the measured relevance scores, the negatives ranked around the positives are generally more informative and less likely to be false negatives. Intuitively, these negatives are not too hard (\emph{may be false negatives}) or too easy (\emph{uninformative}). They are the ambiguous negatives and need more attention during training. Thus, we propose a simple ambiguous negatives sampling method, SimANS, which incorporates a new sampling probability distribution to sample more ambiguous negatives. Extensive experiments on four public and one industry datasets show the effectiveness of our approach. We made the code and models publicly available in \url{https://github.com/microsoft/SimXNS}.
翻訳日:2022-10-25 17:55:56 公開日:2022-10-24
# 科学文献における拷問語の検出に関する研究

Investigating the detection of Tortured Phrases in Scientific Literature ( http://arxiv.org/abs/2210.13024v1 )

ライセンス: Link先を確認
Puthineath Lay, Martin Lentschat and Cyril Labb\'e(参考訳) オンラインツールの助けを借りて、不条理な著者は今日、疑似科学的な記事を生成して公開しようとすることができる。 これらのツールのいくつかは、既存のテキストを置き換えたりパラフレッシュしたりして新しいコンテンツを生成するが、非センセーショナルな表現を生成する傾向がある。 最近の研究では、固定表現の代わりに現れる予期せぬ奇妙なフレーズである「ねじれ句」の概念が紹介されている。 例えば、人工知能の代わりに偽造意識です。 本研究の目的は,未記載の拷問句を自動的に検出する方法について検討することである。 非神経二分分類、ニューラル二分分類、コサイン類似性比較など、いくつかの実験を行い、顕著な結果を得た。

With the help of online tools, unscrupulous authors can today generate a pseudo-scientific article and attempt to publish it. Some of these tools work by replacing or paraphrasing existing texts to produce new content, but they have a tendency to generate nonsensical expressions. A recent study introduced the concept of 'tortured phrase', an unexpected odd phrase that appears instead of the fixed expression. E.g. counterfeit consciousness instead of artificial intelligence. The present study aims at investigating how tortured phrases, that are not yet listed, can be detected automatically. We conducted several experiments, including non-neural binary classification, neural binary classification and cosine similarity comparison of the phrase tokens, yielding noticeable results.
翻訳日:2022-10-25 17:54:44 公開日:2022-10-24
# 組込みデバイスを用いた効率的な虹彩認識システムの実現に向けて

Towards an efficient Iris Recognition System on Embedded Devices ( http://arxiv.org/abs/2210.13101v1 )

ライセンス: Link先を確認
Daniel P. Benalcazar, Juan E. Tapia, Mauricio Vasquez, Leonardo Causa, Enrique Lopez Droguett, Christoph Busch(参考訳) Iris Recognition (IR)は、市場で最も信頼性が高く正確な生体認証システムの一つである。 現在、ハードウェア価格の引き下げを前提として、NIRキャプチャーデバイスを構築することは困難である。 商用のNIRセンサーは修正から保護されている。 新しいデバイスを構築するプロセスは、品質で画像をキャプチャし、運用距離を調整し、目/虹彩検出器やセグメンテーションサブシステムのような軽量なソフトウェアを構築するプロセスから始める必要があるため、簡単ではない。 このような課題を考慮して, 本研究の目的は, 組込みシステムにおける虹彩認識ソフトウェアの開発と実装であり, NIRを非接触双眼鏡で校正することである。 2台の組み込みコンピュータと赤外線カメラで得られた性能とコントラスト速度を比較検討した。 さらに,制限メモリリソース下でのアイリスセグメンテーションに使用できる,軽量セグメンタサブシステム"Unet_xxs"を提案する。

Iris Recognition (IR) is one of the market's most reliable and accurate biometric systems. Today, it is challenging to build NIR-capturing devices under the premise of hardware price reduction. Commercial NIR sensors are protected from modification. The process of building a new device is not trivial because it is required to start from scratch with the process of capturing images with quality, calibrating operational distances, and building lightweight software such as eyes/iris detectors and segmentation sub-systems. In light of such challenges, this work aims to develop and implement iris recognition software in an embedding system and calibrate NIR in a contactless binocular setup. We evaluate and contrast speed versus performance obtained with two embedded computers and infrared cameras. Further, a lightweight segmenter sub-system called "Unet_xxs" is proposed, which can be used for iris semantic segmentation under restricted memory resources.
翻訳日:2022-10-25 17:48:35 公開日:2022-10-24
# スパース点アノテーションを用いた電子顕微鏡の領域適応セグメンテーション

Domain Adaptive Segmentation of Electron Microscopy with Sparse Point Annotations ( http://arxiv.org/abs/2210.13109v1 )

ライセンス: Link先を確認
Dafei Qiu, Jiajin Yi, Jialin Peng(参考訳) オルガネラインスタンス(例えばミトコンドリア)の正確なセグメンテーションは電子顕微鏡解析に必須である。 完全な教師付きメソッドのパフォーマンスは優れているが、十分なピクセル毎の注釈データに依存しており、ドメインシフトに敏感である。 競合性能を持つ高度にアノテーション効率の高いアプローチを開発するために、オブジェクトインスタンスの小さなサブセットのみにスパースポイントアノテーションを要求する極端にスパースで弱いアノテーションのタイプを持つ弱教師付きドメイン適応(WDA)に焦点を当てる。 ドメインシフトによる性能劣化を低減するため,ドメイン不変度の異なるタスクピラミッドを構成する3つの相補的タスク,すなわちカウント,検出,セグメンテーションを実行することで,多段階の伝達可能な知識を探索する。 この背景にある直観は、関連するソースドメインを調査した後、ターゲットドメイン内で類似したオブジェクトを見つけることが、それらの細かい境界を示すよりもずっと容易であるということである。 具体的には、スパース監視による検出のグローバル制約としてカウント推定を強制し、セグメンテーションをさらに導く。 アノテーションのスパース性をさらに補うために、クロスポジションカット・アンド・ペースト拡張が導入される。 広範な検証によって,15\%のポイントアノテーションしか持たないモデルが教師付きモデルと同等のパフォーマンスを達成でき,アノテーション選択に対する堅牢性が示された。

Accurate segmentation of organelle instances, e.g., mitochondria, is essential for electron microscopy analysis. Despite the outstanding performance of fully supervised methods, they highly rely on sufficient per-pixel annotated data and are sensitive to domain shift. Aiming to develop a highly annotation-efficient approach with competitive performance, we focus on weakly-supervised domain adaptation (WDA) with a type of extremely sparse and weak annotation demanding minimal annotation efforts, i.e., sparse point annotations on only a small subset of object instances. To reduce performance degradation arising from domain shift, we explore multi-level transferable knowledge through conducting three complementary tasks, i.e., counting, detection, and segmentation, constituting a task pyramid with different levels of domain invariance. The intuition behind this is that after investigating a related source domain, it is much easier to spot similar objects in the target domain than to delineate their fine boundaries. Specifically, we enforce counting estimation as a global constraint to the detection with sparse supervision, which further guides the segmentation. A cross-position cut-and-paste augmentation is introduced to further compensate for the annotation sparsity. Extensive validations show that our model with only 15\% point annotations can achieve comparable performance as supervised models and shows robustness to annotation selection.
翻訳日:2022-10-25 17:48:18 公開日:2022-10-24
# CNNを用いた虹彩超解像 : 光リアリズムは虹彩認識に重要であるか?

Iris super-resolution using CNNs: is photo-realism important to iris recognition? ( http://arxiv.org/abs/2210.13125v1 )

ライセンス: Link先を確認
Eduardo Ribeiro, Andreas Uhl, Fernando Alonso-Fernandez(参考訳) 近年,携帯電話や監視ビデオなど,よりリラックスした取得条件を取り入れた低解像度画像の利用が,虹彩認識においてますます一般的になりつつある。 同時に、特に畳み込みニューラルネットワーク(CNN)の使用により、多数の単一画像超解像技術が出現している。 これらの手法の主な目的は、cnnアーキテクチャとトレーニングアプローチに基づく客観的関数の最適化に基づいて、よりフォトリアリスティックな画像を生成するテクスチャの詳細を復元することである。 本研究では, 虹彩認識のためのCNNを用いて, 単一画像の超解像を探索する。 そのため、異なるCNNアーキテクチャをテストし、異なるトレーニングデータベースを使用し、近赤外線虹彩画像と携帯電話画像データベースの1.872のデータベースに対するアプローチを検証する。 また、品質評価、視覚的結果、認識実験を用いて、既に自然画像に効果があることが証明されたcnnによるフォトリアリズムが、虹彩認識をより良く認識できるかどうかを検証する。 その結果, エッジ保存と平滑化のバランスを保ち, テクスチャデータベースで訓練したより深いアーキテクチャを用いることで, 虹彩認識プロセスの良好な結果が得られることがわかった。

The use of low-resolution images adopting more relaxed acquisition conditions such as mobile phones and surveillance videos is becoming increasingly common in iris recognition nowadays. Concurrently, a great variety of single image super-resolution techniques are emerging, especially with the use of convolutional neural networks (CNNs). The main objective of these methods is to try to recover finer texture details generating more photo-realistic images based on the optimisation of an objective function depending basically on the CNN architecture and training approach. In this work, the authors explore single image super-resolution using CNNs for iris recognition. For this, they test different CNN architectures and use different training databases, validating their approach on a database of 1.872 near infrared iris images and on a mobile phone image database. They also use quality assessment, visual results and recognition experiments to verify if the photo-realism provided by the CNNs which have already proven to be effective for natural images can reflect in a better recognition rate for iris recognition. The results show that using deeper architectures trained with texture databases that provide a balance between edge preservation and the smoothness of the method can lead to good results in the iris recognition process.
翻訳日:2022-10-25 17:47:53 公開日:2022-10-24
# 野生における顔認識のための顔軟バイオメトリックス:最近の研究、注釈、COTS評価

Facial Soft Biometrics for Recognition in the Wild: Recent Works, Annotation, and COTS Evaluation ( http://arxiv.org/abs/2210.13129v1 )

ライセンス: Link先を確認
Ester Gonzalez-Sosa, Julian Fierrez, Ruben Vera-Rodriguez, Fernando Alonso-Fernandez(参考訳) 制約のないシナリオにおける人物認識システムを強化するソフトバイオメトリックスの役割は、広く研究されていない。 ここでは、性別、民族性、年齢、眼鏡、ひげ、口ひげといったモダリティの有用性について検討する。 二つの仮定を考えます 1)ソフトバイオメトリックスのマニュアル推定と評価 2)2つの市販オフザシェルフシステム(COTS)からの自動推定を行う。 すべての実験は、ワイルド(LFW)データベース内のラベル付き顔を用いて報告される。 まず,ソフトバイオメトリックスの識別能力について検討する。 次に,深層学習に基づく2つの最先端顔認識システムを用いて,ソフトバイオメトリックスを用いた実験を行った。 ソフトバイオメトリックスは,手動・自律的ソフトバイオメトリックス推定における検証性能の40%/15%の相対的改善を伴って,制約のないシナリオにおける顔のモダリティを補完する貴重なものと考えられる。 lfw上のソフトバイオメトリックスのマニュアルアノテーションとcots出力、および顔認識スコアを公開することにより、結果は再現可能になります。

The role of soft biometrics to enhance person recognition systems in unconstrained scenarios has not been extensively studied. Here, we explore the utility of the following modalities: gender, ethnicity, age, glasses, beard, and moustache. We consider two assumptions: 1) manual estimation of soft biometrics and 2) automatic estimation from two commercial off-the-shelf systems (COTS). All experiments are reported using the labeled faces in the wild (LFW) database. First, we study the discrimination capabilities of soft biometrics standalone. Then, experiments are carried out fusing soft biometrics with two state-of-the-art face recognition systems based on deep learning. We observe that soft biometrics is a valuable complement to the face modality in unconstrained scenarios, with relative improvements up to 40%/15% in the verification performance when using manual/automatic soft biometrics estimation. Results are reproducible as we make public our manual annotations and COTS outputs of soft biometrics over LFW, as well as the face recognition scores.
翻訳日:2022-10-25 17:47:34 公開日:2022-10-24
# 作物種別説明可能性の自己意識の検討

Exploring Self-Attention for Crop-type Classification Explainability ( http://arxiv.org/abs/2210.13167v1 )

ライセンス: Link先を確認
Ivica Obadic, Ribana Roscher, Dario Augusto Borges Oliveira and Xiao Xiang Zhu(参考訳) sentinel-2衛星時系列を用いた作物の自動分類は農業モニタリングに不可欠である。 近年,変圧器エンコーダに基づくディープラーニングモデルが作物分類に有望なアプローチとなった。 説明可能な機械学習を使ってこれらのモデルの内部動作を明らかにすることは、ステークホルダーの信頼と効率的な農業モニタリングを改善するための重要なステップである。 本稿では,最先端のトランスフォーマーエンコーダモデルによって学習される本質的作物の曖昧さパターンに光を当てることを目的とした,新しい説明可能性フレームワークを提案する。 より具体的には、訓練されたトランスフォーマーエンコーダの注意重みを処理し、作物の曖昧性の臨界日を明らかにし、ドメイン知識を用いて、モデル性能を支える現象を明らかにする。 また,作物特異的な現象を明らかにするための注意力向上のための感度分析手法を提案する。 我々は,注目パターンが重要な日付と強く関連し,その結果,作物型分類における重要な表現学的事象に強く関連していることを示す説得力のある結果を報告する。 これらの知見は、株主信頼の向上と農業モニタリングプロセスの最適化に関係しているかもしれない。 また, 作物の表現学における重要な事象を識別するための注意重みの制限が, トレーニング中に考慮したデータから他の作物に依存することを実証的に示すため, 感度分析を行った。

Automated crop-type classification using Sentinel-2 satellite time series is essential to support agriculture monitoring. Recently, deep learning models based on transformer encoders became a promising approach for crop-type classification. Using explainable machine learning to reveal the inner workings of these models is an important step towards improving stakeholders' trust and efficient agriculture monitoring. In this paper, we introduce a novel explainability framework that aims to shed a light on the essential crop disambiguation patterns learned by a state-of-the-art transformer encoder model. More specifically, we process the attention weights of a trained transformer encoder to reveal the critical dates for crop disambiguation and use domain knowledge to uncover the phenological events that support the model performance. We also present a sensitivity analysis approach to understand better the attention capability for revealing crop-specific phenological events. We report compelling results showing that attention patterns strongly relate to key dates, and consequently, to the critical phenological events for crop-type classification. These findings might be relevant for improving stakeholder trust and optimizing agriculture monitoring processes. Additionally, our sensitivity analysis demonstrates the limitation of attention weights for identifying the important events in the crop phenology as we empirically show that the unveiled phenological events depend on the other crops in the data considered during training.
翻訳日:2022-10-25 17:47:16 公開日:2022-10-24
# 深層学習によるVine Leaf Phenotypingのための意味的画像分割

Semantic Image Segmentation with Deep Learning for Vine Leaf Phenotyping ( http://arxiv.org/abs/2210.13296v1 )

ライセンス: Link先を確認
Petros N. Tamvakis, Chairi Kiourt, Alexandra D. Solomou, George Ioannakis and Nestoras C. Tsirliganis(参考訳) Plant phenotyping refers to a quantitative description of the plants properties, however in image-based phenotyping analysis, our focus is primarily on the plants anatomical, ontogenetical and physiological properties.This technique reinforced by the success of Deep Learning in the field of image based analysis is applicable to a wide range of research areas making high-throughput screens of plants possible, reducing the time and effort needed for phenotypic characterization.In this study, we use Deep Learning methods (supervised and unsupervised learning based approaches) to semantically segment grapevine leaves images in order to develop an automated object detection (through segmentation) system for leaf phenotyping which will yield information regarding their structure and function.In these directions we studied several deep learning approaches with promising results as well as we reported some future challenging tasks in the area of precision agriculture.Our work contributes to plant lifecycle monitoring through which dynamic traits such as growth and development can be captured and quantified, targeted intervention and selective application of agrochemicals and grapevine variety identification which are key prerequisites in sustainable agriculture.

Plant phenotyping refers to a quantitative description of the plants properties, however in image-based phenotyping analysis, our focus is primarily on the plants anatomical, ontogenetical and physiological properties.This technique reinforced by the success of Deep Learning in the field of image based analysis is applicable to a wide range of research areas making high-throughput screens of plants possible, reducing the time and effort needed for phenotypic characterization.In this study, we use Deep Learning methods (supervised and unsupervised learning based approaches) to semantically segment grapevine leaves images in order to develop an automated object detection (through segmentation) system for leaf phenotyping which will yield information regarding their structure and function.In these directions we studied several deep learning approaches with promising results as well as we reported some future challenging tasks in the area of precision agriculture.Our work contributes to plant lifecycle monitoring through which dynamic traits such as growth and development can be captured and quantified, targeted intervention and selective application of agrochemicals and grapevine variety identification which are key prerequisites in sustainable agriculture.
翻訳日:2022-10-25 17:46:24 公開日:2022-10-24
# デュアルピクセル雨滴除去

Dual-Pixel Raindrop Removal ( http://arxiv.org/abs/2210.13321v1 )

ライセンス: Link先を確認
Yizhou Li, Yusuke Monno and Masatoshi Okutomi(参考訳) 画像中の雨滴の除去は、様々なコンピュータビジョンアプリケーションにとって重要な課題である。 本稿では,雨滴除去対策としてDual-Pixel (DP) センサを用いた最初の手法を提案する。 ガラス窓に付着した雨滴は,dpの左半身と右半身のイメージに顕著に差を生じさせるが,焦点内背景には差がほとんどない。 そのため, DPの相違は強雨滴検出に有効である。 DPの相違は、雨滴による隠蔽された背景領域が左半減画像と右半減画像の間で移動するという利点をもたらす。 したがって、左半画像と右半画像からの情報を融合することで、より正確な背景テクスチャの復元が可能になる。 以上のモチベーションに基づいて,DP雨滴検出とDP溶雨滴除去からなるDP雨滴除去ネットワーク(DPRRN)を提案する。 また,大量のトレーニングデータを効率的に生成するために,実世界の背景DP画像に合成雨滴を追加する新しいパイプラインを提案する。 合成および実世界のデータセットによる実験結果から、我々のDPRRNは既存の最先端の手法よりも優れており、特に実世界の状況に対してより堅牢であることが示された。 ソースコードとデータセットはhttp://www.ok.sc.e.で利用可能です。 titech.ac.jp/res/SIR/

Removing raindrops in images has been addressed as a significant task for various computer vision applications. In this paper, we propose the first method using a Dual-Pixel (DP) sensor to better address the raindrop removal. Our key observation is that raindrops attached to a glass window yield noticeable disparities in DP's left-half and right-half images, while almost no disparity exists for in-focus backgrounds. Therefore, DP disparities can be utilized for robust raindrop detection. The DP disparities also brings the advantage that the occluded background regions by raindrops are shifted between the left-half and the right-half images. Therefore, fusing the information from the left-half and the right-half images can lead to more accurate background texture recovery. Based on the above motivation, we propose a DP Raindrop Removal Network (DPRRN) consisting of DP raindrop detection and DP fused raindrop removal. To efficiently generate a large amount of training data, we also propose a novel pipeline to add synthetic raindrops to real-world background DP images. Experimental results on synthetic and real-world datasets demonstrate that our DPRRN outperforms existing state-of-the-art methods, especially showing better robustness to real-world situations. Our source code and datasets are available at http://www.ok.sc.e.titech.ac.jp/res/SIR/.
翻訳日:2022-10-25 17:46:10 公開日:2022-10-24
# 逆問題における後方サンプリングのための正規化条件付きGAN

A Regularized Conditional GAN for Posterior Sampling in Inverse Problems ( http://arxiv.org/abs/2210.13389v1 )

ライセンス: Link先を確認
Matthew Bendel, Rizwan Ahmad, and Philip Schniter(参考訳) 逆問題では、不完全あるいは劣化した測定から画像を再構成しようとする。 このような問題は磁気共鳴イメージング(MRI)、CT、デブロワーリング、超解像、塗装などの用途で発生する。 多くの場合、多くの画像仮説は、測定値と事前情報の両方と一致するので、目的とは、単一の「ベスト」仮説を回収することではなく、仮説の空間、すなわち、後方分布からサンプルを探索することである。 そこで本研究では,数個の高品質な後続サンプルを毎秒生成できる正規化条件付きWasserstein GANを提案する。 条件付きFr\'{e}chet開始距離などの定量的評価指標を用いて, マルチコイルMRI, 塗布法ともに最先端の後方試料を生成することを示した。

In inverse problems, one seeks to reconstruct an image from incomplete and/or degraded measurements. Such problems arise in magnetic resonance imaging (MRI), computed tomography, deblurring, superresolution, inpainting, and other applications. It is often the case that many image hypotheses are consistent with both the measurements and prior information, and so the goal is not to recover a single ``best'' hypothesis but rather to explore the space of probable hypotheses, i.e., to sample from the posterior distribution. In this work, we propose a regularized conditional Wasserstein GAN that can generate dozens of high-quality posterior samples per second. Using quantitative evaluation metrics like conditional Fr\'{e}chet inception distance, we demonstrate that our method produces state-of-the-art posterior samples in both multicoil MRI and inpainting applications.
翻訳日:2022-10-25 17:45:48 公開日:2022-10-24
# PseudoAugment: ポイントクラウドのデータ拡張にラベルのないデータを使用する学習

PseudoAugment: Learning to Use Unlabeled Data for Data Augmentation in Point Clouds ( http://arxiv.org/abs/2210.13428v1 )

ライセンス: Link先を確認
Zhaoqi Leng, Shuyang Cheng, Benjamin Caine, Weiyue Wang, Xiao Zhang, Jonathon Shlens, Mingxing Tan, Dragomir Anguelov(参考訳) データ拡張は、データ効率を改善し、ポイントクラウドにおける3D検出のラベリングコストを削減するための重要なテクニックである。 しかし、既存の拡張ポリシーはラベル付きデータのみを利用するように設計されており、データの多様性が制限されている。 本稿では,擬似ラベリングとデータ拡張が相補的であることを認識し,トレーニングデータの強化のためにラベルなしデータを活用することを提案する。 特に,フレーム (pseudoframe), objecta (pseudobbox), background (pseudobackground) などのラベル付きシーンと擬似ラベル付きシーンの両方を融合させるために, 3つの新しい擬似ラベルベースのデータ拡張ポリシー (pseudoaugments) を設計した。 pseudoaugmentsは、疑似ラベリングエラーを緩和し、さまざまな融合トレーニングシーンを生成することで、疑似ラベリングを上回る。 PseudoAugmentsは、ポイントベースおよびボクセルベースのアーキテクチャ、モデルキャパシティの差異、KITTIとWaymo Open Datasetの両方にまたがる一般化を実証する。 ハイパーパラメータチューニングと反復的な擬似ラベリングのコストを軽減するため,AutoPseudoAugmentという3次元検出のための集団データ拡張フレームワークを開発した。 擬似ラベルをオフラインで実行する従来の作業とは異なり、我々のフレームワークは計算コストを削減するために1ショットでPseudoAugmentsとハイパーパラメータチューニングを実行する。 大規模なWaymo Open Dataset実験の結果,提案手法は最先端の自動車データ拡張法(PPBA)と自己学習法(擬似ラベル法)より優れていた。 特にAutoPseudoAugmentは、自動車や歩行者の作業において、従来の技術と比べて3倍と2倍のデータを効率よく提供する。 特にAutoPseudoAugmentは、完全なデータセットトレーニング結果とほぼ一致しており、車両検出タスクのラベル付き実行セグメントの10%に過ぎません。

Data augmentation is an important technique to improve data efficiency and save labeling cost for 3D detection in point clouds. Yet, existing augmentation policies have so far been designed to only utilize labeled data, which limits the data diversity. In this paper, we recognize that pseudo labeling and data augmentation are complementary, thus propose to leverage unlabeled data for data augmentation to enrich the training data. In particular, we design three novel pseudo-label based data augmentation policies (PseudoAugments) to fuse both labeled and pseudo-labeled scenes, including frames (PseudoFrame), objecta (PseudoBBox), and background (PseudoBackground). PseudoAugments outperforms pseudo labeling by mitigating pseudo labeling errors and generating diverse fused training scenes. We demonstrate PseudoAugments generalize across point-based and voxel-based architectures, different model capacity and both KITTI and Waymo Open Dataset. To alleviate the cost of hyperparameter tuning and iterative pseudo labeling, we develop a population-based data augmentation framework for 3D detection, named AutoPseudoAugment. Unlike previous works that perform pseudo-labeling offline, our framework performs PseudoAugments and hyperparameter tuning in one shot to reduce computational cost. Experimental results on the large-scale Waymo Open Dataset show our method outperforms state-of-the-art auto data augmentation method (PPBA) and self-training method (pseudo labeling). In particular, AutoPseudoAugment is about 3X and 2X data efficient on vehicle and pedestrian tasks compared to prior arts. Notably, AutoPseudoAugment nearly matches the full dataset training results, with just 10% of the labeled run segments on the vehicle detection task.
翻訳日:2022-10-25 17:45:31 公開日:2022-10-24
# 人物探索のためのギャラリーフィルタネットワーク

Gallery Filter Network for Person Search ( http://arxiv.org/abs/2210.12903v1 )

ライセンス: Link先を確認
Lucas Jaffe, Avideh Zakhor(参考訳) 個人検索では,他のギャラリーシーンの1シーンから質問者をローカライズすることを目的としている。 この検索操作のコストはギャラリーシーンの数に依存するため、可能性の高いシーンのプールを減らすのに有用である。 本稿では,ギャラリー・フィルタ・ネットワーク(GFN, Gallery Filter Network)について述べる。このモジュールは,ギャラリーのシーンを検索プロセスから効率的に取り除き,残りのシーンで検出された人物のスコアリングに役立てることができる。 gfnは, クロスカメラ, occluded, 低分解能のシナリオなど, さまざまな検索セットでテストすることにより, 様々な条件下で頑健であることを示す。 さらに,元のSeqNetモデルの改良と単純化を行う,SeqNeXt人探索モデルを開発した。 我々は,SeqNeXt+GFNの組み合わせが,標準的なPRWとCUHK-SYSUの人物探索データセットにおける他の最先端手法よりも大きな性能向上をもたらすことを示す。 このモデルや他のモデルの実験を支援するため、典型的には人物探索研究に使用されるデータ処理および評価パイプラインのための標準化されたツールを提供する。

In person search, we aim to localize a query person from one scene in other gallery scenes. The cost of this search operation is dependent on the number of gallery scenes, making it beneficial to reduce the pool of likely scenes. We describe and demonstrate the Gallery Filter Network (GFN), a novel module which can efficiently discard gallery scenes from the search process, and benefit scoring for persons detected in remaining scenes. We show that the GFN is robust under a range of different conditions by testing on different retrieval sets, including cross-camera, occluded, and low-resolution scenarios. In addition, we develop the base SeqNeXt person search model, which improves and simplifies the original SeqNet model. We show that the SeqNeXt+GFN combination yields significant performance gains over other state-of-the-art methods on the standard PRW and CUHK-SYSU person search datasets. To aid experimentation for this and other models, we provide standardized tooling for the data processing and evaluation pipeline typically used for person search research.
翻訳日:2022-10-25 17:39:44 公開日:2022-10-24
# 可変中心を持つ最大コレントロピー基準に基づくロバスト楕円フィッティング

Robust Ellipse Fitting Based on Maximum Correntropy Criterion With Variable Center ( http://arxiv.org/abs/2210.12915v1 )

ライセンス: Link先を確認
Wei Wang, Gang Wang, Chenlong Hu, and K. C. Ho(参考訳) 外れ値の存在は楕円嵌合法の性能を著しく低下させることができる。 本研究では,ラプラシアンカーネルを用いた可変中心(MCC-VC)による最大コレントロピー基準に基づいて,オフレーヤに対して堅牢な楕円嵌合法を開発した。 単一楕円フィッティングでは、非凸最適化問題を定式化し、カーネルの帯域幅と中心を2つのサブプロブレムに分割し、1つのパラメータを推定する。 計算効率の良い閉形式解が得られるように,各部分問題に対する十分正確な凸近似を設計できる。 2つのサブプロブレムは収束に到達するまで別の方法で解決される。 また,結合楕円の適合性についても検討した。 連結楕円嵌合に使用できる複数の楕円嵌合法が存在するが, 特殊構造を利用した2つの楕円嵌合法を開発した。 データ点と楕円点の間に未知の関連があり、各データ点に対する関連付けベクトルを導入し、非凸混合整数最適化問題を定式化し、データ関係を推定する。 推定データアソシエーションを用いて,提案手法を拡張し,最終的な結合楕円性を実現する。 提案手法は, シミュレーションデータと実画像の両方において, 既存の手法よりも優れた性能を示す。

The presence of outliers can significantly degrade the performance of ellipse fitting methods. We develop an ellipse fitting method that is robust to outliers based on the maximum correntropy criterion with variable center (MCC-VC), where a Laplacian kernel is used. For single ellipse fitting, we formulate a non-convex optimization problem to estimate the kernel bandwidth and center and divide it into two subproblems, each estimating one parameter. We design sufficiently accurate convex approximation to each subproblem such that computationally efficient closed-form solutions are obtained. The two subproblems are solved in an alternate manner until convergence is reached. We also investigate coupled ellipses fitting. While there exist multiple ellipses fitting methods that can be used for coupled ellipses fitting, we develop a couple ellipses fitting method by exploiting the special structure. Having unknown association between data points and ellipses, we introduce an association vector for each data point and formulate a non-convex mixed-integer optimization problem to estimate the data associations, which is approximately solved by relaxing it into a second-order cone program. Using the estimated data associations, we extend the proposed method to achieve the final coupled ellipses fitting. The proposed method is shown to have significantly better performance over the existing methods in both simulated data and real images.
翻訳日:2022-10-25 17:39:22 公開日:2022-10-24
# 360-MLC: 自己学習とハイパーパラメータチューニングのためのマルチビューレイアウト一貫性

360-MLC: Multi-view Layout Consistency for Self-training and Hyper-parameter Tuning ( http://arxiv.org/abs/2210.12935v1 )

ライセンス: Link先を確認
Bolivar Solarte, Chin-Hsuan Wu, Yueh-Cheng Liu, Yi-Hsuan Tsai, Min Sun(参考訳) 未ラベルの360画像のみを用いた単眼室レイアウトモデルの多視点整合性に基づく自己学習手法である360-MLCを提案する。 これは、基礎となる真理のアノテーションを使わずに、トレーニング済みのモデルを新しいデータドメインに適応する必要がある実践的なシナリオで有用である。 我々の単純な仮定は、同じシーンにおける複数のレイアウト推定は、カメラの位置に関係なく一貫した幾何を定義する必要があるというものである。 このアイデアに基づいて、事前学習モデルを用いて、複数のカメラビューから推定レイアウト境界を3次元世界座標に投影する。 そして、それらを球面座標に再投影し、確率関数を構築し、そこから擬似ラベルをサンプリングして自己学習する。 不確実な擬似ラベルを扱うために,再計画された境界のばらつきを不確実な値として評価し,学習中の損失関数の各擬似ラベルを重み付けする。 また,地中真理アノテーションはトレーニング中やテスト中は利用できないため,複数のレイアウト推定におけるエントロピー情報を定量的な指標として活用し,地中真理アノテーションを使わずにモデル選択を含むハイパーパラメータチューニングのためのレイアウト推定器を評価することができる。 実験結果から,3つの公開ソースデータセットから同一シーンのマルチビューからなる独自のラベル付きデータセットへの自己学習を行う場合,提案手法は最先端の手法に対して良好な性能を示すことが示された。

We present 360-MLC, a self-training method based on multi-view layout consistency for finetuning monocular room-layout models using unlabeled 360-images only. This can be valuable in practical scenarios where a pre-trained model needs to be adapted to a new data domain without using any ground truth annotations. Our simple yet effective assumption is that multiple layout estimations in the same scene must define a consistent geometry regardless of their camera positions. Based on this idea, we leverage a pre-trained model to project estimated layout boundaries from several camera views into the 3D world coordinate. Then, we re-project them back to the spherical coordinate and build a probability function, from which we sample the pseudo-labels for self-training. To handle unconfident pseudo-labels, we evaluate the variance in the re-projected boundaries as an uncertainty value to weight each pseudo-label in our loss function during training. In addition, since ground truth annotations are not available during training nor in testing, we leverage the entropy information in multiple layout estimations as a quantitative metric to measure the geometry consistency of the scene, allowing us to evaluate any layout estimator for hyper-parameter tuning, including model selection without ground truth annotations. Experimental results show that our solution achieves favorable performance against state-of-the-art methods when self-training from three publicly available source datasets to a unique, newly labeled dataset consisting of multi-view of the same scenes.
翻訳日:2022-10-25 17:38:58 公開日:2022-10-24
# 視覚認識のためのスパース畳み込みモデルの再検討

Revisiting Sparse Convolutional Model for Visual Recognition ( http://arxiv.org/abs/2210.12945v1 )

ライセンス: Link先を確認
Xili Dai, Mingyang Li, Pengyuan Zhai, Shengbang Tong, Xingjian Gao, Shao-Lun Huang, Zhihui Zhu, Chong You, Yi Ma(参考訳) 画像分類に強い経験的性能にもかかわらず、ディープニューラルネットワークはしばしば 'black box' と見なされ、解釈が困難である。 一方で、信号が畳み込み辞書から数個の要素の線形結合によって表現できると仮定したスパース畳み込みモデルは、理論的解釈性と生物学的な可能性の優れた自然画像の解析のための強力なツールである。 しかし、このようなモデルでは、経験的に設計されたディープネットワークと比較して競争性能は示されていない。 本稿では、画像分類のためのスパース畳み込みモデルを再検討し、優れた経験的性能(ディープラーニング)と優れた解釈可能性(スパース畳み込みモデル)のギャップを埋める。 提案手法では,従来のディープニューラルネットワークにおける標準畳み込みレイヤのドロップイン置換として,畳み込みスパース符号化から定義される微分可能な最適化層を用いる。 従来のニューラルネットワークと比較して,CIFAR-10,CIFAR-100,ImageNetのデータセットに対して,そのようなモデルが等しく強い実験性能を持つことを示す。 スパースモデリングの安定したリカバリ特性を利用することで、このようなモデルは、スパース正規化とデータ再構成項の単純な適切なトレードオフを通じて、入力汚損や、テストにおける敵対的摂動に対してより強固なものになることをさらに示します。 ソースコードはhttps://github.com/Delay-Xili/SDNetにある。

Despite strong empirical performance for image classification, deep neural networks are often regarded as ``black boxes'' and they are difficult to interpret. On the other hand, sparse convolutional models, which assume that a signal can be expressed by a linear combination of a few elements from a convolutional dictionary, are powerful tools for analyzing natural images with good theoretical interpretability and biological plausibility. However, such principled models have not demonstrated competitive performance when compared with empirically designed deep networks. This paper revisits the sparse convolutional modeling for image classification and bridges the gap between good empirical performance (of deep learning) and good interpretability (of sparse convolutional models). Our method uses differentiable optimization layers that are defined from convolutional sparse coding as drop-in replacements of standard convolutional layers in conventional deep neural networks. We show that such models have equally strong empirical performance on CIFAR-10, CIFAR-100, and ImageNet datasets when compared to conventional neural networks. By leveraging stable recovery property of sparse modeling, we further show that such models can be much more robust to input corruptions as well as adversarial perturbations in testing through a simple proper trade-off between sparse regularization and data reconstruction terms. Source code can be found at https://github.com/Delay-Xili/SDNet.
翻訳日:2022-10-25 17:38:32 公開日:2022-10-24
# 理論的に抽出されたワイヤーフレーム解析:教師付きから自己教師付き学習へ

Holistically-Attracted Wireframe Parsing: From Supervised to Self-Supervised Learning ( http://arxiv.org/abs/2210.12971v1 )

ライセンス: Link先を確認
Nan Xue, Tianfu Wu, Song Bai, Fu-Dong Wang, Gui-Song Xia, Liangpei Zhang, Philip H.S. Torr(参考訳) 本稿では,完全教師付き学習パラダイムと自己教師型学習パラダイムを併用した2次元画像に対するHWP(Holistically-Attracted Wireframe Parsing)を提案する。 コアは、閉じた形式の4d幾何学的ベクトルを用いて線分を符号化する散文表現であり、ワイヤーフレーム内の線分を、幾何学的認識、文脈認識、ロバスト性を備えたエンドツーエンドの訓練可能な総合的アトラクションフィールドへ持ち上げることができる。 提案したHAWPは,線分と終点提案,結合線分と終点,終点分離線分検証という3つのコンポーネントから構成される。 自己教師付き学習では、HAWPを合成データを用いて訓練し、Homographic Adaptationを用いて実画像中の「アノテーション」ワイヤーフレームを使用するシミュレーション対現実パイプラインが利用される。 自己教師付きアノテーションでは、実際のイメージに対するhawpモデルがスクラッチからトレーニングされる。 実験では、提案したHAWPは、完全教師付き学習において、Wireframeデータセットと YorkUrbanデータセットの両方で最先端のパフォーマンスを達成する。 また、自己教師型学習において、より効率的なトレーニングを施した先行技術よりもはるかに優れた再現性スコアを示す。 さらに、自己教師付きhawpは、有意なワイヤフレームラベルを使わずに一般的なワイヤフレーム解析を行う大きな可能性を示している。

This paper presents Holistically-Attracted Wireframe Parsing (HAWP) for 2D images using both fully supervised and self-supervised learning paradigms. At the core is a parsimonious representation that encodes a line segment using a closed-form 4D geometric vector, which enables lifting line segments in wireframe to an end-to-end trainable holistic attraction field that has built-in geometry-awareness, context-awareness and robustness. The proposed HAWP consists of three components: generating line segment and end-point proposal, binding line segment and end-point, and end-point-decoupled lines-of-interest verification. For self-supervised learning, a simulation-to-reality pipeline is exploited in which a HAWP is first trained using synthetic data and then used to ``annotate" wireframes in real images with Homographic Adaptation. With the self-supervised annotations, a HAWP model for real images is trained from scratch. In experiments, the proposed HAWP achieves state-of-the-art performance in both the Wireframe dataset and the YorkUrban dataset in fully-supervised learning. It also demonstrates a significantly better repeatability score than prior arts with much more efficient training in self-supervised learning. Furthermore, the self-supervised HAWP shows great potential for general wireframe parsing without onerous wireframe labels.
翻訳日:2022-10-25 17:38:12 公開日:2022-10-24
# ゼロショットビデオグラウンディングのための言語フリートレーニング

Language-free Training for Zero-shot Video Grounding ( http://arxiv.org/abs/2210.12977v1 )

ライセンス: Link先を確認
Dahye Kim, Jungin Park, Jiyoung Lee, Seongheon Park, Kwanghoon Sohn(参考訳) ビデオ中の特定の時間モーメントを描写したビデオと言語クエリが与えられた場合、ビデオグラウンドはテキストと動画を同時に理解することで時間間隔をローカライズすることを目的としている。 最も困難な問題の1つは、自然言語形式のビデオキャプションと対応する時間領域を含む、非常に時間と費用のかかるアノテーションの収集である。 本稿では、ゼロショット設定において、アノテーションを使わずにビデオデータのみを持つネットワークを学習する、シンプルかつ斬新なビデオグラウンドトレーニングフレームワークを提案する。 近年の言語自由パラダイム、すなわち言語データのないトレーニングに触発されて、偽(擬似)テキストクエリを自然言語形式で生成させることなく、ネットワークを訓練する。 具体的には,映像の時間間隔を仮定的正答として選択し,その時間間隔で選択した視覚特徴を言語特徴として考慮し,クリップの映像言語空間の整列化に役立てて映像接地モデルを学ぶ手法を提案する。 既存のゼロショットビデオ接地法や、2つの標準データセットで大きなマージンを持ついくつかの弱い教師付きアプローチよりも優れています。

Given an untrimmed video and a language query depicting a specific temporal moment in the video, video grounding aims to localize the time interval by understanding the text and video simultaneously. One of the most challenging issues is an extremely time- and cost-consuming annotation collection, including video captions in a natural language form and their corresponding temporal regions. In this paper, we present a simple yet novel training framework for video grounding in the zero-shot setting, which learns a network with only video data without any annotation. Inspired by the recent language-free paradigm, i.e. training without language data, we train the network without compelling the generation of fake (pseudo) text queries into a natural language form. Specifically, we propose a method for learning a video grounding model by selecting a temporal interval as a hypothetical correct answer and considering the visual feature selected by our method in the interval as a language feature, with the help of the well-aligned visual-language space of CLIP. Extensive experiments demonstrate the prominence of our language-free training framework, outperforming the existing zero-shot video grounding method and even several weakly-supervised approaches with large margins on two standard datasets.
翻訳日:2022-10-25 17:37:47 公開日:2022-10-24
# 雑音・疎ジオアノテーションを用いたリモートセンシング画像におけるロバスト物体検出(フルバージョン)

Robust Object Detection in Remote Sensing Imagery with Noisy and Sparse Geo-Annotations (Full Version) ( http://arxiv.org/abs/2210.12989v1 )

ライセンス: Link先を確認
Maximilian Bernhard and Matthias Schubert(参考訳) 近年,航空機や衛星からのリモートセンシング画像の可用性が向上している。 このようなデータを自動的に解釈するために、ディープラーニングベースのオブジェクト検出器は最先端のパフォーマンスを達成する。 しかし、確立されたオブジェクト検出器は、トレーニングのために完全で正確で正確な境界ボックスアノテーションを必要とする。 オブジェクト検出器に必要なトレーニングアノテーションを作成するために、画像はジオレファレンスされ、GPSセンサーによって局所化される関心点などの他のソースのデータと組み合わせられる。 残念ながら、この組み合わせはしばしばオブジェクトのローカライゼーションが悪く、アノテーションが欠けている。 したがって、そのようなデータを用いたオブジェクト検出のトレーニングでは、検出性能が不十分になることが多い。 本稿では,非常にノイズの多い,不完全なアノテーションを用いたオブジェクト検出器のトレーニング手法を提案する。 本手法は,教師による学習フレームワークと,不正確で欠落したアノテーションを考慮した修正モジュールに基づく。 したがって,本手法は容易に使用でき,任意の物体検出器と組み合わせることができる。 我々は,雑音の多い実世界のリモートセンシングデータセット上で,標準検出器を37.1\%$AP_{50}$で改善できることを実証した。 さらに,合成雑音を伴う2つのデータセットに対して高い性能向上を実現する。 コードは \url{https://github.com/mxbh/robust_object_detection} で入手できる。

Recently, the availability of remote sensing imagery from aerial vehicles and satellites constantly improved. For an automated interpretation of such data, deep-learning-based object detectors achieve state-of-the-art performance. However, established object detectors require complete, precise, and correct bounding box annotations for training. In order to create the necessary training annotations for object detectors, imagery can be georeferenced and combined with data from other sources, such as points of interest localized by GPS sensors. Unfortunately, this combination often leads to poor object localization and missing annotations. Therefore, training object detectors with such data often results in insufficient detection performance. In this paper, we present a novel approach for training object detectors with extremely noisy and incomplete annotations. Our method is based on a teacher-student learning framework and a correction module accounting for imprecise and missing annotations. Thus, our method is easy to use and can be combined with arbitrary object detectors. We demonstrate that our approach improves standard detectors by 37.1\% $AP_{50}$ on a noisy real-world remote-sensing dataset. Furthermore, our method achieves great performance gains on two datasets with synthetic noise. Code is available at \url{https://github.com/mxbh/robust_object_detection}.
翻訳日:2022-10-25 17:37:24 公開日:2022-10-24
# マルチビュー幾何によるニューラルラジアンス場学習

Learning Neural Radiance Fields from Multi-View Geometry ( http://arxiv.org/abs/2210.13041v1 )

ライセンス: Link先を確認
Marco Orsingher, Paolo Zani, Paolo Medici, Massimo Bertozzi(参考訳) 本稿では,従来のマルチビュー幾何アルゴリズムとNeRF(Neural Radiance Fields)を組み合わせたMVG-NeRFというフレームワークについて述べる。 NeRFは暗黙の3D表現の分野に革命をもたらしたが、それは主に、高品質で幾何学的な新しいビューの合成を可能にする、様々なボリュームレンダリングの定式化が原因である。 しかしながら、シーンの基本的な幾何学は、トレーニング中に明示的に制約されないため、マーチングキューブでメッシュを抽出する際にノイズや誤った結果をもたらす。 この目的のために,古典的な3次元再構成パイプラインの画素幅と正規度を幾何学的先行値として活用し,NeRF最適化を導くことを提案する。 このような先行は、推定表面の質を向上させるために、訓練中に擬似地上真実として使用される。 さらに、各画素は、付加ロバスト性のための前方再投影誤差に基づく信頼値で重み付けされる。 実世界のデータを用いた実験により,新しい視点合成における競合性能を維持しつつ,画像からクリーンな3Dメッシュを得る手法の有効性が示された。

We present a framework, called MVG-NeRF, that combines classical Multi-View Geometry algorithms and Neural Radiance Fields (NeRF) for image-based 3D reconstruction. NeRF has revolutionized the field of implicit 3D representations, mainly due to a differentiable volumetric rendering formulation that enables high-quality and geometry-aware novel view synthesis. However, the underlying geometry of the scene is not explicitly constrained during training, thus leading to noisy and incorrect results when extracting a mesh with marching cubes. To this end, we propose to leverage pixelwise depths and normals from a classical 3D reconstruction pipeline as geometric priors to guide NeRF optimization. Such priors are used as pseudo-ground truth during training in order to improve the quality of the estimated underlying surface. Moreover, each pixel is weighted by a confidence value based on the forward-backward reprojection error for additional robustness. Experimental results on real-world data demonstrate the effectiveness of this approach in obtaining clean 3D meshes from images, while maintaining competitive performances in novel view synthesis.
翻訳日:2022-10-25 17:37:08 公開日:2022-10-24
# 変圧器を用いた教師なし物体発見のための前景誘導と多層特徴融合

Foreground Guidance and Multi-Layer Feature Fusion for Unsupervised Object Discovery with Transformers ( http://arxiv.org/abs/2210.13053v1 )

ライセンス: Link先を確認
Zhiwei Lin, Zengyu Yang and Yongtao Wang(参考訳) unsupervised object discovery(uod)は最近、事前訓練されたトランスフォーマー機能の採用による進歩を奨励している。 しかし、現在の変圧器に基づく方法は、主にローカライズヘッド(種子選択伸長や正規化カットなど)の設計に重点を置いており、変圧器の性能向上の重要性を見落としている。 本研究では,機能強化の観点からUODタスクを処理し,FORMULAと呼ばれる非教師対象発見のためのフォアグラウンドガイダンスとMUlti-Layer機能融合を提案する。 まず,市販のuod検出器を用いて,特徴地図上の前景領域を強調表示し,オブジェクト位置を反復的に洗練するフォアグラウンド誘導戦略を提案する。 さらに,オブジェクト検出におけるスケール変動問題を解決するために,異なるスケールでオブジェクトに応答する特徴を集約する多層機能融合モジュールを設計する。 VOC07、VOC12、COCO 20kの実験により、提案されたFORTMULAは、教師なし物体の発見において、新しい最先端の結果が得られることが示された。 コードはhttps://github.com/VDIGPKU/FORMULAで公開される。

Unsupervised object discovery (UOD) has recently shown encouraging progress with the adoption of pre-trained Transformer features. However, current methods based on Transformers mainly focus on designing the localization head (e.g., seed selection-expansion and normalized cut) and overlook the importance of improving Transformer features. In this work, we handle UOD task from the perspective of feature enhancement and propose FOReground guidance and MUlti-LAyer feature fusion for unsupervised object discovery, dubbed FORMULA. Firstly, we present a foreground guidance strategy with an off-the-shelf UOD detector to highlight the foreground regions on the feature maps and then refine object locations in an iterative fashion. Moreover, to solve the scale variation issues in object detection, we design a multi-layer feature fusion module that aggregates features responding to objects at different scales. The experiments on VOC07, VOC12, and COCO 20k show that the proposed FORMULA achieves new state-of-the-art results on unsupervised object discovery. The code will be released at https://github.com/VDIGPKU/FORMULA.
翻訳日:2022-10-25 17:36:47 公開日:2022-10-24
# epipolarnvs: エピポーラ幾何を用いた単一画像の新規ビュー合成

EpipolarNVS: leveraging on Epipolar geometry for single-image Novel View Synthesis ( http://arxiv.org/abs/2210.13077v1 )

ライセンス: Link先を確認
Ga\'etan Landreau and Mohamed Tamaazousti(参考訳) ノベルビュー合成(nvs)は、短いビデオシーケンスへの単一のソース画像、正確なまたはノイズの多いカメラポーズ情報、ポイントクラウドなどの3dベースの情報など、一般的な設定によって異なるアプローチで取り組めます。 最も難しいシナリオは、私たちがこの仕事で立っているもので、別の視点から新しいものを生成するためのユニークなソースイメージのみを考えます。 しかし、このような厄介な状況では、最新の学習ベースのソリューションは、しばしばカメラ視点変換を統合するのに苦労する。 実際、外部情報はしばしば低次元ベクトルを通して-isとして渡される。 そのようなカメラのポーズが、オイラー角としてパラメトリケートされたとき、一点の表現によって量子化されるかもしれない。 このバニラ符号化選択は、学習したアーキテクチャが(カメラポーズの観点から)新しいビューを連続的に推測することを妨げる。 エピポーラ制約のような3D関連概念を活用することで、相対カメラのポーズをよりよくエンコードするエレガントな方法が存在すると我々は主張する。 そこで,2次元特徴像として視点変換を符号化する革新的な手法を提案する。 このようなカメラエンコーディング戦略は、カメラが2つのビューの間の空間にどのように移動したかについて、ネットワークに有意義な洞察を与える。 カメラのポーズ情報を有限個の色付きエピポーラ線として符号化することにより、我々の戦略がバニラ符号化より優れていることを示す。

Novel-view synthesis (NVS) can be tackled through different approaches, depending on the general setting: a single source image to a short video sequence, exact or noisy camera pose information, 3D-based information such as point clouds etc. The most challenging scenario, the one where we stand in this work, only considers a unique source image to generate a novel one from another viewpoint. However, in such a tricky situation, the latest learning-based solutions often struggle to integrate the camera viewpoint transformation. Indeed, the extrinsic information is often passed as-is, through a low-dimensional vector. It might even occur that such a camera pose, when parametrized as Euler angles, is quantized through a one-hot representation. This vanilla encoding choice prevents the learnt architecture from inferring novel views on a continuous basis (from a camera pose perspective). We claim it exists an elegant way to better encode relative camera pose, by leveraging 3D-related concepts such as the epipolar constraint. We, therefore, introduce an innovative method that encodes the viewpoint transformation as a 2D feature image. Such a camera encoding strategy gives meaningful insights to the network regarding how the camera has moved in space between the two views. By encoding the camera pose information as a finite number of coloured epipolar lines, we demonstrate through our experiments that our strategy outperforms vanilla encoding.
翻訳日:2022-10-25 17:36:27 公開日:2022-10-24
# IDRL:曖昧なアイデンティティを持つ多エージェント強化学習におけるアイデンティティの同定

IDRL: Identifying Identities in Multi-Agent Reinforcement Learning with Ambiguous Identities ( http://arxiv.org/abs/2210.12896v1 )

ライセンス: Link先を確認
Shijie Han, Peng liu, Siyuan Li(参考訳) マルチエージェント強化学習(MARL)は確率ゲームを解くための一般的な学習パラダイムである。 これまでの研究では、ゲーム内のエージェントは前もってチームメイトまたは敵であると定義され、エージェントの関係はゲーム全体で固定されている。 これらの作品は、競合的かつ協調的な関係が公開されず、動的に変化するゲームではほとんど機能しないが、エージェントの \textit{identities} によって決定される。 エージェントのアイデンティティがあいまいな状況において、成功するポリシーをどのように学ぶかはまだ問題である。 そこで本研究では,エージェントの身元を動的に識別する新しいMARLフレームワークであるIDRLを開発し,そのタスクを実行するための対応するポリシーを選択する。 idrlフレームワークでは、他のエージェントが解き放たれた親切さや敵意を感じて、複数のエージェントのアイデンティティを推測する関連ネットワークを構築し、その識別のリスクを推定する危険なネットワークを構築する。 また,外部報酬の最大化の必要性と識別精度とのトレードオフを得るために,関係ネットワークと危険なネットワークを訓練するための内在的な報酬を提案する。 提案手法は, エージェント間の協調競争パターンを同定した後, 既成のmarl法を適用してその方針を学習する。 ポーカーゲーム \textit{red-10} を実験環境とし、実験により、IDRLは他のMARL法と比較して優れた性能が得られることを示した。 重要なことは、関係ネットワークは、トップヒューマンプレイヤーとのエージェントの同一性を識別するパーパフォーマンスを持ち、危険なネットワークは、不完全な識別のリスクを合理的に回避する。

Multi-agent reinforcement learning(MARL) is a prevalent learning paradigm for solving stochastic games. In previous studies, agents in a game are defined to be teammates or enemies beforehand, and the relation of the agents is fixed throughout the game. Those works can hardly work in the games where the competitive and collaborative relationships are not public and dynamically changing, which is decided by the \textit{identities} of the agents. How to learn a successful policy in such a situation where the identities of agents are ambiguous is still a problem. Focusing on this problem, in this work, we develop a novel MARL framework: IDRL, which identifies the identities of the agents dynamically and then chooses the corresponding policy to perform in the task. In the IDRL framework, a relation network is constructed to deduce the identities of the multi-agents through feeling the kindness and hostility unleashed by other agents; a dangerous network is built to estimate the risk of the identification. We also propose an intrinsic reward to help train the relation network and the dangerous network to get a trade-off between the need to maximize external reward and the accuracy of identification. After identifying the cooperation-competition pattern among the agents, the proposed method IDRL applies one of the off-the-shelf MARL methods to learn the policy. Taking the poker game \textit{red-10} as the experiment environment, experiments show that the IDRL can achieve superior performance compared to the other MARL methods. Significantly, the relation network has the par performance to identify the identities of agents with top human players; the dangerous network reasonably avoids the risk of imperfect identification.
翻訳日:2022-10-25 17:12:58 公開日:2022-10-24
# 翻訳を説明する: なぜ神経分類器は良くなり、何を学ぶのか?

Explaining Translationese: why are Neural Classifiers Better and what do they Learn? ( http://arxiv.org/abs/2210.13391v1 )

ライセンス: Link先を確認
Kwabena Amponsah-Kaakyire, Daria Pylypenko, Josef van Genabith and Cristina Espa\~na-Bonet(参考訳) 最近の研究は、例えばBERTのようなニューラル特徴学習と表現学習が、従来の手動特徴工学に基づくアプローチよりも優れたパフォーマンスを達成していることを示している。 以前の調査では$は示さなかった。 (i)$ 特徴、分類器、またはその両方、および$によって違いがあるかどうか。 (ii)神経分類器が実際に何を学ぶか。 to address $ i) BERT-とSVM-ベースの分類器間の機能を交換する実験を慎重に設計する。 BERT表現を入力したSVMは最高のBERT分類器のレベルで動作し、BERT学習と手作り機能の使用は手作り機能を用いてSVMのレベルで動作することを示す。 これは性能の違いが特徴に起因することを示している。 to address $ (ii)$ 統合勾配を使い、その$を見つけます。 (a)$$は、手作りの機能によって取得された情報は、BERTが学習するもののサブセットであり、$であることを示している。 (b) bert の最高のパフォーマンス結果の一部は、bert の学習トピックの違いと翻訳語との相関が原因である。

Recent work has shown that neural feature- and representation-learning, e.g. BERT, achieves superior performance over traditional manual feature engineering based approaches, with e.g. SVMs, in translationese classification tasks. Previous research did not show $(i)$ whether the difference is because of the features, the classifiers or both, and $(ii)$ what the neural classifiers actually learn. To address $(i)$, we carefully design experiments that swap features between BERT- and SVM-based classifiers. We show that an SVM fed with BERT representations performs at the level of the best BERT classifiers, while BERT learning and using handcrafted features performs at the level of an SVM using handcrafted features. This shows that the performance differences are due to the features. To address $(ii)$ we use integrated gradients and find that $(a)$ there is indication that information captured by hand-crafted features is only a subset of what BERT learns, and $(b)$ part of BERT's top performance results are due to BERT learning topic differences and spurious correlations with translationese.
翻訳日:2022-10-25 17:04:17 公開日:2022-10-24
# コンタクトセンター電話会話におけるエンティティレベルの感情分析

Entity-level Sentiment Analysis in Contact Center Telephone Conversations ( http://arxiv.org/abs/2210.13401v1 )

ライセンス: Link先を確認
Xue-Yong Fu, Cheng Chen, Md Tahmid Rahman Laskar, Shayna Gardiner, Pooja Hiranandani, Shashi Bhushan TN(参考訳) エンティティレベルの感情分析は、与えられたテキストで言及されたエンティティに関する感情を予測する。 製品や企業のような特定のエンティティに対するユーザの感情を理解することは、ビジネスコンテキストにおいて非常に有用です。 本稿では,ビジネスインサイトを提供するために,コンタクトセンターにおける英語電話の会話書き起こしを解析するエンティティレベルの感情分析システムを構築した。 本稿では,変換器をベースとした DistilBERT モデルと,ヒューリスティックなルールを補足した畳み込みニューラルネットワークを用いた2つのアプローチを提案する。

Entity-level sentiment analysis predicts the sentiment about entities mentioned in a given text. It is very useful in a business context to understand user emotions towards certain entities, such as products or companies. In this paper, we demonstrate how we developed an entity-level sentiment analysis system that analyzes English telephone conversation transcripts in contact centers to provide business insight. We present two approaches, one entirely based on the transformer-based DistilBERT model, and another that uses a convolutional neural network supplemented with some heuristic rules.
翻訳日:2022-10-25 17:03:58 公開日:2022-10-24
# FCM: 因果的マスキングがゼロショット学習者を改善する

FCM: Forgetful Causal Masking Makes Causal Language Models Better Zero-Shot Learners ( http://arxiv.org/abs/2210.13432v1 )

ライセンス: Link先を確認
Hao Liu, Xinyang Geng, Lisa Lee, Igor Mordatch, Sergey Levine, Sharan Narang, Pieter Abbeel(参考訳) 大規模言語モデル(LLM)は、GPT3やPaLMのような次世代の予測目標を用いて訓練され、近年、広範囲のタスクで目覚ましいゼロショットと少数ショット機能を示すことで、自然言語処理に革命をもたらした。 本研究では,計算コストを伴わずにLLMの性能を大幅に向上させる簡単な手法を提案する。 我々は,ランダムに選択した過去のトークンをマスクアウトした次のトークン予測タスクを行うことで,下流言語理解タスクの学習表現の品質を向上させることができることを重要視する。 過去のトークンをランダムにマスキングすることは、最近のトークンへの過度な攻撃を防ぎ、遠い過去のトークンに対する注意を促すと仮定する。 入力トークンを PaLM モデルでランダムにマスキングすることにより,SuperGLUE ベンチマークでは 1B と 8B PaLM のゼロショット性能を 55.7 から 59.2 に,それぞれ 61.6 から 64.0 に向上させることができることを示す。 私たちの最大8Bモデルは、PaLMが高品質な会話とWebページデータのデータセット(780Bトークン)でトレーニングされているのに対して、私たちのモデルはより小さなC4データセット(180Bトークン)でトレーニングされているにもかかわらず、平均64のスコアでPaLMのスコアと一致します。 実験結果から,本手法は,共通理解推論,自然言語推論,クローゼ補完など,多種多様なタスクに対して,PaLMのゼロおよび少数ショット性能を向上することが示された。 さらに,本手法は表現学習にも役立ち,PaLMの微調整結果を大幅に改善することを示す。

Large language models (LLM) trained using the next-token-prediction objective, such as GPT3 and PaLM, have revolutionized natural language processing in recent years by showing impressive zero-shot and few-shot capabilities across a wide range of tasks. In this work, we propose a simple technique that significantly boosts the performance of LLMs without adding computational cost. Our key observation is that, by performing the next token prediction task with randomly selected past tokens masked out, we can improve the quality of the learned representations for downstream language understanding tasks. We hypothesize that randomly masking past tokens prevents over-attending to recent tokens and encourages attention to tokens in the distant past. By randomly masking input tokens in the PaLM model, we show that we can significantly improve 1B and 8B PaLM's zero-shot performance on the SuperGLUE benchmark from 55.7 to 59.2 and from 61.6 to 64.0, respectively. Our largest 8B model matches the score of PaLM with an average score of 64, despite the fact that PaLM is trained on a much larger dataset (780B tokens) of high-quality conversation and webpage data, while ours is trained on the smaller C4 dataset (180B tokens). Experimental results show that our method also improves PaLM's zero and few-shot performance on a diverse suite of tasks, including commonsense reasoning, natural language inference and cloze completion. Moreover, we show that our technique also helps representation learning, significantly improving PaLM's finetuning results.
翻訳日:2022-10-25 17:03:48 公開日:2022-10-24
# Cascading Biases: Heuristic Annotation Strategies がデータとモデルに与える影響を探る

Cascading Biases: Investigating the Effect of Heuristic Annotation Strategies on Data and Models ( http://arxiv.org/abs/2210.13439v1 )

ライセンス: Link先を確認
Chaitanya Malaviya, Sudeep Bhatia, Mark Yatskar(参考訳) 認知心理学者は、人間が認知的ヒューリスティック(精神的なショートカット)を使用して、より少ない努力をしながら迅速な意思決定を行うことを文書化している。 クラウドソーシングプラットフォーム上でアノテーション処理を行う際,アノテーション間のヒューリスティックな使用がデータ品質とモデルのロバスト性にカスケードする,と仮定する。 本研究では,複数字読解データセットの注釈付けにおける認知ヒューリスティック使用について検討する。 そこで我々は,様々な認知的ヒューリスティックスの使用を示す低便宜的アノテーション戦略を明示的に測定する,アノテータヒューリスティックトレースの追跡を提案する。 我々は、アノテータが複数のヒューリスティックスを使用しているという証拠を、心理学的テストのバッテリーとの相関に基づいて発見した。 重要なことに、アノテータ間のヒューリスティックな使用は、データ品質をいくつかの次元に沿って決定する:(1) 部分的な入力モデルのような既知のバイアス付きモデルにより、ヒューリスティックな使用率が高いアノテータによって記述された例をより容易に解決し、(2) ヒューリスティックな使用率が高いアノテータで訓練されたモデルは、一般化しない。 その結果,アノテータ間のヒューリスティックな使用状況の追跡は,難解なデータセットの収集やモデルのバイアスの診断に役立つ可能性が示唆された。

Cognitive psychologists have documented that humans use cognitive heuristics, or mental shortcuts, to make quick decisions while expending less effort. While performing annotation work on crowdsourcing platforms, we hypothesize that such heuristic use among annotators cascades on to data quality and model robustness. In this work, we study cognitive heuristic use in the context of annotating multiple-choice reading comprehension datasets. We propose tracking annotator heuristic traces, where we tangibly measure low-effort annotation strategies that could indicate usage of various cognitive heuristics. We find evidence that annotators might be using multiple such heuristics, based on correlations with a battery of psychological tests. Importantly, heuristic use among annotators determines data quality along several dimensions: (1) known biased models, such as partial input models, more easily solve examples authored by annotators that rate highly on heuristic use, (2) models trained on annotators scoring highly on heuristic use don't generalize as well, and (3) heuristic-seeking annotators tend to create qualitatively less challenging examples. Our findings suggest that tracking heuristic usage among annotators can potentially help with collecting challenging datasets and diagnosing model biases.
翻訳日:2022-10-25 17:03:16 公開日:2022-10-24
# EUR-Lex-Sum: 法域における長文要約のための多言語・多言語データセット

EUR-Lex-Sum: A Multi- and Cross-lingual Dataset for Long-form Summarization in the Legal Domain ( http://arxiv.org/abs/2210.13448v1 )

ライセンス: Link先を確認
Dennis Aumiller and Ashish Chouhan and Michael Gertz(参考訳) 既存の要約データセットには、(1)ニュース記事やwikiのようなテキストのような過剰に露出したドメインにフォーカスする傾向があり、(2)主に単言語で、少数の多言語データセットがある。 本研究では,欧州連合法プラットフォーム(EUR-Lex)の法的行為に関する手作業による文書要約に基づいて,EUR-Lex-Sumと呼ばれる新しいデータセットを提案する。 文書とそれぞれの要約は、24のヨーロッパの公用語のうちのいくつかで、言語横断データとして存在している。 言語毎に最大1,500の文書/要約ペアを取得し、24言語すべてで利用可能なテキストを含む375の言語横断的な法的行為のサブセットを含む。 本研究では、データ取得プロセスの詳細と、既存の要約リソースとの比較を行う。 特に、ドメイン固有の言語横断的要約の方向への今後の研究の促進に役立つデータセットに関する、難解なサブプロブレムとオープン質問を例示する。 サンプルの極端な長さと言語多様性に制限され,今後の作業に適した抽出単言語および言語間ベースラインの実験を行う。 抽出のためのコードと、データやベースラインへのアクセスは、https://github.com/achouhan93/eur-lex-sum.com/で閲覧できます。

Existing summarization datasets come with two main drawbacks: (1) They tend to focus on overly exposed domains, such as news articles or wiki-like texts, and (2) are primarily monolingual, with few multilingual datasets. In this work, we propose a novel dataset, called EUR-Lex-Sum, based on manually curated document summaries of legal acts from the European Union law platform (EUR-Lex). Documents and their respective summaries exist as cross-lingual paragraph-aligned data in several of the 24 official European languages, enabling access to various cross-lingual and lower-resourced summarization setups. We obtain up to 1,500 document/summary pairs per language, including a subset of 375 cross-lingually aligned legal acts with texts available in all 24 languages. In this work, the data acquisition process is detailed and key characteristics of the resource are compared to existing summarization resources. In particular, we illustrate challenging sub-problems and open questions on the dataset that could help the facilitation of future research in the direction of domain-specific cross-lingual summarization. Limited by the extreme length and language diversity of samples, we further conduct experiments with suitable extractive monolingual and cross-lingual baselines for future work. Code for the extraction as well as access to our data and baselines is available online at: https://github.com/achouhan93/eur-lex-sum.
翻訳日:2022-10-25 17:02:46 公開日:2022-10-24
# テキストの縮小制御

Controlled Text Reduction ( http://arxiv.org/abs/2210.13449v1 )

ライセンス: Link先を確認
Aviv Slobodkin, Paul Roit, Eran Hirsch, Ori Ernst, Ido Dagan(参考訳) 汎用的あるいは集中的な要約のように、ソーステキストの縮小版を作成するには、本質的に2つの異なるサブタスクを含む: ターゲットコンテンツを決定することと、それを伝える一貫性のあるテキストを生成する。 いくつかの一般的なアプローチは、要約を単一のエンドツーエンドタスクとして扱う一方で、個々のサブタスクの分解モデリングをサポートする。 さらに、半自動テキストリダクションも非常に魅力的で、ユーザがターゲットコンテンツを特定し、モデルが対応するコヒーレント要約を生成する。 本稿では,事前選択されたコンテンツのコヒーレントテキストを生成する2番目のサブタスクに焦点を当てる。 具体的には,<textit{Controlled Text Reduction} を独立したタスクとして形式化し,その入力はターゲットコンテンツ(ハイライト)をマークしたソーステキストである。 モデルがすべてのターゲット情報を含む一貫性のあるテキストを生成する必要がある。 このようなモデルの可能性を,モジュール化された完全自動要約と,半自動型ループ型ユースケースの両方に提案する。 適切な調査を行うことで、タスクのための高品質な開発とテストデータセットをクラウドソースします。 さらに,事前学習されたサマリソースアライメントモデルを利用して,利用可能な要約ベンチマークから,より大きな"シルバー"トレーニングデータセットを自動的に生成する。 最後に、これらのデータセットを用いて教師付きベースラインモデルを示し、有望な結果と洞察に富んだ分析結果を示す。

Producing a reduced version of a source text, as in generic or focused summarization, inherently involves two distinct subtasks: deciding on targeted content and generating a coherent text conveying it. While some popular approaches address summarization as a single end-to-end task, prominent works support decomposed modeling for individual subtasks. Further, semi-automated text reduction is also very appealing, where users may identify targeted content while models would generate a corresponding coherent summary. In this paper, we focus on the second subtask, of generating coherent text given pre-selected content. Concretely, we formalize \textit{Controlled Text Reduction} as a standalone task, whose input is a source text with marked spans of targeted content ("highlighting"). A model then needs to generate a coherent text that includes all and only the target information. We advocate the potential of such models, both for modular fully-automatic summarization, as well as for semi-automated human-in-the-loop use cases. Facilitating proper research, we crowdsource high-quality dev and test datasets for the task. Further, we automatically generate a larger "silver" training dataset from available summarization benchmarks, leveraging a pretrained summary-source alignment model. Finally, employing these datasets, we present a supervised baseline model, showing promising results and insightful analyses.
翻訳日:2022-10-25 17:02:22 公開日:2022-10-24
# ユーモア原理を用いたパン生成のための統一フレームワーク

A Unified Framework for Pun Generation with Humor Principles ( http://arxiv.org/abs/2210.13055v1 )

ライセンス: Link先を確認
Yufei Tian, Divyanshu Sheth and Nanyun Peng(参考訳) 我々は,既存の作品の分割を解決するために,ホモフォニックとホモグラフィックの句を生成する統一的な枠組みを提案する。 具体的には,多義性,特徴性,驚きという3つの言語的特徴を言語モデルに取り入れた。 私たちの枠組みは3つの部分からなる。 1) 上記属性を促進させる文脈語/フレーズセレクタ 2) 文脈語/フレーズを生成出力に組み込むために、非句文で訓練された生成モデル 3) 推定時に生成モデルを操るために使用される句の構造を学習するラベル予測器。 両パンプ型の評価結果は, 強いベースライン上でのモデルの有効性を示した。

We propose a unified framework to generate both homophonic and homographic puns to resolve the split-up in existing works. Specifically, we incorporate three linguistic attributes of puns to the language models: ambiguity, distinctiveness, and surprise. Our framework consists of three parts: 1) a context words/phrases selector to promote the aforementioned attributes, 2) a generation model trained on non-pun sentences to incorporate the context words/phrases into the generation output, and 3) a label predictor that learns the structure of puns which is used to steer the generation model at inference time. Evaluation results on both pun types demonstrate the efficacy of our model over strong baselines.
翻訳日:2022-10-25 16:54:09 公開日:2022-10-24
# 科学出版に関する全文論証マイニング

Full-Text Argumentation Mining on Scientific Publications ( http://arxiv.org/abs/2210.13084v1 )

ライセンス: Link先を確認
Arne Binder, Bhuvanesh Verma, Leonhard Hennig(参考訳) Scholarly Argumentation Mining (SAM) は、学術文献の急激な発展に寄与する可能性から近年注目を集めている。 議論的談話単位認識(ADUR)と議論的関係抽出(ARE)の2つのサブタスクから構成されており、どちらもドメイン知識の統合、暗黙的な言明の検出、議論構造の不明瞭さなどを必要とするため困難である。 これまでの研究は、抽象的や結果などの特定の文書セクションのデータセット構築とベースライン手法に重点を置いていたが、フルテキストの学術的議論マイニングはほとんど進展しなかった。 本研究では,フルテキストSAMのためのADURとAREを組み合わせた逐次パイプラインモデルを導入し,両方のサブタスク上での事前学習言語モデル(PLM)の性能を初めて解析する。 我々は,sci-argコーパス上でのadurの新しいsotaを確立し,前回報告した最良結果を高いマージン (+7% f1) で上回った。 また、このベンチマークデータセット上で、ARE、すなわち完全なAMパイプラインに対する最初の結果も提示します。 我々の詳細なエラー分析では、非連続的なADUと談話コネクタの解釈が大きな課題となり、データアノテーションがより一貫性を持つ必要があることが明らかになった。

Scholarly Argumentation Mining (SAM) has recently gained attention due to its potential to help scholars with the rapid growth of published scientific literature. It comprises two subtasks: argumentative discourse unit recognition (ADUR) and argumentative relation extraction (ARE), both of which are challenging since they require e.g. the integration of domain knowledge, the detection of implicit statements, and the disambiguation of argument structure. While previous work focused on dataset construction and baseline methods for specific document sections, such as abstract or results, full-text scholarly argumentation mining has seen little progress. In this work, we introduce a sequential pipeline model combining ADUR and ARE for full-text SAM, and provide a first analysis of the performance of pretrained language models (PLMs) on both subtasks. We establish a new SotA for ADUR on the Sci-Arg corpus, outperforming the previous best reported result by a large margin (+7% F1). We also present the first results for ARE, and thus for the full AM pipeline, on this benchmark dataset. Our detailed error analysis reveals that non-contiguous ADUs as well as the interpretation of discourse connectors pose major challenges and that data annotation needs to be more consistent.
翻訳日:2022-10-25 16:54:00 公開日:2022-10-24
# 法-Tech Open Diaries: 謙虚な言語モデルの時代における軽量モデルの開発と展開について学んだ教訓

Legal-Tech Open Diaries: Lesson learned on how to develop and deploy light-weight models in the era of humongous Language Models ( http://arxiv.org/abs/2210.13086v1 )

ライセンス: Link先を確認
Stelios Maroudas, Sotiris Legkas, Prodromos Malakasiotis, Ilias Chalkidis(参考訳) 十億のパラメータサイズの言語モデル(LM)の時代、スタートアップはトレンドに従い、それに応じて技術を適用する必要がある。 しかし、大規模モデルの開発と展開には高い計算資源が必要であり、経済的な結果をもたらすため、オープンな課題がある。 本研究では,最新の法律技術スタートアップであるr&dグループのステップに従い,モデルの開発と展開に関する重要な洞察を提示する。 xlm-rと比較して,契約文や規制文に適する複数のドメイン固有多言語lmsを事前学習することで,ゼロから始める。 5つのダウンストリームタスクからなる半公的な半私的法定ベンチマークにおいて,そのようなモデルのベンチマーク結果を示す。 最後に,モデル圧縮のためのフルスケールパイプラインの影響について検討する。 a)パラメータ・プルーニング b) 知識蒸留,及び c) 量子化: 結果のモデルは、大規模なパフォーマンスを犠牲にすることなく、はるかに効率的である。

In the era of billion-parameter-sized Language Models (LMs), start-ups have to follow trends and adapt their technology accordingly. Nonetheless, there are open challenges since the development and deployment of large models comes with a need for high computational resources and has economical consequences. In this work, we follow the steps of the R&D group of a modern legal-tech start-up and present important insights on model development and deployment. We start from ground zero by pre-training multiple domain-specific multi-lingual LMs which are a better fit to contractual and regulatory text compared to the available alternatives (XLM-R). We present benchmark results of such models in a half-public half-private legal benchmark comprising 5 downstream tasks showing the impact of larger model size. Lastly, we examine the impact of a full-scale pipeline for model compression which includes: a) Parameter Pruning, b) Knowledge Distillation, and c) Quantization: The resulting models are much more efficient without sacrificing performance at large.
翻訳日:2022-10-25 16:53:36 公開日:2022-10-24
# バイリンガル同期:編集操作による翻訳関係の復元

Bilingual Synchronization: Restoring Translational Relationships with Editing Operations ( http://arxiv.org/abs/2210.13163v1 )

ライセンス: Link先を確認
Jitao Xu, Josep Crego, Fran\c{c}ois Yvon(参考訳) 機械翻訳(MT)は通常、スクラッチからソーステキストに相当するターゲット言語を生成するワンショットプロセスと見なされる。 ここでは、初期ターゲットシーケンスを仮定するより一般的な設定を、ソースの有効な翻訳に変換し、ソースとターゲットの並列性を復元する必要があると考える。 このバイリンガル同期タスクでは、複数のアーキテクチャ(自己回帰型と非自己回帰型の両方)とトレーニングシステムを検討し、インタラクティブMTのシミュレーション、翻訳メモリ(TM)の翻訳、TMクリーニングなど、複数の実践的な設定を試す。 以上の結果から,1つのジェネリックエディットベースシステムは,一度微調整すれば,これらのタスク用に特別に訓練された専用システムと比較したり,性能を上回ったりできることが示唆された。

Machine Translation (MT) is usually viewed as a one-shot process that generates the target language equivalent of some source text from scratch. We consider here a more general setting which assumes an initial target sequence, that must be transformed into a valid translation of the source, thereby restoring parallelism between source and target. For this bilingual synchronization task, we consider several architectures (both autoregressive and non-autoregressive) and training regimes, and experiment with multiple practical settings such as simulated interactive MT, translating with Translation Memory (TM) and TM cleaning. Our results suggest that one single generic edit-based system, once fine-tuned, can compare with, or even outperform, dedicated systems specifically trained for these tasks.
翻訳日:2022-10-25 16:53:21 公開日:2022-10-24
# 構文が良くなればなるほど 意味論も良くなる? 英語比較相関のための事前学習言語モデルの提案

The Better Your Syntax, the Better Your Semantics? Probing Pretrained Language Models for the English Comparative Correlative ( http://arxiv.org/abs/2210.13181v1 )

ライセンス: Link先を確認
Leonie Weissweiler, Valentin Hofmann, Abdullatif K\"oksal, Hinrich Sch\"utze(参考訳) Construction Grammar (CxG) は、文法と意味論の関連を強調する認知言語学のパラダイムである。 語彙的項目を扱う規則ではなく、構文と意味論を組み合わせた異なる粒度の言語単位という言語の中心的な構成要素として構成を仮定する。 言語モデル(PLM)が示す統語的・意味的知識とCxGの整合性を評価するための第一歩として、最もよく研究されている構造の一つである英語比較相関(CC)を分類し理解する能力について検討する。 一方の構文プローブの分類精度と他方のセマンティック・アプリケーション・タスクにおけるモデルの動作について実験を行い,その例としてBERT,RoBERTa,DeBERTaを挙げる。 以上の結果から,調査した3つのplmはすべてccの構造を認識できるが,その意味は利用できないことが示された。 多くのNLPタスクにおけるPLMの人為的な性能は主張されているが、このことはPLMが言語知識の中枢領域で深刻な欠点に悩まされていることを示している。

Construction Grammar (CxG) is a paradigm from cognitive linguistics emphasising the connection between syntax and semantics. Rather than rules that operate on lexical items, it posits constructions as the central building blocks of language, i.e., linguistic units of different granularity that combine syntax and semantics. As a first step towards assessing the compatibility of CxG with the syntactic and semantic knowledge demonstrated by state-of-the-art pretrained language models (PLMs), we present an investigation of their capability to classify and understand one of the most commonly studied constructions, the English comparative correlative (CC). We conduct experiments examining the classification accuracy of a syntactic probe on the one hand and the models' behaviour in a semantic application task on the other, with BERT, RoBERTa, and DeBERTa as the example PLMs. Our results show that all three investigated PLMs are able to recognise the structure of the CC but fail to use its meaning. While human-like performance of PLMs on many NLP tasks has been alleged, this indicates that PLMs still suffer from substantial shortcomings in central domains of linguistic knowledge.
翻訳日:2022-10-25 16:53:04 公開日:2022-10-24
# 相互情報による抽象要約における幻覚の軽減

Mutual Information Alleviates Hallucinations in Abstractive Summarization ( http://arxiv.org/abs/2210.13210v1 )

ライセンス: Link先を確認
Liam van der Poel, Ryan Cotterell, Clara Meister(参考訳) 抽象要約モデルから生成された言語品質の大幅な向上にもかかわらず、これらのモデルは依然として、ソース文書でサポートされていない出力コンテンツを幻覚的に示す傾向を示している。 多くの作品が、問題の原因を修正、または少なくとも解明しようと試みており、成功は限られている。 本稿では、モデルが生成時に幻覚コンテンツにより多くの確率を割り当てる可能性が著しく高い単純な基準、すなわちモデルの不確実性を特定する。 この発見は幻覚の潜在的な説明を与えている: モデルは継続について不確定な場合、高い限界確率のテキスト、すなわちトレーニングセットにおける高周波発生を好む。 また、このような幻覚を防ぐためにデコード中のリアルタイム介入の可能なルートを動機付けている。 モデルが不確実性を示すとき、対象トークンの確率ではなく、ソースとターゲットトークンのポイント毎の相互情報に対する最適化に切り替える復号戦略を提案する。 XSumデータセットを用いた実験により,トップパフォーマンスデコード戦略のルージュとバートSスコアを維持しながら,ハロゲン化トークンの確率を低下させることが示された。

Despite significant progress in the quality of language generated from abstractive summarization models, these models still exhibit the tendency to hallucinate, i.e., output content not supported by the source document. A number of works have tried to fix--or at least uncover the source of--the problem with limited success. In this paper, we identify a simple criterion under which models are significantly more likely to assign more probability to hallucinated content during generation: high model uncertainty. This finding offers a potential explanation for hallucinations: models default to favoring text with high marginal probability, i.e., high-frequency occurrences in the training set, when uncertain about a continuation. It also motivates possible routes for real-time intervention during decoding to prevent such hallucinations. We propose a decoding strategy that switches to optimizing for pointwise mutual information of the source and target token--rather than purely the probability of the target token--when the model exhibits uncertainty. Experiments on the XSum dataset show that our method decreases the probability of hallucinated tokens while maintaining the Rouge and BertS scores of top-performing decoding strategies.
翻訳日:2022-10-25 16:52:44 公開日:2022-10-24
# ニューラルネットワーク翻訳におけるインスタンス固有データフィルタリングにおける影響関数の使用分析

Analyzing the Use of Influence Functions for Instance-Specific Data Filtering in Neural Machine Translation ( http://arxiv.org/abs/2210.13281v1 )

ライセンス: Link先を確認
Tsz Kin Lam, Eva Hasler, Felix Hieber(参考訳) 顧客からのフィードバックは、商用機械翻訳システムを改善する重要なシグナルとなる。 特定の翻訳エラーを修正するひとつの解決策は、関連する誤ったトレーニングインスタンスを削除し、その後に、インスタンス固有のデータフィルタリングと呼ばれる機械翻訳システムを再トレーニングすることです。 影響関数 (IF) は, 画像分類, 有害音声検出, エンテーメントタスクなどの分類タスクにおいて, 関連する訓練例を見つけるのに有効であることが示されている。 探索例が与えられた場合、IFは勾配空間における一連の訓練例と探索例の類似性を測定することによって、影響のある訓練例を見つける。 本稿では,ニューラルマシン翻訳(nmt)における影響関数の利用について検討する。 美術影響関数の状態に対する2つの効果的な拡張を提案し, IFが手作り正規表現よりも一般的に適用可能であることを示す。

Customer feedback can be an important signal for improving commercial machine translation systems. One solution for fixing specific translation errors is to remove the related erroneous training instances followed by re-training of the machine translation system, which we refer to as instance-specific data filtering. Influence functions (IF) have been shown to be effective in finding such relevant training examples for classification tasks such as image classification, toxic speech detection and entailment task. Given a probing instance, IF find influential training examples by measuring the similarity of the probing instance with a set of training examples in gradient space. In this work, we examine the use of influence functions for Neural Machine Translation (NMT). We propose two effective extensions to a state of the art influence function and demonstrate on the sub-problem of copied training examples that IF can be applied more generally than handcrafted regular expressions.
翻訳日:2022-10-25 16:52:26 公開日:2022-10-24
# ELMER: 効率的なテキスト生成のための非自己回帰事前訓練型言語モデル

ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and Effective Text Generation ( http://arxiv.org/abs/2210.13304v1 )

ライセンス: Link先を確認
Junyi Li, Tianyi Tang, Wayne Xin Zhao, Jian-Yun Nie and Ji-Rong Wen(参考訳) 本研究では,事前学習言語モデル(PLM)に基づくテキスト生成タスクについて検討する。 典型的には、トークン・バイ・トケン方式でテキストを生成するために自動回帰(ar)方式が採用されている。 AR生成の多くの利点にもかかわらず、通常は非効率な推論に悩まされる。 したがって、全てのターゲットトークンを同時に生成するために、非自己回帰(NAR)モデルを提案する。 しかしながら、NARモデルは、通常、出力テキストにトークン依存がないため、低い品質のテキストを生成する。 本稿では,NARテキスト生成におけるトークン依存性を明示的にモデル化する,効率的かつ効果的な PLM である ELMER を提案する。 早期終了技術を活用することで、ELMERは予測信頼性(より確実なトークンは下位層で終了する)に従って、異なるレイヤでのトークン生成を可能にする。 さらに,新しい事前学習目標であるレイヤ置換言語モデリングを提案し,各トークンの終了層をシーケンスで置換することにより,エルマーを事前学習する。 3つのテキスト生成タスクの実験では、ERMERはAR PLMs (29.92) 対 BART (30.61) ROUGE-L (XSUM) と性能ギャップを狭くし、10倍以上の推論速度を達成する。

We study the text generation task under the approach of pre-trained language models (PLMs). Typically, an auto-regressive (AR) method is adopted for generating texts in a token-by-token manner. Despite many advantages of AR generation, it usually suffers from inefficient inference. Therefore, non-autoregressive (NAR) models are proposed to generate all target tokens simultaneously. However, NAR models usually generate texts of lower quality due to the absence of token dependency in the output text. In this paper, we propose ELMER: an efficient and effective PLM for NAR text generation to explicitly model the token dependency during NAR generation. By leveraging the early exit technique, ELMER enables the token generations at different layers, according to their prediction confidence (a more confident token will exit at a lower layer). Besides, we propose a novel pre-training objective, Layer Permutation Language Modeling, to pre-train ELMER by permuting the exit layer for each token in sequences. Experiments on three text generation tasks show that ELMER significantly outperforms NAR models and further narrows the performance gap with AR PLMs (\eg ELMER (29.92) vs BART (30.61) ROUGE-L in XSUM) while achieving over 10 times inference speedup.
翻訳日:2022-10-25 16:52:11 公開日:2022-10-24
# 音声-テキスト翻訳における修正ウィンド音声セグメンテーションの識別

Don't Discard Fixed-Window Audio Segmentation in Speech-to-Text Translation ( http://arxiv.org/abs/2210.13363v1 )

ライセンス: Link先を確認
Chantal Amrhein and Barry Haddow(参考訳) 実生活アプリケーションでは、人間の供給するセグメンテーションに頼ることなく、エンド・ツー・エンドの音声翻訳モデルが連続音声でうまく機能することが重要である。 オンライン音声翻訳では、モデルが完全な発話が話される前に翻訳を開始する必要があるが、ほとんどの先行研究はセグメンテーション問題を無視している。 本稿では,オフライン・オンライン両方のセグメンテーションにおけるセグメンテーションエラーに対するモデルの堅牢性向上とセグメンテーション戦略の比較を行い,翻訳品質,フリック,遅延について報告する。 5つの異なる言語対についての知見から,簡単な固定ウィンドウ音声分割が,適切な条件で驚くほど良好に動作できることが示唆された。

For real-life applications, it is crucial that end-to-end spoken language translation models perform well on continuous audio, without relying on human-supplied segmentation. For online spoken language translation, where models need to start translating before the full utterance is spoken, most previous work has ignored the segmentation problem. In this paper, we compare various methods for improving models' robustness towards segmentation errors and different segmentation strategies in both offline and online settings and report results on translation quality, flicker and delay. Our findings on five different language pairs show that a simple fixed-window audio segmentation can perform surprisingly well given the right conditions.
翻訳日:2022-10-25 16:51:49 公開日:2022-10-24
# 文脈認識型ニューラルマシン翻訳のための焦点結合

Focused Concatenation for Context-Aware Neural Machine Translation ( http://arxiv.org/abs/2210.13388v1 )

ライセンス: Link先を確認
Lorenzo Lupo, Marco Dinarelli, Laurent Besacier(参考訳) 文脈認識型ニューラルマシン翻訳への直接的なアプローチは、標準エンコーダ・デコーダアーキテクチャに、現在の文とそれに関連するコンテキストからの多くの文によって形成された一連の文のウィンドウを供給することである。 そこで本研究では,現在の文の翻訳に焦点を合わせ,目的とする文脈によって生じる損失を削減し,結合性を改善する手法を提案する。 また,文境界や相対文距離の概念を強化し,文脈記述対象に対するモデルコンプライアンスを容易にする改良も提案する。 提案手法は, 平均翻訳品質指標と比較テストセットの両方を用いて評価し, バニラ結合法や他の高度な文脈認識システムよりも優れていることを証明した。

A straightforward approach to context-aware neural machine translation consists in feeding the standard encoder-decoder architecture with a window of consecutive sentences, formed by the current sentence and a number of sentences from its context concatenated to it. In this work, we propose an improved concatenation approach that encourages the model to focus on the translation of the current sentence, discounting the loss generated by target context. We also propose an additional improvement that strengthen the notion of sentence boundaries and of relative sentence distance, facilitating model compliance to the context-discounted objective. We evaluate our approach with both average-translation quality metrics and contrastive test sets for the translation of inter-sentential discourse phenomena, proving its superiority to the vanilla concatenation approach and other sophisticated context-aware systems.
翻訳日:2022-10-25 16:51:35 公開日:2022-10-24
# 公害の可視化:名詞特性予測のための具体性に基づくアンサンブルモデル

Visualizing the Obvious: A Concreteness-based Ensemble Model for Noun Property Prediction ( http://arxiv.org/abs/2210.12905v1 )

ライセンス: Link先を確認
Yue Yang, Artemis Panagopoulou, Marianna Apidianaki, Mark Yatskar and Chris Callison-Burch(参考訳) ニューラルネットワークモデルは、プローブを使って表現から抽出できるエンティティとその関係に関する豊富な知識をエンコードする。 しかし、名詞の共通の性質(赤いイチゴ、小さなアリなど)は、テキストで明示されることが滅多にないため、他の種類の知識と比較して抽出することが困難である。 これを主にコミュニケーションの参加者に明らかな知覚特性のケースと仮定する。 本稿では,これらの特性を画像から抽出し,アンサンブルモデルで使用し,言語モデルから抽出した情報を補完する手法を提案する。 知覚的性質は抽象的性質(例えば、興味深く、不完全)よりも具体的であると考える。 本稿では,形容詞の具体性スコアをレバーとして用いて,各ソース(テキスト対画像)の寄与を校正することを提案する。 名詞の実際の特性を他の非関係特性よりも上位にランク付けする必要があるランキングタスクにおいて,アンサンブルモデルを評価する。 提案したテキストと画像の組み合わせは,強力なテキストベース言語モデルと比較して名詞特性予測を大幅に改善することを示す。

Neural language models encode rich knowledge about entities and their relationships which can be extracted from their representations using probing. Common properties of nouns (e.g., red strawberries, small ant) are, however, more challenging to extract compared to other types of knowledge because they are rarely explicitly stated in texts. We hypothesize this to mainly be the case for perceptual properties which are obvious to the participants in the communication. We propose to extract these properties from images and use them in an ensemble model, in order to complement the information that is extracted from language models. We consider perceptual properties to be more concrete than abstract properties (e.g., interesting, flawless). We propose to use the adjectives' concreteness score as a lever to calibrate the contribution of each source (text vs. images). We evaluate our ensemble model in a ranking task where the actual properties of a noun need to be ranked higher than other non-relevant properties. Our results show that the proposed combination of text and images greatly improves noun property prediction compared to powerful text-based language models.
翻訳日:2022-10-25 16:45:05 公開日:2022-10-24
# Few-ShotとZero-Shot設定におけるエフェミズム検出の探索

Exploring Euphemism Detection in Few-Shot and Zero-Shot Settings ( http://arxiv.org/abs/2210.12926v1 )

ライセンス: Link先を確認
Sedrick Scott Keh(参考訳) この研究は、EMNLP 2022 FigLang Workshopで提案されたEuphemism Detection Shared Taskに基づいており、ほとんどショットやゼロショットの設定にまで拡張されている。 共有タスクから得られたデータセットを用いて,数ショット,ゼロショットの定式化を行い,RoBERTaとGPT-3を用いて実験を行った。 以上の結果から, 言語モデルでは, 学習中に見つからない新しい用語であっても, ユーフェミズムの用語を比較的よく分類することが可能であることが示唆された。

This work builds upon the Euphemism Detection Shared Task proposed in the EMNLP 2022 FigLang Workshop, and extends it to few-shot and zero-shot settings. We demonstrate a few-shot and zero-shot formulation using the dataset from the shared task, and we conduct experiments in these settings using RoBERTa and GPT-3. Our results show that language models are able to classify euphemistic terms relatively well even on new terms unseen during training, indicating that it is able to capture higher-level concepts related to euphemisms.
翻訳日:2022-10-25 16:44:48 公開日:2022-10-24
# 現在のタスク指向対話システムはユーザ満足度が高いか?

Are Current Task-oriented Dialogue Systems Able to Satisfy Impolite Users? ( http://arxiv.org/abs/2210.12942v1 )

ライセンス: Link先を確認
Zhiqiang Hu, Roy Kaa-Wei Lee, Nancy F. Chen(参考訳) タスク指向対話(tod)システムは、チケット予約やサービス問い合わせなど、多くのタスクのユーザを支援する。 既存のtodシステムは、顧客のニーズに応える上で有望な性能を示しているが、これらのシステムは、ユーザが対話エージェントと丁寧に対話することを想定している。 この仮定は非現実的であり、不愉快な顧客やフラストレーションのある顧客はTODシステムと不当に対話する可能性がある。 本稿は,TODシステムに対するユーザの影響を調査することで,この研究ギャップに対処することを目的とする。 具体的には,無作為対話コーパスを構築し,無作為対話コーパスの最先端todシステムを評価するための広範な実験を行った。 実験の結果,既存のtodシステムは不適切なユーザの発話を処理できないことがわかった。 また,不規則対話におけるTOD性能向上のためのデータ拡張手法を提案する。 それでも、不規則な対話を扱うことは、非常に難しい研究課題である。 インポライトな対話コーパスを公開し、ベンチマーク評価を確立することで、この新たな挑戦的な研究課題を調査できることを願っている。

Task-oriented dialogue (TOD) systems have assisted users on many tasks, including ticket booking and service inquiries. While existing TOD systems have shown promising performance in serving customer needs, these systems mostly assume that users would interact with the dialogue agent politely. This assumption is unrealistic as impatient or frustrated customers may also interact with TOD systems impolitely. This paper aims to address this research gap by investigating impolite users' effects on TOD systems. Specifically, we constructed an impolite dialogue corpus and conducted extensive experiments to evaluate the state-of-the-art TOD systems on our impolite dialogue corpus. Our experimental results show that existing TOD systems are unable to handle impolite user utterances. We also present a data augmentation method to improve TOD performance in impolite dialogues. Nevertheless, handling impolite dialogues remains a very challenging research task. We hope by releasing the impolite dialogue corpus and establishing the benchmark evaluations, more researchers are encouraged to investigate this new challenging research task.
翻訳日:2022-10-25 16:44:36 公開日:2022-10-24
# 構成、注意、または両方?

Composition, Attention, or Both? ( http://arxiv.org/abs/2210.12958v1 )

ライセンス: Link先を確認
Ryo Yoshida and Yohei Oseki(参考訳) 本稿では,サブツリーを合成関数で1つのベクトル表現に再帰的に構成し,自己認識機構で過去の構造情報に選択的に参画する,構成注意文法(CAG)と呼ばれる新しいアーキテクチャを提案する。 これらの成分 -- 合成機能と自己着脱機構 -- がヒト様構文一般化を誘導するかどうかについて検討する。 具体的には,モデルサイズを注意深く制御したこれら2つのコンポーネントを伴わずに言語モデル(lms)を訓練し,synticgymベンチマークで6つのテスト回路に対する構文一般化性能を評価する。 その結果,合成機能と自己着脱機構の両方がlmsをより人間らしくするために重要な役割を果たすことが示され,言語現象の綿密な検査は,合成機能が構文的特徴を許容するが意味的特徴は持たないが,サブツリー表現にパーコレートできることを示唆した。

In this paper, we propose a novel architecture called Composition Attention Grammars (CAGs) that recursively compose subtrees into a single vector representation with a composition function, and selectively attend to previous structural information with a self-attention mechanism. We investigate whether these components -- the composition function and the self-attention mechanism -- can both induce human-like syntactic generalization. Specifically, we train language models (LMs) with and without these two components with the model sizes carefully controlled, and evaluate their syntactic generalization performance against six test circuits on the SyntaxGym benchmark. The results demonstrated that the composition function and the self-attention mechanism both play an important role to make LMs more human-like, and closer inspection of linguistic phenomenon implied that the composition function allowed syntactic features, but not semantic features, to percolate into subtree representations.
翻訳日:2022-10-25 16:44:19 公開日:2022-10-24
# クローズド・アンサーブルな質問を用いた多型会話型質問応答生成

Multi-Type Conversational Question-Answer Generation with Closed-ended and Unanswerable Questions ( http://arxiv.org/abs/2210.12979v1 )

ライセンス: Link先を確認
Seonjeong Hwang, Yunsu Kim, Gary Geunbae Lee(参考訳) 会話型質問応答(CQA)は、与えられたコンテキストの漸進的かつインタラクティブな理解を促進するが、データ不足の問題により、多くの領域においてCQAシステムの構築は困難である。 本稿では,オープンエンド,クローズドエンド,未解決の質問など,さまざまな質問タイプでCQAのデータを合成する新しい手法を提案する。 質問の種類ごとに異なる生成フローを設計し、それらを単一の共有フレームワークで効果的に組み合わせます。 さらに,階層的応答性分類(階層的ac)モジュールを考案し,不可解な質問を得ながら合成データの品質を向上させる。 手動検査の結果,本フレームワークで生成した合成データは,人間による会話と非常によく似た特徴を持つことがわかった。 4つの領域にまたがって、我々の合成データに基づいて訓練されたCQAシステムは、人間の注釈付きデータに基づいて訓練されたシステムに近い性能を示す。

Conversational question answering (CQA) facilitates an incremental and interactive understanding of a given context, but building a CQA system is difficult for many domains due to the problem of data scarcity. In this paper, we introduce a novel method to synthesize data for CQA with various question types, including open-ended, closed-ended, and unanswerable questions. We design a different generation flow for each question type and effectively combine them in a single, shared framework. Moreover, we devise a hierarchical answerability classification (hierarchical AC) module that improves quality of the synthetic data while acquiring unanswerable questions. Manual inspections show that synthetic data generated with our framework have characteristics very similar to those of human-generated conversations. Across four domains, CQA systems trained on our synthetic data indeed show good performance close to the systems trained on human-annotated data.
翻訳日:2022-10-25 16:44:02 公開日:2022-10-24
# Maknuune: 大規模なパレスチナのアラビア・レキシコン

Maknuune: A Large Open Palestinian Arabic Lexicon ( http://arxiv.org/abs/2210.12985v1 )

ライセンス: Link先を確認
Shahd Dibas, Christian Khairallah, Nizar Habash, Omar Fayez Sadi, Tariq Sairafy, Karmel Sarabta and Abrar Ardah(参考訳) 我々は、パレスチナのアラビア方言のための大きなオープンレキシコンであるMaknuuneを提示する。 マクヌーンは17Kのレムマから36K以上のエントリを持ち、3.7Kのルートを持っている。 すべての項目には、アラビア語正書法、音韻的転写、英語の用語集が含まれる。 いくつかのエントリには、壊れた複数語やテンポラティックな女性形、関連するフレーズやコロケーション、標準アラビア語のグロス、文法、使用法、収集されたエントリの位置に関する例やメモなどの追加情報が含まれている。

We present Maknuune, a large open lexicon for the Palestinian Arabic dialect. Maknuune has over 36K entries from 17K lemmas, and 3.7K roots. All entries include diacritized Arabic orthography, phonological transcription and English glosses. Some entries are enriched with additional information such as broken plurals and templatic feminine forms, associated phrases and collocations, Standard Arabic glosses, and examples or notes on grammar, usage, or location of collected entry.
翻訳日:2022-10-25 16:43:47 公開日:2022-10-24
# 言語理解課題における言語知識融合の実証的再考

An Empirical Revisiting of Linguistic Knowledge Fusion in Language Understanding Tasks ( http://arxiv.org/abs/2210.13002v1 )

ライセンス: Link先を確認
Changlong Yu, Tianyi Xiao, Lingpeng Kong, Yangqiu Song and Wilfred Ng(参考訳) 大規模言語モデルの事前訓練中に言語知識が出現するが、近年の研究は、人間の定義した言語的先行概念をタスク固有の微調整に明示的に組み込もうと試みている。 構文的あるいは意味的な知識を持つ言語モデルをパーサから注入すると、多くの言語理解タスクが改善される。 構造的言語学的先行性の有効性をさらに検討するため,GLUEベンチマークの課題に対して,解析されたグラフや木を簡単なもの(例:バランス木)に置き換える実験的検討を行った。 自明なグラフによるエンコーディングは、完全な教師付きおよび少数ショット設定で競争力またはさらに優れたパフォーマンスを達成する。 この成果は、明示的な言語的優先ではなく、融合層によってもたらされるより多くの機能的相互作用に起因する可能性がある。 したがって、将来高度な知識融合法を設計するために必要なベースラインとして自明なグラフを使うことに注意を向ける。

Though linguistic knowledge emerges during large-scale language model pretraining, recent work attempt to explicitly incorporate human-defined linguistic priors into task-specific fine-tuning. Infusing language models with syntactic or semantic knowledge from parsers has shown improvements on many language understanding tasks. To further investigate the effectiveness of structural linguistic priors, we conduct empirical study of replacing parsed graphs or trees with trivial ones (rarely carrying linguistic knowledge e.g., balanced tree) for tasks in the GLUE benchmark. Encoding with trivial graphs achieves competitive or even better performance in fully-supervised and few-shot settings. It reveals that the gains might not be significantly attributed to explicit linguistic priors but rather to more feature interactions brought by fusion layers. Hence we call for attention to using trivial graphs as necessary baselines to design advanced knowledge fusion methods in the future.
翻訳日:2022-10-25 16:43:38 公開日:2022-10-24
# 多言語補助タスクトレーニング:ヘイトスピーチ検出モデルのゼロショット転送のための言語間ギャップの橋渡し

Multilingual Auxiliary Tasks Training: Bridging the Gap between Languages for Zero-Shot Transfer of Hate Speech Detection Models ( http://arxiv.org/abs/2210.13029v1 )

ライセンス: Link先を確認
Syrielle Montariol, Arij Riabi, Djam\'e Seddah(参考訳) ゼロショットクロスリンガルトランスファー学習は、多くの言語特異性を伴うタスクや、ヘイトスピーチ検出のような言語間の文化的ギャップが存在する場合において、非常に困難であることが示されている。 本稿では,いくつかのドメインおよび言語におけるヘイトスピーチ検出の制限について,厳密な実験的設定を用いて強調する。 次に,言語間のヘイトスピーチ検出モデルのゼロショット転送を改善するために,感情分析,エンティティ認識,構文情報に依存するタスクといった多言語補助タスクを訓練することを提案する。 本研究では,言語間の言語的ギャップと文化的ギャップを埋める上で,ヘイトスピーチ検出モデルが副タスクの微調整によってもたらされる言語間知識プロキシの利点を示す。

Zero-shot cross-lingual transfer learning has been shown to be highly challenging for tasks involving a lot of linguistic specificities or when a cultural gap is present between languages, such as in hate speech detection. In this paper, we highlight this limitation for hate speech detection in several domains and languages using strict experimental settings. Then, we propose to train on multilingual auxiliary tasks -- sentiment analysis, named entity recognition, and tasks relying on syntactic information -- to improve zero-shot transfer of hate speech detection models across languages. We show how hate speech detection models benefit from a cross-lingual {\em knowledge proxy} brought by auxiliary tasks fine-tuning and highlight these tasks' positive impact on bridging the hate speech linguistic and cultural gap between languages.
翻訳日:2022-10-25 16:43:22 公開日:2022-10-24
# 「コビッドワクチンはコビッドワクチンだがオックスフォードワクチンはオックスフォードで作れ!」プロパー名詞のセマンティック解釈

"Covid vaccine is against Covid but Oxford vaccine is made at Oxford!" Semantic Interpretation of Proper Noun Compounds ( http://arxiv.org/abs/2210.13039v1 )

ライセンス: Link先を確認
Keshav Kolluru and Gabriel Stanovsky and Mausam(参考訳) 適切な名詞化合物、例えば「共発ワクチン」は簡潔な方法で情報を伝達する(「共発ワクチン」は「新型コロナウイルスに対して免疫するワクチン」である)。 これらはニュース見出しなどのショートフォームドメインで一般的に使用されるが、情報検索アプリケーションでは無視されている。 この制限に対処するため、我々は22.5Kの固有名詞化合物と自由形式の意味解釈からなる新しい手動注釈付きデータセットProNCIをリリースする。 ProNCIは、以前の名詞複合データセットの60倍の大きさであり、以前にも調査されていない非合成例も含んでいる。 構成名詞に関する知識の多様さを生かして,適切な名詞成分から意味的解釈を自動的に生成するために,様々なニューラルモデルを用いて実験を行った。 対象とする知識,特に共通名詞を付加すると,パフォーマンスが2.8%向上することがわかった。 最後に,既存のオープンieシステムとモデル生成解釈を統合し,85%の精度で7.5%の収率向上を観測した。 データセットとコードはhttps://github.com/dair-iitd/pronciで入手できる。

Proper noun compounds, e.g., "Covid vaccine", convey information in a succinct manner (a "Covid vaccine" is a "vaccine that immunizes against the Covid disease"). These are commonly used in short-form domains, such as news headlines, but are largely ignored in information-seeking applications. To address this limitation, we release a new manually annotated dataset, ProNCI, consisting of 22.5K proper noun compounds along with their free-form semantic interpretations. ProNCI is 60 times larger than prior noun compound datasets and also includes non-compositional examples, which have not been previously explored. We experiment with various neural models for automatically generating the semantic interpretations from proper noun compounds, ranging from few-shot prompting to supervised learning, with varying degrees of knowledge about the constituent nouns. We find that adding targeted knowledge, particularly about the common noun, results in performance gains of upto 2.8%. Finally, we integrate our model generated interpretations with an existing Open IE system and observe an 7.5% increase in yield at a precision of 85%. The dataset and code are available at https://github.com/dair-iitd/pronci.
翻訳日:2022-10-25 16:43:06 公開日:2022-10-24
# 構造一般化は列列列モデルにとって難しい

Structural generalization is hard for sequence-to-sequence models ( http://arxiv.org/abs/2210.13050v1 )

ライセンス: Link先を確認
Yuekun Yao and Alexander Koller(参考訳) シークエンス・ツー・シークエンス(seq2seq)モデルは、言語構造を予測することを含む多くのNLPタスクで成功している。 しかし、合成一般化に関する最近の研究により、seq2seqモデルは訓練で見られない言語構造への一般化において、非常に低い精度を達成することが示されている。 これは意味解析だけでなく、構文解析やテキストからテキストへのタスクにおいても見られるseq2seqモデルの一般的な制限であり、言語知識を組み込んだニューロシンボリックモデルによってしばしば克服されるという新たな証拠を示す。 さらに,これらの制約の理由についての最初の回答を与える実験についても報告する。

Sequence-to-sequence (seq2seq) models have been successful across many NLP tasks, including ones that require predicting linguistic structure. However, recent work on compositional generalization has shown that seq2seq models achieve very low accuracy in generalizing to linguistic structures that were not seen in training. We present new evidence that this is a general limitation of seq2seq models that is present not just in semantic parsing, but also in syntactic parsing and in text-to-text tasks, and that this limitation can often be overcome by neurosymbolic models that have linguistic knowledge built in. We further report on some experiments that give initial answers on the reasons for these limitations.
翻訳日:2022-10-25 16:42:43 公開日:2022-10-24
# コントラスト学習と可逆イベント変換によるイベント中心質問応答

Event-Centric Question Answering via Contrastive Learning and Invertible Event Transformation ( http://arxiv.org/abs/2210.12902v1 )

ライセンス: Link先を確認
Junru Lu, Xingwei Tan, Gabriele Pergola, Lin Gui, Yulan He(参考訳) 人間の読み理解は、しばしば物語におけるイベント意味関係の推論を必要とし、イベント中心の質問応答(qa)によって表される。 イベント中心のQAに対処するため、TranCLRと呼ばれる対照的な学習と可逆的なイベント変換を備えた新しいQAモデルを提案する。 提案モデルは,イベントの意味的ベクトルを共通事象埋め込み空間に投影し,コントラスト学習で学習し,イベントの意味的知識を主流のQAパイプラインに自然に注入するために,可逆変換行列を利用する。 変換行列は、イベント認識質問ベクトルを用いて、質問で発生したイベントと回答中のイベントの注釈付きイベント関係タイプで微調整される。 Event Semantic Relation Reasoning (ESTER) データセットの実験結果から, 既存の強靭なベースラインと比較して, 生成的および抽出的セッティングが著しく向上し, トークンレベルのF1スコアが8.4%, エクササイズマッチ(EM)スコアが3.0%向上した。 質的な分析は、TranCLRが生成した回答の質の高さを明らかにし、QAモデル学習にイベント知識を注入する可能性を示している。 私たちのコードとモデルは、https://github.com/LuJunru/TranCLR.orgにある。

Human reading comprehension often requires reasoning of event semantic relations in narratives, represented by Event-centric Question-Answering (QA). To address event-centric QA, we propose a novel QA model with contrastive learning and invertible event transformation, call TranCLR. Our proposed model utilizes an invertible transformation matrix to project semantic vectors of events into a common event embedding space, trained with contrastive learning, and thus naturally inject event semantic knowledge into mainstream QA pipelines. The transformation matrix is fine-tuned with the annotated event relation types between events that occurred in questions and those in answers, using event-aware question vectors. Experimental results on the Event Semantic Relation Reasoning (ESTER) dataset show significant improvements in both generative and extractive settings compared to the existing strong baselines, achieving over 8.4% gain in the token-level F1 score and 3.0% gain in Exact Match (EM) score under the multi-answer setting. Qualitative analysis reveals the high quality of the generated answers by TranCLR, demonstrating the feasibility of injecting event knowledge into QA model learning. Our code and models can be found at https://github.com/LuJunru/TranCLR.
翻訳日:2022-10-25 16:33:59 公開日:2022-10-24
# 多チャンネルマススペクトロメトリイメージングのための動的サンプリングのためのディープラーニングアプローチ

Deep Learning Approach for Dynamic Sampling for Multichannel Mass Spectrometry Imaging ( http://arxiv.org/abs/2210.13415v1 )

ライセンス: Link先を確認
David Helminiak, Hang Hu, Julia Laskin, and Dong Hye Ye(参考訳) 従来の直線走査を用いた質量分析画像(MSI)は、空間分解能の獲得に数時間から数日を要する。 サンプルの視野内のほとんどのピクセルは、基礎となる生物学的構造や化学的情報に関係しないことが多いため、MSIはスパースおよびダイナミックサンプリングアルゴリズムとの統合の候補として提示される。 スキャン中、確率モデルによって、どの場所が確率的に低エラーリコンストラクションの生成に不可欠な情報を含んでいるかを決定する。 必要な物理的測定回数を減少させることで、全体の取得時間を最小化する。 畳み込みニューラルネットワーク(cnn)を用いた動的サンプリング(dlads)の深層学習アプローチにより,ナノスプレー脱着電気スプレーイオン化(nano-desi)msi組織に対する70%のスループット向上が実証された。 低二乗回帰(slads-ls)と多層パーセプトロン(mlp)ネットワーク(slads-net)を用いて,dladと教師付き学習手法による動的サンプリングの評価を行った。 1つのm/zチャネルに制限されたSLADS-LSと、マルチチャネルのSLADS-LSとSLADS-Netに比較すると、DLADSはそれぞれ36.7%、7.0%、および6.2%のレグレッション性能を向上し、結果として6.0%、2.1%、および3.4%のリコンストラクション品質を得た。

Mass Spectrometry Imaging (MSI), using traditional rectilinear scanning, takes hours to days for high spatial resolution acquisitions. Given that most pixels within a sample's field of view are often neither relevant to underlying biological structures nor chemically informative, MSI presents as a prime candidate for integration with sparse and dynamic sampling algorithms. During a scan, stochastic models determine which locations probabilistically contain information critical to the generation of low-error reconstructions. Decreasing the number of required physical measurements thereby minimizes overall acquisition times. A Deep Learning Approach for Dynamic Sampling (DLADS), utilizing a Convolutional Neural Network (CNN) and encapsulating molecular mass intensity distributions within a third dimension, demonstrates a simulated 70% throughput improvement for Nanospray Desorption Electrospray Ionization (nano-DESI) MSI tissues. Evaluations are conducted between DLADS and a Supervised Learning Approach for Dynamic Sampling, with Least-Squares regression (SLADS-LS) and a Multi-Layer Perceptron (MLP) network (SLADS-Net). When compared with SLADS-LS, limited to a single m/z channel, as well as multichannel SLADS-LS and SLADS-Net, DLADS respectively improves regression performance by 36.7%, 7.0%, and 6.2%, resulting in gains to reconstruction quality of 6.0%, 2.1%, and 3.4% for acquisition of targeted m/z.
翻訳日:2022-10-25 15:43:35 公開日:2022-10-24
# 物理的に現実的な混合現実のための熱力学インフォームドニューラルネットワーク

Thermodynamics-informed neural networks for physically realistic mixed reality ( http://arxiv.org/abs/2210.13414v1 )

ライセンス: Link先を確認
Quercus Hern\'andez, Alberto Bad\'ias, Francisco Chinesta, El\'ias Cueto(参考訳) 社会における没入的技術が差し迫った影響は、仮想世界のリアルタイムおよびインタラクティブな物理シミュレーションにおけるアクティブな研究が現実的になるように促される。 この文脈では、現実的な意味は物理学の法則に従うことである。 本稿では,複合現実感におけるリアルタイムユーザインタラクションによって引き起こされる変形可能な物体の動的応答を,ディープラーニングを用いて計算する手法を提案する。 グラフベースのアーキテクチャは予測の熱力学的一貫性を確保し、可視化パイプラインは自然で現実的なユーザエクスペリエンスを実現する。 混合現実シナリオにおける仮想または物理的固体と相互作用する仮想固体の2つの例は、その手法の性能を証明するために提供される。

The imminent impact of immersive technologies in society urges for active research in real-time and interactive physics simulation for virtual worlds to be realistic. In this context, realistic means to be compliant to the laws of physics. In this paper we present a method for computing the dynamic response of (possibly non-linear and dissipative) deformable objects induced by real-time user interactions in mixed reality using deep learning. The graph-based architecture of the method ensures the thermodynamic consistency of the predictions, whereas the visualization pipeline allows a natural and realistic user experience. Two examples of virtual solids interacting with virtual or physical solids in mixed reality scenarios are provided to prove the performance of the method.
翻訳日:2022-10-25 15:42:42 公開日:2022-10-24
# ブラインド多項式回帰

Blind Polynomial Regression ( http://arxiv.org/abs/2210.11874v2 )

ライセンス: Link先を確認
Alberto Natali and Geert Leus(参考訳) 多項式を観測データに当てはめることは、補間や予測のような多くの信号処理や機械学習タスクにおいてユビキタスなタスクである。 その文脈では、入力と出力のペアが利用可能であり、ゴールは多項式の係数を見つけることである。 しかし、多くの応用において、入力は部分的には知られ、全く知られておらず、従来の回帰アプローチは適用されない。 本稿では,(潜在的に部分的な)ブラインド回帰問題を形式的に定式化し,その理論的性質を説明するとともに,その解法を提案する。 ケーススタディとして,提案手法をジッタ補正問題に適用し,その性能を検証した。

Fitting a polynomial to observed data is an ubiquitous task in many signal processing and machine learning tasks, such as interpolation and prediction. In that context, input and output pairs are available and the goal is to find the coefficients of the polynomial. However, in many applications, the input may be partially known or not known at all, rendering conventional regression approaches not applicable. In this paper, we formally state the (potentially partial) blind regression problem, illustrate some of its theoretical properties, and propose algorithmic approaches to solve it. As a case-study, we apply our methods to a jitter-correction problem and corroborate its performance.
翻訳日:2022-10-25 15:42:32 公開日:2022-10-24
# 機械学習と科学を橋渡しする: 機会と挑戦

Bridging Machine Learning and Sciences: Opportunities and Challenges ( http://arxiv.org/abs/2210.13441v1 )

ライセンス: Link先を確認
Taoli Cheng(参考訳) 科学における機械学習の応用は近年、エキサイティングな進歩を遂げている。 広く適用可能な手法として、機械学習コミュニティでは長年にわたり異常検出が研究されてきた。 特に、深層ニューラルネットワークを用いた分散検出は、高次元データにおいて大きな進歩を遂げている。 近年、これらの技術は科学的分野においてその可能性を示している。 データ普遍性、実験プロトコル、モデル堅牢性など、それらの適用可能性について批判的に考察する。 本稿では,移行可能な実践とドメイン固有の課題を同時に提示する事例について論じ,近い将来に新たな学際研究パラダイムを確立するための出発点となる。

The application of machine learning in sciences has seen exciting advances in recent years. As a widely-applicable technique, anomaly detection has been long studied in the machine learning community. Especially, deep neural nets-based out-of-distribution detection has made great progress for high-dimensional data. Recently, these techniques have been showing their potential in scientific disciplines. We take a critical look at their applicative prospects including data universality, experimental protocols, model robustness, etc. We discuss examples that display transferable practices and domain-specific challenges simultaneously, providing a starting point for establishing a novel interdisciplinary research paradigm in the near future.
翻訳日:2022-10-25 15:42:03 公開日:2022-10-24
# 非連続確率勾配をもつ確率最適化問題に対するランゲヴィンダイナミクスに基づくアルゴリズムe-TH$\varepsilon$O POULA

Langevin dynamics based algorithm e-TH$\varepsilon$O POULA for stochastic optimization problems with discontinuous stochastic gradient ( http://arxiv.org/abs/2210.13193v1 )

ライセンス: Link先を確認
Dong-Young Lim, Ariel Neufeld, Sotirios Sabanis, Ying Zhang(参考訳) 我々は、量子推定、ベクトル量子化、CVaR最小化、ReLUニューラルネットワークを含む正規化最適化問題などの現実の応用に自然に現れる不連続確率勾配による最適化問題を解くために、e-TH$\varepsilon$O POULAと呼ばれる新しいランゲヴィンダイナミクスベースのアルゴリズムを導入する。 理論的にも数値的にも e-TH$\varepsilon$O POULA アルゴリズムの適用性を実証する。 より正確には、確率勾配が平均的に局所リプシッツであり、無限大条件で一定の凸性を満たす条件の下で、ワッサーシュタイン距離において e-TH$\varepsilon$O POULA の非漸近誤差境界を確立し、予想される余剰リスクの非漸近誤差推定を与える。 金融と保険の3つの主要な応用として、多周期ポートフォリオ最適化、多周期ポートフォリオ最適化における転送学習、および(Leaky)-ReLUアクティベーション機能を備えたニューラルネットワークを含む保険請求予測がある。 E-TH$\varepsilon$O POULAをモデル精度でSGLD, ADAM, AMSGradと比較し, 実世界のデータセットを用いて数値実験を行った。

We introduce a new Langevin dynamics based algorithm, called e-TH$\varepsilon$O POULA, to solve optimization problems with discontinuous stochastic gradients which naturally appear in real-world applications such as quantile estimation, vector quantization, CVaR minimization, and regularized optimization problems involving ReLU neural networks. We demonstrate both theoretically and numerically the applicability of the e-TH$\varepsilon$O POULA algorithm. More precisely, under the conditions that the stochastic gradient is locally Lipschitz in average and satisfies a certain convexity at infinity condition, we establish non-asymptotic error bounds for e-TH$\varepsilon$O POULA in Wasserstein distances and provide a non-asymptotic estimate for the expected excess risk, which can be controlled to be arbitrarily small. Three key applications in finance and insurance are provided, namely, multi-period portfolio optimization, transfer learning in multi-period portfolio optimization, and insurance claim prediction, which involve neural networks with (Leaky)-ReLU activation functions. Numerical experiments conducted using real-world datasets illustrate the superior empirical performance of e-TH$\varepsilon$O POULA compared to SGLD, ADAM, and AMSGrad in terms of model accuracy.
翻訳日:2022-10-25 15:41:54 公開日:2022-10-24
# parafac2に基づく結合行列とテンソル因子分解

PARAFAC2-based Coupled Matrix and Tensor Factorizations ( http://arxiv.org/abs/2210.13054v1 )

ライセンス: Link先を確認
Carla Schenker, Xiulin Wang and Evrim Acar(参考訳) 結合行列とテンソル因子化(CMTF)は、行列と高次テンソルの形でデータセットを共同で解析する有効なデータ融合ツールとして登場した。 PARAFAC2モデルはCANDECOMP/PARAFAC(CP)テンソルモデルの柔軟性と不規則・ラガーテンソルの処理能力から、有望な代替品であることが示されている。 行列/テンソル分解と結合したparafac2モデルに基づく融合モデルは近年研究されているが、データセット間の正規化や結合のタイプは限られている。 本稿では,すべてのモードや線形結合に様々な制約を課すことができるような PARAFAC2 ベースのCMTF モデルを,AO (Alternating Optimization) と ADMM (Alternating Direction Method of Multipliers) を用いたアルゴリズムフレームワークを提案する。 数値実験により,提案手法が様々な制約と線形結合を用いて,基礎となるパターンを正確に復元できることを実証する。

Coupled matrix and tensor factorizations (CMTF) have emerged as an effective data fusion tool to jointly analyze data sets in the form of matrices and higher-order tensors. The PARAFAC2 model has shown to be a promising alternative to the CANDECOMP/PARAFAC (CP) tensor model due to its flexibility and capability to handle irregular/ragged tensors. While fusion models based on a PARAFAC2 model coupled with matrix/tensor decompositions have been recently studied, they are limited in terms of possible regularizations and/or types of coupling between data sets. In this paper, we propose an algorithmic framework for fitting PARAFAC2-based CMTF models with the possibility of imposing various constraints on all modes and linear couplings, using Alternating Optimization (AO) and the Alternating Direction Method of Multipliers (ADMM). Through numerical experiments, we demonstrate that the proposed algorithmic approach accurately recovers the underlying patterns using various constraints and linear couplings.
翻訳日:2022-10-25 15:34:21 公開日:2022-10-24
# 弱みの革新表現による時系列の新規性検出:深層学習アプローチ

Novelty Detection in Time Series via Weak Innovations Representation: A Deep Learning Approach ( http://arxiv.org/abs/2210.13358v1 )

ライセンス: Link先を確認
Xinyi Wang, Mei-jen Lee, Qing Zhao, Lang Tong(参考訳) 未知および非パラメトリックな確率構造を持つ時系列における新規性検出について考察する。 時系列の過去のすべてのサンプルから統計的に独立した新規サンプルからなるイノベーションシーケンスを因果的に抽出する深層学習手法を提案する。 革新系列の確率構造における新しい変化をオンラインで検出するための新規性検出アルゴリズムを開発した。 提案手法の新規性検出のためにベイズリスク尺度に基づく最小限の最適性を確立し, 実データと合成データを用いた実験でその堅牢性と有効性を示す。

We consider novelty detection in time series with unknown and nonparametric probability structures. A deep learning approach is proposed to causally extract an innovations sequence consisting of novelty samples statistically independent of all past samples of the time series. A novelty detection algorithm is developed for the online detection of novel changes in the probability structure in the innovations sequence. A minimax optimality under a Bayes risk measure is established for the proposed novelty detection method, and its robustness and efficacy are demonstrated in experiments using real and synthetic datasets.
翻訳日:2022-10-25 15:34:00 公開日:2022-10-24
# 自然画像のパッチ表現について

On representation of natural image patches ( http://arxiv.org/abs/2210.13004v1 )

ライセンス: Link先を確認
Cheng Guo(参考訳) 第一原理から始めて、自然画像の局所統計をモデル化するために even code という教師なし学習法を導出する。 最初のバージョンでは、独立状態を持つ直交基底を用いて、数ピクセルの単純な確率分布をモデル化している。 第2版では、顕微鏡的損失関数を使用して、画像パッチの非線形スパースバイナリ表現を学習する。 二項表現空間における距離は、画像パッチの類似性を反映する。 学習モデルは、初期視覚システムのような局所エッジ検出と方向選択ユニットも備えている。

Starting from the first principle I derive an unsupervised learning method named even code to model local statistics of natural images. The first version uses orthogonal bases with independent states to model simple probability distribution of a few pixels. The second version uses a microscopic loss function to learn a nonlinear sparse binary representation of image patches. The distance in the binary representation space reflects image patch similarity. The learned model also has local edge detecting and orientation selective units like early visual systems.
翻訳日:2022-10-25 15:32:29 公開日:2022-10-24
# 高分解能画像認識のための反復パッチ選択

Iterative Patch Selection for High-Resolution Image Recognition ( http://arxiv.org/abs/2210.13007v1 )

ライセンス: Link先を確認
Benjamin Bergner, Christoph Lippert, Aravindh Mahendran(参考訳) 高分解能画像は、自動運転やコンピュータ支援診断など、様々な用途で広く使われている。 しかし、そのような画像上でニューラルネットワークをトレーニングすることは計算的に困難であり、現代のGPUでも容易にメモリ外エラーにつながる。 本稿では,メモリ使用量を入力サイズから切り離し,ハードウェアの厳しい制約下での任意のサイズの画像の処理を可能にする,単純な手法であるイテレーティブ・パッチ選択(IPS)を提案する。 IPSは、最も健全なパッチだけを選択してこれを達成し、画像認識のためのグローバルな表現に集約する。 パッチ選択とアグリゲーションの両方のために、複数のインスタンス学習と密接な関係を示すクロスアテンションベースのトランスフォーマが導入された。 本手法は,最小のアクセラレータメモリを使用しながら,異なる領域,トレーニング体制,画像サイズにまたがって高い性能を示す。 例えば、最大250kのパッチ(>16ギガピクセル)と5GBのGPU VRAMのみをバッチサイズ16.6GBのバッチサイズで、スライディングイメージ全体のモデルを微調整することが可能です。

High-resolution images are prevalent in various applications, such as autonomous driving and computer-aided diagnosis. However, training neural networks on such images is computationally challenging and easily leads to out-of-memory errors even on modern GPUs. We propose a simple method, Iterative Patch Selection (IPS), which decouples the memory usage from the input size and thus enables the processing of arbitrarily large images under tight hardware constraints. IPS achieves this by selecting only the most salient patches, which are then aggregated into a global representation for image recognition. For both patch selection and aggregation, a cross-attention based transformer is introduced, which exhibits a close connection to Multiple Instance Learning. Our method demonstrates strong performance and has wide applicability across different domains, training regimes and image sizes while using minimal accelerator memory. For example, we are able to finetune our model on whole-slide images consisting of up to 250k patches (>16 gigapixels) with only 5 GB of GPU VRAM at a batch size of 16.
翻訳日:2022-10-25 15:32:23 公開日:2022-10-24
# 経験的解析を用いた拡張U-Netモデルを用いた脳腫瘍切除

Brain Tumor Segmentation using Enhanced U-Net Model with Empirical Analysis ( http://arxiv.org/abs/2210.13336v1 )

ライセンス: Link先を確認
MD Abdullah Al Nasim, Abdullah Al Munem, Maksuda Islam, Md Aminul Haque Palash, MD. Mahim Anjum Haque, and Faisal Muhammad Shah(参考訳) 脳のがんは致命的であり、慎重に外科切除する必要がある。 脳腫瘍は畳み込みニューラルネットワーク(cnn)を用いてu-netで分割された。 壊死性、浮腫性、成長性、健康的な組織の重なりを求めると、画像から関連する情報を得るのは難しいかもしれません。 2D U-Netネットワークは改善され、BraTSデータセットでトレーニングされ、4つの領域が見つかった。 U-Netは多くのエンコーダやデコーダルートを設定し、異なる方法で使用できる画像から情報を取得することができる。 計算時間を短縮するため,画像分割を重要でない背景詳細を除外する。 BraTSデータセットの実験により、MRI(MRI)から脳腫瘍を分離するモデルがうまく機能していることが示されている。 本研究では、2017年、2018年、2019年、2020年のBraTSデータセットが、BraTS 2019データセットの到達したダイススコア0.8717(ネクロティック)、0.9506(浮腫)、0.9427(エンハンシング)と大きく異なることはないことを示した。

Cancer of the brain is deadly and requires careful surgical segmentation. The brain tumors were segmented using U-Net using a Convolutional Neural Network (CNN). When looking for overlaps of necrotic, edematous, growing, and healthy tissue, it might be hard to get relevant information from the images. The 2D U-Net network was improved and trained with the BraTS datasets to find these four areas. U-Net can set up many encoder and decoder routes that can be used to get information from images that can be used in different ways. To reduce computational time, we use image segmentation to exclude insignificant background details. Experiments on the BraTS datasets show that our proposed model for segmenting brain tumors from MRI (MRI) works well. In this study, we demonstrate that the BraTS datasets for 2017, 2018, 2019, and 2020 do not significantly differ from the BraTS 2019 dataset's attained dice scores of 0.8717 (necrotic), 0.9506 (edema), and 0.9427 (enhancing).
翻訳日:2022-10-25 15:32:06 公開日:2022-10-24
# 医用画像分割のための大規模バッチおよびパッチサイズトレーニング

Large Batch and Patch Size Training for Medical Image Segmentation ( http://arxiv.org/abs/2210.13364v1 )

ライセンス: Link先を確認
Junya Sato and Shoji Kido(参考訳) マルチ組織セグメンテーションは、臓器の評価を可能にし、複数の臓器間の関係を説明し、正確な診断と治療の決定を容易にする。 しかし、データセットや計算資源が不足しているため、セグメンテーションを正確に実行できるモデルはほとんどない。 大規模,臨床,多種多様な腹部多臓器セグメンテーションベンチマークであるAMOS2022チャレンジでは,マルチGPU分散トレーニングを用いて,大規模なバッチサイズとパッチサイズを持つ3D-UNetモデルを訓練した。 セグメンテーション性能は,ベースライン設定に比べてバッチサイズやパッチサイズが大きいモデルでは向上傾向にあった。 異なる設定でトレーニングされたアンサンブルモデルを使用することで、精度はさらに向上した。 これらの結果は,臓器分節におけるパラメータ選択の基準となる。

Multi-organ segmentation enables organ evaluation, accounts the relationship between multiple organs, and facilitates accurate diagnosis and treatment decisions. However, only few models can perform segmentation accurately because of the lack of datasets and computational resources. On AMOS2022 challenge, which is a large-scale, clinical, and diverse abdominal multiorgan segmentation benchmark, we trained a 3D-UNet model with large batch and patch sizes using multi-GPU distributed training. Segmentation performance tended to increase for models with large batch and patch sizes compared with the baseline settings. The accuracy was further improved by using ensemble models that were trained with different settings. These results provide a reference for parameter selection in organ segmentation.
翻訳日:2022-10-25 15:31:44 公開日:2022-10-24
# FairGen: 公正な合成データ生成

FairGen: Fair Synthetic Data Generation ( http://arxiv.org/abs/2210.13023v1 )

ライセンス: Link先を確認
Bhushan Chaudhari, Himanshu Choudhary, Aakash Agarwal, Kamna Meena, Tanmoy Bhowmik(参考訳) 銀行、製薬、エドテックなどの分野における機械学習の普及に伴い、モデルがあらゆるグループに対して不公平に差別されないように、責任あるai手法を採用することが最も重要になっている。 クリーンなトレーニングデータがないことから、生成的な敵対的手法は、テキスト、画像、不正検出をモデル化する構造化データセットなどの非構造化データから、さまざまなドメインにまたがる最先端アーキテクチャによる合成データを生成するのが望ましい。 これらのテクニックは、クラス不均衡、限られたトレーニングデータ、プライバシー問題によるデータへのアクセス制限など、いくつかの課題を克服する。 公正なデータを生成することに焦点を当てた既存の作業は、特定のGANアーキテクチャで機能するか、あるいはGAN間でチューニングするのが非常に困難です。 本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。 本論文はバイアス誘発サンプルの同定と除去に前処理アルゴリズムを用いる。 特に、合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアス誘発サンプルを除去することで、GANは本質的に真の情報的サンプルに焦点を当てる。 2つのオープンソースのデータセットを実験的に評価した結果,提案するパイプラインが公平なデータを生成する方法と,その性能向上を実証した。

With the rising adoption of Machine Learning across the domains like banking, pharmaceutical, ed-tech, etc, it has become utmost important to adopt responsible AI methods to ensure models are not unfairly discriminating against any group. Given the lack of clean training data, generative adversarial techniques are preferred to generate synthetic data with several state-of-the-art architectures readily available across various domains from unstructured data such as text, images to structured datasets modelling fraud detection and many more. These techniques overcome several challenges such as class imbalance, limited training data, restricted access to data due to privacy issues. Existing work focusing on generating fair data either works for a certain GAN architecture or is very difficult to tune across the GANs. In this paper, we propose a pipeline to generate fairer synthetic data independent of the GAN architecture. The proposed paper utilizes a pre-processing algorithm to identify and remove bias inducing samples. In particular, we claim that while generating synthetic data most GANs amplify bias present in the training data but by removing these bias inducing samples, GANs essentially focuses more on real informative samples. Our experimental evaluation on two open-source datasets demonstrates how the proposed pipeline is generating fair data along with improved performance in some cases.
翻訳日:2022-10-25 15:25:36 公開日:2022-10-24
# 非有線および無線ネットワーク上でのフェデレーションおよびメタ学習:チュートリアル

Federated and Meta learning over Non-Wireless and Wireless Networks: A Tutorial ( http://arxiv.org/abs/2210.13111v1 )

ライセンス: Link先を確認
Xiaonan Liu and Yansha Deng and Arumugam Nallanathan and Mehdi Bennis(参考訳) 近年、非ワイヤレスおよび無線ネットワークにおけるリソース管理、干渉管理、自律性、意思決定問題を解決するために、機械学習(ML)ソリューションが開発されている。 標準的なmlアプローチでは、トレーニングのための中央サーバでデータを収集する必要があり、デバイスのデータのプライバシを保持することはできない。 この問題に対処するため、フェデレーションドラーニング(FL)は、エッジデバイスがデータプライバシのローカルデータセットを共有することなく、協調的にMLモデルをトレーニングできる効果的な方法である。 通常、FLは与えられたタスクとすべてのデバイスに対するグローバルモデルを学ぶことに集中するので、異なるデータ分布を持つデバイスにモデルを適応することはできない。 このような場合、いくつかのデータサンプルを使用して異なるデータ分布に学習モデルを適応させるためにメタラーニングが用いられる。 このチュートリアルでは、fl、meta learning、federated meta learning(fedmeta)について包括的なレビューを行う。 他のチュートリアルに比べて、FL/meta-learning/FedMetaの設計、最適化、非ワイヤレスおよび無線ネットワーク上での進化の活用が目的である。 さらに、これらの学習アルゴリズム間の関係だけでなく、現実世界の応用におけるそれらの利点や欠点も分析する。

In recent years, various machine learning (ML) solutions have been developed to solve resource management, interference management, autonomy, and decision-making problems in non-wireless and wireless networks. Standard ML approaches require collecting data at a central server for training, which cannot preserve the data privacy of devices. To address this issue, federated learning (FL) is an effective method to allow edge devices to collaboratively train ML models without sharing local datasets for data privacy. Typically, FL focuses on learning a global model for a given task and all devices and hence cannot adapt the model to devices with different data distributions. In such cases, meta learning can be employed to adapt learning models to different data distributions using a few data samples. In this tutorial, we conduct a comprehensive review on FL, meta learning, and federated meta learning (FedMeta). Compared to other tutorial papers, our objective is to leverage how FL/meta-learning/FedMeta can be designed, optimized, and evolved over non-wireless and wireless networks. Furthermore, we analyze not only the relationship among these learning algorithms but also their advantages and disadvantages in real-world applications.
翻訳日:2022-10-25 15:25:12 公開日:2022-10-24
# ADLight:強化学習を用いた拡張データによる交通信号制御の普遍的アプローチ

ADLight: A Universal Approach of Traffic Signal Control with Augmented Data Using Reinforcement Learning ( http://arxiv.org/abs/2210.13378v1 )

ライセンス: Link先を確認
Maonan Wang, Yutong Xu, Xi Xiong, Yuheng Kan, Chengcheng Xu, Man-On Pun(参考訳) 交通信号制御は、動的ネットワークの混雑を減少させる可能性がある。 近年の研究では、強化学習法(RL)による交通信号制御が平均待ち時間を著しく短縮できることが示された。 しかし、既存の方法の欠点は、異なる構造を持つ新しい交差点のモデル再訓練が必要であることである。 本稿では,拡張データ(ADLight)を用いた新しい強化学習手法を提案する。 本稿では,異なる交差点に対して同じ構造を持つ一般化モデルを実現するために,現在の位相期間を設定した動作と動作の特徴を取り入れた新しいエージェント設計を提案する。 一般化性能を向上させるために,新しいデータ拡張法である \textit{movement shuffle} を開発した。 また,都市移動シミュレーション(sumo)において,新しい交差点を用いたユニバーサルモデルをテストする。 その結果,1つの環境で訓練されたモデル(平均待ち時間の5%の損失に過ぎず)に近づき,80%以上のトレーニング時間を削減でき,信号機のスケーラブルな操作において多くの計算資源を節約できることがわかった。

Traffic signal control has the potential to reduce congestion in dynamic networks. Recent studies show that traffic signal control with reinforcement learning (RL) methods can significantly reduce the average waiting time. However, a shortcoming of existing methods is that they require model retraining for new intersections with different structures. In this paper, we propose a novel reinforcement learning approach with augmented data (ADLight) to train a universal model for intersections with different structures. We propose a new agent design incorporating features on movements and actions with set current phase duration to allow the generalized model to have the same structure for different intersections. A new data augmentation method named \textit{movement shuffle} is developed to improve the generalization performance. We also test the universal model with new intersections in Simulation of Urban MObility (SUMO). The results show that the performance of our approach is close to the models trained in a single environment directly (only a 5% loss of average waiting time), and we can reduce more than 80% of training time, which saves a lot of computational resources in scalable operations of traffic lights.
翻訳日:2022-10-25 15:24:52 公開日:2022-10-24
# E-Valuating Classifier Two-Sample Tests

E-Valuating Classifier Two-Sample Tests ( http://arxiv.org/abs/2210.13027v1 )

ライセンス: Link先を確認
Teodora Pandeva and Tim Bakker and Christian A. Naesseth and Patrick Forr\'e(参考訳) E値に基づく高次元データに対する分類器2サンプルテストであるE-C2STを提案する。 p$-valuesベースのテストと比較すると、E値を持つテストはI型エラーのサンプル保証が有限である。 E-C2STは、分割可能性比テストと予測独立性テストに関する既存の研究のアイデアを組み合わせている。 結果のE値には、代替仮説に関する情報が含まれている。 シミュレーションおよび実生活データに対するE-C2STの有用性を示す。 すべての実験において,E-C2STは他の手法に比べて低出力で開始するが,最終的には1方向に収束する。 同時に、e-c2stのtype iエラーは選択された重要度レベルを下回っており、必ずしもベースラインメソッドの場合ではない。 最後に、MRIデータセットを用いて、独立に実行される複数の研究からE値を乗算すると、有限サンプルI型エラー保証を保ちながらパワーを増大させるE値が結合されることを実証する。

We propose E-C2ST, a classifier two-sample test for high-dimensional data based on E-values. Compared to $p$-values-based tests, tests with E-values have finite sample guarantees for the type I error. E-C2ST combines ideas from existing work on split likelihood ratio tests and predictive independence testing. The resulting E-values incorporate information about the alternative hypothesis. We demonstrate the utility of E-C2ST on simulated and real-life data. In all experiments, we observe that when going from small to large sample sizes, as expected, E-C2ST starts with lower power compared to other methods but eventually converges towards one. Simultaneously, E-C2ST's type I error stays substantially below the chosen significance level, which is not always the case for the baseline methods. Finally, we use an MRI dataset to demonstrate that multiplying E-values from multiple independently conducted studies leads to a combined E-value that retains the finite sample type I error guarantees while increasing the power.
翻訳日:2022-10-25 15:23:00 公開日:2022-10-24
# 木LSTMによるマルチエージェント経路探索

Multi-Agent Path Finding via Tree LSTM ( http://arxiv.org/abs/2210.12933v1 )

ライセンス: Link先を確認
Yuhao Jiang, Kunjie Zhang, Qimai Li, Jiaxin Chen, Xiaolong Zhu(参考訳) 近年,Multi-Agent Path Finding (MAPF) が運用研究 (OR) と強化学習 (RL) の両方の分野から注目を集めている。 しかし、2021年のFlatland3 ChallengeではMAPFの競争で、最良のRL法は27.9点に過ぎず、最高のOR法よりもはるかに少なかった。 本稿では,これまで最も優れたrlソリューションである125.3を数倍高く評価したflatland3 challengeに対する新しいrlソリューションを提案する。 我々はMAPFに新しいネットワークアーキテクチャ、TreeLSTMを創造的に適用する。 報酬形成,多相学習,集中制御など,他のRL技術とともに,我々のソリューションは上位2-3OR手法に匹敵するものである。

In recent years, Multi-Agent Path Finding (MAPF) has attracted attention from the fields of both Operations Research (OR) and Reinforcement Learning (RL). However, in the 2021 Flatland3 Challenge, a competition on MAPF, the best RL method scored only 27.9, far less than the best OR method. This paper proposes a new RL solution to Flatland3 Challenge, which scores 125.3, several times higher than the best RL solution before. We creatively apply a novel network architecture, TreeLSTM, to MAPF in our solution. Together with several other RL techniques, including reward shaping, multiple-phase training, and centralized control, our solution is comparable to the top 2-3 OR methods.
翻訳日:2022-10-25 15:14:59 公開日:2022-10-24
# Ares: 敵対的MLのためのシステム指向のウォーゲームフレームワーク

Ares: A System-Oriented Wargame Framework for Adversarial ML ( http://arxiv.org/abs/2210.12952v1 )

ライセンス: Link先を確認
Farhan Ahmed, Pratik Vaishnavi, Kevin Eykholt, Amir Rahmati(参考訳) 10年近く前に機械学習モデルに対する敵の攻撃が発見されて以来、敵の機械学習の研究は急速に進化し、敵の攻撃に対するMLモデルの堅牢性を高めようとするディフェンダーと、これらの防御を弱めたり打ち負かすことができるより良い攻撃を開拓しようとする敵の間での永遠の戦争へと発展した。 しかし、このドメインはMLの実践者からはほとんど買われていない。これらの攻撃が現実世界のシステムに影響を及ぼすことを気にせず、またこれらの攻撃に対して堅牢性を求めるためにモデルの正確性を交換する意思もない。 本稿では、現実的なウォーゲームのような環境で、研究者が攻撃や防御を探索できる敵MLの評価フレームワークであるAlesの設計と実装の動機付けを行う。 aresは、攻撃者と防御者の間の対立を、対立する目標を持つ強化学習環境において2つのエージェントとして構成している。 これにより、障害発生時間などのシステムレベルの評価指標の導入と、標的防御の移動などの複雑な戦略の評価が可能になる。 我々は、敵が訓練したディフェンダーに対してホワイトボックス攻撃を仕掛けた最初の調査の結果を提供する。

Since the discovery of adversarial attacks against machine learning models nearly a decade ago, research on adversarial machine learning has rapidly evolved into an eternal war between defenders, who seek to increase the robustness of ML models against adversarial attacks, and adversaries, who seek to develop better attacks capable of weakening or defeating these defenses. This domain, however, has found little buy-in from ML practitioners, who are neither overtly concerned about these attacks affecting their systems in the real world nor are willing to trade off the accuracy of their models in pursuit of robustness against these attacks. In this paper, we motivate the design and implementation of Ares, an evaluation framework for adversarial ML that allows researchers to explore attacks and defenses in a realistic wargame-like environment. Ares frames the conflict between the attacker and defender as two agents in a reinforcement learning environment with opposing objectives. This allows the introduction of system-level evaluation metrics such as time to failure and evaluation of complex strategies such as moving target defenses. We provide the results of our initial exploration involving a white-box attacker against an adversarially trained defender.
翻訳日:2022-10-25 15:14:45 公開日:2022-10-24
# スマートIoTデバイスのための非コントラスト学習に基づく行動バイオメトリックス

Non-Contrastive Learning-based Behavioural Biometrics for Smart IoT Devices ( http://arxiv.org/abs/2210.12964v1 )

ライセンス: Link先を確認
Oshan Jayawardana, Fariza Rashid, Suranga Seneviratne(参考訳) ビヘイビアバイオメトリックスは、パスワードや静的バイオメトリックスといった従来の認証手法の限界を克服する有効な代替手段として検討されている。 また、AR/VR機能を備えたスマートヘッドセット、ウェアラブル、アーブルといった、大きなフォームファクタやユーザとのシームレスな対話能力を持たないIoTデバイスのための、実行可能な認証方法として検討されている。 最近のビヘイビアバイオメトリックソリューションは、大量の注釈付きトレーニングデータを必要とするディープラーニングモデルを使用している。 このようなビヘイビアバイオメトリックスデータの収集は、プライバシとユーザビリティの懸念を生じさせる。 そこで本研究では,SimSiamに基づく非コントラスト型自己教師学習を用いて,行動バイオメトリックシステムのラベル効率を向上させることを提案する。 鍵となるアイデアは、大量の(そして匿名化された)データを使って優れた特徴抽出器を構築することである。 2つの脳波データセットを用いて,教師付き学習やデータ拡張といった従来の手法よりも,非コントラスト型学習の方が4%-11%高い結果を示す。 また、一般に、自己教師付き学習法は他のベースラインよりも優れていることを示す。 最後に,注意深い実験を通じて,非コントラスト学習プロセスに組み込むことができる様々な修正を行い,ハイパフォーマンスをアーカイブする。

Behaviour biometrics are being explored as a viable alternative to overcome the limitations of traditional authentication methods such as passwords and static biometrics. Also, they are being considered as a viable authentication method for IoT devices such as smart headsets with AR/VR capabilities, wearables, and erables, that do not have a large form factor or the ability to seamlessly interact with the user. Recent behavioural biometric solutions use deep learning models that require large amounts of annotated training data. Collecting such volumes of behaviour biometrics data raises privacy and usability concerns. To this end, we propose using SimSiam-based non-contrastive self-supervised learning to improve the label efficiency of behavioural biometric systems. The key idea is to use large volumes of unlabelled (and anonymised) data to build good feature extractors that can be subsequently used in supervised settings. Using two EEG datasets, we show that at lower amounts of labelled data, non-contrastive learning performs 4%-11% more than conventional methods such as supervised learning and data augmentation. We also show that, in general, self-supervised learning methods perform better than other baselines. Finally, through careful experimentation, we show various modifications that can be incorporated into the non-contrastive learning process to archive high performance.
翻訳日:2022-10-25 15:14:25 公開日:2022-10-24
# 不均一ニューラルネットワークを用いたニューロン障害の研究

Investigating Neuron Disturbing in Fusing Heterogeneous Neural Networks ( http://arxiv.org/abs/2210.12974v1 )

ライセンス: Link先を確認
Biao Zhang, Peng Xiao, and Shuqin Zhang(参考訳) 個別に配置されたクライアントでトレーニングされたディープラーニングモデルをワンショットのコミュニケーションラウンドでグローバルモデルに融合させることは、フェデレートラーニングの簡単な実装である。 現在のモデル融合法は、ほぼ同一のアーキテクチャを持つニューラルネットワークを融合するのに実験的に有効であるが、理論的に解析されることは滅多にない。 本稿では,異種局所モデルのニューロン同士が相互に干渉するニューロン乱れ現象を明らかにする。 本稿では、クライアント間のデータ不均一性とニューラルネットワークの特性を組み合わせたベイズ的視点による詳細な説明を行う。 さらに,神経障害を排除し,入力に応じて局所モデルであるamsを適応的に選択することでニューラルネットワークを融合させる実験手法を提案する。 実験により、AMSは一般モデル融合法やアンサンブル法よりもデータ不均一性において堅牢であることが示された。 これはモデル融合における神経障害を考える必要性を意味する。 加えて、amsは様々なアーキテクチャを実験的なアルゴリズムとして融合するモデルとして利用可能であり、将来の作業のためにいくつかのamsの拡張もリストアップしている。

Fusing deep learning models trained on separately located clients into a global model in a one-shot communication round is a straightforward implementation of Federated Learning. Although current model fusion methods are shown experimentally valid in fusing neural networks with almost identical architectures, they are rarely theoretically analyzed. In this paper, we reveal the phenomenon of neuron disturbing, where neurons from heterogeneous local models interfere with each other mutually. We give detailed explanations from a Bayesian viewpoint combining the data heterogeneity among clients and properties of neural networks. Furthermore, to validate our findings, we propose an experimental method that excludes neuron disturbing and fuses neural networks via adaptively selecting a local model, called AMS, to execute the prediction according to the input. The experiments demonstrate that AMS is more robust in data heterogeneity than general model fusion and ensemble methods. This implies the necessity of considering neural disturbing in model fusion. Besides, AMS is available for fusing models with varying architectures as an experimental algorithm, and we also list several possible extensions of AMS for future work.
翻訳日:2022-10-25 15:14:04 公開日:2022-10-24
# 未確定領域における神経進化のためのPGA-MAP-Elitesの実証解析

Empirical analysis of PGA-MAP-Elites for Neuroevolution in Uncertain Domains ( http://arxiv.org/abs/2210.13156v1 )

ライセンス: Link先を確認
Manon Flageat, Felix Chalumeau, and Antoine Cully(参考訳) MAP-Elitesを含む品質多様性アルゴリズムは、最適化問題に対する多種多様な高性能なソリューションの収集を可能にするため、パフォーマンスのみの最適化アプローチの強力な代替手段として登場した。 しかし、それらはしばしば低次元の探索空間や決定論的環境に限られる。 最近導入されたPolicy Gradient Assisted MAP-Elites (PGA-MAP-Elites)アルゴリズムは、MAP-Elitesの従来の遺伝的演算子とDeep Reinforcement Learningにインスパイアされた勾配に基づく演算子をペアリングすることで、この制限を克服する。 この新しいオペレータは、ポリシー勾配を用いた高パフォーマンスソリューションへの突然変異を誘導する。 本研究では,PGA-MAP-Elitesの詳細な研究を提案する。 本稿では,不確定領域を考慮した場合のアルゴリズムの性能と生成解の再現性に対するポリシー勾配の利点を示す。 我々はまず,PGA-MAP-Elitesが決定論的かつ不確実な高次元環境において高い性能を持つことを示す。 第2に,PGA-MAP-Elites が生成するソリューションの集合は,すべてのベースラインを上回り,不確実な環境において高い再現性を示し,不確実なアプリケーションに特化して構築された品質多様性アプローチによるソリューションの再現性にアプローチする。 最後に、政策次数に基づく変動のダイナミクスのアブレーションと詳細な分析を提案する。 我々は,PGA-MAP-Elitesの性能を保証するために,政策段階の変動演算子が決定可能であることを実証する。

Quality-Diversity algorithms, among which MAP-Elites, have emerged as powerful alternatives to performance-only optimisation approaches as they enable generating collections of diverse and high-performing solutions to an optimisation problem. However, they are often limited to low-dimensional search spaces and deterministic environments. The recently introduced Policy Gradient Assisted MAP-Elites (PGA-MAP-Elites) algorithm overcomes this limitation by pairing the traditional Genetic operator of MAP-Elites with a gradient-based operator inspired by Deep Reinforcement Learning. This new operator guides mutations toward high-performing solutions using policy-gradients. In this work, we propose an in-depth study of PGA-MAP-Elites. We demonstrate the benefits of policy-gradients on the performance of the algorithm and the reproducibility of the generated solutions when considering uncertain domains. We first prove that PGA-MAP-Elites is highly performant in both deterministic and uncertain high-dimensional environments, decorrelating the two challenges it tackles. Secondly, we show that in addition to outperforming all the considered baselines, the collections of solutions generated by PGA-MAP-Elites are highly reproducible in uncertain environments, approaching the reproducibility of solutions found by Quality-Diversity approaches built specifically for uncertain applications. Finally, we propose an ablation and in-depth analysis of the dynamic of the policy-gradients-based variation. We demonstrate that the policy-gradient variation operator is determinant to guarantee the performance of PGA-MAP-Elites but is only essential during the early stage of the process, where it finds high-performing regions of the search space.
翻訳日:2022-10-25 15:07:24 公開日:2022-10-24
# 自律型ハイブリッドエージェントベースコンピューティングの最適化問題への応用

Applying Autonomous Hybrid Agent-based Computing to Difficult Optimization Problems ( http://arxiv.org/abs/2210.13205v1 )

ライセンス: Link先を確認
Mateusz Godzik, Jacek Dajda, Marek Kisiel-Dorohinicki, Aleksander Byrski, Leszek Rutkowski, Patryk Orzechowski, Joost Wagenaar, Jason H. Moore(参考訳) 進化的マルチエージェントシステム(EMAS)は困難で多次元的な問題を扱うのに非常に適しており、その有効性はマルコフ-チェインモデルの解析に基づいて理論的に証明された。 現在、EMASに自律的ハイブリッド化を導入する研究が続けられている。 本稿では,EMASのハイブリッドバージョンを提案するとともに,複数のハイブリッド演算子の選択と導入,および本アルゴリズムのハイブリッドステップを開始するためのルールの定義について述べる。 これらのハイブリッドステップは、既存のよく知られた、効率的なメタヒューリスティックスを活用し、結果をメインアルゴリズムに統合する。 議論された修正は、多くの難しい連続最適化ベンチマークに基づいて評価される。

Evolutionary multi-agent systems (EMASs) are very good at dealing with difficult, multi-dimensional problems, their efficacy was proven theoretically based on analysis of the relevant Markov-Chain based model. Now the research continues on introducing autonomous hybridization into EMAS. This paper focuses on a proposed hybrid version of the EMAS, and covers selection and introduction of a number of hybrid operators and defining rules for starting the hybrid steps of the main algorithm. Those hybrid steps leverage existing, well-known and proven to be efficient metaheuristics, and integrate their results into the main algorithm. The discussed modifications are evaluated based on a number of difficult continuous-optimization benchmarks.
翻訳日:2022-10-25 15:06:56 公開日:2022-10-24
# 変換と回転群同変量vaeを用いた教師なしオブジェクト表現学習

Unsupervised Object Representation Learning using Translation and Rotation Group Equivariant VAE ( http://arxiv.org/abs/2210.12918v1 )

ライセンス: Link先を確認
Alireza Nasiri, Tristan Bepler(参考訳) 多くの画像モダリティにおいて、興味の対象は様々な場所やポーズ(すなわち、2dまたは3dにおける翻訳や回転の対象)で起こりうるが、対象の位置とポーズはその意味論(すなわち、対象の本質)を変えない。 すなわち、衛星画像における航空機の特定の位置と回転、または自然画像における椅子の3次元回転、または低温電子マイクログラフにおける粒子の回転は、それらの物体の本質的な性質を変えることはない。 本稿では,ポーズや位置に対して完全に教師なしの方法で不変な物体の意味表現を学ぶ問題を考える。 本稿では,翻訳・回転群等価変分オートエンコーダフレームワークであるTARGET-VAEを導入することで,この問題に対する従来のアプローチの欠点に対処する。 TARGET-VAEは3つのコアイノベーションを組み合わせています。 1)回転変換群同変エンコーダ構造, 2 近似推論ネットワークにより共同で推定される潜在回転、翻訳、および回転-翻訳-不変意味オブジェクト表現上の構造的異方性分布 3)空間的に均等なジェネレータネットワーク。 総合的な実験では,TARGET-VAEは,従来の方法の病態を著しく改善し,回避する監督なしで,絡み合った表現を学習する。 TARGET-VAEが学習したセマンティック表現は、回転と翻訳によって高度に劣化した画像に基づいて訓練されると、一貫したポーズのオブジェクトで学んだものと類似し、セマンティック潜在空間におけるクラスタリングを劇的に改善する。 さらに、TARGET-VAEは驚くほど正確な教師なしポーズと位置推定を行うことができる。 我々は、target-vaeのような手法が、教師なしオブジェクト生成、ポーズ予測、およびオブジェクト検出のための将来のアプローチとなることを期待している。

In many imaging modalities, objects of interest can occur in a variety of locations and poses (i.e. are subject to translations and rotations in 2d or 3d), but the location and pose of an object does not change its semantics (i.e. the object's essence). That is, the specific location and rotation of an airplane in satellite imagery, or the 3d rotation of a chair in a natural image, or the rotation of a particle in a cryo-electron micrograph, do not change the intrinsic nature of those objects. Here, we consider the problem of learning semantic representations of objects that are invariant to pose and location in a fully unsupervised manner. We address shortcomings in previous approaches to this problem by introducing TARGET-VAE, a translation and rotation group-equivariant variational autoencoder framework. TARGET-VAE combines three core innovations: 1) a rotation and translation group-equivariant encoder architecture, 2) a structurally disentangled distribution over latent rotation, translation, and a rotation-translation-invariant semantic object representation, which are jointly inferred by the approximate inference network, and 3) a spatially equivariant generator network. In comprehensive experiments, we show that TARGET-VAE learns disentangled representations without supervision that significantly improve upon, and avoid the pathologies of, previous methods. When trained on images highly corrupted by rotation and translation, the semantic representations learned by TARGET-VAE are similar to those learned on consistently posed objects, dramatically improving clustering in the semantic latent space. Furthermore, TARGET-VAE is able to perform remarkably accurate unsupervised pose and location inference. We expect methods like TARGET-VAE will underpin future approaches for unsupervised object generation, pose prediction, and object detection.
翻訳日:2022-10-25 14:59:03 公開日:2022-10-24
# IT-RUDA:ロバストなドメイン適応を支援する情報理論

IT-RUDA: Information Theory Assisted Robust Unsupervised Domain Adaptation ( http://arxiv.org/abs/2210.12947v1 )

ライセンス: Link先を確認
Shima Rashidi, Ruwan Tennakoon, Aref Miri Rekavandi, Papangkorn Jessadatavornwong, Amanda Freis, Garret Huff, Mark Easton, Adrian Mouritz, Reza Hoseinnezhad, Alireza Bab-Hadiashar(参考訳) トレイン(ソース)とテスト(ターゲット)データセット間の分散シフトは、マシンラーニングアプリケーションで発生する一般的な問題である。 この問題を解決する方法の1つは、ラベル豊富なソースドメインからラベルのないターゲットドメインへの知識転送を実行するUnsupervised Domain Adaptation (UDA)技術を使用することである。 ソースまたはターゲットデータセットに存在するアウトリーチは、実際にUDAを使用する場合、さらなる課題をもたらす可能性がある。 本稿では、この尺度の顕著な特徴として、単一のパラメータ$\alpha$で調整可能なロバスト性を継承しながら、ソースとターゲットの分布の相違を最小限に抑える尺度として$\alpha$-divergenceを用いる。 本稿では,提案手法の特別な場合として,他のよく知られた発散ベースのuda手法を導出できることを示す。 さらに、ソース損失と2つのドメインの間の最初の$\alpha$-divergenceという観点で、対象領域の損失に対して理論上の上限が導かれる。 提案手法のロバスト性は、ターゲットおよびソースデータセットに存在する余分なクラスが外れ値と見なされるオープンセットおよび部分的なUDA設定において、複数のベンチマークデータセットをテストすることによって検証される。

Distribution shift between train (source) and test (target) datasets is a common problem encountered in machine learning applications. One approach to resolve this issue is to use the Unsupervised Domain Adaptation (UDA) technique that carries out knowledge transfer from a label-rich source domain to an unlabeled target domain. Outliers that exist in either source or target datasets can introduce additional challenges when using UDA in practice. In this paper, $\alpha$-divergence is used as a measure to minimize the discrepancy between the source and target distributions while inheriting robustness, adjustable with a single parameter $\alpha$, as the prominent feature of this measure. Here, it is shown that the other well-known divergence-based UDA techniques can be derived as special cases of the proposed method. Furthermore, a theoretical upper bound is derived for the loss in the target domain in terms of the source loss and the initial $\alpha$-divergence between the two domains. The robustness of the proposed method is validated through testing on several benchmarked datasets in open-set and partial UDA setups where extra classes existing in target and source datasets are considered as outliers.
翻訳日:2022-10-25 14:58:32 公開日:2022-10-24
# 多段混合拡散による高分解能画像編集

High-Resolution Image Editing via Multi-Stage Blended Diffusion ( http://arxiv.org/abs/2210.12965v1 )

ライセンス: Link先を確認
Johannes Ackermann, Minjun Li(参考訳) 拡散モデルは画像生成や画像編集において大きな成果を上げている。 しかし、現在のアプローチは高分解能生成のためのトレーニング拡散モデルの計算コストのため、低分解能に限られている。 本稿では,事前学習した低分解能拡散モデルを用いてメガピクセル範囲の画像を編集する手法を提案する。 我々はまず,Blended Diffusionを用いて低解像度で画像を編集し,その後,高解像度モデルとBlended Diffusionを用いて複数のステージでアップスケールする。 提案手法を用いることで,拡散モデルの出力に対して,シェルフ超解像法のみを適用した場合よりも高い視力が得られる。 また,高分解能で直接拡散モデルを用いるよりも,グローバル一貫性が向上した。

Diffusion models have shown great results in image generation and in image editing. However, current approaches are limited to low resolutions due to the computational cost of training diffusion models for high-resolution generation. We propose an approach that uses a pre-trained low-resolution diffusion model to edit images in the megapixel range. We first use Blended Diffusion to edit the image at a low resolution, and then upscale it in multiple stages, using a super-resolution model and Blended Diffusion. Using our approach, we achieve higher visual fidelity than by only applying off the shelf super-resolution methods to the output of the diffusion model. We also obtain better global consistency than directly using the diffusion model at a higher resolution.
翻訳日:2022-10-25 14:58:11 公開日:2022-10-24
# 異種時間アンサンブルの多解表現による熱需要予測

Heat Demand Forecasting with Multi-Resolutional Representation of Heterogeneous Temporal Ensemble ( http://arxiv.org/abs/2210.13108v1 )

ライセンス: Link先を確認
Adithya Ramachandran, Satyaki Chatterjee, Siming Bayer, Andreas Maier, Thorkil Flensmark(参考訳) 電力会社が直面する主要な課題の1つは、温室効果ガスの排出を最小限に抑えることである。 スマートメーターとスマートグリッドの出現は、負荷予測のような積極的な技術によって熱エネルギーの最適供給を実現する前例のない利点をもたらす。 本稿では,天気やホリデー/非ホリデーといった外因性変数を組み込む能力を備えたスカルグラムとして時系列を符号化したニューラルネットワークに基づく熱需要予測フレームワークを提案する。 その後、CNNを用いて、熱負荷のマルチステップ予測を行う。 最後に,提案手法をSARIMAXやLSTMといった最先端の手法と比較する。 振り返り実験による定量的結果は,提案フレームワークがデンマークから取得した実世界のデータを用いて,最先端のベースライン法を一貫して上回っていることを示している。 MAPEでは7.54%,RMSEでは417kWという最小誤差が,他の手法と比較して提案手法を用いて達成されている。

One of the primal challenges faced by utility companies is ensuring efficient supply with minimal greenhouse gas emissions. The advent of smart meters and smart grids provide an unprecedented advantage in realizing an optimised supply of thermal energies through proactive techniques such as load forecasting. In this paper, we propose a forecasting framework for heat demand based on neural networks where the time series are encoded as scalograms equipped with the capacity of embedding exogenous variables such as weather, and holiday/non-holiday. Subsequently, CNNs are utilized to predict the heat load multi-step ahead. Finally, the proposed framework is compared with other state-of-the-art methods, such as SARIMAX and LSTM. The quantitative results from retrospective experiments show that the proposed framework consistently outperforms the state-of-the-art baseline method with real-world data acquired from Denmark. A minimal mean error of 7.54% for MAPE and 417kW for RMSE is achieved with the proposed framework in comparison to all other methods.
翻訳日:2022-10-25 14:57:59 公開日:2022-10-24
# リーグループによる頑健な自己指導型学習

Robust Self-Supervised Learning with Lie Groups ( http://arxiv.org/abs/2210.13356v1 )

ライセンス: Link先を確認
Mark Ibrahim, Diane Bouchacourt, Ari Morcos(参考訳) ディープラーニングはコンピュータビジョンの顕著な進歩につながった。 それでも、現在の最高のモデルでは、トレーニング中に見られるモデルと微妙に異なるバリエーションを示すと、壊れやすい。 物体のポーズ、色、照明のわずかな変化は、壊滅的な誤分類につながる可能性がある。 最先端のモデルは、一連のバリエーションが異なるオブジェクトにどのように影響するかを理解するのに苦労する。 より現実的な環境でオブジェクトがどのように変化するかという概念を具現化するフレームワークを提案する。 本手法はリー群の形式化を連続変換に応用し,モデルの分散シフトに対する頑健性を改善する。 我々は、最先端の自己教師型学習(SSL)モデルにフレームワークを適用し、Lieグループによる変換を明示的にモデル化することで、典型的なポーズで現在見られるような、新しいポーズや、どんなポーズでも未知のインスタンスでも、MAEが10%以上のパフォーマンス向上をもたらすことを発見した。 また、このアプローチをImageNetに適用し、Lie演算子の性能が約4%向上することを発見した。 これらの結果は、モデルのロバスト性を改善するための学習変換の可能性を実証する。

Deep learning has led to remarkable advances in computer vision. Even so, today's best models are brittle when presented with variations that differ even slightly from those seen during training. Minor shifts in the pose, color, or illumination of an object can lead to catastrophic misclassifications. State-of-the art models struggle to understand how a set of variations can affect different objects. We propose a framework for instilling a notion of how objects vary in more realistic settings. Our approach applies the formalism of Lie groups to capture continuous transformations to improve models' robustness to distributional shifts. We apply our framework on top of state-of-the-art self-supervised learning (SSL) models, finding that explicitly modeling transformations with Lie groups leads to substantial performance gains of greater than 10% for MAE on both known instances seen in typical poses now presented in new poses, and on unknown instances in any pose. We also apply our approach to ImageNet, finding that the Lie operator improves performance by almost 4%. These results demonstrate the promise of learning transformations to improve model robustness.
翻訳日:2022-10-25 14:57:44 公開日:2022-10-24
# 意味的マッチングによる科学コミュニケーションにおける情報変化のモデル化

Modeling Information Change in Science Communication with Semantically Matched Paraphrases ( http://arxiv.org/abs/2210.13001v1 )

ライセンス: Link先を確認
Dustin Wright and Jiaxin Pei and David Jurgens and Isabelle Augenstein(参考訳) メディアが科学的情報を忠実に伝えるかどうかは、長い間科学コミュニティにとって重要な問題だった。 パラフレーズの科学的発見を自動的に特定することで、科学コミュニケーションプロセスにおける情報変化の大規模追跡と分析が可能になるが、複数の領域にわたる科学情報間の類似性をシステムが理解する必要がある。 そこで本研究では,情報変更の程度に注釈が付された最初の科学的発見のパラフレーズデータセットであるspiced(scientific paraphrase and information change dataset)を提案する。 SPICEDには、ニュース記事、ソーシャルメディアの議論、オリジナル論文の全文から抽出された6000の科学的発見ペアが含まれている。 我々は,SPICEDが課題であり,SPICEDで訓練されたモデルが実世界の科学的主張の事実確認のための証拠検索における下流性能を向上させることを実証した。 最後に、SPICEDで訓練されたモデルが、人や組織が新しい科学的発見を忠実に伝達する程度に、大規模な傾向を示すことを示す。 データ、コード、事前訓練されたモデルはhttp://www.copenlu.com/publication/2022_emnlp_wright/で入手できる。

Whether the media faithfully communicate scientific information has long been a core issue to the science community. Automatically identifying paraphrased scientific findings could enable large-scale tracking and analysis of information changes in the science communication process, but this requires systems to understand the similarity between scientific information across multiple domains. To this end, we present the SCIENTIFIC PARAPHRASE AND INFORMATION CHANGE DATASET (SPICED), the first paraphrase dataset of scientific findings annotated for degree of information change. SPICED contains 6,000 scientific finding pairs extracted from news stories, social media discussions, and full texts of original papers. We demonstrate that SPICED poses a challenging task and that models trained on SPICED improve downstream performance on evidence retrieval for fact checking of real-world scientific claims. Finally, we show that models trained on SPICED can reveal large-scale trends in the degrees to which people and organizations faithfully communicate new scientific findings. Data, code, and pre-trained models are available at http://www.copenlu.com/publication/2022_emnlp_wright/.
翻訳日:2022-10-25 14:56:15 公開日:2022-10-24
# モーラ化相互作用エネルギー降下によるサンプリング

Sampling with Mollified Interaction Energy Descent ( http://arxiv.org/abs/2210.13400v1 )

ライセンス: Link先を確認
Lingxiao Li, Qiang Liu, Anna Korba, Mikhail Yurochkin, Justin Solomon(参考訳) 正規化定数まで密度しか知られていない目標尺度からのサンプリングは、計算統計学と機械学習における根本的な問題である。 本稿では,新しいサンプリング最適化手法であるmollified interaction energy descent (mied)を提案する。 miedは、mollified interaction energies(mies)と呼ばれる確率測度の新たなエネルギークラスを最小化する。 これらのエネルギーは、pde理論に由来するディラックデルタの滑らかな近似であるmollifier関数に依存する。 モリファイアがディラックデルタに近づくと、MIEは目標測度に対してチ二乗発散に収束し、MIEの勾配流はチ二乗発散に一致することを示す。 このエネルギーを適切な離散化で最適化すると、非拘束領域と制約領域の両方でサンプリングする実用的な一階の粒子ベースアルゴリズムが得られる。 実験により,本アルゴリズムはSVGDのような既存の粒子ベースアルゴリズムに匹敵する非拘束サンプリング問題に対して,制約サンプリング問題に対して,厳密な最適化手法を組み込んで,より柔軟な制約処理を行う。

Sampling from a target measure whose density is only known up to a normalization constant is a fundamental problem in computational statistics and machine learning. In this paper, we present a new optimization-based method for sampling called mollified interaction energy descent (MIED). MIED minimizes a new class of energies on probability measures called mollified interaction energies (MIEs). These energies rely on mollifier functions -- smooth approximations of the Dirac delta originated from PDE theory. We show that as the mollifier approaches the Dirac delta, the MIE converges to the chi-square divergence with respect to the target measure and the gradient flow of the MIE agrees with that of the chi-square divergence. Optimizing this energy with proper discretization yields a practical first-order particle-based algorithm for sampling in both unconstrained and constrained domains. We show experimentally that for unconstrained sampling problems our algorithm performs on par with existing particle-based algorithms like SVGD, while for constrained sampling problems our method readily incorporates constrained optimization techniques to handle more flexible constraints with strong performance compared to alternatives.
翻訳日:2022-10-25 14:50:00 公開日:2022-10-24
# 高忠実性ニューラルオーディオ圧縮

High Fidelity Neural Audio Compression ( http://arxiv.org/abs/2210.13438v1 )

ライセンス: Link先を確認
Alexandre D\'efossez, Jade Copet, Gabriel Synnaeve, Yossi Adi(参考訳) ニューラルネットワークを利用した最先端のリアルタイム高忠実オーディオコーデックを提案する。 ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成される。 本研究では,単一のマルチスケール・スペクトログラム・アドバイザリーを用いて,効率的にアーティファクトを削減し,高品質なサンプルを生成することにより,トレーニングを簡素化し,高速化する。 損失の重みが表すべき全体的な勾配の分断を定義することで、この超パラメータの選択を典型的な損失のスケールから切り離すことができる。 最後に, 軽量トランスフォーマーモデルを用いて, 得られた表現を最大40%圧縮し, リアルタイムよりも高速に処理できることを示す。 提案モデルの主要な設計選択について, 学習目標, 建築的変化, 知覚的損失関数の研究などについて, 詳細な説明を行う。 広汎な主観評価(MUSHRAテスト)と,音声,雑音・残響音声,音楽など,幅広い帯域幅と音声領域に対するアブレーション実験を併用して提案する。 提案手法は,24kHzのモノフォニックと48kHzのステレオオーディオの両方を考慮し,すべての評価設定のベースライン手法よりも優れている。 コードとモデルはgithub.com/facebookresearch/encodecで入手できる。

We introduce a state-of-the-art real-time, high-fidelity, audio codec leveraging neural networks. It consists in a streaming encoder-decoder architecture with quantized latent space trained in an end-to-end fashion. We simplify and speed-up the training by using a single multiscale spectrogram adversary that efficiently reduces artifacts and produce high-quality samples. We introduce a novel loss balancer mechanism to stabilize training: the weight of a loss now defines the fraction of the overall gradient it should represent, thus decoupling the choice of this hyper-parameter from the typical scale of the loss. Finally, we study how lightweight Transformer models can be used to further compress the obtained representation by up to 40%, while staying faster than real time. We provide a detailed description of the key design choices of the proposed model including: training objective, architectural changes and a study of various perceptual loss functions. We present an extensive subjective evaluation (MUSHRA tests) together with an ablation study for a range of bandwidths and audio domains, including speech, noisy-reverberant speech, and music. Our approach is superior to the baselines methods across all evaluated settings, considering both 24 kHz monophonic and 48 kHz stereophonic audio. Code and models are available at github.com/facebookresearch/encodec.
翻訳日:2022-10-25 14:49:39 公開日:2022-10-24
# 適応型データ駆動モデルを用いたDeep Grey-Boxモデリング

Deep Grey-Box Modeling With Adaptive Data-Driven Models Toward Trustworthy Estimation of Theory-Driven Models ( http://arxiv.org/abs/2210.13103v1 )

ライセンス: Link先を確認
Naoya Takeishi and Alexandros Kalousis(参考訳) ディープ・ニューラルネットとディープ・グレイボックス・モデリングと呼ばれる理論駆動モデルの組み合わせは、理論のバックボーンのおかげで本質的にある程度解釈できる。 ディープグレーボックスモデルは通常、理論駆動の部分がディープニューラルネットワークによって上書きされ無視されるのを防ぐために、正規化されたリスク最小化で学習される。 しかし、正規化器を非批判的に最適化して得られる理論駆動部分の推定は、与えられたデータにどの正規化器が適しているかがわからない場合、信頼し難い。 理論駆動部分の信頼に値する推定に向けて, 正規化者の行動を分析し, 異なる候補を比較し, 特定の選択を正当化する。 本稿では,ニューラルネットのアーキテクチャとトレーニング目標にわずかな変化を伴って,レギュレータの動作を経験的に分析することのできるフレームワークを提案する。

The combination of deep neural nets and theory-driven models, which we call deep grey-box modeling, can be inherently interpretable to some extent thanks to the theory backbone. Deep grey-box models are usually learned with a regularized risk minimization to prevent a theory-driven part from being overwritten and ignored by a deep neural net. However, an estimation of the theory-driven part obtained by uncritically optimizing a regularizer can hardly be trustworthy when we are not sure what regularizer is suitable for the given data, which may harm the interpretability. Toward a trustworthy estimation of the theory-driven part, we should analyze regularizers' behavior to compare different candidates and to justify a specific choice. In this paper, we present a framework that enables us to analyze a regularizer's behavior empirically with a slight change in the neural net's architecture and the training objective.
翻訳日:2022-10-25 14:40:27 公開日:2022-10-24
# PAC-Bayesianのオフライン帯域と保証者

PAC-Bayesian Offline Contextual Bandits With Guarantees ( http://arxiv.org/abs/2210.13132v1 )

ライセンス: Link先を確認
Otmane Sakhi and Nicolas Chopin and Pierre Alquier(参考訳) 本稿では,コンテキストバンディットにおけるオフラインポリシー最適化のための新しい原則的アプローチを提案する。 2つの確立されたリスク推定器に対して、ログポリシーをオフラインで確実に改善できる新しい一般化境界を提案する。 従来の作業とは異なり、我々のアプローチではホールトアウトセットでハイパーパラメータをチューニングする必要はなく、事前のA/Bテストなしでデプロイできる。 これはpac-ベイズレンズを通して問題を解析することで達成される; 主に、従来の政策パラメトリライズ(例えばsoftmax)を廃止し、代わりに政策を決定論的戦略の混合として解釈する。 我々は,我々の限界の厳密さと実践シナリオにおけるアプローチの有効性の実証実験を通じて実証する。

This paper introduces a new principled approach for offline policy optimisation in contextual bandits. For two well-established risk estimators, we propose novel generalisation bounds able to confidently improve upon the logging policy offline. Unlike previous work, our approach does not require tuning hyperparameters on held-out sets, and enables deployment with no prior A/B testing. This is achieved by analysing the problem through the PAC-Bayesian lens; mainly, we let go of traditional policy parametrisation (e.g. softmax) and instead interpret the policies as mixtures of deterministic strategies. We demonstrate through extensive experiments evidence of our bounds tightness and the effectiveness of our approach in practical scenarios.
翻訳日:2022-10-25 14:40:12 公開日:2022-10-24
# 等変ネットワークのためのPAC-Bayesian一般化境界

A PAC-Bayesian Generalization Bound for Equivariant Networks ( http://arxiv.org/abs/2210.13150v1 )

ライセンス: Link先を確認
Arash Behboodi, Gabriele Cesa, Taco Cohen(参考訳) 等変ネットワークは、これらの対称性をモデルに組み込むことで、学習タスクの対称性に関する帰納バイアスをキャプチャする。 本稿では,同値空間の変換則が群表現によって決定される同変ネットワークに対するPACベイズ解析を用いた一般化誤差との関係について検討する。 各層に対するフーリエ領域における同変ネットワークの摂動解析を用いて、ノルムベースのPAC-ベイズ一般化境界を導出する。 境界は、一般化誤差に対するグループサイズ、および既約表現の多重度と次数の影響を特徴付け、それらを選択するためのガイドラインを提供する。 一般に、モデルにおけるより大きなグループサイズを用いることで、広範な数値実験によって証明された一般化誤差が向上することを示す。

Equivariant networks capture the inductive bias about the symmetry of the learning task by building those symmetries into the model. In this paper, we study how equivariance relates to generalization error utilizing PAC Bayesian analysis for equivariant networks, where the transformation laws of feature spaces are determined by group representations. By using perturbation analysis of equivariant networks in Fourier domain for each layer, we derive norm-based PAC-Bayesian generalization bounds. The bound characterizes the impact of group size, and multiplicity and degree of irreducible representations on the generalization error and thereby provide a guideline for selecting them. In general, the bound indicates that using larger group size in the model improves the generalization error substantiated by extensive numerical experiments.
翻訳日:2022-10-25 14:40:00 公開日:2022-10-24
# 条件付き予測性能測定のための多重度調整型ブートストラップ傾き低信頼境界

Multiplicity-adjusted bootstrap tilting lower confidence bounds for conditional prediction performance measures ( http://arxiv.org/abs/2210.13206v1 )

ライセンス: Link先を確認
Pascal Rink and Werner Brannath(参考訳) 機械学習では、潜在的に多くの競合モデルからの有望なモデルの選択と、その一般化性能の評価が、慎重に考慮する必要がある重要なタスクである。 通常、モデル選択と評価は厳密に分離された作業であり、サンプルをトレーニング、検証、評価セットに分割し、最終選択モデルの予測性能に対する単一の信頼区間のみを算出する。 そこで本研究では,選択問題を同時推論問題として解釈し,その予測性能に基づいて選択した複数のモデルに対する信頼度率の有効値を計算するアルゴリズムを提案する。 ブートストラップ傾きと最大T型多重度補正を用いる。 このアプローチは、予測モデル、任意のモデル選択戦略、および重みを受け入れる予測性能尺度の組み合わせに普遍的に適用できる。 提案手法は, 従来の手法に比べて信頼度が低く, 信頼性が低く, 公称範囲の確率に確実に到達できることを示すため, 様々なシミュレーション実験を行った。 さらに, サンプルサイズが小さい場合, 提案手法は, 評価対象とする1つのモデルのみの既定選択よりも優れた予測モデルが得られる。

In machine learning, the selection of a promising model from a potentially large number of competing models and the assessment of its generalization performance are critical tasks that need careful consideration. Typically, model selection and evaluation are strictly separated endeavors, splitting the sample at hand into a training, validation, and evaluation set, and only compute a single confidence interval for the prediction performance of the final selected model. We however propose an algorithm how to compute valid lower confidence bounds for multiple models that have been selected based on their prediction performances in the evaluation set by interpreting the selection problem as a simultaneous inference problem. We use bootstrap tilting and a maxT-type multiplicity correction. The approach is universally applicable for any combination of prediction models, any model selection strategy, and any prediction performance measure that accepts weights. We conducted various simulation experiments which show that our proposed approach yields lower confidence bounds that are at least comparably good as bounds from standard approaches, and that reliably reach the nominal coverage probability. In addition, especially when sample size is small, our proposed approach yields better performing prediction models than the default selection of only one model for evaluation does.
翻訳日:2022-10-25 14:39:47 公開日:2022-10-24
# MARS: 関数空間におけるスコアマッチングとしてのメタラーニング

MARS: Meta-Learning as Score Matching in the Function Space ( http://arxiv.org/abs/2210.13319v1 )

ライセンス: Link先を確認
Krunoslav Lehman Pavasovic, Jonas Rothfuss and Andreas Krause(参考訳) メタラーニングは、関連するデータセットから有用な帰納的バイアスを抽出することを目的としている。 ベイジアンメタラーニングでは、ニューラルネットワークパラメータの事前分布を構築してこれを達成している。 しかし、高次元ニューラルネットワークパラメータ上で計算可能な事前分布の族を特定することは困難である。 結果として、既存のアプローチはメタラーニングの制限された対角的なガウスの先行に頼り、表現力と性能を著しく制限する。 これらの問題を回避するため,機能的ベイズニューラルネットワーク推論のレンズを通してメタラーニングにアプローチし,事前を確率的プロセスとみなし,関数空間で推論を行う。 具体的には、メタトレーニングタスクをデータ生成プロセスのサンプルとして捉え、メタラーニングをこの確率過程の法則を実証的に推定するものとして形式化する。 我々の手法は,パラメータ空間の先行ではなく,データ生成プロセスのスコア関数をメタ学習することで,複雑な事前知識をシームレスに獲得し,表現することができる。 総合ベンチマークでは,予測精度と不確実性評価の質が大幅に向上し,最先端の性能が得られることを示す。

Meta-learning aims to extract useful inductive biases from a set of related datasets. In Bayesian meta-learning, this is typically achieved by constructing a prior distribution over neural network parameters. However, specifying families of computationally viable prior distributions over the high-dimensional neural network parameters is difficult. As a result, existing approaches resort to meta-learning restrictive diagonal Gaussian priors, severely limiting their expressiveness and performance. To circumvent these issues, we approach meta-learning through the lens of functional Bayesian neural network inference, which views the prior as a stochastic process and performs inference in the function space. Specifically, we view the meta-training tasks as samples from the data-generating process and formalize meta-learning as empirically estimating the law of this stochastic process. Our approach can seamlessly acquire and represent complex prior knowledge by meta-learning the score function of the data-generating process marginals instead of parameter space priors. In a comprehensive benchmark, we demonstrate that our method achieves state-of-the-art performance in terms of predictive accuracy and substantial improvements in the quality of uncertainty estimates.
翻訳日:2022-10-25 14:39:28 公開日:2022-10-24
# 階層的最適輸送による領域適応の理論的保証

Theoretical Guarantees for Domain Adaptation with Hierarchical Optimal Transport ( http://arxiv.org/abs/2210.13331v1 )

ライセンス: Link先を確認
Mourad El Hamri, Youn\`es Bennani, Issam Falih(参考訳) ドメイン適応は、それぞれソースドメインとターゲットドメインと呼ばれるトレーニングとテストサンプルの間にデータ生成プロセスが異なる場合、統計学習理論において重要な問題として生じる。 最近の理論的進歩は、領域適応アルゴリズムの成功は、ソースとターゲット領域の確率分布のばらつきを最小限に抑える能力に大きく依存していることを示している。 しかし、この分岐を最小化することは、ソースリスクや理想的な合同仮説の複合誤差といった他の主要な成分の最小化とは独立にできない。 これらの用語間のトレードオフは、しばしば暗黙的であり、理論的な保証によって直接反映されないアルゴリズム的解によって保証される。 そこで,本稿では,階層的最適移動によるドメイン適応のための新しい理論的枠組みを提案する。 このフレームワークはより明示的な一般化境界を提供し、両方のドメイン内のサンプルの自然な階層構造をクラスやクラスタにまとめることができる。 さらに、階層的ワッサースタイン距離(Hierarchical Wasserstein distance)と呼ばれるソース領域とターゲット領域の間の新たな分岐測度を提供する。

Domain adaptation arises as an important problem in statistical learning theory when the data-generating processes differ between training and test samples, respectively called source and target domains. Recent theoretical advances show that the success of domain adaptation algorithms heavily relies on their ability to minimize the divergence between the probability distributions of the source and target domains. However, minimizing this divergence cannot be done independently of the minimization of other key ingredients such as the source risk or the combined error of the ideal joint hypothesis. The trade-off between these terms is often ensured by algorithmic solutions that remain implicit and not directly reflected by the theoretical guarantees. To get to the bottom of this issue, we propose in this paper a new theoretical framework for domain adaptation through hierarchical optimal transport. This framework provides more explicit generalization bounds and allows us to consider the natural hierarchical organization of samples in both domains into classes or clusters. Additionally, we provide a new divergence measure between the source and target domains called Hierarchical Wasserstein distance that indicates under mild assumptions, which structures have to be aligned to lead to a successful adaptation.
翻訳日:2022-10-25 14:39:09 公開日:2022-10-24
# VAEモデルにおける変分スコアマッチングの失敗について

On the failure of variational score matching for VAE models ( http://arxiv.org/abs/2210.13390v1 )

ライセンス: Link先を確認
Li Kevin Wenliang(参考訳) スコアマッチング(SM)は、フレキシブル確率モデルのトレーニングに便利な手法であり、しばしばML(Maximum-likelihood)アプローチよりも好まれる。 しかし、これらのモデルは正規化モデルよりも解釈できないため、トレーニングの堅牢性を評価することは一般的に困難である。 本稿では,既存の変分sm目標に関する批判的研究を行い,広範囲のデータセットとネットワークアーキテクチャにおいて壊滅的な障害を示す。 可変オートエンコーダ (VAE) モデルを最適化する際に, 等価な自動エンコード損失から目的に関する理論的知見が直接現れる。 まず、フィッシャーオートエンコーダにおいて、SMは最大形よりもはるかに悪いモデルを生成することを示し、フィッシャーの発散による近似推論は、低密度局所最適化をもたらすことを示した。 しかし、重要な修正を加えると、この目的はエビデンスローバウンド(ELBO)に似た正規化された自己エンコード損失に還元される。 この分析は、修正SMアルゴリズムはガウスVAE上のELBOと非常によく似た振る舞いをするべきであると予測する。 次に、文献からFDに基づく他の2つの目的をレビューし、解釈不能な自動エンコード損失を減らし、おそらく性能の低下につながることを示す。 実験により, ELBOとベースライン目標のみが予測結果を確実に生成するのに対して, 従来提案されていたSM法は期待できないことが示唆された。

Score matching (SM) is a convenient method for training flexible probabilistic models, which is often preferred over the traditional maximum-likelihood (ML) approach. However, these models are less interpretable than normalized models; as such, training robustness is in general difficult to assess. We present a critical study of existing variational SM objectives, showing catastrophic failure on a wide range of datasets and network architectures. Our theoretical insights on the objectives emerge directly from their equivalent autoencoding losses when optimizing variational autoencoder (VAE) models. First, we show that in the Fisher autoencoder, SM produces far worse models than maximum-likelihood, and approximate inference by Fisher divergence can lead to low-density local optima. However, with important modifications, this objective reduces to a regularized autoencoding loss that resembles the evidence lower bound (ELBO). This analysis predicts that the modified SM algorithm should behave very similarly to ELBO on Gaussian VAEs. We then review two other FD-based objectives from the literature and show that they reduce to uninterpretable autoencoding losses, likely leading to poor performance. The experiments verify our theoretical predictions and suggest that only ELBO and the baseline objective robustly produce expected results, while previously proposed SM methods do not.
翻訳日:2022-10-25 14:38:29 公開日:2022-10-24
# data-iq: 表データにおける不均一な結果を持つサブグループを特徴付ける

Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular data ( http://arxiv.org/abs/2210.13043v1 )

ライセンス: Link先を確認
Nabeel Seedat, Jonathan Crabb\'e, Ioana Bica, Mihaela van der Schaar(参考訳) 平均して高いモデル性能は、モデルがデータのサブグループで体系的に過小評価されることを隠すことができる。 私たちは、結果の不均一性の独特な問題である表的な設定について検討しています – これは医療などの分野において、類似した特徴を持つ患者が異なる結果をもたらす可能性があるため、信頼性の高い予測が困難になるような場合が多いのです。 そこで本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。 トレーニング中の個々のサンプルの挙動を,その予測的信頼度と,重要なアレータリック(データ)の不確実性に基づいて分析する。 aleatoric uncertaintyをキャプチャすることで、原則的なキャラクタリゼーションが可能になり、データ例を3つの異なるサブグループ(easy、ambiguous、hard)に階層化することができる。 4つの現実世界の医療データセットにおけるdata-iqの利点を実験的に実証する。 データ-IQの例の特徴は, ベースラインと比較して, 同様の性能(異なる)モデル間での変動に対して最も頑健であることを示す。 Data-IQは、任意のMLモデル(ニューラルネットワーク、勾配向上など)で使用できるため、この特性は、柔軟なモデル選択を可能にしながら、データのキャラクタリゼーションの一貫性を保証する。 さらにこれを一歩進めて、機能獲得とデータセット選択の両方に新たなアプローチを構築することが可能であることを示す。 さらに, モデル一般化に対するアンビグラス部分群の影響に着目し, モデル利用の信頼性について報告する。

High model performance, on average, can hide that models may systematically underperform on subgroups of the data. We consider the tabular setting, which surfaces the unique issue of outcome heterogeneity - this is prevalent in areas such as healthcare, where patients with similar features can have different outcomes, thus making reliable predictions challenging. To tackle this, we propose Data-IQ, a framework to systematically stratify examples into subgroups with respect to their outcomes. We do this by analyzing the behavior of individual examples during training, based on their predictive confidence and, importantly, the aleatoric (data) uncertainty. Capturing the aleatoric uncertainty permits a principled characterization and then subsequent stratification of data examples into three distinct subgroups (Easy, Ambiguous, Hard). We experimentally demonstrate the benefits of Data-IQ on four real-world medical datasets. We show that Data-IQ's characterization of examples is most robust to variation across similarly performant (yet different) models, compared to baselines. Since Data-IQ can be used with any ML model (including neural networks, gradient boosting etc.), this property ensures consistency of data characterization, while allowing flexible model selection. Taking this a step further, we demonstrate that the subgroups enable us to construct new approaches to both feature acquisition and dataset selection. Furthermore, we highlight how the subgroups can inform reliable model usage, noting the significant impact of the Ambiguous subgroup on model generalization.
翻訳日:2022-10-25 14:32:11 公開日:2022-10-24
# DAGformer: 直接非循環グラフ変換器

DAGformer: Directed Acyclic Graph Transformer ( http://arxiv.org/abs/2210.13148v1 )

ライセンス: Link先を確認
Yuankai Luo(参考訳) 自然言語処理やコンピュータビジョンといった多くの分野において、トランスフォーマーアーキテクチャが標準となっている。 最近のtransformerアーキテクチャは、グラフニューラルネットワーク(gnn)の制限を自然に克服するため、グラフ表現学習への関心も高まっている。 本研究では,グラフダグの特殊かつ広く使われているクラスに注目した。 本稿では,部分順序で定義される到達可能性関係に応じて情報を処理する有向非巡回グラフトランス,dagformerを提案する。 DAGformerはシンプルで柔軟性があり、様々なトランスフォーマーベースのモデルで使用することができる。 我々のアーキテクチャは、DAGデータセットの最先端のパフォーマンスを達成し、従来のアプローチよりも優れていることを示す。

In many fields, such as natural language processing and computer vision, the Transformer architecture has become the standard. Recently, the Transformer architecture has also attracted a growing amount of interest in graph representation learning since it naturally overcomes some graph neural network (GNNs) restrictions. In this work, we focus on a special yet widely used class of graphs-DAGs. We propose the directed acyclic graph Transformer, DAGformer, a Transformer architecture that processes information according to the reachability relation defined by the partial order. DAGformer is simple and flexible, allowing it to be used with various transformer-based models. We show that our architecture achieves state-of-the-art performance on representative DAG datasets, outperforming all previous approaches.
翻訳日:2022-10-25 14:31:43 公開日:2022-10-24
# 強化学習における到達可能性認識ラプラシアン表現

Reachability-Aware Laplacian Representation in Reinforcement Learning ( http://arxiv.org/abs/2210.13153v1 )

ライセンス: Link先を確認
Kaixin Wang, Kuangqi Zhou, Jiashi Feng, Bryan Hooi, Xinchao Wang(参考訳) 強化学習 (Reinforcement Learning, RL) では、ラプラシアン表現 (LapRep) は環境の幾何学を符号化するタスクに依存しない状態表現である。 前述した LapRep の望ましい性質は、LapRep 空間におけるユークリッド距離が、状態間の到達性を概ね反映していることである。 しかし、LapRepは一般には必ずしもこの性質を持ちておらず、LapRepの下に小さな距離を持つ2つの状態は実際には環境から遠く離れている可能性がある。 このようなミスマッチは、報酬形成の学習プロセスを妨げる。 この問題を解決するために、LapRepの各次元を適切にスケーリングすることで、Reachability-Aware Laplacian Representation (RA-LapRep)を導入する。 単純さにもかかわらず、RA-LapRepはLapRepと比較して、理論的説明と実験結果の両方を通して、状態間の到達性をよりよく捉えることができることを示した。 さらに,この改善により,報酬形成性能が大幅に向上し,ボトルネック状態発見のメリットも期待できることを示した。

In Reinforcement Learning (RL), Laplacian Representation (LapRep) is a task-agnostic state representation that encodes the geometry of the environment. A desirable property of LapRep stated in prior works is that the Euclidean distance in the LapRep space roughly reflects the reachability between states, which motivates the usage of this distance for reward shaping. However, we find that LapRep does not necessarily have this property in general: two states having small distance under LapRep can actually be far away in the environment. Such mismatch would impede the learning process in reward shaping. To fix this issue, we introduce a Reachability-Aware Laplacian Representation (RA-LapRep), by properly scaling each dimension of LapRep. Despite the simplicity, we demonstrate that RA-LapRep can better capture the inter-state reachability as compared to LapRep, through both theoretical explanations and experimental results. Additionally, we show that this improvement yields a significant boost in reward shaping performance and also benefits bottleneck state discovery.
翻訳日:2022-10-25 14:31:31 公開日:2022-10-24
# 3次元迷路における長期記憶の評価

Evaluating Long-Term Memory in 3D Mazes ( http://arxiv.org/abs/2210.13383v1 )

ライセンス: Link先を確認
Jurgis Pasukonis, Timothy Lillicrap, Danijar Hafner(参考訳) 知的エージェントは、部分的に観察された環境で推論するために有能な情報を記憶する必要がある。 例えば、一人称ビューを持つエージェントは、たとえ視界から外れても、関連するオブジェクトの位置を記憶すべきである。 同様に、部屋を効果的にナビゲートするには、エージェントは部屋の接続方法のフロアプランを記憶する必要がある。 しかしながら、強化学習におけるほとんどのベンチマークタスクはエージェントの長期記憶をテストせず、この重要な研究方向の進捗を遅くしている。 本稿では,エージェントの長期記憶評価に特化して設計されたランダム化迷路の3次元ドメインであるMemory Mazeを紹介する。 既存のベンチマークとは異なり、Memory Mazeはエージェントの能力から切り離された長期的なメモリを計測し、時間とともに情報を統合することでエージェントをローカライズする必要がある。 memory mazeでは,オンライン強化学習ベンチマーク,多様なオフラインデータセット,オフライン探索評価を提案する。 人間のプレイヤーの記録は強いベースラインを確立し、記憶の蓄積と保持の必要性を検証し、各エピソードにおける報酬の増大に反映される。 現在のアルゴリズムは、時間を通じて停止したバックプロパゲーションをトレーニングし、小さな迷路で成功するが、大きな迷路では人間のパフォーマンスに欠けており、将来のアルゴリズム設計をメモリ迷路で評価する余地がある。

Intelligent agents need to remember salient information to reason in partially-observed environments. For example, agents with a first-person view should remember the positions of relevant objects even if they go out of view. Similarly, to effectively navigate through rooms agents need to remember the floor plan of how rooms are connected. However, most benchmark tasks in reinforcement learning do not test long-term memory in agents, slowing down progress in this important research direction. In this paper, we introduce the Memory Maze, a 3D domain of randomized mazes specifically designed for evaluating long-term memory in agents. Unlike existing benchmarks, Memory Maze measures long-term memory separate from confounding agent abilities and requires the agent to localize itself by integrating information over time. With Memory Maze, we propose an online reinforcement learning benchmark, a diverse offline dataset, and an offline probing evaluation. Recording a human player establishes a strong baseline and verifies the need to build up and retain memories, which is reflected in their gradually increasing rewards within each episode. We find that current algorithms benefit from training with truncated backpropagation through time and succeed on small mazes, but fall short of human performance on the large mazes, leaving room for future algorithmic designs to be evaluated on the Memory Maze.
翻訳日:2022-10-25 14:31:09 公開日:2022-10-24
# avalon:手続き生成世界を用いたrl一般化ベンチマーク

Avalon: A Benchmark for RL Generalization Using Procedurally Generated Worlds ( http://arxiv.org/abs/2210.13417v1 )

ライセンス: Link先を確認
Joshua Albrecht, Abraham J. Fetterman, Bryden Fogelman, Ellie Kitanidis, Bartosz Wr\'oblewski, Nicole Seo, Michael Rosenthal, Maksis Knutins, Zachary Polizzi, James B. Simon, Kanjun Qiu(参考訳) 印象的な成功にもかかわらず、深層強化学習(rl)システムは、トレーニングと異なる新しいタスクや環境への一般化において人間のパフォーマンスに不足している。 RLの一般化を研究するためのベンチマークとして、高度に多様な手続き型3D世界のエンボディエージェントが、地形をナビゲートし、食料を狩猟し、危険を避けることで生き残らなければならない一連のタスクであるAvalonを紹介した。 アバロンは既存のRLベンチマークの中で、報酬関数、世界ダイナミクス、アクション空間が全てのタスクで同じであり、環境を変えることでのみ異なるタスクである。 この設定により、タスク内、タスク間、および前回のタスクから学んだスキルを組み合わせる必要がある構成タスクの一般化に関する調査が可能になる。 Avalonには、非常に効率的なシミュレータ、ベースラインのライブラリ、数百時間の人的パフォーマンスに対して評価された評価基準を備えたベンチマークが含まれている。 標準的なRLのベースラインはほとんどのタスクで進行するが、人間のパフォーマンスには程遠いため、Avalonは一般化可能なRLの探求を進めるのに十分である。

Despite impressive successes, deep reinforcement learning (RL) systems still fall short of human performance on generalization to new tasks and environments that differ from their training. As a benchmark tailored for studying RL generalization, we introduce Avalon, a set of tasks in which embodied agents in highly diverse procedural 3D worlds must survive by navigating terrain, hunting or gathering food, and avoiding hazards. Avalon is unique among existing RL benchmarks in that the reward function, world dynamics, and action space are the same for every task, with tasks differentiated solely by altering the environment; its 20 tasks, ranging in complexity from eat and throw to hunt and navigate, each create worlds in which the agent must perform specific skills in order to survive. This setup enables investigations of generalization within tasks, between tasks, and to compositional tasks that require combining skills learned from previous tasks. Avalon includes a highly efficient simulator, a library of baselines, and a benchmark with scoring metrics evaluated against hundreds of hours of human performance, all of which are open-source and publicly available. We find that standard RL baselines make progress on most tasks but are still far from human performance, suggesting Avalon is challenging enough to advance the quest for generalizable RL.
翻訳日:2022-10-25 14:30:48 公開日:2022-10-24
# GFlowOut: 生成フローネットワークによるドロップアウト

GFlowOut: Dropout with Generative Flow Networks ( http://arxiv.org/abs/2210.12928v1 )

ライセンス: Link先を確認
Dianbo Liu, Moksh Jain, Bonaventure Dossou, Qianli Shen, Salem Lahlou, Anirudh Goyal, Nikolay Malkin, Chris Emezue, Dinghuai Zhang, Nadhir Hassen, Xu Ji, Kenji Kawaguchi, Yoshua Bengio(参考訳) ベイズ推論は、キャリブレーションの貧弱さや一般化、データ非効率など、現代のニューラルネットワークにおける多くの重要な問題に対処するための原則付きツールを提供する。 しかし、大規模アーキテクチャへのベイズ推論のスケーリングは困難であり、制限付き近似を必要とする。 モンテカルロドロップアウトは、近似推論やディープニューラルネットワークによる不確実性の推定に比較的安価な方法として広く使われている。 伝統的に、ドロップアウトマスクは固定分布から独立してサンプリングされる。 最近の研究は、ドロップアウトマスクを潜伏変数と見なすことができ、変動推論で推測できることを示している。 これらの手法は2つの重要な課題に直面している。 (a)マスク上の後方分布は高度にマルチモーダルであり、標準変分推論では近似が困難である。 b) サンプル依存情報とドロップアウトマスク間の相関を十分に活用して後方推定を改善することは容易ではない。 本稿では,これらの問題に対処するためにGFlowOutを提案する。 GFlowOutは、最近提案されたGenerative Flow Networks(GFlowNets)の確率的フレームワークを活用して、ドロップアウトマスク上の後部分布を学習する。 我々は,gflowout が予測分布をもたらすことを実証し,分散外データへの一般化と下流タスクの性能向上につながる不確実性推定を提供する。

Bayesian Inference offers principled tools to tackle many critical problems with modern neural networks such as poor calibration and generalization, and data inefficiency. However, scaling Bayesian inference to large architectures is challenging and requires restrictive approximations. Monte Carlo Dropout has been widely used as a relatively cheap way for approximate Inference and to estimate uncertainty with deep neural networks. Traditionally, the dropout mask is sampled independently from a fixed distribution. Recent works show that the dropout mask can be viewed as a latent variable, which can be inferred with variational inference. These methods face two important challenges: (a) the posterior distribution over masks can be highly multi-modal which can be difficult to approximate with standard variational inference and (b) it is not trivial to fully utilize sample-dependent information and correlation among dropout masks to improve posterior estimation. In this work, we propose GFlowOut to address these issues. GFlowOut leverages the recently proposed probabilistic framework of Generative Flow Networks (GFlowNets) to learn the posterior distribution over dropout masks. We empirically demonstrate that GFlowOut results in predictive distributions that generalize better to out-of-distribution data, and provide uncertainty estimates which lead to better performance in downstream tasks.
翻訳日:2022-10-25 14:20:38 公開日:2022-10-24
# 事前学習した単語埋め込み空間上のサブスペースベース設定操作

Subspace-based Set Operations on a Pre-trained Word Embedding Space ( http://arxiv.org/abs/2210.13034v1 )

ライセンス: Link先を確認
Yoichi Ishibashi, Sho Yokoi, Katsuhito Sudoh, Satoshi Nakamura(参考訳) 単語埋め込みは自然言語処理の基本的な技術である。 単語集合や集合演算を表す標準的な手法は限られているが、しばしば単語集合を用いたタスクに利用される。 このような集合演算に対する単語埋め込みの利点を活用できれば、文の類似度を計算し、与えられた単語集合と効果的に概念を共有できる単語を見つけることができる。 本研究では,事前学習した単語埋め込み空間における集合と集合の表現を定式化する。 本稿では,事前学習された単語埋め込み空間における部分空間を用いた集合演算の新しい定式化を提案する。 定義に基づいて,単語が集合に属する度合いと,2つの集合を埋め込むことの類似性に基づく2つの指標を提案する。 テキスト概念検索と意味的テキスト類似性タスクを用いた実験により,提案手法の有効性を実証した。

Word embedding is a fundamental technology in natural language processing. It is often exploited for tasks using sets of words, although standard methods for representing word sets and set operations remain limited. If we can leverage the advantage of word embedding for such set operations, we can calculate sentence similarity and find words that effectively share a concept with a given word set in a straightforward way. In this study, we formulate representations of sets and set operations in a pre-trained word embedding space. Inspired by \textit{quantum logic}, we propose a novel formulation of set operations using subspaces in a pre-trained word embedding space. Based on our definitions, we propose two metrics based on the degree to which a word belongs to a set and the similarity between embedding two sets. Our experiments with Text Concept Set Retrieval and Semantic Textual Similarity tasks demonstrated the effectiveness of our proposed method.
翻訳日:2022-10-25 14:12:00 公開日:2022-10-24
# 接続規則のないテキスト分類における階層的説明の生成

Generating Hierarchical Explanations on Text Classification Without Connecting Rules ( http://arxiv.org/abs/2210.13270v1 )

ライセンス: Link先を確認
Yiming Ju, Yuanzhe Zhang, Kang Liu, Jun Zhao(参考訳) 深層nlpモデルの不透明性は、深層モデルがどのように予測するかを解釈する手法の開発の動機となった。 近年,単語の階層的クラスタリングを実現する階層的アトリビューションと,各クラスタに対するアトリビューションスコアを導入している。 しかし、階層的属性に関する既存の研究はすべて接続規則に従っており、クラスタは入力テキストの連続スパンに制限される。 我々は、追加の事前として接続規則がモデル決定プロセスを忠実に反映する能力を損なう可能性があると主張する。 そこで本研究では,連結規則を伴わずに階層的説明を生成し,階層的クラスタを生成するフレームワークを提案する。 実験結果とさらなる解析により,モデル予測過程を反映する高品質な説明を提供する上で,提案手法の有効性が示された。

The opaqueness of deep NLP models has motivated the development of methods for interpreting how deep models predict. Recently, work has introduced hierarchical attribution, which produces a hierarchical clustering of words, along with an attribution score for each cluster. However, existing work on hierarchical attribution all follows the connecting rule, limiting the cluster to a continuous span in the input text. We argue that the connecting rule as an additional prior may undermine the ability to reflect the model decision process faithfully. To this end, we propose to generate hierarchical explanations without the connecting rule and introduce a framework for generating hierarchical clusters. Experimental results and further analysis show the effectiveness of the proposed method in providing high-quality explanations for reflecting model predicting process.
翻訳日:2022-10-25 14:11:47 公開日:2022-10-24
# 関係抽出によるタスク指向対話システムの拡張

Augmenting Task-Oriented Dialogue Systems with Relation Extraction ( http://arxiv.org/abs/2210.13344v1 )

ライセンス: Link先を確認
Andrew Lee, Zhenguo Chen, Kevin Leach, Jonathan K. Kummerfeld(参考訳) 標準タスク指向対話パイプラインは、意図分類とスロットフィリングを使用してユーザの発話を解釈する。 このアプローチは幅広いクエリを扱うことができるが、スロット間の関係を含むより複雑なクエリを扱うのに必要な情報を取り出すことはできない。 本稿では,対話システムの機能拡張に有効な方法として,関係抽出のパイプラインへの統合を提案する。 3つの領域にまたがるスロットと関係アノテーションを持つ内部データセットを用いて,我々のアプローチを評価する。 最後に,関係アノテーションの表現能力が利用可能になった時点でスロット満載のアノテーションスキームを単純化し,ユーザの意図した意味を捉えながらスロット数を削減する方法を示す。

The standard task-oriented dialogue pipeline uses intent classification and slot-filling to interpret user utterances. While this approach can handle a wide range of queries, it does not extract the information needed to handle more complex queries that contain relationships between slots. We propose integration of relation extraction into this pipeline as an effective way to expand the capabilities of dialogue systems. We evaluate our approach by using an internal dataset with slot and relation annotations spanning three domains. Finally, we show how slot-filling annotation schemes can be simplified once the expressive power of relation annotations is available, reducing the number of slots while still capturing the user's intended meaning.
翻訳日:2022-10-25 14:11:35 公開日:2022-10-24
# ランダムな種について話す必要があります

We need to talk about random seeds ( http://arxiv.org/abs/2210.13393v1 )

ライセンス: Link先を確認
Steven Bethard(参考訳) 現代のニューラルネットワークライブラリはすべて、モデルパラメータの初期状態を決定するために一般的に使用される、ランダムシードのハイパーパラメータである。 優れたモデルを選択するためのハイパーパラメータ探索の一部として、いくつかのモデルのアンサンブルを作成したり、ランダムなシードハイパーパラメータに対するトレーニングアルゴリズムの感度を測定したりする。 ランダムシードは「再現性」のために固定ランダムシードを使用し、パフォーマンス比較のためのスコア分布を作成するためにランダムシードのみを変化させる。 ACLアンソロジーの85の最近の論文の分析によると、50%以上がランダム種子の危険利用を含んでいる。

Modern neural network libraries all take as a hyperparameter a random seed, typically used to determine the initial state of the model parameters. This opinion piece argues that there are some safe uses for random seeds: as part of the hyperparameter search to select a good model, creating an ensemble of several models, or measuring the sensitivity of the training algorithm to the random seed hyperparameter. It argues that some uses for random seeds are risky: using a fixed random seed for "replicability" and varying only the random seed to create score distributions for performance comparison. An analysis of 85 recent publications from the ACL Anthology finds that more than 50% contain risky uses of random seeds.
翻訳日:2022-10-25 14:11:26 公開日:2022-10-24
# BARS:空港滑走路セグメンテーションのベンチマーク

BARS: A Benchmark for Airport Runway Segmentation ( http://arxiv.org/abs/2210.12922v1 )

ライセンス: Link先を確認
Wenhui Chen and Zhijiang Zhang and Liang Yu and Yichun Tai(参考訳) 空港滑走路のセグメンテーションは、航空事故のリスクが最も大きい着陸段階での事故率を効果的に低減することができる。 ディープラーニングの急速な発展に伴い、関連する手法はセグメンテーションタスクにおいて優れた性能を示し、複雑なシーンに適応できる。 しかし,この分野では大規模で公開可能なデータセットが不足しているため,ディープラーニングに基づく手法の開発は困難である。 そこで我々はBARSという空港滑走路セグメンテーションのベンチマークを提案する。 一方、半自動アノテーションパイプラインは、アノテーションのワークロードを減らすように設計されている。 barsは最もリッチなカテゴリとフィールド内の唯一のインスタンスアノテーションを持つ最大のデータセットを持っています。 X-Planeシミュレーションプラットフォームを使用して収集されたデータセットには,3つのカテゴリを持つ10,002イメージと29,347のインスタンスが含まれている。 BARSにおける8つの代表的インスタンス分割法を評価し,その性能を解析した。 空港滑走路の特徴と規則的な形状に基づいて,マスクベースおよび輪郭ベース手法のスムーズなセグメンテーション結果を得るために,プラグアンドプレイスムーズな後処理モジュール (SPPM) と輪郭点制約損失 (CPCL) 関数を提案する。 さらに, 平均滑らか度 (AS) と呼ばれる新しい評価指標を開発し, 滑らか度を測定する。 実験の結果,既存のインスタンスセグメンテーション手法では,BARSの性能がよい予測結果が得られることがわかった。 SPPMとCPCLは平均精度をそれぞれ0.9%と1.13%向上させることができる。 また,sppmとcpclの平均平滑性向上率は,それぞれ50%以上,28%以上であった。 私たちの仕事はhttps://github.com/c-wenhui/BARS.comで公開されます。

Airport runway segmentation can effectively reduce the accident rate during the landing phase, which has the largest risk of flight accidents. With the rapid development of deep learning, related methods have good performance on segmentation tasks and can be well adapted to complex scenes. However, the lack of large-scale, publicly available datasets in this field makes the development of methods based on deep learning difficult. Therefore, we propose a Benchmark for Airport Runway Segmentation, named BARS. Meanwhile, a semi-automatic annotation pipeline is designed to reduce the workload of annotation. BARS has the largest dataset with the richest categories and the only instance annotation in the field. The dataset, which is collected using the X-Plane simulation platform, contains 10,002 images and 29,347 instances with three categories. We evaluate eight representative instance segmentation methods on BARS and analyze their performance. Based on the characteristic of the airport runway with a regular shape, we propose a plug-and-play smoothing post-processing module (SPPM) and a contour point constraint loss (CPCL) function to smooth segmentation results for mask-based and contour-based methods, respectively. Furthermore, a novel evaluation metric named average smoothness (AS) is developed to measure smoothness. The experiments show that existing instance segmentation methods can achieve prediction results with good performance on BARS. SPPM and CPCL can improve the average accuracy by 0.9% and 1.13%, respectively. And the average smoothness enhancements for SPPM and CPCL are more than 50% and 28%, respectively. Our work will be released at https://github.com/c-wenhui/BARS.
翻訳日:2022-10-25 14:05:53 公開日:2022-10-24
# 変形型トランスを用いたmm波レーダハンド形状分類

mm-Wave Radar Hand Shape Classification Using Deformable Transformers ( http://arxiv.org/abs/2210.13079v1 )

ライセンス: Link先を確認
Athmanarayanan Lakshmi Narayanan, Asma Beevi K. T, Haoyang Wu, Jingyi Ma, W. Margaret Huang(参考訳) リアルタイム・ミリ波レーダを用いた静的手形分類アルゴリズムと実装を提案する。 この手法は60Ghzレーダをセンサ入力として使用した低コストかつプライバシーに敏感なタッチレス制御技術におけるいくつかの応用を見出した。 従来のレンジ・ドップラー画像に基づく2次元分類法とは対照的に、変形可能なトランスフォーマーを用いた3次元レーダニューラルネットワークモデルは、独自の信号処理や、レンジ・ドップラーFFT画像に一般的な畳み込み技術を適用した先行手法によって設定された性能を著しく上回っている。 市販のレーダーセンサーを用いて内部に収集したデータセットで実験を行う。

A novel, real-time, mm-Wave radar-based static hand shape classification algorithm and implementation are proposed. The method finds several applications in low cost and privacy sensitive touchless control technology using 60 Ghz radar as the sensor input. As opposed to prior Range-Doppler image based 2D classification solutions, our method converts raw radar data to 3D sparse cartesian point clouds.The demonstrated 3D radar neural network model using deformable transformers significantly surpasses the performance results set by prior methods which either utilize custom signal processing or apply generic convolutional techniques on Range-Doppler FFT images. Experiments are performed on an internally collected dataset using an off-the-shelf radar sensor.
翻訳日:2022-10-25 14:05:28 公開日:2022-10-24
# 視線推定のための対比表現学習

Contrastive Representation Learning for Gaze Estimation ( http://arxiv.org/abs/2210.13404v1 )

ライセンス: Link先を確認
Swati Jindal and Roberto Manduchi(参考訳) 自己教師付き学習(SSL)は、コンピュータビジョンにおける学習表現に普及している。 特にSSLは、さまざまな画像変換の下で視覚表現が不変であることを奨励するために、対照的な学習を利用する。 一方、視線推定のタスクは、様々な外観に対する不変性だけでなく、幾何学的変換への同値性も要求する。 本研究では,Gaze Contrastive Learning (GazeCLR) という,視線推定のための単純なコントラスト表現学習フレームワークを提案する。 GazeCLRは、多視点データを利用して等価性を促進し、不変学習のための視線方向を変更しない選択されたデータ拡張技術に依存している。 本実験は,視線推定作業におけるGazeCLRの有効性を実証するものである。 特に, GazeCLR は領域間視線推定の性能を向上し,17.2% の相対的改善が得られた。 さらに、GazeCLRフレームワークは、数ショット評価のための最先端の表現学習手法と競合する。 コードと事前トレーニングされたモデルは、https://github.com/jswati31/gazeclrで入手できる。

Self-supervised learning (SSL) has become prevalent for learning representations in computer vision. Notably, SSL exploits contrastive learning to encourage visual representations to be invariant under various image transformations. The task of gaze estimation, on the other hand, demands not just invariance to various appearances but also equivariance to the geometric transformations. In this work, we propose a simple contrastive representation learning framework for gaze estimation, named Gaze Contrastive Learning (GazeCLR). GazeCLR exploits multi-view data to promote equivariance and relies on selected data augmentation techniques that do not alter gaze directions for invariance learning. Our experiments demonstrate the effectiveness of GazeCLR for several settings of the gaze estimation task. Particularly, our results show that GazeCLR improves the performance of cross-domain gaze estimation and yields as high as 17.2% relative improvement. Moreover, the GazeCLR framework is competitive with state-of-the-art representation learning methods for few-shot evaluation. The code and pre-trained models are available at https://github.com/jswati31/gazeclr.
翻訳日:2022-10-25 14:05:15 公開日:2022-10-24
# 言語モデルを用いた数学的推論のロバスト性を定量化する因果関係

A Causal Framework to Quantify the Robustness of Mathematical Reasoning with Language Models ( http://arxiv.org/abs/2210.12023v2 )

ライセンス: Link先を確認
Alessandro Stolfo, Zhijing Jin, Kumar Shridhar, Bernhard Sch\"olkopf and Mrinmaya Sachan(参考訳) 我々は最近、言語モデルに関する厳密な数学的推論問題に関する多くの驚くべき結果を目撃した。 同時に、これらのモデルの堅牢性も疑問視され、最近の研究により、モデルはソリューションを予測する際に問題記述の浅いパターンに依存することが示されている。 行動テストの考え方に基づいて,入力中の様々な要因,例えば問題テキストの表面形式,オペランド,数学演算子の出力解に対する因果効果をピン留めする新しい枠組みを提案する。 直感的な推論過程を記述した因果グラフの行動解析を基礎として,入力空間の直接的な介入に対する頑健さと感度の観点から言語モデルの振る舞いを考察する。 このフレームワークを二変量数ワード問題のテストベッドに適用する。 解析の結果,ロバスト性はスケールの関数として連続的に改善されないが,最近のLCMであるGPT-3-Instruct (175B)は,他のすべてのGPT変種と比較して,ロバスト性と感度の両方において劇的な改善を達成していることがわかった。

We have recently witnessed a number of impressive results on hard mathematical reasoning problems with language models. At the same time, the robustness of these models has also been called into question; recent works have shown that models can rely on shallow patterns in the problem description when predicting a solution. Building on the idea of behavioral testing, we propose a novel framework, which pins down the causal effect of various factors in the input, e.g., the surface form of the problem text, the operands and math operators on the output solution. By grounding the behavioral analysis in a causal graph describing an intuitive reasoning process, we study the behavior of language models in terms of robustness and sensitivity to direct interventions in the input space. We apply our framework on a test bed of bivariate math word problems. Our analysis shows that robustness does not appear to continuously improve as a function of scale, but that the recent LLM, GPT-3-Instruct (175B), achieves a dramatic improvement in both robustness and sensitivity, compared to all other GPT variants.
翻訳日:2022-10-25 14:05:02 公開日:2022-10-24
# 参照表現生成と理解の統一に向けて

Towards Unifying Reference Expression Generation and Comprehension ( http://arxiv.org/abs/2210.13076v1 )

ライセンス: Link先を確認
Duo Zheng, Tao Kong, Ya Jing, Jiaan Wang, Xiaojie Wang(参考訳) Reference Expression Generation(REG)とComprehension(REC)は2つの非常に相関したタスクである。 両者の関係を利用するために同時にREGとRECをモデリングすることは、両方を改善するための有望な方法である。 しかし、異なる入力の問題と、それら間の接続を1つのモデルで構築することは、関節モデルの設計と訓練に課題をもたらす。 この問題を解決するために,UniRefというREGとRECの統一モデルを提案する。 画像クロスアテンションと領域クロスアテンションを介して画像、領域、テキストを融合するIRTF(Image-Region-Text Fusion Layer)によって、これら2つのタスクを統一する。 さらにIRTFはRECタスクの擬似入力領域を生成し、RECおよびREG間で同じ表現空間を共有する統一的な方法を可能にする。 さらに,マルチグラニュラコーパス上でのUniRefモデルの事前学習に対して,VMLM(Vision- Conditioned Masked Language Modeling)とTRP(Text-Conditioned Region Prediction)を提案する。 VMLMとTRPはそれぞれREGとRECに直接関連しているが、互いに助け合う可能性がある。 3つのベンチマークデータセット、RefCOCO、RefCOCO+、RefCOCOgについて広範な実験を行った。 実験の結果,REGとRECの両方において,従来の最先端手法よりも優れた結果が得られた。

Reference Expression Generation (REG) and Comprehension (REC) are two highly correlated tasks. Modeling REG and REC simultaneously for utilizing the relation between them is a promising way to improve both. However, the problem of distinct inputs, as well as building connections between them in a single model, brings challenges to the design and training of the joint model. To address the problems, we propose a unified model for REG and REC, named UniRef. It unifies these two tasks with the carefully-designed Image-Region-Text Fusion layer (IRTF), which fuses the image, region and text via the image cross-attention and region cross-attention. Additionally, IRTF could generate pseudo input regions for the REC task to enable a uniform way for sharing the identical representation space across the REC and REG. We further propose Vision-conditioned Masked Language Modeling (VMLM) and Text-Conditioned Region Prediction (TRP) to pre-train UniRef model on multi-granular corpora. The VMLM and TRP are directly related to REG and REC, respectively, but could help each other. We conduct extensive experiments on three benchmark datasets, RefCOCO, RefCOCO+ and RefCOCOg. Experimental results show that our model outperforms previous state-of-the-art methods on both REG and REC.
翻訳日:2022-10-25 13:56:26 公開日:2022-10-24
# 機械翻訳テキストを用いた多言語マルチモーダル学習

Multilingual Multimodal Learning with Machine Translated Text ( http://arxiv.org/abs/2210.13134v1 )

ライセンス: Link先を確認
Chen Qiu, Dan Oneata, Emanuele Bugliarello, Stella Frank, Desmond Elliott(参考訳) 視覚と言語に関するほとんどの事前学習研究は英語の課題に焦点を当てている。 しかし、マルチリンガルなマルチモーダル評価データセット(Multi30K、xGQA、XVNLI、MARVL)の作成は、マルチリンガルとマルチモーダルの両方である高品質なトレーニングデータを見つける上で新たな課題となる。 本稿では,英語マルチモーダルデータの機械翻訳が,手軽に利用できる多言語データの欠如に対する効果的なプロキシとなるかを検討する。 マルチリンガル・マルチモーダル・ラーニングのための翻訳データであり、任意のマルチモーダル・データセットとモデルに適用することができる。 最先端モデルを用いて事前学習と微調整の両方に応用する。 低品質の翻訳文からモデルが学習することを防止するために,得られたデータセットから翻訳文を自動的に取り除くための2つの指標を提案する。 iglueベンチマークで20言語にまたがる5つのタスクに関する実験で、翻訳されたデータは、事前学習と微調整の両方において、多言語マルチモーダル学習に有用な信号を提供できることを示した。

Most vision-and-language pretraining research focuses on English tasks. However, the creation of multilingual multimodal evaluation datasets (e.g. Multi30K, xGQA, XVNLI, and MaRVL) poses a new challenge in finding high-quality training data that is both multilingual and multimodal. In this paper, we investigate whether machine translating English multimodal data can be an effective proxy for the lack of readily available multilingual data. We call this framework TD-MML: Translated Data for Multilingual Multimodal Learning, and it can be applied to any multimodal dataset and model. We apply it to both pretraining and fine-tuning data with a state-of-the-art model. In order to prevent models from learning from low-quality translated text, we propose two metrics for automatically removing such translations from the resulting datasets. In experiments on five tasks across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning, both at pretraining and fine-tuning.
翻訳日:2022-10-25 13:56:01 公開日:2022-10-24
# クリーンテキストとフルボディトランス: Microsoft による WMT22 への提出による手話翻訳作業

Clean Text and Full-Body Transformer: Microsoft's Submission to the WMT22 Shared Task on Sign Language Translation ( http://arxiv.org/abs/2210.13326v1 )

ライセンス: Link先を確認
Subhadeep Dey, Abhilash Pal, Cyrine Chaabani, Oscar Koller(参考訳) 本稿では,スイスのドイツ語手話用音声言語への手話翻訳に取り組む公共の競争である wmt 2022 において,手話翻訳に関するmicrosoft の最初の共有タスクへの提案について述べる。 データ不足と、ターゲット側で20万語を超える前例のない語彙サイズのため、このタスクは非常に難しい。 さらに、データは実際の放送ニュースから収集され、ネイティブな署名や長いビデオのシナリオをカバーしている。 近年の行動認識の進歩により,事前学習したI3Dモデルから特徴を抽出し,標準変圧器ネットワークを適用し,全身情報を組み込んだ。 対象テキストに注意深いデータクリーニングを適用することにより、システムの精度をさらに向上する。 テストセットと開発セットでそれぞれ0.6と0.78のbleuスコアを取得し,共有タスクの参加者の中で最高のスコアを得た。 また、人間の評価では、応募が第一位に達する。 BLEUスコアは、唇読解モデルから抽出した特徴を適用することにより、開発セットの1.08にさらに改善される。

This paper describes Microsoft's submission to the first shared task on sign language translation at WMT 2022, a public competition tackling sign language to spoken language translation for Swiss German sign language. The task is very challenging due to data scarcity and an unprecedented vocabulary size of more than 20k words on the target side. Moreover, the data is taken from real broadcast news, includes native signing and covers scenarios of long videos. Motivated by recent advances in action recognition, we incorporate full body information by extracting features from a pre-trained I3D model and applying a standard transformer network. The accuracy of the system is further improved by applying careful data cleaning on the target text. We obtain BLEU scores of 0.6 and 0.78 on the test and dev set respectively, which is the best score among the participants of the shared task. Also in the human evaluation the submission reaches the first place. The BLEU score is further improved to 1.08 on the dev set by applying features extracted from a lip reading model.
翻訳日:2022-10-25 13:55:41 公開日:2022-10-24
# 低相互情報を用いたマルチドメインNMTの特殊化

Specializing Multi-domain NMT via Penalizing Low Mutual Information ( http://arxiv.org/abs/2210.12910v1 )

ライセンス: Link先を確認
Jiyoung Lee, Hantae Kim, Hyunchang Cho, Edward Choi, and Cheonbok Park(参考訳) multi-domain neural machine translation (nmt)は、複数のドメインを持つ単一のモデルを訓練する。 一つのモデル内で複数のドメインを扱うのに効果があるため、魅力的である。 理想的マルチドメインnmtは、異なるドメイン特性を同時に学習する必要があるが、ドメイン特異性をつかむことは非自明なタスクである。 本稿では、相互情報レンズ(MI)を用いてドメイン固有情報を調査し、低MIをペナルティ化する新たな目的を提案する。 提案手法は,現在の競合するマルチドメインNMTモデルの最先端性能を実現する。 また,本研究の目的は,ドメイン特化マルチドメインnmtの低mi化を促進することである。

Multi-domain Neural Machine Translation (NMT) trains a single model with multiple domains. It is appealing because of its efficacy in handling multiple domains within one model. An ideal multi-domain NMT should learn distinctive domain characteristics simultaneously, however, grasping the domain peculiarity is a non-trivial task. In this paper, we investigate domain-specific information through the lens of mutual information (MI) and propose a new objective that penalizes low MI to become higher. Our method achieved the state-of-the-art performance among the current competitive multi-domain NMT models. Also, we empirically show our objective promotes low MI to be higher resulting in domain-specialized multi-domain NMT.
翻訳日:2022-10-25 13:47:53 公開日:2022-10-24
# TIARA: 大規模知識ベースに対するロバスト質問の検索

TIARA: Multi-grained Retrieval for Robust Question Answering over Large Knowledge Bases ( http://arxiv.org/abs/2210.12925v1 )

ライセンス: Link先を確認
Yiheng Shu, Zhiwei Yu, Yuhan Li, B\"orje F. Karlsson, Tingting Ma, Yuzhong Qu and Chin-Yew Lin(参考訳) 事前訓練された言語モデル(PLM)は、複数のシナリオで有効性を示している。 しかし、KBQAは、特にカバレッジと一般化設定に関して、依然として困難である。 これは2つの主な要因による。 一 質問及び関連する知識の双方のセマンティクスをkbから理解すること。 二 意味的及び構文的正当性の両方で実行可能な論理形式を生成すること。 本稿では,plmが関連するkbコンテキスト,viz.,エンティティ,模範論理形式,スキーマ項目に集中するために,多粒度検索を適用することで,これらの問題に対処する新しいkbqaモデルであるtiaraを提案する。 さらに、制約付き復号は出力空間の制御と生成エラーの低減に使用される。 重要なベンチマークによる実験は、我々のアプローチの有効性を示す。 TIARAは、PLMやオラクルエンティティアノテーションなどを含む以前のSOTAよりも、GrailQAとWebQuestionsSPの少なくとも4.1と1.1のF1ポイントが優れている。

Pre-trained language models (PLMs) have shown their effectiveness in multiple scenarios. However, KBQA remains challenging, especially regarding coverage and generalization settings. This is due to two main factors: i) understanding the semantics of both questions and relevant knowledge from the KB; ii) generating executable logical forms with both semantic and syntactic correctness. In this paper, we present a new KBQA model, TIARA, which addresses those issues by applying multi-grained retrieval to help the PLM focus on the most relevant KB contexts, viz., entities, exemplary logical forms, and schema items. Moreover, constrained decoding is used to control the output space and reduce generation errors. Experiments over important benchmarks demonstrate the effectiveness of our approach. TIARA outperforms previous SOTA, including those using PLMs or oracle entity annotations, by at least 4.1 and 1.1 F1 points on GrailQA and WebQuestionsSP, respectively.
翻訳日:2022-10-25 13:47:42 公開日:2022-10-24
# テキスト生成システムにおける自動メトリクスの有効性について

On the Effectiveness of Automated Metrics for Text Generation Systems ( http://arxiv.org/abs/2210.13025v1 )

ライセンス: Link先を確認
Pius von D\"aniken, Jan Deriu, Don Tuggener, Mark Cieliebak(参考訳) テキスト生成の分野での大きな課題は、評価キャンペーンのガイドラインを抽出するために活用できる音理論が欠けているため、評価である。 本研究では,不完全な自動測定値や不十分な大きさのテストセットなど,不確実性の異なる要因を取り入れた理論を最初に提案する。 この理論は、所定の設定における一連のテキスト生成システムの性能を確実に区別するために必要なサンプル数を決定するような実用的な応用がある。 本稿では,WMT 21 と Spot-The-Bot の評価データに対する理論の適用について概説し,信頼性,堅牢性,評価結果の意義に関する評価プロトコルの改善について概説する。

A major challenge in the field of Text Generation is evaluation because we lack a sound theory that can be leveraged to extract guidelines for evaluation campaigns. In this work, we propose a first step towards such a theory that incorporates different sources of uncertainty, such as imperfect automated metrics and insufficiently sized test sets. The theory has practical applications, such as determining the number of samples needed to reliably distinguish the performance of a set of Text Generation systems in a given setting. We showcase the application of the theory on the WMT 21 and Spot-The-Bot evaluation data and outline how it can be leveraged to improve the evaluation protocol regarding the reliability, robustness, and significance of the evaluation outcome.
翻訳日:2022-10-25 13:47:25 公開日:2022-10-24
# ユニバーサルとインディペンデント:排他的モデル解釈と評価のための多言語探索フレームワーク

Universal and Independent: Multilingual Probing Framework for Exhaustive Model Interpretation and Evaluation ( http://arxiv.org/abs/2210.13236v1 )

ライセンス: Link先を確認
Oleg Serikov, Vitaly Protasov, Ekaterina Voloshina, Viktoria Knyazkova, Tatiana Shavrina(参考訳) 言語モデルの言語分析は、その推論、弱点、限界を説明し、記述する方法の1つである。 モデル解釈可能性研究の探索部分では、研究は個々の言語と個々の言語構造に関するものである。 検出された正規性は言語的に一貫性があるのか、それともその反対に、タイポロジーの尺度で不協和なのか? さらに、ほとんどの研究は言語と言語構造の固有の集合に対処し、実際の類型的多様性の知識は範囲外である。 本稿では,GUI支援フレームワークを用いて,Universal Dependenciesデータに存在するすべての形態素合成機能に対して,多数の言語を簡単に探索することができることを示す。 我々は,過去数年間のNLPにおけるアングロ中心の傾向を反映して,mBERTモデルで示された規則性の大部分は西欧語で典型的であることを示す。 私たちのフレームワークは、既存のプロビングツールボックス、モデルカード、リーダーボードと統合でき、実践者が標準プロビングメソッドを使用して共有し、多言語モデルの解釈を可能にします。 そこで本研究では,多言語モデルにおける多言語障害を体系化するためのツールキットを提案する。 https://github.com/AIRI-Institute/Probing_framework

Linguistic analysis of language models is one of the ways to explain and describe their reasoning, weaknesses, and limitations. In the probing part of the model interpretability research, studies concern individual languages as well as individual linguistic structures. The question arises: are the detected regularities linguistically coherent, or on the contrary, do they dissonate at the typological scale? Moreover, the majority of studies address the inherent set of languages and linguistic structures, leaving the actual typological diversity knowledge out of scope. In this paper, we present and apply the GUI-assisted framework allowing us to easily probe a massive number of languages for all the morphosyntactic features present in the Universal Dependencies data. We show that reflecting the anglo-centric trend in NLP over the past years, most of the regularities revealed in the mBERT model are typical for the western-European languages. Our framework can be integrated with the existing probing toolboxes, model cards, and leaderboards, allowing practitioners to use and share their standard probing methods to interpret multilingual models. Thus we propose a toolkit to systematize the multilingual flaws in multilingual models, providing a reproducible experimental setup for 104 languages and 80 morphosyntactic features. https://github.com/AIRI-Institute/Probing_framework
翻訳日:2022-10-25 13:47:13 公開日:2022-10-24
# 平等スキルを備えた異なるチューン - デルタチューニングのための統一最適化サブスペースの探索

Different Tunes Played with Equal Skill: Exploring a Unified Optimization Subspace for Delta Tuning ( http://arxiv.org/abs/2210.13311v1 )

ライセンス: Link先を確認
Jing Yi, Weize Chen, Yujia Qin, Yankai Lin, Ning Ding, Xu Han, Zhiyuan Liu, Maosong Sun, Jie Zhou(参考訳) デルタチューニング(det、パラメータ効率チューニングとも呼ばれる)は、事前学習言語モデル(plm)を使用するための新しいパラダイムと考えられている。 今まで、異なる設計要素を持つ様々なDETが提案されており、微調整と同等のパフォーマンスを実現している。 しかし、上記の成功の背景にあるメカニズムはまだ未定であり、特に様々なdet間の接続は未熟である。 謎を解くために、異なるDETの適応は、それぞれ異なるDETの独立解を共同分解することによって発見できる統一された最適化部分空間において、低次元の最適化として再パラメータ化できるという仮説を立てた。 次に、サブ空間内で最適化を行うことにより、異なるDET間の接続を探索する。 実験では、あるdetに対して、単純に部分空間内で最適化を行うことで、元の空間と同等の性能を達成でき、部分空間で見つかった解を別のdetに転送して非自明な性能を得ることができる。 また、サブスペースのパフォーマンスの景観を視覚化し、異なるDETがすべてうまく機能する領域があることを見出した。 最後に、分析を拡張し、微調整とDETの強いつながりを示す。

Delta tuning (DET, also known as parameter-efficient tuning) is deemed as the new paradigm for using pre-trained language models (PLMs). Up to now, various DETs with distinct design elements have been proposed, achieving performance on par with fine-tuning. However, the mechanisms behind the above success are still under-explored, especially the connections among various DETs. To fathom the mystery, we hypothesize that the adaptations of different DETs could all be reparameterized as low-dimensional optimizations in a unified optimization subspace, which could be found by jointly decomposing independent solutions of different DETs. Then we explore the connections among different DETs by conducting optimization within the subspace. In experiments, we find that, for a certain DET, conducting optimization simply in the subspace could achieve comparable performance to its original space, and the found solution in the subspace could be transferred to another DET and achieve non-trivial performance. We also visualize the performance landscape of the subspace and find that there exists a substantial region where different DETs all perform well. Finally, we extend our analysis and show the strong connections between fine-tuning and DETs.
翻訳日:2022-10-25 13:46:52 公開日:2022-10-24
# 神経理論とは? 大規模LMにおける社会知能の限界について

Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs ( http://arxiv.org/abs/2210.13312v1 )

ライセンス: Link先を確認
Maarten Sap, Ronan LeBras, Daniel Fried, Yejin Choi(参考訳) 社会的インテリジェンスと心の理論(ToM)、すなわち、関係するすべての人々の異なる精神状態、意図、反応を推論する能力によって、人間は日々の社会的相互作用を効果的にナビゲートし理解することができる。 NLPシステムはますます複雑な社会状況において使用されるため、社会的ダイナミクスを理解する能力は重要である。 本研究では,現代NLPシステムにおける社会的知能と心の理論のオープンな問題について,実証的・理論的観点から検討する。 現在の最大の言語モデル(gpt-3, brown et al., 2020)の1つには,2つのタスク - socialiqa (sap et al., 2019) という,モデルが社会的インタラクションの参加者の意図や反応を理解する能力を測定するもの - と,モデルがメンタル状態や参加者の現実を推測できるかどうかを測定する tomi (le et al., 2019) がある。 以上の結果から,socialiqa と tomi はそれぞれ 55% と 60% の well-below-human accuracies である。 結論として,データやニューラルネットワーク,トレーニングパラダイムに起因する制限を調べることで,大規模言語モデルの欠点を文脈化するために,実用学からの理論を導出する。 スケールしか必要としない一般的な物語に従えば、人中心のNLPアプローチがマインドの神経理論に対してより効果的である可能性が示唆される。

Social intelligence and Theory of Mind (ToM), i.e., the ability to reason about the different mental states, intents, and reactions of all people involved, allow humans to effectively navigate and understand everyday social interactions. As NLP systems are used in increasingly complex social situations, their ability to grasp social dynamics becomes crucial. In this work, we examine the open question of social intelligence and Theory of Mind in modern NLP systems from an empirical and theory-based perspective. We show that one of today's largest language models (GPT-3; Brown et al., 2020) lacks this kind of social intelligence out-of-the box, using two tasks: SocialIQa (Sap et al., 2019), which measures models' ability to understand intents and reactions of participants of social interactions, and ToMi (Le et al., 2019), which measures whether models can infer mental states and realities of participants of situations. Our results show that models struggle substantially at these Theory of Mind tasks, with well-below-human accuracies of 55% and 60% on SocialIQa and ToMi, respectively. To conclude, we draw on theories from pragmatics to contextualize this shortcoming of large language models, by examining the limitations stemming from their data, neural architecture, and training paradigms. Challenging the prevalent narrative that only scale is needed, we posit that person-centric NLP approaches might be more effective towards neural Theory of Mind.
翻訳日:2022-10-25 13:46:33 公開日:2022-10-24
# 現在のデコード戦略は視覚対話の課題に直面することができるか?

Are Current Decoding Strategies Capable of Facing the Challenges of Visual Dialogue? ( http://arxiv.org/abs/2210.12997v1 )

ライセンス: Link先を確認
Amit Kumar Chaudhary, Alex J. Lucassen, Ioanna Tsani, Alberto Testoni(参考訳) 自然言語生成システムではデコーディング戦略が重要な役割を果たす。 それらは通常、オープンエンドのテキストのみのタスクで設計され、評価されるが、異なる戦略が目標指向のマルチモーダルシステムが直面する多くの課題(グルーディングやインフォメーションネスなど)をどのように扱うかは明確ではない。 この質問に答えるために,視覚対話参照ゲームにおいて,様々なデコーディング戦略とハイパーパラメータ構成を比較した。 いずれも、語彙的豊かさ、タスクの正確さ、視覚的根拠のバランスをとることはありませんでしたが、詳細な分析により、各デコード戦略の長所と短所を強調します。 われわれの発見と提案は、視覚対話タスクの課題を扱うより効率的な復号アルゴリズムの設計の出発点となるかもしれない。

Decoding strategies play a crucial role in natural language generation systems. They are usually designed and evaluated in open-ended text-only tasks, and it is not clear how different strategies handle the numerous challenges that goal-oriented multimodal systems face (such as grounding and informativeness). To answer this question, we compare a wide variety of different decoding strategies and hyper-parameter configurations in a Visual Dialogue referential game. Although none of them successfully balance lexical richness, accuracy in the task, and visual grounding, our in-depth analysis allows us to highlight the strengths and weaknesses of each decoding strategy. We believe our findings and suggestions may serve as a starting point for designing more effective decoding algorithms that handle the challenges of Visual Dialogue tasks.
翻訳日:2022-10-25 13:44:59 公開日:2022-10-24
# Deep Kronecker Network

Deep Kronecker Network ( http://arxiv.org/abs/2210.13327v1 )

ライセンス: Link先を確認
Long Feng and Guang Yang(参考訳) 我々は,MRI,fMRI,CTなどの医用画像データを解析するための新しいフレームワークであるDeep Kronecker Network (DKN)を提案する。 医用画像データは、少なくとも2つの点で一般的な画像とは異なる。 i) サンプルサイズは通常、はるかに制限されている。 二 モデル解釈は、結果予測よりも、より関心事である。 独自の性質のため、畳み込みニューラルネットワーク(CNN)のような一般的な手法を直接適用することは困難である。 そこで我々はdknを提案しました 一 サンプルサイズ制限の低さに適応すること。 二 所望のモデル解釈を提供すること、及び 三 CNNの予測能力を達成すること。 DKNは一般に、行列と(高次)テンソル表現された画像データの両方に作用するだけでなく、離散的および連続的な結果にも適用することができる。 DKN は Kronecker の積構造の上に構築され、係数に対して暗黙的に滑らかな性質を課す。 さらに、クロネッカー構造は畳み込み形式に書けるので、DKNはCNN、特に完全な畳み込みネットワーク(FCN)にも似ている。 さらに、反復最小化アルゴリズムにより、DKNの解は、目的関数が極めて非凸である場合でも、幾何学的に真理に収束することが保証される。 興味深いことに、DKNは Zhou et al. (2010) によって提案されたテンソル回帰フレームワークと強く結びついており、CANDECOMP/PARAFAC (CP) 低ランク構造がテンソル係数に課される。 最後に、アルツハイマー病神経画像イニシアチブ(ADNI)の実際のMRIデータを用いて分類と回帰分析を行い、DKNの有効性を実証する。

We propose Deep Kronecker Network (DKN), a novel framework designed for analyzing medical imaging data, such as MRI, fMRI, CT, etc. Medical imaging data is different from general images in at least two aspects: i) sample size is usually much more limited, ii) model interpretation is more of a concern compared to outcome prediction. Due to its unique nature, general methods, such as convolutional neural network (CNN), are difficult to be directly applied. As such, we propose DKN, that is able to i) adapt to low sample size limitation, ii) provide desired model interpretation, and iii) achieve the prediction power as CNN. The DKN is general in the sense that it not only works for both matrix and (high-order) tensor represented image data, but also could be applied to both discrete and continuous outcomes. The DKN is built on a Kronecker product structure and implicitly imposes a piecewise smooth property on coefficients. Moreover, the Kronecker structure can be written into a convolutional form, so DKN also resembles a CNN, particularly, a fully convolutional network (FCN). Furthermore, we prove that with an alternating minimization algorithm, the solutions of DKN are guaranteed to converge to the truth geometrically even if the objective function is highly nonconvex. Interestingly, the DKN is also highly connected to the tensor regression framework proposed by Zhou et al. (2010), where a CANDECOMP/PARAFAC (CP) low-rank structure is imposed on tensor coefficients. Finally, we conduct both classification and regression analyses using real MRI data from the Alzheimer's Disease Neuroimaging Initiative (ADNI) to demonstrate the effectiveness of DKN.
翻訳日:2022-10-25 13:19:45 公開日:2022-10-24
# cards against ai: 満員パーティーゲームにおけるユーモアの予測

Cards Against AI: Predicting Humor in a Fill-in-the-blank Party Game ( http://arxiv.org/abs/2210.13016v1 )

ライセンス: Link先を確認
Dan Ofer, Dafna Shahaf(参考訳) ユーモアは本質的に社会的現象であり、社会的および文化的に受け入れられるものによって形成されるユーモラスな発話である。 ユーモアを理解することは、人間とコンピュータの相互作用に多くの応用がある重要なNLP課題である。 この作品では、プレイヤーが攻撃的あるいは政治的に正しくないカードを使って、満杯のステートメントを完結するパーティーゲームである「cards against humanity」という文脈でユーモアを探求する。 785Kのユニークなジョークを含む30万のオンラインゲームに関する新しいデータセットを導入し、分析し、洞察を提供する。 機械学習モデルをトレーニングして,ゲーム当たりの勝利ジョークを予測し,ユーザ情報なしでも2倍の成績(20\%)をランダムに達成した。 新たなカードを判定するより難しい作業では、モデルを一般化する能力は適度である。 興味深いことに、私たちのモデルは主にパンチラインカードに焦点を当てており、コンテキストへの影響はほとんどない。 特徴を分析した結果、短い、粗い、若いパンチラインが勝つ傾向にあることがわかった。

Humor is an inherently social phenomenon, with humorous utterances shaped by what is socially and culturally accepted. Understanding humor is an important NLP challenge, with many applications to human-computer interactions. In this work we explore humor in the context of Cards Against Humanity -- a party game where players complete fill-in-the-blank statements using cards that can be offensive or politically incorrect. We introduce a novel dataset of 300,000 online games of Cards Against Humanity, including 785K unique jokes, analyze it and provide insights. We trained machine learning models to predict the winning joke per game, achieving performance twice as good (20\%) as random, even without any user information. On the more difficult task of judging novel cards, we see the models' ability to generalize is moderate. Interestingly, we find that our models are primarily focused on punchline card, with the context having little impact. Analyzing feature importance, we observe that short, crude, juvenile punchlines tend to win.
翻訳日:2022-10-25 13:19:03 公開日:2022-10-24
# NVIDIA FLARE: シミュレーションから実世界へのフェデレーション学習

NVIDIA FLARE: Federated Learning from Simulation to Real-World ( http://arxiv.org/abs/2210.13291v1 )

ライセンス: Link先を確認
Holger R. Roth, Yan Cheng, Yuhong Wen, Isaac Yang, Ziyue Xu, Yuan-Ting Hsieh, Kristopher Kersten, Ahmed Harouni, Can Zhao, Kevin Lu, Zhihong Zhang, Wenqi Li, Andriy Myronenko, Dong Yang, Sean Yang, Nicola Rieke, Abood Quraini, Chester Chen, Daguang Xu, Nic Ma, Prerna Dogra, Mona Flores, Andrew Feng(参考訳) フェデレートラーニング(FL)は、データを集中することなく、複数のコラボレータからさまざまなデータセットを活用することにより、堅牢で一般化可能なAIモデルの構築を可能にする。 私たちはNVIDIA FLAREをオープンソースソフトウェア開発キット(SDK)として開発しました。 このsdkには最先端のflアルゴリズムとフェデレーション機械学習のアプローチのためのソリューションが含まれており、企業間の分散学習のためのワークフローの構築を容易にし、プラットフォーム開発者が準同型暗号化や差分プライバシーを利用したマルチパーティコラボレーションのためのセキュアでプライバシ保護の製品を作成することができる。 sdkは軽量でフレキシブルでスケーラブルなpythonパッケージで、研究者は任意のトレーニングライブラリ(pytorch、tensorflow、xgboost、あるいはnumpy)で実装したデータサイエンスワークフローを、現実世界のfl設定で適用することができる。 本稿では,flareの鍵となる設計原則を紹介するとともに,さまざまなプライバシ保存アルゴリズムを実装するカスタマイズ可能なflワークフローを用いた,いくつかのユースケース(新型コロナウイルス解析など)について説明する。 コードはhttps://github.com/nvidia/nvflareで入手できる。

Federated learning (FL) enables building robust and generalizable AI models by leveraging diverse datasets from multiple collaborators without centralizing the data. We created NVIDIA FLARE as an open-source software development kit (SDK) to make it easier for data scientists to use FL in their research and real-world applications. The SDK includes solutions for state-of-the-art FL algorithms and federated machine learning approaches, which facilitate building workflows for distributed learning across enterprises and enable platform developers to create a secure, privacy-preserving offering for multiparty collaboration utilizing homomorphic encryption or differential privacy. The SDK is a lightweight, flexible, and scalable Python package, and allows researchers to bring their data science workflows implemented in any training libraries (PyTorch, TensorFlow, XGBoost, or even NumPy) and apply them in real-world FL settings. This paper introduces the key design principles of FLARE and illustrates some use cases (e.g., COVID analysis) with customizable FL workflows that implement different privacy-preserving algorithms. Code is available at https://github.com/NVIDIA/NVFlare.
翻訳日:2022-10-25 13:18:36 公開日:2022-10-24
# SpikeSim:スパイキングニューラルネットワークのベンチマークのためのエンドツーエンドのハードウェア評価ツール

SpikeSim: An end-to-end Compute-in-Memory Hardware Evaluation Tool for Benchmarking Spiking Neural Networks ( http://arxiv.org/abs/2210.12899v1 )

ライセンス: Link先を確認
Abhishek Moitra, Abhiroop Bhattacharjee, Runcong Kuang, Gokul Krishnan, Yu Cao, and Priyadarshini Panda(参考訳) SNNはエネルギー効率の良いマシンインテリジェンスに向けた活発な研究領域である。 従来のANNと比較すると、SNNはデータ処理に時間スパイクデータとLeaky-Integrate Fire/Integrate Fire (LIF/IF) のような生物解析可能なニューロン活性化機能を使用する。 しかし、SNNは、標準的なvon-Neumannコンピューティングプラットフォームにおいて、高いメモリと計算オーバーヘッドを引き起こす重要なドット積演算を発生させる。 今日、インメモリコンピューティング(imc)アーキテクチャは、フォン・ノイマンアーキテクチャに広く見られる「メモリ壁ボトルネック」を緩和するために提案されている。 最近の研究でIMCベースのSNNハードウェアアクセラレーターが提案されているが、以下のことは見過ごされている。 1)複数の時間ステップにわたるアナログドット製品操作によるsnn性能に及ぼすクロスバー非理想性の悪影響 2) LIF/IFやデータ通信モジュールといったSNN固有のコンポーネントのハードウェアオーバーヘッド。 そこで我々は,IMCマップしたSNNの現実的な性能,エネルギー,レイテンシ,面積評価を実現するツールであるSpikeSimを提案する。 SpikeSimは、SNNをマッピングするSpikeFlowと呼ばれる実用的なモノリシックIMCアーキテクチャで構成されている。 さらに、非理想計算エンジン(NICE)とエネルギー遅延領域(ELA)エンジンは、SpikeFlowマップされたSNNのハードウェア現実性評価を行う。 65nmのCMOS実装とCIFAR10, CIFAR100, TinyImagenetデータセットを用いた実験の結果, LIF/IFニューロンモジュールはハードウェア全体の11%以上を占めることがわかった。 神経モジュールの面積の1.24倍と10倍に減少するSNNトポロジカルな変化とエネルギー-遅延-生成値の総和を提案する。 さらに,本研究では,IMC が実装した ANN と SNN の総合比較を行い,SNN のスループットとエネルギー効率を 4 ビットの ANN と比較して向上させる鍵となる時間ステップが低いことを結論する。

SNNs are an active research domain towards energy efficient machine intelligence. Compared to conventional ANNs, SNNs use temporal spike data and bio-plausible neuronal activation functions such as Leaky-Integrate Fire/Integrate Fire (LIF/IF) for data processing. However, SNNs incur significant dot-product operations causing high memory and computation overhead in standard von-Neumann computing platforms. Today, In-Memory Computing (IMC) architectures have been proposed to alleviate the "memory-wall bottleneck" prevalent in von-Neumann architectures. Although recent works have proposed IMC-based SNN hardware accelerators, the following have been overlooked- 1) the adverse effects of crossbar non-ideality on SNN performance due to repeated analog dot-product operations over multiple time-steps, 2) hardware overheads of essential SNN-specific components such as the LIF/IF and data communication modules. To this end, we propose SpikeSim, a tool that can perform realistic performance, energy, latency and area evaluation of IMC-mapped SNNs. SpikeSim consists of a practical monolithic IMC architecture called SpikeFlow for mapping SNNs. Additionally, the non-ideality computation engine (NICE) and energy-latency-area (ELA) engine performs hardware-realistic evaluation of SpikeFlow-mapped SNNs. Based on 65nm CMOS implementation and experiments on CIFAR10, CIFAR100 and TinyImagenet datasets, we find that the LIF/IF neuronal module has significant area contribution (>11% of the total hardware area). We propose SNN topological modifications leading to 1.24x and 10x reduction in the neuronal module's area and the overall energy-delay-product value, respectively. Furthermore, in this work, we perform a holistic comparison between IMC implemented ANN and SNNs and conclude that lower number of time-steps are the key to achieve higher throughput and energy-efficiency for SNNs compared to 4-bit ANNs.
翻訳日:2022-10-25 13:18:13 公開日:2022-10-24
# IQUAFLOW: 画像品質を測定するための新しいフレームワーク

IQUAFLOW: A new framework to measure image quality ( http://arxiv.org/abs/2210.13269v1 )

ライセンス: Link先を確認
P. Gall\'es (1), K. Takats (1), M. Hern\'andez-Cabronero (2), D. Berga (3), L. Pega (1), L. Riordan-Chen (1), C. Garcia (1), G. Becker (1), A. Garriga (3), A. Bukva (3), J. Serra-Sagrist\`a (2), D. Vilaseca (1), J. Mar\'in (1) ((1) Satellogic Inc, (2) Universitat Aut\`onoma de Barcelona - UAB-DEIC-GICI, (3) EURECAT - Multimedia Technologies Unit)(参考訳) IQUAFLOWは、画像品質を評価するツールセットを提供する新しい画像品質フレームワークである。 ユーザーは簡単に統合できるカスタムメトリクスを追加できる。 さらに、iquaflowでは、イメージ上でトレーニングされたAIモデルのパフォーマンスをプロキシとして使用することで、品質を測定することができる。 これはまた、元のデータセットのいくつかの変更(例えば、異なるレベルの損失圧縮の後に画像が再構成された場合)のパフォーマンス低下の研究にも役立ち、衛星画像は一般に地上にダウンロードする前に圧縮されるため、ユースケースの例となる。 この状況では、最適化問題は、ディープラーニングアルゴリズムの必要な性能を満たすのに十分な品質を提供する最小の画像を見つけることにある。 このような場合、iquaflowを用いた研究が適している。 この開発はすべてMlflowで包まれており、結果を視覚化し要約するために使用されるインタラクティブツールである。 この文書は異なるユースケースを記述し、それぞれのリポジトリへのリンクを提供する。 新しい研究を簡単にするために、Cookie-cutterリポジトリを含めます。 ソースコード、イシュートラッカ、前述のリポジトリはすべてgithub https://github.com/satellogic/iquaflowにホストされている。

IQUAFLOW is a new image quality framework that provides a set of tools to assess image quality. The user can add custom metrics that can be easily integrated. Furthermore, iquaflow allows to measure quality by using the performance of AI models trained on the images as a proxy. This also helps to easily make studies of performance degradation of several modifications of the original dataset, for instance, with images reconstructed after different levels of lossy compression; satellite images would be a use case example, since they are commonly compressed before downloading to the ground. In this situation, the optimization problem consists in finding the smallest images that provide yet sufficient quality to meet the required performance of the deep learning algorithms. Thus, a study with iquaflow is suitable for such case. All this development is wrapped in Mlflow: an interactive tool used to visualize and summarize the results. This document describes different use cases and provides links to their respective repositories. To ease the creation of new studies, we include a cookie-cutter repository. The source code, issue tracker and aforementioned repositories are all hosted on GitHub https://github.com/satellogic/iquaflow.
翻訳日:2022-10-25 13:10:19 公開日:2022-10-24
# ビジョンのためのMetaFormerベースライン

MetaFormer Baselines for Vision ( http://arxiv.org/abs/2210.13452v1 )

ライセンス: Link先を確認
Weihao Yu, Chenyang Si, Pan Zhou, Mi Luo, Yichen Zhou, Jiashi Feng, Shuicheng Yan, Xinchao Wang(参考訳) トランスフォーマーの抽象化されたアーキテクチャであるmetaformerは、競争的パフォーマンスを達成する上で重要な役割を担っている。 本稿では,MetaFormerのトークンミキサー設計に焦点をあてることなく,MetaFormerのキャパシティをさらに検討する: 最も基本的なあるいは一般的なミキサーを用いて,MetaFormerの下でいくつかのベースラインモデルを導入し,その観測結果を次のように要約する。 トークンミキサーとしてIDマッピングを採用するだけで、MetaFormerモデルはIdentityFormerと呼ばれ、ImageNet-1K上で80%の精度を達成する。 2) MetaFormerは任意のトークンミキサーとうまく機能します。 トークンミキサーをランダムなマトリックスとして指定してトークンを混ぜる場合、結果のモデルであるRandFormerは81%の精度でIdentityFormerを上回ります。 新しいトークンミキサーを採用すると、MetaFormerの結果が保証される。 3) metaformerは最先端の成果を無償で提供する。 従来のトークンミキサーは5年前のもので、metaformerからインスタンス化されたモデルは、すでにstate of the artを上回っている。 (a)ConvFormerはConvNeXtより優れている。 トークンミキサーとして共通的に分離可能な畳み込みを取り入れたこのモデルは、純粋なCNNと見なすことができるConvFormerと呼ばれ、強力なCNNモデルであるConvNeXtよりも優れている。 (b)CAFormerはImageNet-1Kに新しいレコードを設定する。 下段のトークンミキサーや上段のバニラセルフアテンションとして奥行き分離可能な畳み込みを単純に適用することにより、得られたモデルカフォーマはimagenet-1kに新しい記録を設定し、外部データや蒸留なしで85.5%の精度を224x224解像度で達成する。 MetaFormer の探索では,新たな活性化である StarReLU が GELU と比較して 71% FLOP の活性化を減少させるが,性能は向上する。 StarReLUは他のニューラルネットワークと共にMetaFormerのようなモデルに大きな可能性を見出すだろう。

MetaFormer, the abstracted architecture of Transformer, has been found to play a significant role in achieving competitive performance. In this paper, we further explore the capacity of MetaFormer, again, without focusing on token mixer design: we introduce several baseline models under MetaFormer using the most basic or common mixers, and summarize our observations as follows: (1) MetaFormer ensures solid lower bound of performance. By merely adopting identity mapping as the token mixer, the MetaFormer model, termed IdentityFormer, achieves >80% accuracy on ImageNet-1K. (2) MetaFormer works well with arbitrary token mixers. When specifying the token mixer as even a random matrix to mix tokens, the resulting model RandFormer yields an accuracy of >81%, outperforming IdentityFormer. Rest assured of MetaFormer's results when new token mixers are adopted. (3) MetaFormer effortlessly offers state-of-the-art results. With just conventional token mixers dated back five years ago, the models instantiated from MetaFormer already beat state of the art. (a) ConvFormer outperforms ConvNeXt. Taking the common depthwise separable convolutions as the token mixer, the model termed ConvFormer, which can be regarded as pure CNNs, outperforms the strong CNN model ConvNeXt. (b) CAFormer sets new record on ImageNet-1K. By simply applying depthwise separable convolutions as token mixer in the bottom stages and vanilla self-attention in the top stages, the resulting model CAFormer sets a new record on ImageNet-1K: it achieves an accuracy of 85.5% at 224x224 resolution, under normal supervised training without external data or distillation. In our expedition to probe MetaFormer, we also find that a new activation, StarReLU, reduces 71% FLOPs of activation compared with GELU yet achieves better performance. We expect StarReLU to find great potential in MetaFormer-like models alongside other neural networks.
翻訳日:2022-10-25 13:10:02 公開日:2022-10-24
# find memo: 制約付きシーケンス生成タスクにおける抽出的記憶

Finding Memo: Extractive Memorization in Constrained Sequence Generation Tasks ( http://arxiv.org/abs/2210.12929v1 )

ライセンス: Link先を確認
Vikas Raunak and Arul Menezes(参考訳) 記憶化は、ニューラルネットワーク翻訳(NMT)のようないくつかの制約された自然言語生成(NLG)タスクにおいて、ノイズを記憶するニューラルモデルの確率と非定型サンプルがノイズ(Webクロード)データセットと悪反応する課題である。 しかし, 制約付きNLGタスクにおける暗記の過去の研究は, 幻覚問題とリンクした反ファクト的暗記にのみ焦点をあてている。 そこで本研究では,制約付きシーケンス生成タスクにおける抽出暗記(文脈不足下での訓練データ生成)のための,コストのかかる新しいアルゴリズムを提案し,NMTにおける抽出暗記とその効果について検討する。 抽出的記憶がnmtの信頼性に深刻な脅威をもたらすことを実証し,記憶された試料とその近傍におけるモデル行動の質的,定量的に特徴付ける。 実験的な観察に基づいて,同じモデルから記憶されたサンプルの非記憶翻訳を抽出する簡単なアルゴリズムを開発した。 最後に,提案アルゴリズムは,微調整によるモデルの記憶の緩和にも活用できることを示す。 https://github.com/vyraun/Finding-Memo.comで結果を再現するコードをリリースした。

Memorization presents a challenge for several constrained Natural Language Generation (NLG) tasks such as Neural Machine Translation (NMT), wherein the proclivity of neural models to memorize noisy and atypical samples reacts adversely with the noisy (web crawled) datasets. However, previous studies of memorization in constrained NLG tasks have only focused on counterfactual memorization, linking it to the problem of hallucinations. In this work, we propose a new, inexpensive algorithm for extractive memorization (exact training data generation under insufficient context) in constrained sequence generation tasks and use it to study extractive memorization and its effects in NMT. We demonstrate that extractive memorization poses a serious threat to NMT reliability by qualitatively and quantitatively characterizing the memorized samples as well as the model behavior in their vicinity. Based on empirical observations, we develop a simple algorithm which elicits non-memorized translations of memorized samples from the same model, for a large fraction of such samples. Finally, we show that the proposed algorithm could also be leveraged to mitigate memorization in the model through finetuning. We have released the code to reproduce our results at https://github.com/vyraun/Finding-Memo.
翻訳日:2022-10-25 13:02:05 公開日:2022-10-24
# 文書レベルの名前付きエンティティ認識におけるラベル一貫性の強化

Enhancing Label Consistency on Document-level Named Entity Recognition ( http://arxiv.org/abs/2210.12949v1 )

ライセンス: Link先を確認
Minbyul Jeong, Jaewoo Kang(参考訳) 名前付きエンティティ認識(NER)は、バイオメディカル応用における文書から情報を抽出する基本的な部分である。 NERの顕著な利点は、文書コンテキストで生体医学的実体を抽出する際の一貫性である。 既存の文書NERモデルは一貫性のある予測を示すが、それでも私たちの期待を満たさない。 エンティティ内の形容詞と前置詞がラベルの一貫性を低下させるかどうかを調査した。 本稿では,修飾子 (形容詞や前置詞など) のラベル依存性を高め,より高いラベル一致を実現する手法であるConNERを提案する。 ConNERは、バイオメディカルエンティティの出力表現を改善するために、修飾体のドラフトラベルを洗練する。 本手法の有効性は4つの生物医学的NERデータセットで実証され、特にF1スコアが7.5-8.6%向上した2つのデータセットで実証された。 我々は,本手法が本質的にラベル一貫性の低いデータセットに有効であることを解釈する。 定性解析では,NERモデルが一貫した予測を生成する方法を示す。 私たちのコードとリソースはhttps://github.com/dmis-lab/ConNER/で利用可能です。

Named entity recognition (NER) is a fundamental part of extracting information from documents in biomedical applications. A notable advantage of NER is its consistency in extracting biomedical entities in a document context. Although existing document NER models show consistent predictions, they still do not meet our expectations. We investigated whether the adjectives and prepositions within an entity cause a low label consistency, which results in inconsistent predictions. In this paper, we present our method, ConNER, which enhances the label dependency of modifiers (e.g., adjectives and prepositions) to achieve higher label agreement. ConNER refines the draft labels of the modifiers to improve the output representations of biomedical entities. The effectiveness of our method is demonstrated on four popular biomedical NER datasets; in particular, its efficacy is proved on two datasets with 7.5-8.6% absolute improvements in the F1 score. We interpret that our ConNER method is effective on datasets that have intrinsically low label consistency. In the qualitative analysis, we demonstrate how our approach makes the NER model generate consistent predictions. Our code and resources are available at https://github.com/dmis-lab/ConNER/.
翻訳日:2022-10-25 13:01:44 公開日:2022-10-24
# 高度技術ドメインのための教師なし用語抽出

Unsupervised Term Extraction for Highly Technical Domains ( http://arxiv.org/abs/2210.13118v1 )

ライセンス: Link先を確認
Francesco Fusco, Peter Staar, Diego Antognini(参考訳) 用語抽出は、知識発見プラットフォームの根元にある情報抽出タスクである。 高度な専門知識を必要とするドメインに対するアノテーションは乏しく、入手する費用もかかるため、非常に多様で高い技術領域をまたいで一般化できる用語抽出器の開発は困難である。 本稿では,医薬,医薬,物質科学などの高度技術分野を対象とする,商業的知識発見プラットフォームの抽出サブシステムについて述べる。 ドメインをまたいだ一般化を実現するために、完全に教師なしアノテーション(UA)を導入する。 サブワードトークン化の新たな形態信号と、一般ドメイン事前訓練文エンコーダを用いて計算された用語間類似度指標を組み合わせることで、用語を抽出する。 このアノテータは、大きなラベルのないコーパス上でUAを実行することによって生成されたトレーニングデータに対して、トランスフォーマーモデルを微調整(または事前訓練)する弱い教師付きセットアップを実装するために使用される。 実験により,CPUとGPUの両方の推論遅延を低減しつつ,予測性能を向上できることが実証された。 私たちのアノテーションは、アノテーションが利用できないすべてのケースに対して、非常に競争力のあるベースラインを提供します。

Term extraction is an information extraction task at the root of knowledge discovery platforms. Developing term extractors that are able to generalize across very diverse and potentially highly technical domains is challenging, as annotations for domains requiring in-depth expertise are scarce and expensive to obtain. In this paper, we describe the term extraction subsystem of a commercial knowledge discovery platform that targets highly technical fields such as pharma, medical, and material science. To be able to generalize across domains, we introduce a fully unsupervised annotator (UA). It extracts terms by combining novel morphological signals from sub-word tokenization with term-to-topic and intra-term similarity metrics, computed using general-domain pre-trained sentence-encoders. The annotator is used to implement a weakly-supervised setup, where transformer-models are fine-tuned (or pre-trained) over the training data generated by running the UA over large unlabeled corpora. Our experiments demonstrate that our setup can improve the predictive performance while decreasing the inference latency on both CPUs and GPUs. Our annotators provide a very competitive baseline for all the cases where annotations are not available.
翻訳日:2022-10-25 13:01:25 公開日:2022-10-24
# リアルタイム音声遮断分析:クラウドからクライアントへの展開

Real-time Speech Interruption Analysis: From Cloud to Client Deployment ( http://arxiv.org/abs/2210.13334v1 )

ライセンス: Link先を確認
Quchen Fu, Szu-Wei Fu, Yaran Fan, Yu Wu, Zhuo Chen, Jayant Gupchup, Ross Cutler(参考訳) 会議はあらゆる種類の組織にとって不可欠なコミュニケーション形態であり、リモートコラボレーションシステムは新型コロナウイルスのパンデミック以来ずっと広く利用されている。 リモートミーティングの大きな問題のひとつは、リモート参加者が割り込んで話すことが難しいことだ。 我々は最近,故障した音声の中断を検知し,非常に有望な性能を示し,クラウドに展開する最初の音声中断解析モデルを開発した。 よりコスト効率が高く、環境に優しい方法でこの機能を提供するため、wavlm_siモデルをクライアントデバイスに出荷するためのモデルの複雑さとサイズを削減しました。 本稿では,まず,大規模データセットの学習と微調整により,発話中断検出モデルの失敗に対して,1%の偽陽性率(fpr)でtpr(true positive rate)を50.9%から68.3%に改善した方法について述べる。 次に、モデルサイズを22.7MBから9.3MBに縮小し、精度の低下を許容し、複雑さを31.2GMACS(Giga Multiply-Accumulate Operations per second)から4.3GMACSに削減した。 また,大規模トランスフォーマーモデルの汎用ガイドラインとして使用可能な複雑性低減の環境影響を推定し,計算オーバーヘッドを低減し,それらモデルへのアクセス性を高めた。

Meetings are an essential form of communication for all types of organizations, and remote collaboration systems have been much more widely used since the COVID-19 pandemic. One major issue with remote meetings is that it is challenging for remote participants to interrupt and speak. We have recently developed the first speech interruption analysis model, which detects failed speech interruptions, shows very promising performance, and is being deployed in the cloud. To deliver this feature in a more cost-efficient and environment-friendly way, we reduced the model complexity and size to ship the WavLM_SI model in client devices. In this paper, we first describe how we successfully improved the True Positive Rate (TPR) at a 1% False Positive Rate (FPR) from 50.9% to 68.3% for the failed speech interruption detection model by training on a larger dataset and fine-tuning. We then shrank the model size from 222.7 MB to 9.3 MB with an acceptable loss in accuracy and reduced the complexity from 31.2 GMACS (Giga Multiply-Accumulate Operations per Second) to 4.3 GMACS. We also estimated the environmental impact of the complexity reduction, which can be used as a general guideline for large Transformer-based models, and thus make those models more accessible with less computation overhead.
翻訳日:2022-10-25 13:01:05 公開日:2022-10-24
# 創発的世界表現:合成タスクで訓練されたシーケンスモデルを探索する

Emergent world representations: Exploring a sequence model trained on a synthetic task ( http://arxiv.org/abs/2210.13382v1 )

ライセンス: Link先を確認
Kenneth Li, Aspen K. Hopkins, David Bau, Fernanda Vi\'egas, Hanspeter Pfister, Martin Wattenberg(参考訳) 言語モデルには驚くべき能力範囲があるが、その明らかに能力の源は明らかではない。 これらのネットワークは単に表面統計の集合を記憶しているだけなのか、あるいは、彼らが見るシーケンスを生成するプロセスの内部表現に依存しているのだろうか? gptモデルの変種を単純なボードゲームであるothelloで法的な動きを予測するタスクに適用して、この問題を調査した。 ネットワークはゲームやルールについて事前知識を持っていないが、ボード状態の突発的な非線形内部表現の証拠を明らかにする。 介入実験によれば、この表現はネットワークの出力を制御し、人間の言葉で予測を説明するのに役立つ「相対的塩分マップ」を作成するのに使うことができる。

Language models show a surprising range of capabilities, but the source of their apparent competence is unclear. Do these networks just memorize a collection of surface statistics, or do they rely on internal representations of the process that generates the sequences they see? We investigate this question by applying a variant of the GPT model to the task of predicting legal moves in a simple board game, Othello. Although the network has no a priori knowledge of the game or its rules, we uncover evidence of an emergent nonlinear internal representation of the board state. Interventional experiments indicate this representation can be used to control the output of the network and create "latent saliency maps" that can help explain predictions in human terms.
翻訳日:2022-10-25 13:00:38 公開日:2022-10-24