このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221031となっている論文です。

PDF登録状況(公開日: 20221031)

TitleAuthorsAbstract論文公表日・翻訳日
# 変分問題に対する進化的多様性最適化の解析

Analysis of Evolutionary Diversity Optimisation for Permutation Problems ( http://arxiv.org/abs/2102.11469v4 )

ライセンス: Link先を確認
Anh Viet Do and Mingyu Guo and Aneta Neumann and Frank Neumann(参考訳) 高品質なソリューションの多様な集団を生み出すことは、従来の最適化タスクの有望な拡張として関心を集めている。 この研究は、トラベルセールスパーソン問題(TSP)、対称変種、非対称変種、および擬似代入問題(QAP)の3つの最もよく研究されている置換問題に対する進化的多様性最適化の研究に寄与する。 それは、確立された多様性尺度を用いて、異なる突然変異演算子を持つ単純な突然変異のみの進化アルゴリズムの最悪の性能の分析を含む。 理論的な結果は、これらの問題に対する多くの突然変異演算子は、四進法内で十分小さいサイズの最大に多様な集団に収束することを保証していることを示している。 一方、QAPの結果は、突然変異強度が期待される実行時間に指数関数的に寄与するため、強い突然変異が最悪の場合のパフォーマンスを低下させることを示唆している。 さらに、QAPLIBと合成インスタンス上で、制約のない、制約のない環境で実験を行い、より楽観的な実用的な性能を示しながら、突然変異強度に関する理論的発見を裏付ける。 これらの結果は将来の研究のベースラインとなるはずである。

Generating diverse populations of high quality solutions has gained interest as a promising extension to the traditional optimization tasks. This work contributes to this line of research with an investigation on evolutionary diversity optimization for three of the most well-studied permutation problems, namely the Traveling Salesperson Problem (TSP), both symmetric and asymmetric variants, and Quadratic Assignment Problem (QAP). It includes an analysis of the worst-case performance of a simple mutation-only evolutionary algorithm with different mutation operators, using an established diversity measure. Theoretical results show many mutation operators for these problems guarantee convergence to maximally diverse populations of sufficiently small size within cubic to quartic expected run-time. On the other hand, the result on QAP suggests that strong mutations give poor worst-case performance, as mutation strength contributes exponentially to the expected run-time. Additionally, experiments are carried out on QAPLIB and synthetic instances in unconstrained and constrained settings, and reveal much more optimistic practical performances, while corroborating the theoretical finding regarding mutation strength. These results should serve as a baseline for future studies.
翻訳日:2023-04-10 03:48:34 公開日:2022-10-31
# 量子コンピュータにおける基底光面量子化アプローチによるハドロン構造の解法

Solving hadron structures using the basis light-front quantization approach on quantum computers ( http://arxiv.org/abs/2112.01927v3 )

ライセンス: Link先を確認
Wenyang Qian, Robert Basili, Soham Pal, Glenn Luecke, and James P. Vary(参考訳) 量子コンピューティングは、非相対論的量子多体理論の最前線の解を得ることによって、原子、原子、分子構造の理解に革命をもたらす可能性を証明した。 本研究では、強相互作用型相対論的量子場理論によって支配されるハドロンの構造を量子コンピューティングで解くことができることを示す。 非摂動ハミルトニアン形式論における相対論的境界状態問題としての光非フレーバー中間子の研究に続いて、基底光面量子化(blfq)法を用いてシミュレーション量子デバイス上での数値計算を行う。 可変量子固有ソルバ (vqe) と部分空間探索型変分量子固有ソルバ (ssvqe) を実装して, 理想シミュレータ, 雑音シミュレータ, およびibm量子コンピュータから, 光中間子の低次質量スペクトルとそれに対応する光前波関数を量子状態として求める。 得られた量子状態に基づいて、中間子崩壊定数とパルトン分布関数を量子回路上で直接評価する。 量子コンピュータとシミュレータにおける我々の計算は、ノイズが適度に小さい古典的コンピュータで解かれた正確な数値解と合理的に一致しており、全体の結果は利用可能な実験データと同等である。

Quantum computing has demonstrated the potential to revolutionize our understanding of nuclear, atomic, and molecular structure by obtaining forefront solutions in non-relativistic quantum many-body theory. In this work, we show that quantum computing can be used to solve for the structure of hadrons, governed by strongly-interacting relativistic quantum field theory. Following our previous work on light unflavored mesons as a relativistic bound-state problem within the nonperturbative Hamiltonian formalism, we present the numerical calculations on simulated quantum devices using the basis light-front quantization (BLFQ) approach. We implement and compare the variational quantum eigensolver (VQE) and the subspace-search variational quantum eigensolver (SSVQE) to find the low-lying mass spectrum of the light meson system and its corresponding light-front wave functions as quantum states from ideal simulators, noisy simulators, and IBM quantum computers. Based on obtained quantum states, we evaluate the meson decay constants and parton distribution functions directly on the quantum circuits. Our calculations on the quantum computers and simulators are in reasonable agreement with accurate numerical solutions solved on classical computers when noises are moderately small, and our overall results are comparable with the available experimental data.
翻訳日:2023-03-06 00:07:12 公開日:2022-10-31
# 双極子物理学:磁気量子ガスの実験のレビュー

Dipolar physics: A review of experiments with magnetic quantum gases ( http://arxiv.org/abs/2201.02672v2 )

ライセンス: Link先を確認
Lauriane Chomaz, Igor Ferrier-Barbut, Francesca Ferlaino, Bruno Laburthe-Tolra, Benjamin L. Lev, Tilman Pfau(参考訳) 2004年にクロム原子のガス中の量子縮退が達成されて以来、高磁性原子からなる超低温ガスの実験的な研究が花開いた。 この分野は多くの前例のない現象、特に長距離と異方性双極子-双極子相互作用が重要な役割を果たす現象を観測した。 本稿では,超古・量子物理学の探求に特有な磁気量子ガスプラットフォームの側面を提示するとともに,実験成果の概観を述べる。

Since the achievement of quantum degeneracy in gases of chromium atoms in 2004, the experimental investigation of ultracold gases made of highly magnetic atoms has blossomed. The field has yielded the observation of many unprecedented phenomena, in particular those in which long-range and anisotropic dipole-dipole interactions play a crucial role. In this review, we aim to present the aspects of the magnetic quantum-gas platform that make it unique for exploring ultracold and quantum physics as well as to give a thorough overview of experimental achievements.
翻訳日:2023-03-02 01:20:58 公開日:2022-10-31
# delay-choice量子消去器のコヒーレンス解釈

Coherence interpretation of the delayed-choice quantum eraser ( http://arxiv.org/abs/2202.06168v5 )

ライセンス: Link先を確認
Sangbae Kim and Byoung S. Ham(参考訳) 量子重ね合わせは量子力学の基盤であり、干渉縞は識別不能な光子特性を介して単一光子の自己干渉から生じる。 ウィーラー遅延選択実験は、波動-粒子双対性に対する量子力学の相補性理論を理解するために、ここ数十年にわたって広く実証されてきた。 遅延結合実験の核心は、因果効果関係に違反する相互排他的量子特徴である。 本稿では,量子消去器に対するコヒーレント光子を用いた原因効果関係の破れを実験的に実証する。 MZIの未決定光子を用いたほとんどの遅延チョイススキームとは異なり、本スキームは後測定制御によりMZIのための決定光子である。 観測された量子消去器は、因果効果違反の起源を求めるためにコヒーレントに解釈される。

Quantum superposition is the cornerstone of quantum mechanics, where interference fringes originate in the self-interference of a single photon via indistinguishable photon characteristics. Wheeler delayed-choice experiments have been extensively demonstrated over the last decades to understand the complementarity theory of quantum mechanics for the wave-particle duality. The heart of the delayed-choice experiments is in the mutually exclusive quantum feature violating the cause-effect relation. Here, we experimentally demonstrate the violation of the cause-effect relation using coherent photons for the quantum eraser. Unlike most delayed-choice schemes using undetermined photons in MZI, the present scheme is for the determined photon for the MZI via post-measurement controls. The observed quantum eraser is coherently interpreted to seek the origin of the cause-effect violation.
翻訳日:2023-02-25 23:02:23 公開日:2022-10-31
# 分析性制約はスペクトル形成因子の崩壊を束縛する

Analyticity constraints bound the decay of the spectral form factor ( http://arxiv.org/abs/2202.11715v3 )

ライセンス: Link先を確認
Pablo Martinez-Azcona and Aur\'elia Chenu(参考訳) 量子カオスは、熱平衡系 [maldacena, shenker & stanford, jhep (2016)] において、$\lambda \leq 2 \pi/(\hbar \beta)$ よりも高速に発展することはできない。 この lyapunov exponent $\lambda$ 上の 'mss bound' は正規化された時間外コリレーターが解析されるストリップの幅によって設定される。 同様の制約はスペクトル相関を測定するスペクトル形式因子(sff)の減衰にも関係しており、2-レベル相関関数のフーリエ変換から定義される。 具体的には、SFFの早期崩壊を特徴付けるために導入するインフレクション指数 $\eta$ は $\eta\leq \pi/(2\hbar\beta)$ となる。 この境界は普遍的であり、カオス体制の外に存在する。 この結果は、正則、カオス、チューナブルなダイナミクス、すなわち1粒子の調和振動子、多粒子のcalogero-sutherlandモデル、ランダム行列理論によるアンサンブル、量子キックトップを持つ系で示される。 量子速度制限を含む他の既知の境界との導出境界の関係について論じる。

Quantum chaos cannot develop faster than $\lambda \leq 2 \pi/(\hbar \beta)$ for systems in thermal equilibrium [Maldacena, Shenker & Stanford, JHEP (2016)]. This `MSS bound' on the Lyapunov exponent $\lambda$ is set by the width of the strip on which the regularized out-of-time-order correlator is analytic. We show that similar constraints also bound the decay of the spectral form factor (SFF), that measures spectral correlation and is defined from the Fourier transform of the two-level correlation function. Specifically, the inflection exponent $\eta$, that we introduce to characterize the early-time decay of the SFF, is bounded as $\eta\leq \pi/(2\hbar\beta)$. This bound is universal and exists outside of the chaotic regime. The results are illustrated in systems with regular, chaotic, and tunable dynamics, namely the single-particle harmonic oscillator, the many-particle Calogero-Sutherland model, an ensemble from random matrix theory, and the quantum kicked top. The relation of the derived bound with other known bounds, including quantum speed limits, is discussed.
翻訳日:2023-02-24 03:44:54 公開日:2022-10-31
# FairVFL: 対立的対人学習を伴う公正な垂直的フェデレーション学習フレームワーク

FairVFL: A Fair Vertical Federated Learning Framework with Contrastive Adversarial Learning ( http://arxiv.org/abs/2206.03200v2 )

ライセンス: Link先を確認
Tao Qi, Fangzhao Wu, Chuhan Wu, Lingjuan Lyu, Tong Xu, Zhongliang Yang, Yongfeng Huang, Xing Xie(参考訳) Vertical Federated Learning(VFL)は、プライバシを保存する機械学習パラダイムであり、プライバシを保存する方法で、さまざまなプラットフォームに分散された機能からモデルを学ぶことができる。 実世界のアプリケーションでは、データは公平性に敏感な特徴(例えば性別)のバイアスを含む可能性があるため、VFLモデルはトレーニングデータからのバイアスを継承し、一部のユーザーグループでは不公平になる。 しかし、既存の公正な機械学習手法は通常、モデルフェアネスを達成するためにフェアネスに敏感な機能の集中ストレージに依存している。 本稿では,VFLモデルの公平性を向上させるための,公平な垂直連合学習フレームワーク(FairVFL)を提案する。 FairVFLの中核となる考え方は、分散化された機能フィールドに基づいたサンプルの統一的で公正な表現を、プライバシ保護の方法で学習することだ。 具体的には、公平性に敏感な各プラットフォームは、まずローカル機能からローカルデータ表現を学習する。 その後、これらのローカル表現はサーバにアップロードされ、ターゲットタスクの統一表現に集約される。 公平な統一表現を学習するために、公平さに敏感な特徴を格納した各プラットフォームに送信し、バイアス付きデータから継承された統一表現からバイアスを取り除くために逆学習を適用する。 さらに,ユーザプライバシを保護するために,サーバの統一表現からプライベート情報をフェアネスに敏感な機能を持つプラットフォームに送信する前に削除する,対照的な対向学習手法を提案する。 実世界の3つのデータセットの実験により,ユーザのプライバシをよく保護したモデルフェアネスを効果的に改善できることを確認した。

Vertical federated learning (VFL) is a privacy-preserving machine learning paradigm that can learn models from features distributed on different platforms in a privacy-preserving way. Since in real-world applications the data may contain bias on fairness-sensitive features (e.g., gender), VFL models may inherit bias from training data and become unfair for some user groups. However, existing fair machine learning methods usually rely on the centralized storage of fairness-sensitive features to achieve model fairness, which are usually inapplicable in federated scenarios. In this paper, we propose a fair vertical federated learning framework (FairVFL), which can improve the fairness of VFL models. The core idea of FairVFL is to learn unified and fair representations of samples based on the decentralized feature fields in a privacy-preserving way. Specifically, each platform with fairness-insensitive features first learns local data representations from local features. Then, these local representations are uploaded to a server and aggregated into a unified representation for the target task. In order to learn a fair unified representation, we send it to each platform storing fairness-sensitive features and apply adversarial learning to remove bias from the unified representation inherited from the biased data. Moreover, for protecting user privacy, we further propose a contrastive adversarial learning method to remove private information from the unified representation in server before sending it to the platforms keeping fairness-sensitive features. Experiments on three real-world datasets validate that our method can effectively improve model fairness with user privacy well-protected.
翻訳日:2023-02-19 17:32:16 公開日:2022-10-31
# 公正テキスト分類のための条件付き教師付きコントラスト学習

Conditional Supervised Contrastive Learning for Fair Text Classification ( http://arxiv.org/abs/2205.11485v2 )

ライセンス: Link先を確認
Jianfeng Chi, William Shand, Yaodong Yu, Kai-Wei Chang, Han Zhao, Yuan Tian(参考訳) コントラスト表現学習は画像データとシーケンシャルデータの両方から表現を学習する際の優れた性能から注目されている。 しかし、学習された表現は、有害なコメント分類における過度の表現されたグループのサイレンシングの増加など、下流のタスクにおけるパフォーマンスの格差につながる可能性がある。 この課題を踏まえ、本研究では、対照的な学習を通してテキスト分類のための等化奇数として知られる公平性の概念を満たす学習公正表現について研究する。 具体的には,まず,フェアネス制約付き学習表現と条件付き教師付き対照目的との関係を理論的に解析し,その後,条件付き教師付き対照目的を用いてテキスト分類の公正表現を学習することを提案する。 テキスト分類のための既存のベースライン間のタスク性能とバイアス軽減のトレードオフのバランスをとるために,2つのテキストデータセットの実験を行った。 さらに,提案手法は異なるハイパーパラメータ設定で安定であることを示す。

Contrastive representation learning has gained much attention due to its superior performance in learning representations from both image and sequential data. However, the learned representations could potentially lead to performance disparities in downstream tasks, such as increased silencing of underrepresented groups in toxicity comment classification. In light of this challenge, in this work, we study learning fair representations that satisfy a notion of fairness known as equalized odds for text classification via contrastive learning. Specifically, we first theoretically analyze the connections between learning representations with a fairness constraint and conditional supervised contrastive objectives, and then propose to use conditional supervised contrastive objectives to learn fair representations for text classification. We conduct experiments on two text datasets to demonstrate the effectiveness of our approaches in balancing the trade-offs between task performance and bias mitigation among existing baselines for text classification. Furthermore, we also show that the proposed methods are stable in different hyperparameter settings.
翻訳日:2023-02-19 17:09:43 公開日:2022-10-31
# 悪で狂ったり調理されたりんご:人間とAIの軍事チームにおける違法な標的の責任

Bad, mad and cooked apples: Responsibility for unlawful targeting in human-AI military teams ( http://arxiv.org/abs/2211.06326v1 )

ライセンス: Link先を確認
Susannah Kate Devitt(参考訳) 国家の責任は、道徳的障害からの保護や、その行動に対する責任の不正な帰属を含む紛争における人間の幸福を事前に予測し、保護することである。 本稿では,Neta Crawford氏の章“When Soldiers Snap: Bad Apples and Mad Apples, in Accountability for Killing: Moral responsibility for collateral damage in America's post 911 wars”から引用した,人間のAIチームによる不正殺人の責任について考察する。 この論文は、軍隊は戦争犯罪に責任を負う悪いりんごや、戦争中の行動に責任を負うことができない狂ったりんごを持っているかもしれないが、次第に軍隊はAIで決定を下すのが難しい環境に置かれることによって、良いりんごを調理するようになると論じている。 調理されたリンゴは合理的な限界を超えて、状況認識の喪失、認知過剰、機関の喪失、自動化バイアスにつながる自律性の喪失につながる可能性がある。 これらのケースでは、道徳的責任とおそらくは違法な死に対する法的責任が、調理されたリンゴに対して争われ、オペレーターが道徳的な残酷なゾーンになるリスクを冒し、あるいは国家によって認可されたより大きな人間のAIシステムの一部であることによる道徳的損害を被る可能性がある。 国家は人間に対するリスクを最小限に抑え、人間のAI軍事チームにおける法的義務を遵守し、決定を下したり実施するために使用される軍事システムに責任を負う。 論文は、人間のAI部隊のリスクを予測し軽減するために、紛争にシステムを展開する前に、WHSフレームワークを開発、取得、訓練する上で最も実践することが示唆されている。

A Nation's responsibility is to predict in advance and protect human wellbeing in conflict including protection from moral injury and unjust attribution of responsibility for their actions. This position paper considers responsibility for unlawful killings by human AI teams drawing on a metaphor from Neta Crawford's chapter, When Soldiers Snap: Bad Apples and Mad Apples, in Accountability for Killing: Moral responsibility for collateral damage in America's post 911 wars. This paper contends that although militaries may have some bad apples responsible for war crimes and some mad apples unable to be responsible for their actions during a conflict, increasingly militaries may cook their good apples by putting them in untenable decision making environments with AI. A cooked apple may be pushed beyond reasonable limits leading to a loss of situational awareness, cognitive overload, loss of agency and autonomy leading to automation bias. In these cases, moral responsibility and perhaps even legal responsibility for unlawful deaths may be contested for cooked apples, risking operators becoming moral crumple zones and or suffering moral injury from being part of larger human AI systems authorised by the state. Nations are responsible for minimising risks to humans within reasonable bounds and compliance with legal obligations in human AI military teams, and the military systems used to make or implement decisions. The paper suggests that best practise WHS frameworks might be drawn on in development, acquisition and training ahead of deployment of systems in conflicts to predict and mitigate risks of human AI military teams.
翻訳日:2023-02-19 12:25:02 公開日:2022-10-31
# 黒人社会におけるデジタル安全とプライバシ支援の景観

Examining the Landscape of Digital Safety and Privacy Assistance for Black Communities ( http://arxiv.org/abs/2210.17511v1 )

ライセンス: Link先を確認
Nikita Samarin, Aparna Krishnan, Moses Namara, Joanne Ma, Elissa M. Redmiles(参考訳) 最近の出来事は、米国や他の国における人種的正義の問題に再び焦点を当てている。 この問題の1つの側面は、カラーコミュニティが直面しているセキュリティとプライバシーの脅威と脆弱性である。 本研究は,既存のデジタル・セーフティとプライバシーの脅威を黒人コミュニティに知らせるワークショップ,クリニック,その他のイニシアティブを組織するコミュニティレベルの支持者に焦点をあてたものである。 さらに,これらのイニシアチブに参加する参加者のオンラインセキュリティとプライバシニーズと態度を理解することを目指す。 私たちは、支持者が異なる状況でどのように働き、どのような指導方法が効果的かを理解することで、他のデジタル安全専門家や活動家がコミュニティ内で支持者になるのを助けることを望んでいる。

Recent events have placed a renewed focus on the issue of racial justice in the United States and other countries. One dimension of this issue that has received considerable attention is the security and privacy threats and vulnerabilities faced by the communities of color. Our study focuses on community-level advocates who organize workshops, clinics, and other initiatives that inform Black communities about existing digital safety and privacy threats and ways to mitigate against them. Additionally, we aim to understand the online security and privacy needs and attitudes of participants who partake in these initiatives. We hope that by understanding how advocates work in different contexts and what teaching methods are effective, we can help other digital safety experts and activists become advocates within their communities.
翻訳日:2023-02-19 12:08:23 公開日:2022-10-31
# コミュニケーション行動の視点からみたソーシャルメディアにおける意見変化の言語

The language of opinion change on social media under the lens of communicative action ( http://arxiv.org/abs/2210.17234v1 )

ライセンス: Link先を確認
Corrado Monti, Luca Maria Aiello, Gianmarco De Francisci Morales, Francesco Bonchi(参考訳) リスナーの意見の変化を促すのに、どのメッセージがより効果的か? 我々は、メッセージ(実用的意味)の不正な意図が鍵であると仮定するハバーマスのコミュニケーション行動理論の枠組みの中で、この疑問にアプローチする。 近年の自然言語処理の進歩により、メッセージの潜在的な社会的次元、すなわち、社会的交換理論に由来する言語の社会的意図の原型を抽出することで、この理論を運用することができる。 我々は、Redditのr/ChangeMyViewで46万以上の投稿と3.5万以上のコメントを見て、意見を変えるための重要な要素を特定します。 意図を示さないコメントは、少なくとも1つの社会的次元を伝えるコメントに比べて、受取人の心を変える可能性が約77%低い。 様々な社会的次元の中で、意見の変化を引き起こす可能性が高いのは知識、類似性、信頼であり、これはハーバーマスのコミュニケーション行動の理論と共鳴する。 また、パワーへのアピールやサポートの共感的な表現など、他の新たな重要な次元も見つけています。 最後に, コンフリクトを現代ソーシャルメディアの禁止とみなす一般的な特徴とは対照的に, コンフリクトを構造化された公開討論の文脈でボイシングすることは, 特に他のコンフリクト的なスタンスに対処するために, 統合を促進することを示唆している。 自然言語処理の最近の進歩を活用して、我々の研究はHabermasの理論の実証的な枠組みを提供し、その野生における影響の具体的な例を見つけ、言語における社会的次元として解釈された意図のより面的な理解による拡張の可能性を提案する。

Which messages are more effective at inducing a change of opinion in the listener? We approach this question within the frame of Habermas' theory of communicative action, which posits that the illocutionary intent of the message (its pragmatic meaning) is the key. Thanks to recent advances in natural language processing, we are able to operationalize this theory by extracting the latent social dimensions of a message, namely archetypes of social intent of language, that come from social exchange theory. We identify key ingredients to opinion change by looking at more than 46k posts and more than 3.5M comments on Reddit's r/ChangeMyView, a debate forum where people try to change each other's opinion and explicitly mark opinion-changing comments with a special flag called "delta". Comments that express no intent are about 77% less likely to change the mind of the recipient, compared to comments that convey at least one social dimension. Among the various social dimensions, the ones that are most likely to produce an opinion change are knowledge, similarity, and trust, which resonates with Habermas' theory of communicative action. We also find other new important dimensions, such as appeals to power or empathetic expressions of support. Finally, in line with theories of constructive conflict, yet contrary to the popular characterization of conflict as the bane of modern social media, our findings show that voicing conflict in the context of a structured public debate can promote integration, especially when it is used to counter another conflictive stance. By leveraging recent advances in natural language processing, our work provides an empirical framework for Habermas' theory, finds concrete examples of its effects in the wild, and suggests its possible extension with a more faceted understanding of intent interpreted as social dimensions of language.
翻訳日:2023-02-19 12:07:37 公開日:2022-10-31
# 位相遷移測定のためのニューラルネットワークデコーダ

Neural-Network Decoders for Measurement Induced Phase Transitions ( http://arxiv.org/abs/2204.10904v2 )

ライセンス: Link先を確認
Hossein Dehghani, Ali Lavasani, Mohammad Hafezi, Michael J. Gullans(参考訳) オープン量子系は、エキゾチックな動的位相を多数持つことが示されている。 観測量子系における測定誘起絡み合い相転移は、この現象の顕著な例である。 しかし、そのような相転移の素早い実現には実験の指数的な回数が必要であり、これは大規模システムでは事実上不可能である。 近年,これらの相転移は参照量子ビットを絡み合わせることで局所的に探索し,その浄化力学を研究することが提案されている。 本研究では、現代の機械学習ツールを活用し、ニューラルネットワークデコーダを考案し、測定結果に基づいて基準量子ビットの状態を決定する。 エンタングルメント位相遷移はデコーダ関数の学習可能性の劇的な変化としてそれ自体を表わす。 本稿では,本手法の複雑さと拡張性について検討し,一般実験における絡み合い相転移の検出に利用する方法について議論する。

Open quantum systems have been shown to host a plethora of exotic dynamical phases. Measurement-induced entanglement phase transitions in monitored quantum systems are a striking example of this phenomena. However, naive realizations of such phase transitions requires an exponential number of repetitions of the experiment which is practically unfeasible on large systems. Recently, it has been proposed that these phase transitions can be probed locally via entangling reference qubits and studying their purification dynamics. In this work, we leverage modern machine learning tools to devise a neural network decoder to determine the state of the reference qubits conditioned on the measurement outcomes. We show that the entanglement phase transition manifests itself as a stark change in the learnability of the decoder function. We study the complexity and scalability of this approach and discuss how it can be utilized to detect entanglement phase transitions in generic experiments.
翻訳日:2023-02-16 00:50:19 公開日:2022-10-31
# SME係数の極限を用いたGAPモデルの制約

Constraining GUP Models Using Limits on SME Coefficients ( http://arxiv.org/abs/2205.02044v4 )

ライセンス: Link先を確認
Andr\'e H. Gomes(参考訳) 一般化不確実性原理(GUP)と独立に、ローレンツ対称性違反は、多くの量子重力の候補理論において共通の特徴である。 しかし、両者の重複は今のところあまり注目されていない。 本稿では,この話題についてさらなる調査を行う。 非相対論的および可換時空座標の領域において、等方性および異方性gupモデルの大きなクラスが、標準モデル拡張 (sme) によって予測されるものと実験的に区別できない信号を生成することが示され、標準モデルを超えてローレンツ違反現象を研究する共通の枠組みである。 この同定は、SME係数の電流制限を用いてGUPモデルを制約するために用いられる。 特に、異方性 GUP モデル上のバウンドは、現在の分光的バウンドと比較して 10^{7}$ の係数で改善され、異方性モデルが初めて制約される。

Generalized uncertainty principles (GUP) and, independently, Lorentz symmetry violations are two common features in many candidate theories of quantum gravity. Despite that, the overlap between both has received limited attention so far. In this brief paper, we carry out further investigations on this topic. At the nonrelativistic level and in the realm of commutative spacetime coordinates, a large class of both isotropic and anisotropic GUP models is shown to produce signals experimentally indistinguishable from those predicted by the Standard Model Extension (SME), the common framework for studying Lorentz-violating phenomena beyond the Standard Model. This identification is used to constrain GUP models using current limits on SME coefficients. In particular, bounds on isotropic GUP models are improved by a factor of $10^{7}$ compared to current spectroscopic bounds and anisotropic models are constrained for the first time.
翻訳日:2023-02-14 09:07:45 公開日:2022-10-31
# 光のコヒーレント状態を用いた量子微視的可逆性実証

Demonstrating Quantum Microscopic Reversibility Using Coherent States of Light ( http://arxiv.org/abs/2205.13089v2 )

ライセンス: Link先を確認
Marco Bellini, Hyukjoon Kwon, Nicola Biagi, Saverio Francesconi, Alessandro Zavatta, M. S. Kim(参考訳) 微視的可逆性の原理は揺らぎの定理の核であり、熱力学の第2法則の理解を統計レベルにまで広げた。 しかし、量子系では、系エネルギーは与えられた量子位相空間点で鋭く決定できないため、この基本原理は修正されるべきである。 本稿では,量子系が熱浴と相互作用したときの微視的可逆性の量子一般化をエネルギー保存ユニタリダイナミクスを通じて実験的に検証する。 量子効果は、系のエネルギー固有状態の間の量子コヒーレンスの存在において、後進過程があまり起こらないことに注意することで同定することができる。 実験はビームスプリッター内でのコヒーレントと熱状態の混合と、光学装置でのヘテロダイン検出によって実現されている。 微視的可逆性原理に対する量子修正が低温限界において重要であることを検証し、熱場の温度が高くなると量子-古典遷移が観測される。

The principle of microscopic reversibility lies at the core of fluctuation theorems, which have extended our understanding of the second law of thermodynamics to the statistical level. In the quantum regime, however, this elementary principle should be amended as the system energy cannot be sharply determined at a given quantum phase space point. In this Letter, we propose and experimentally test a quantum generalization of the microscopic reversibility when a quantum system interacts with a heat bath through energy-preserving unitary dynamics. Quantum effects can be identified by noting that the backward process is less likely to happen in the existence of quantum coherence between the system's energy eigenstates. The experimental demonstration has been realized by mixing coherent and thermal states in a beam-splitter, followed by heterodyne detection in an optical setup. We verify that the quantum modification for the principle of microscopic reversibility is critical in the low-temperature limit, while the quantum-to-classical transition is observed as the temperature of the thermal field gets higher.
翻訳日:2023-02-11 16:51:52 公開日:2022-10-31
# チップ上の完全集積無線周波数システムによる超伝導量子プロセッサの測定と制御

Measurement and control of a superconducting quantum processor with a fully-integrated radio-frequency system on a chip ( http://arxiv.org/abs/2205.15253v3 )

ライセンス: Link先を確認
Mats O. Thol\'en, Riccardo Borgani, Giuseppe Ruggero Di Carlo, Andreas Bengtsson, Christian Kri\v{z}an, Marina Kudra, Giovanna Tancredi, Jonas Bylander, Per Delsing, Simone Gasparinetti, David B. Haviland(参考訳) 複数の量子ビット(量子ビット)の測定と制御のために設計され,第3世代無線周波数システムに基づく,Prestoと呼ばれるディジタル電子レンジプラットフォームについて述べる。 Prestoは直接デジタル合成を使用して、16の同期出力ポートで最大9GHzの信号を生成し、同時に16の入力ポートで応答を同期解析する。 Prestoは16のDCバイアス出力、デジタルトリガーまたはマーカーのための4つのインプット、および15GHzまでの周波数を合成するための2つの連続波出力を持つ。 多数のキュービットへのスケーリングは、複数のPrestoユニットの決定論的同期によって実現される。 pythonアプリケーションプログラミングインタフェースは、イベントシーケンサによって調整されたパルスの合成と解析のためのファームウェアを構成する。 この分析はテンプレートマッチング(マッチングフィルタリング)と低レイテンシ(184 - 254 ns)のフィードバックを統合し、幅広いマルチキュービット実験を可能にする。 本研究では,2つの超伝導量子ビットをフラックスチューナブルカップラで接続したサンプルを用いて,Prestoの能力を実証する。 単一キュービットのシングルショット読み出しとアクティブリセット、99.972%の忠実度を示す単一キュービットゲートのランダム化ベンチマーク、および2キュービットのiSWAPゲートのキャリブレーションを示す。

We describe a digital microwave platform called Presto, designed for measurement and control of multiple quantum bits (qubits) and based on the third-generation radio-frequency system on a chip. Presto uses direct digital synthesis to create signals up to 9 GHz on 16 synchronous output ports, while synchronously analyzing response on 16 input ports. Presto has 16 DC-bias outputs, 4 inputs and 4 outputs for digital triggers or markers, and two continuous-wave outputs for synthesizing frequencies up to 15 GHz. Scaling to a large number of qubits is enabled through deterministic synchronization of multiple Presto units. A Python application programming interface configures a firmware for synthesis and analysis of pulses, coordinated by an event sequencer. The analysis integrates template matching (matched filtering) and low-latency (184 - 254 ns) feedback to enable a wide range of multi-qubit experiments. We demonstrate Presto's capabilities with experiments on a sample consisting of two superconducting qubits connected via a flux-tunable coupler. We show single-shot readout and active reset of a single qubit; randomized benchmarking of single-qubit gates showing 99.972% fidelity, limited by the coherence time of the qubit; and calibration of a two-qubit iSWAP gate.
翻訳日:2023-02-11 06:33:34 公開日:2022-10-31
# 遅延チョイス量子消去器における非局所量子相関のコヒーレンス解釈

Coherence interpretation of nonlocal quantum correlation in a delayed-choice quantum eraser ( http://arxiv.org/abs/2206.05358v3 )

ライセンス: Link先を確認
Byoung S. Ham(参考訳) ベルの不等式違反は量子エンタングルメントの定量的測定ツールである。 量子エンタングルメントは量子情報科学の中心であり、リモートで分離された局所検出器間の非局所相関は量子力学のユニークな性質を示す。 過去数十年間、量子相関の基礎物理学と量子技術への潜在的な応用に関する集中的な研究が続けられてきた。 そこで,遅延チョース量子消去器の単純な干渉計において,非局所相関に対する一致検出の役割について検討した。 結合パラメータ関係に基づく非局所量子特徴を理解するため、干渉計からの2つの出力光子間の一致検出をベル不等式違反に対して不可分な強度生成方法で解析する。 この理解に基づき、減衰レーザーを用いた量子エンタングルメント生成の逆直観的コヒーレンスバージョンが提案されている。

Bell inequality violation is a quantitative measurement tool for quantum entanglement. Quantum entanglement is the heart of quantum information science, in which the resulting nonlocal correlation between remotely separated local detectors shows a unique property of quantum mechanics. Over the last few decades, intensive researches have been conducted for the basic physics of quantum correlation as well as its potential applications to quantum technologies. Here, the role of coincidence detection is investigated for the nonlocal correlation in a simple interferometer of the delayed-choice quantum eraser. To understand the nonlocal quantum feature based on a joint-parameter relation, coincidence detection between two output photons from the interferometer is analyzed for Bell inequality violations in an inseparable intensity-product manner. Based on this understanding, a counterintuitive coherence version of the quantum entanglement generation is proposed for the use of an attenuated laser.
翻訳日:2023-02-09 22:56:01 公開日:2022-10-31
# Qutrits を用いた量子画像表現法

Quantum Image Representation Methods Using Qutrits ( http://arxiv.org/abs/2207.09096v2 )

ライセンス: Link先を確認
Ankit Khandelwal and M Girish Chandra(参考訳) 量子画像処理は、最近の量子コンピューティング分野のハイライトである。 画像を量子状態として表現する以前のすべての方法は、量子ビットを用いて定義された。 1つの量子画像表現(qir)法がクトリッツを用いて文献に残されている。 本稿では、量子ビット法と量子ビットの高次状態空間にインスパイアされた複数のQIR法について述べる。 表現に必要な3次量子ゲートが記述され、5つのクォートベースのQIR法の実装詳細が与えられる。 すべてのメソッドはソフトウェアでシミュレートされ、サンプル回路が提供されている。

Quantum Image Processing is a recent highlight in the quantum computing field. All previous methods for representing the images as quantum states were defined using qubits. One Quantum Image Representation (QIR) method using qutrits is present in the literature. Inspired by the qubit methods and the higher state-space available for qutrits, multiple QIR methods using qutrits are worked out in this paper. The ternary quantum gates required for the representations are described, and then the implementation details for five qutrit-based QIR methods are given. All the methods have been simulated in software, and example circuits are provided.
翻訳日:2023-02-04 13:18:05 公開日:2022-10-31
# 量子コンピュータにおける実効的で効率的なLanczos法

Exact and efficient Lanczos method on a quantum computer ( http://arxiv.org/abs/2208.00567v3 )

ライセンス: Link先を確認
William Kirby, Mario Motta, and Antonio Mezzacapo(参考訳) 本稿では,量子コンピュータ上でブロック符号化を用いてクリロフ空間を正確に構築するアルゴリズムを提案する。 古典的なLanczos法は量子系のクリロフ状態を表すためにシステムサイズが指数関数的なコストを持つが、効率的な量子アルゴリズムは多項式時間とメモリでこれを実現できる。 提示された構成は、結果のクリロフ空間がランツォス法と同一であるという意味では正確であるため、ランツォス法に関する唯一の近似は有限サンプルノイズによるものである。 これは、以前のランチョス法の量子バージョンとは異なり、本アルゴリズムは実時間や虚数時間の進化をシミュレートする必要がないため可能である。 ノイズが存在する場合、結果として生じる基底状態エネルギー推定のための明示的なエラーバウンドを提供する。 この方法が成功するためには、入力問題の唯一の要件は、初期状態と真の基底状態との重なり合いが$\Omega(1/\text{poly}(n))$ for $n$ qubitsでなければならないことである。

We present an algorithm that uses block encoding on a quantum computer to exactly construct a Krylov space, which can be used as the basis for the Lanczos method to estimate extremal eigenvalues of Hamiltonians. While the classical Lanczos method has exponential cost in the system size to represent the Krylov states for quantum systems, our efficient quantum algorithm achieves this in polynomial time and memory. The construction presented is exact in the sense that the resulting Krylov space is identical to that of the Lanczos method, so the only approximation with respect to the Lanczos method is due to finite sample noise. This is possible because, unlike previous quantum versions of the Lanczos method, our algorithm does not require simulating real or imaginary time evolution. We provide an explicit error bound for the resulting ground state energy estimate in the presence of noise. For this method to be successful, the only requirement on the input problem is that the overlap of the initial state with the true ground state must be $\Omega(1/\text{poly}(n))$ for $n$ qubits.
翻訳日:2023-02-02 19:11:47 公開日:2022-10-31
# ナノフォトニクスへの応用のためのファンデルワールス材料

Van der Waals Materials for Applications in Nanophotonics ( http://arxiv.org/abs/2208.06249v2 )

ライセンス: Link先を確認
Panaiot G. Zotev, Yue Wang, Daniel Andres-Penares, Toby Severs Millard, Sam Randerson, Xuerong Hu, Luca Sortino, Charalambos Louca, Mauro Brotons-Gisbert, Tahiyat Huq, Stefano Vezzoli, Riccardo Sapienza, Thomas F. Krauss, Brian Gerardot, Alexander I. Tartakovskii(参考訳) 多くの光学現象と応用がナノフォトニック構造によって実現されている。 シリコンやガリウムなどの高屈折率誘電体からの現在の製造は製造の困難を抑え、金属はプラズモンに依存して高いオーミック損失を示し、達成可能な用途を制限している。 本稿では、ナノフォトニクスプラットフォームとして、ファンデルワールス結晶(vdW)と呼ばれる層状結晶を新たに導入する。 機械的に剥離した薄膜(20-200nm)のファンデルワールス結晶の誘電応答を抽出し,高い屈折率をn=5まで,鋭吸光共鳴による2屈折率を$\Delta$n=3まで,紫外から近赤外への透光窓の範囲を抽出した。 次に, SiO$_2$および金上にナノアンテナを作製し, 様々な基板とのVdW薄膜の相溶性を利用した。 SiO$_2$の高屈折率コントラストによるミエ共鳴は強い励起子-光子カップリング機構をもたらすとともに、金上での高品質なハイブリッドミエプラズマモードも探索されていない。 ナノアンテナを積層した結晶薄膜から実現し, 非線形光学特性の制御, および高感度材料を用いたナノ光学にとって重要なポストファブリケーションナノ構造移動を実現することにより, 製造の自由度をさらに向上させる。

Numerous optical phenomena and applications have been enabled by nanophotonic structures. Their current fabrication from high refractive index dielectrics, such as silicon or gallium phosphide, pose restricting fabrication challenges, while metals, relying on plasmons and thus exhibiting high ohmic losses, limit the achievable applications. Here, we present an emerging class of layered so-called van der Waals (vdW) crystals as a viable nanophotonics platform. We extract the dielectric response of 11 mechanically exfoliated thin-film (20-200 nm) van der Waals crystals, revealing high refractive indices up to n = 5, pronounced birefringence up to $\Delta$n = 3, sharp absorption resonances, and a range of transparency windows from ultraviolet to near-infrared. We then fabricate nanoantennas on SiO$_2$ and gold utilizing the compatibility of vdW thin films with a variety of substrates. We observe pronounced Mie resonances due to the high refractive index contrast on SiO$_2$ leading to a strong exciton-photon coupling regime as well as largely unexplored high-quality-factor, hybrid Mie-plasmon modes on gold. We demonstrate further vdW-material-specific degrees of freedom in fabrication by realizing nanoantennas from stacked twisted crystalline thin-films, enabling control of nonlinear optical properties, and post-fabrication nanostructure transfer, important for nano-optics with sensitive materials.
翻訳日:2023-01-31 08:36:13 公開日:2022-10-31
# 有限群の量子表現

Quantum representation of finite groups ( http://arxiv.org/abs/2209.15025v2 )

ライセンス: Link先を確認
Ruge Lin(参考訳) 本稿では、与えられた有限群の各要素を量子コンピュータの回路である有効な量子演算子にマッピングする2つの方法を提案する。 最初の例では、群の忠実なユニタリ表現を別のユニタリ表現と直接結合し、量子作用素として働くのに適した新しいユニタリ行列を得る。 第2の例では、変分量子アルゴリズムが群の絶対表現後に訓練され、量子回路を構成する。 明示的な例と数値シミュレーションが提供される。

In this article, we offer two methods to map each element of a given finite group into an effective quantum operator, which is a circuit for a quantum computer. In the first one, we directly sum the faithful unitary representation of the group with another unitary representation to obtain a new unitary matrix suitable to act as a quantum operator. In the second one, a Variational Quantum Algorithm is trained after the absolute presentation of the group to construct the quantum circuits. Explicit examples and numerical simulations are provided.
翻訳日:2023-01-24 10:05:31 公開日:2022-10-31
# 格子ゲージシミュレータにおける相互熱化と量子臨界

Interrelated Thermalization and Quantum Criticality in a Lattice Gauge Simulator ( http://arxiv.org/abs/2210.17032v1 )

ライセンス: Link先を確認
Han-Yi Wang, Wei-Yong Zhang, Zhi-Yuan Yao, Ying Liu, Zi-Hang Zhu, Yong-Guang Zheng, Xuan-Kai Wang, Hui Zhai, Zhen-Sheng Yuan, Jian-Wei Pan(参考訳) ゲージ理論と熱化はどちらも物理学の基礎であり、現代の量子科学と技術にとって重要なトピックである。 最近実現された格子ゲージ理論(lgts)と超低温原子をシミュレートすることは、ゲージ理論と熱化の相関研究を同じ設定で行う唯一の機会となる。 理論的研究により、イジング量子相転移がこの実装されたlgtに存在することが示され、量子熱分解もこの相転移を示唆することができる。 それでも、臨界点を正確に決定し、局所的に物質やゲージ場を操作・検出する技術がないため、量子臨界状態における熱化ダイナミクスを制御的に探索することは実験的な課題である。 本稿では,シングルサイトアドレッシングと原子数解決検出をlgtシミュレータに組み込むことにより,平衡および非平衡熱化の観点からlgtの量子臨界性について実験的に検討する。 予測値と一致する量子臨界点を正確に決定する。 我々は |z_{2}\rangle$ 状態を決定論的に準備し、その臨界点全体の熱化ダイナミクスを調べ、この $|z_{2}\rangle$ 状態が臨界領域でのみ熱化するのを観測する。 この結果は、量子多体傷、量子臨界度、対称性の破れの間の相互作用を示す。

Gauge theory and thermalization are both foundations of physics and nowadays are both topics of essential importance for modern quantum science and technology. Simulating lattice gauge theories (LGTs) realized recently with ultracold atoms provides a unique opportunity for carrying out a correlated study of gauge theory and thermalization in the same setting. Theoretical studies have shown that an Ising quantum phase transition exists in this implemented LGT, and quantum thermalization can also signal this phase transition. Nevertheless, it remains an experimental challenge to accurately determine the critical point and controllably explore the thermalization dynamics in the quantum critical regime due to the lack of techniques for locally manipulating and detecting matter and gauge fields. Here, we report an experimental investigation of the quantum criticality in the LGT from both equilibrium and non-equilibrium thermalization perspectives by equipping the single-site addressing and atom-number-resolved detection into our LGT simulator. We accurately determine the quantum critical point agreed with the predicted value. We prepare a $|Z_{2}\rangle$ state deterministically and study its thermalization dynamics across the critical point, leading to the observation that this $|Z_{2}\rangle$ state thermalizes only in the critical regime. This result manifests the interplay between quantum many-body scars, quantum criticality, and symmetry breaking.
翻訳日:2023-01-20 22:29:44 公開日:2022-10-31
# マルチバンド非エルミタン系における例外的非アーベル位相

Exceptional Non-Abelian Topology in Multiband Non-Hermitian Systems ( http://arxiv.org/abs/2210.17031v1 )

ライセンス: Link先を確認
Cui-Xian Guo, Shu Chen, Kun Ding, and Haiping Hu(参考訳) 例外点 (ep) として知られる欠陥スペクトル縮退は、光学系、音響学、その他の非保存系の様々な興味深い現象の中心にある。 過去20年間にわたる広範な研究にもかかわらず、複数の例外点や線を含む「textit{collective}」の行動(例えば、消滅、合体、編曲など)とその相互作用はほとんど理解されていない。 ここでは、一般多バンド非エルミート系におけるこれらの集合的挙動を管理する普遍的非アーベル的保存則を提案し、いくつかの反直観的現象を明らかにする。 正反対の電荷を持つ2つのEPは、互いにどのように接近するかによって必ずしも消滅しないことを示した。 さらに,保存規則は許容可能な例外行構成に厳格な制約を課していることを明らかにした。 ホップリンクのような構造は除外するが、非可換例外直線からなる新しいスタッガー環を許す。 これらの興味深い現象は、結合音響共振器、光導波路、リング共振器のようなプラットフォームに容易に実装できるコンクリートモデルによって示される。 我々の発見は、非アベリア位相の包括的理解の基盤となり、非保守系における例外的退化に基づく汎用的な操作と応用に光を当てた。

Defective spectral degeneracy, known as exceptional point (EP), lies at the heart of various intriguing phenomena in optics, acoustics, and other non-conservative systems. Despite extensive studies in the past two decades, the \textit{collective} behaviors (e.g., annihilation, coalescence, braiding, etc.) involving multiple exceptional points or lines and their interplay have been rarely understood. Here we put forward a universal non-Abelian conservation rule governing these collective behaviors in generic multiband non-Hermitian systems and uncover several counter-intuitive phenomena. We demonstrate that two EPs with opposite charges (even the pairwise created) do not necessarily annihilate, depending on how they approach each other. Furthermore, we unveil that the conservation rule imposes strict constraints on the permissible exceptional-line configurations. It excludes structures like Hopf link yet permits novel staggered rings composed of non-commutative exceptional lines. These intriguing phenomena are illustrated by concrete models which could be readily implemented in platforms like coupled acoustic cavities, optical waveguides, and ring resonators. Our findings lay the cornerstone for a comprehensive understanding of the exceptional non-Abelian topology and shed light on the versatile manipulations and applications based on exceptional degeneracies in non-conservative systems.
翻訳日:2023-01-20 22:29:22 公開日:2022-10-31
# 強い「スピン」軌道結合1次元ホールガスの2バンド記述

Two-band description of the strong `spin'-orbit coupled one-dimensional hole gas ( http://arxiv.org/abs/2210.17002v1 )

ライセンス: Link先を確認
Rui Li and Xin-Yu Qi(参考訳) 強い「スピン」軌道結合型1次元ホールガスは強磁場の存在下、無拘束geナノワイヤで実現可能である。 球面近似におけるルッティンガー・コーン・ハミルトニアン(luttinger-kohn hamiltonian)を基礎とすると、この強い「スピン」軌道と結合した一次元ホールガスは、磁場が純粋に縦方向または純粋に横方向である限り、有効な2バンドハミルトニアン$h^{\rm ef}=\hbar^{2}k^{2}_{z}/(2m^{*}_{h})+\alpha\sigma^{z}k_{z}+g^{*}_{h}\mu_{b}b\sigma^{x}/2$ で正確に記述できる。 Spin'-軌道結合$\alpha\equiv\alpha(B)$と有効$g$-factor $g^{*}_{h}\equiv\,g^{*}_{h}(B)$の明示的な磁場依存式が与えられる。 磁場が任意の方向に印加されると、2バンドハミルトニアン記述は依然として良い近似である。

Strong `spin'-orbit coupled one-dimensional hole gas is achievable in an unstrained Ge nanowire in the presence of a strong magnetic field. Basing on the Luttinger-Kohn Hamiltonian in the spherical approximation, we show this strong `spin'-orbit coupled one-dimensional hole gas can be accurately described by an effective two-band Hamiltonian $H^{\rm ef}=\hbar^{2}k^{2}_{z}/(2m^{*}_{h})+\alpha\sigma^{z}k_{z}+g^{*}_{h}\mu_{B}B\sigma^{x}/2$, as long as the magnetic field is purely longitudinal or purely transverse. The explicit magnetic field dependent expressions of the `spin'-orbit coupling $\alpha\equiv\alpha(B)$ and the effective $g$-factor $g^{*}_{h}\equiv\,g^{*}_{h}(B)$ are given. When the magnetic field is applied in an arbitrary direction, the two-band Hamiltonian description is still a good approximation.
翻訳日:2023-01-20 22:28:57 公開日:2022-10-31
# Lindblad構造を利用した絡み合いの検出

Detecting entanglement harnessing Lindblad structure ( http://arxiv.org/abs/2210.17204v1 )

ライセンス: Link先を確認
Vaibhav Chimalgi, Bihalan Bhattacharya, Suchetana Goswami, and Samyadeb Bhattacharya(参考訳) 絡み合い検出の問題は、量子情報理論における長期にわたる問題である。 絡み合いを検出する主な方法の1つは、適切な正であるが不完全正の写像を見つけることである。 ここでは,このようなシナリオに有用な正のマップを構築するための汎用的な処方を試みる。 我々はリンドブラッド構造から生じる正の写像のクラスを研究する。 2つの有名な正の写像 viz.transposition と choi map は、リンドブラッド構造を持つ正の写像のクラスを特別な場合として得ることができる。 1つのパラメーター族への転置写像を一般化することで、真の多部絡みを検出する。 最後に、エンタングルメントの負性によって動機づけられ、真のマルチパーティントエンタングルメントに対して同様の尺度を定義した。

The problem of entanglement detection is a long standing problem in quantum information theory. One of the primary procedures of detecting entanglement is to find the suitable positive but non-completely positive maps. Here we try to give a generic prescription to construct a positive map that can be useful for such scenarios. We study a class of positive maps arising from Lindblad structures. We show that two famous positive maps viz. transposition and Choi map can be obtained as a special case of a class of positive maps having Lindblad structure. Generalizing the transposition map to a one parameter family we have used it to detect genuine multipartite entanglement. Finally being motivated by the negativity of entanglement, we have defined a similar measure for genuine multipartite entanglement.
翻訳日:2023-01-20 22:26:05 公開日:2022-10-31
# 1次元バッグ内のフェルミオン場に対するlandauerのprincple

Landauer's princple for Fermionic field in one dimensional bag ( http://arxiv.org/abs/2210.17158v1 )

ライセンス: Link先を確認
Yu-Song Cao, YanXia Liu, Rong Zhang(参考訳) ディラック場に線形に結合したunruh-dewitt検出器のランダウアー原理を1 + 1$ 次元キャビティで研究する。 磁場の初期状態が真空の場合、熱伝達とフォン・ノイマンエントロピーは摂動的に変化する。 熱状態については、相互作用時間が十分に長く、ウンルー・デウィット検出器がフィールドモードの1つと共鳴している場合に、熱伝達及びエントロピー変化がほぼ得られる。 実際のスカラー場と比較すると、真空初期状態の結果はディラック場のヘリシティと、初期状態が熱的になるとフェルミオンと反フェルミオンの区別性とだけ異なることがわかった。 また、質量を持たないフェルミオン場に対する結果は、粒子 $m\rightarrow 0$ を取ることで得られることを指摘した。 どちらの場合もランダウアーの原理を満たすことが分かる。

We study the Landauer's principle of an Unruh-DeWitt detector linearly coupled to Dirac field in $1 + 1$ dimensional cavity. When the initial state of the field is vacuum, we obtain the heat transfer and von Neumann entropy change perturbatively. For the thermal state, the heat transfer and entropy change are approximately obtained in the case where the interaction time is long enough and the Unruh-DeWitt detector is in resonance with one of the field mode. Compared to the real scalar field, we find the results of vacuum initial state differs solely from the helicity of the Dirac field and the distinguishablity of fermion and anti-fermion comes into play when the initial state is thermal. We also point out that the results for massless fermionic field can be obtained by taking the particle $m\rightarrow 0$. We find that in both cases satisfy Landauer's principle.
翻訳日:2023-01-20 22:25:54 公開日:2022-10-31
# 繊維中に発生する超高速強度差圧パルス対の時間領域測定

Time-domain measurement of ultra-fast intensity difference squeezed pulse pairs generated in fiber ( http://arxiv.org/abs/2210.17124v1 )

ライセンス: Link先を確認
Wen Zhao, Xueshi Guo and Xiaoying Li(参考訳) 光ファイバにおける$\chi^{(3)}$非線形によるパルス励起4波混合プロセスは、連続的な可変量子相関を持つ光パルスを生成することができる。 しかし、この系で生成されたパルスの対方向相関は研究されていない。 ここでは,繊維内で発生する強度差抑制状態の時間領域測定について報告する。 高速応答差分検出システムでは、生成したツインビームパルスがペアワイズ相関を示し、時間領域で-3.8dB(検出損失補正後の8.1dB)の強度差を計測する。 この結果,繊維系における時間分割多重化による多モード絡み合い状態の生成に有用である。

Pulsed pumped four-wave mixing process via $\chi^{(3)}$ non-linearity in optical fiber can generate optical pulses with continuous variable quantum correlation. However, pair-wise correlation of the generated pulses in this system has not been studied. Here we report a time-domain measurement of an intensity difference squeezed state generated in fiber. With a fast response differential detection system, we show the generated twin-beam pulses are pair-wisely correlated, and -3.8 dB (-8.1 dB after detection losses correction) intensity difference squeezing degree is measured in time-domain. Our result is benefit for generating multi-mode entangled state by time-division multiplexing in fiber system.
翻訳日:2023-01-20 22:25:38 公開日:2022-10-31
# 非線形フィードフォワードによる量子計算

Nonlinear feedforward enabling quantum computation ( http://arxiv.org/abs/2210.17120v1 )

ライセンス: Link先を確認
Atsushi Sakaguchi, Shunya Konno, Fumiya Hanamura, Warit Asavanant, Kan Takase, Hisashi Ogawa, Petr Marek, Radim Filip, Jun-ichi Yoshikawa, Elanor Huntington, Hidehiro Yonezawa, Akira Furusawa(参考訳) 光時間領域多重化による計測に基づく量子計算は,スケーラビリティの観点から量子コンピュータを実現する上で有望な方法である。 フォールトトレランスと普遍性は、適切なリソース量子状態と測定結果に基づいて変化する電気光学フィードフォワードを作成することによっても実現可能である。 線形フィードフォワードが実現され、一般的な実験技術となったが、非線形フィードフォワードは今まで実現されていなかった。 本稿では,高速でフレキシブルな非線形フィードフォワードが,フォールトトレラントおよび普遍量子計算に必要な重要な測定値を実現することを実証する。 非ガウス的アンシラリー状態を用いて,古典的真空アンシラに対する測定過剰ノイズの10$-%$低減を観測した。

Measurement-based quantum computation with optical time-domain multiplexing is a promising method to realize a quantum computer from the viewpoint of scalability. Fault tolerance and universality are also realizable by preparing appropriate resource quantum states and electro-optical feedforward that is altered based on measurement results. While a linear feedforward has been realized and become a common experimental technique, nonlinear feedforward was unrealized until now. In this paper, we demonstrate that a fast and flexible nonlinear feedforward realizes the essential measurement required for fault-tolerant and universal quantum computation. Using non-Gaussian ancillary states we observed 10$\%$ reduction of the measurement excess noise relative to classical vacuum ancilla.
翻訳日:2023-01-20 22:25:27 公開日:2022-10-31
# Fermi-Hubbardモデルにおける長距離エンタングルメントと高次元量子テレポーテーション

Long Distance Entanglement and High-Dimensional Quantum Teleportation in The Fermi-Hubbard Model ( http://arxiv.org/abs/2210.17097v1 )

ライセンス: Link先を確認
Sanaa Abaach, Zakaria Mzaouali, and Morad El Baz(参考訳) 有限サイズのFermi-Hubbard鎖とエンドツーエンドの量子テレポーテーションの長距離絡みについて検討した。 我々はFermi-Hubbardモデルの基底状態の特異性を示し、最大長距離絡み合いをサポートし、高忠実長距離量子テレポーテーションのための量子資源として機能させる。 スケーラブルな長距離絡み合いを作るための物理的性質と条件を決定し,クーロン相互作用とホッピング振幅の影響下でその安定性を解析した。 さらに、このプロトコルにおける測定基準の選択は、量子テレポーテーションの忠実度に大きく影響しうることを示し、量子チャネルの健全性、すなわちハバード射影測定を反映した適切な基底を選択することで、完全な情報伝達が達成可能であることを論じる。

The long distance entanglement in finite size open Fermi-Hubbard chains, together with the end-to-end quantum teleportation are investigated. We show the peculiarity of the ground state of the Fermi-Hubbard model to support maximum long distance entanglement, which allows it to operate as a quantum resource for high fidelity long distance quantum teleportation. We determine the physical properties and conditions for creating scalable long distance entanglement and analyze its stability under the effect of the Coulomb interaction and the hopping amplitude. Furthermore, we show that the choice of the measurement basis in the protocol can drastically affect the fidelity of quantum teleportation and we argue that perfect information transfer can be attained by choosing an adequate basis reflecting the salient properties of the quantum channel, i.e. Hubbard projective measurements.
翻訳日:2023-01-20 22:25:14 公開日:2022-10-31
# 衝突モデルにおけるスピン系の量子非定常現象

Quantum non-stationary phenomena of spin systems in collision models ( http://arxiv.org/abs/2210.17091v1 )

ライセンス: Link先を確認
Yan Li, Xingli Li and Jiasen Jin(参考訳) 衝突モデル(CM)フレームワークにおける3部スピン1/2系の非定常現象について検討する。 マルコフ系および非マルコフ系におけるシステム環境衝突による散逸について紹介した結果,システムのダイナミクスにおける長期振動の発生とサブシステム間の同期が確認された。 我々はcm記述と量子マスター方程式を連続時間極限で連結し、リウビリアンスペクトル解析を用いて安定振動の存在を説明する。 熱物性の時間依存性と相関について検討し,特に非マルコフ力学におけるランドーアーの原理に違反する可能性について考察した。 さらに, CMにおける相互作用列のランダム性により, 集団散逸の不完全性を補うことができることがわかった。

We investigate the non-stationary phenomenon in a tripartite spin-1/2 system in the collision model (CM) framework. After introducing the dissipation through the system-environment collision for both Markovian and non-Markovian cases, we find that the emergence of long-time oscillation in the dynamics of the system and the synchronization among subsystems. We connect the CM description and the quantum master equation in the continuous time limit and explain the existence of the stable oscillation by means of Liouvillian spectrum analysis. The time-dependence of the thermal property and the correlations are investigated, in particular we discuss the possibility of violation of the Landauer's principle in non-Markovian dynamics. In addition, we find that the imperfection of collective dissipation can be compensated by the randomness of interaction sequence in our CM.
翻訳日:2023-01-20 22:24:57 公開日:2022-10-31
# 単一量子デバイスにおける入出力不定値の実験的実証

Experimental demonstration of input-output indefiniteness in a single quantum device ( http://arxiv.org/abs/2210.17046v1 )

ライセンス: Link先を確認
Yu Guo, Zixuan Liu, Hao Tang, Xiao-Min Hu, Bi-Heng Liu, Yun-Feng Huang, Chuan-Feng Li, Guang-Can Guo and Giulio Chiribella(参考訳) 基本レベルでは、量子場のダイナミクスは時間反転、電荷共役、パリティ反転の組み合わせの下で不変である。 この対称性は、有効な量子進化の広いクラスが双方向であり、入力と出力の交換が有効な量子進化をもたらすことを意味する。 近年、量子論は、入力と出力の役割が不確定な操作の族と理論的に相容れないことが観察されている。 しかし、これまでのところそのような操作は実験室では実証されていない。 ここでは、フォトニックセットアップにおける入出力不定点を実験的に示し、量子ゲームにおけるアドバンテージを示し、69以上の標準偏差で一定の入出力方向と非互換性を示す。 本研究は,量子情報プロトコルの新たな資源として入力出力不確定性を確立し,時間矢印が量子重畳される仮説シナリオのテーブルトップシミュレーションを可能にする。

At the fundamental level, the dynamics of quantum fields is invariant under the combination of time reversal, charge conjugation, and parity inversion. This symmetry implies that a broad class of effective quantum evolutions are bidirectional, meaning that the exchange of their inputs and outputs gives rise to valid quantum evolutions. Recently, it has been observed that quantum theory is theoretically compatible with a family of operations in which the roles of the inputs and outputs is indefinite. However, such operations have not been demonstrated in the laboratory so far. Here we experimentally demonstrate input-output indefiniteness in a photonic setup, demonstrating an advantage in a quantum game and showing incompatibility with a definite input-output direction by more than 69 standard deviations. Our results establish input-output indefiniteness as a new resource for quantum information protocols, and enable the table-top simulation of hypothetical scenarios where the arrow of time could be in a quantum superposition.
翻訳日:2023-01-20 22:24:45 公開日:2022-10-31
# クリフォードゲートが生成する5量子状態

Five-qubit states generated by Clifford gates ( http://arxiv.org/abs/2210.17034v1 )

ライセンス: Link先を確認
Frederic Latour and Oscar Perdomo(参考訳) sqrt{2}} \begin{pmatrix} 1&1\\\1&-1\end{pmatrix}$。 a $n$-qubit state is a Clifford state if it can be prepared using Clifford gates, this is $\ket{\phi}$ is Clifford if $\ket{\phi}=U\ket{0\dots 0}$ ここで$U$はクリフォードゲートである。 本稿では,$5-qubitのclifford状態のセットについて検討する。 すると、これらのクリフォード状態が到達するエントロピーは、0,\frac{3}{5},\frac{9}{10},1,\frac{6}{5},\frac{7}{5},\frac{3}{5},\frac{8}{5},\frac{9}{5},\frac{9}{5},\frac{9}{5},\frac{9}{5},\frac{9}{5},\frac{9}{5},\frac{9}{5},\frac{9}{5}$または$$である。 特に,最大エンタングルメントエントロピー (この場合2) が達成されていることに気付いた。 これは、極大に絡み合った5-量子クリフォード状態が存在することを示す。 5量子状態に対するczゲートの作用を理解するために、クリフォード状態は同値関係を用いて軌道に分割される: 2つの状態が局所クリフォードゲートによって異なる場合に同値である。 93個の軌道が存在することを示し、それぞれの軌道をCZゲートの効果が容易にわかるようにラベル付けする。 全ての軌道上のCZゲートの作用を説明する図表と表が論文に記載されている。 これは、CZゲートで準備できる状態、$Z=\begin{pmatrix} 1&0\\0&-1\end{pmatrix}$およびHadamardゲートで作成できる状態である。

\sqrt{2}} \begin{pmatrix} 1&1\\1&-1\end{pmatrix}$. We will say that a $n$-qubit state is a Clifford state if it can be prepared using Clifford gates, this is, $\ket{\phi}$ is Clifford if $\ket{\phi}=U\ket{0\dots 0}$ where $U$ is a Clifford gate. In this paper we study the set of all $5$-qubit Clifford states. We prove that there are $19388160$ states and, if we measure entanglement entropy as the average of the von Neumann entropy of the reduced density matrices obtained by considering all possible subsets of possible two-qubits then, the possible entanglement entropies reached by these Clifford states are $0,\frac{3}{5},\frac{9}{10},1,\frac{6}{5},\frac{7}{5},\frac{3}{2},\frac{8}{5},\frac{9}{5}$ or $2$. In particular, we noticed the maximum entanglement entropy (2 in this case) is achieved. This is, we show that there exist absolutely maximally entangled 5-qubit Clifford states. To understand the action of the CZ gates action on the 5-qubit states, we partition the Clifford states into orbits using the equivalence relation: two states are equivalent if they differ by a local Clifford gate. We show that there are 93 orbits, and we label each orbit in such a way that it is easy to see the effect of the CZ gates. Diagrams and tables explaining the action of the CZ gates on all the orbits are presented in the paper. A similar work is done for the real Clifford 5-qubits states, this is, for states that can be prepared with CZ gates, the $Z=\begin{pmatrix} 1&0\\0&-1\end{pmatrix}$ and the Hadamard gate.
翻訳日:2023-01-20 22:24:31 公開日:2022-10-31
# 共振散乱に対するウェーブパケットアプローチ

A Wave Packet Approach to Resonant Scattering ( http://arxiv.org/abs/2210.17033v1 )

ライセンス: Link先を確認
A. M. Michalik and F. Marsiglio(参考訳) 共振伝達は、建設的干渉が障壁の配列を通る入射波の完全な通過をもたらすときに起こる。 本稿では,このようなシナリオを1次元モデルを用いて検討する。 波長幅が有限である波状パケットを用いて、波状パケット幅の減少に伴う共振の劣化を示すとともに、波状パケットと平面波の両面から導かれる伝送・反射成分の近似波動関数を提案する。 正確な数値計算との比較は、優れた一致を示し、散乱過程に関する洞察を与える。

Resonant transmission occurs when constructive interference results in the complete passage of an incoming wave through an array of barriers. In this paper we explore such a scenario with one dimensional models. We adopt wave packets with finite width to illustrate the deterioration of resonance with decreasing wave packet width, and suggest an approximate wave function for the transmitted and reflected components, derived from aspects of both the wave packet and plane wave approaches. A comparison with exact numerical calculations shows excellent agreement, and provides insight into the scattering process.
翻訳日:2023-01-20 22:23:42 公開日:2022-10-31
# 平均対称性による位相位相位相のストレンジ相関関数

Strange Correlation Function for Average Symmetry-Protected Topological Phases ( http://arxiv.org/abs/2210.17485v1 )

ライセンス: Link先を確認
Jian-Hao Zhang, Yang Qi, Zhen Bi(参考訳) 我々は最近発見された平均対称性保護トポロジカル位相(ASPT)の奇妙な相関器を1d$と2d$で設計する。 奇妙なコリレータは、密度行列 $\rho$ が非自明な aspt 位相であるとき、長距離またはパワーロー挙動を持つ。 ここで考慮された2d$のすべてのケースにおいて、2d$ループモデルにおいて、奇妙な相関子と相関関数の間の興味深い接続が見出され、奇妙な相関子の正確なスケーリング指数を抽出することができる。

We design a strange correlator for the recently discovered average symmetry-protected topological (ASPT) phases in $1d$ and $2d$. The strange correlator has long-range or power-law behavior if the density matrix $\rho$ is in a nontrivial ASPT phase. In all the $2d$ cases considered here, we find interesting connections between strange correlators and correlation functions in $2d$ loop models, based on which we can extract exact scaling exponents of the strange correlators.
翻訳日:2023-01-20 22:16:10 公開日:2022-10-31
# 天気と気候予報のための量子コンピュータ:良い、悪い、うるさい

Quantum Computers for Weather and Climate Prediction: The Good, the Bad and the Noisy ( http://arxiv.org/abs/2210.17460v1 )

ライセンス: Link先を確認
Felix Tennie and Tim Palmer(参考訳) 過去数年間、量子コンピュータと量子アルゴリズムは多くの科学分野からかなりの関心を集め、注目を集めてきた。 本稿では,量子コンピューティングの重要な側面について,非技術的かつ有意義な紹介を行う。 量子コンピュータが天気予報や気象予報に有用なツールになるかどうかを議論する。 非線形微分方程式を解くために最近開発された量子アルゴリズムを用いて、単純な非線形モデルを統合する。 量子コンピュータが提供しなければならない利点に加えて、天気予報などの「大容量データ」を含む現実的な問題に量子コンピュータを使おうとする際の課題についても論じる。

Over the past few years, quantum computers and quantum algorithms have attracted considerable interest and attention from numerous scientific disciplines. In this article, we aim to provide a non-technical, yet informative introduction to key aspects of quantum computing. We discuss whether quantum computers one day might become useful tools for numerical weather and climate prediction. Using a recently developed quantum algorithm for solving non-linear differential equations, we integrate a simple non-linear model. In addition to considering the advantages that quantum computers have to offer, we shall also discuss the challenges one faces when trying to use quantum computers for real-world problems involving ''big data'', such as weather prediction.
翻訳日:2023-01-20 22:16:01 公開日:2022-10-31
# 平面条件に明示的に対応させるDFT+U型関数

A DFT+U type functional derived to explicitly address the flat plane condition ( http://arxiv.org/abs/2210.17404v1 )

ライセンス: Link先を確認
Andrew Burgess, Edward Linscott, and David D. O'Regan(参考訳) 新しいDFT+U型補正関数は、局所化部分空間上の平面条件を強制する第一原理から導かれるため、ハバードモデルからのアドホック導出は不要である。 式5で与えられる新しい導出関数は、解離したsブロック二量体と解離したH5+環系の総エネルギーの0.6%以下の相対誤差をもたらす。 比較において、ベア pbe と pbe+u (dudarev's 1998 hubbard functional) はそれぞれ8.0% と 20.5% の相対エネルギー誤差をもたらす。

A new DFT+U type corrective functional is derived from first principles to enforce the flat plane condition on localized subspaces, thus dispensing with the need for an ad hoc derivation from the Hubbard model. The newly derived functional as given by equation 5 yields relative errors below 0.6% in the total energy of the dissociated s-block dimers as well as the dissociated H5+ ring system. In comparison bare PBE and PBE+U (using Dudarev's 1998 Hubbard functional) yields relative energetic errors as high as 8.0% and 20.5% respectively.
翻訳日:2023-01-20 22:15:41 公開日:2022-10-31
# アップコンバージョン検出による近赤外3次元イメージング

Near-Infrared 3D Imaging with Upconversion Detection ( http://arxiv.org/abs/2210.17286v1 )

ライセンス: Link先を確認
He Zhang, Santosh Kumar, Yong Meng Sua, Shenyu Zhu, and Yu-Ping Huang(参考訳) 能動近赤外照明と高速飛行時ゲーティングによる光子感度3次元カメラの実証を行った。 ピコ秒のポンプパルスを用いて、pc{hi}2非線形結晶の時空間モードに応じて後方散乱光子を選択的にアップコンバートし、光子感度検出で電子多重化CCDによって検出する。 そのため、サブミリ深さ分解能、例外的なノイズ抑圧、高感度を実現する。 この結果から,光深度14光度(周航)の散乱・損失の大きい被写体を,ミリワットの照明力のみを用いて高精度に表面形状を復元できることが示唆された。 この技術はバイオメディカルイメージング、環境モニタリング、広視野光検出および測光に応用できるかもしれない

We demonstrate a photon-sensitive, three-dimensional camera by active near-infrared illumination and fast time-of-flight gating. It uses pico-second pump pulses to selectively up-convert the backscattered photons according to their spatiotemporal modes via sum-frequency generation in a \c{hi}2 nonlinear crystal, which are then detected by electron-multiplying CCD with photon sensitive detection. As such, it achieves sub-millimeter depth resolution, exceptional noise suppression, and high detection sensitivity. Our results show that it can accurately reconstruct the surface profiles of occluded targets placed behind highly scattering and lossy obscurants of 14 optical depth (round trip), using only milliwatt illumination power. This technique may find applications in biomedical imaging, environmental monitoring, and wide-field light detection and ranging
翻訳日:2023-01-20 22:15:30 公開日:2022-10-31
# 巨大偏極変換材料における反発カシミール力の起源

Origin of the repulsive Casimir force in giant polarization-interconversion materials ( http://arxiv.org/abs/2210.17285v1 )

ライセンス: Link先を確認
Zhou Li and Chinmay Khandekar(参考訳) 工学的コーティングによる強い反発性カシミール力の実現は、現在接着力が信頼性問題の原因となっているマイクロ・ナノ電気機械応用への道を開くことができる。 ここでは、リフシッツ理論を用いて、2つの制限ケース(超強誘電体および非強誘電体)に対して、ジャイロ方性媒質中の反発カシミール力の要求を同定する。 Weyl semi-metalsのような強いジャイロトロピーを持つ媒体における反発力の起源は、真空揺らぎの分極の巨大相互変換から生じることを示す。

Achieving strong repulsive Casimir forces through engineered coatings can pave the way for micro- and nano-electromechanical applications where adhesive forces currently cause reliability issues. Here, we exploit Lifshitz theory to identify the requirements for repulsive Casimir forces in gyrotropic media for two limiting cases (ultra-strong gyroelectric and non-gyroelectric). We show that the origin of repulsive force in media with strong gyrotropy such as Weyl semi-metals arises from the giant interconversion of polarization of vacuum fluctuations.
翻訳日:2023-01-20 22:15:16 公開日:2022-10-31
# 離散結果量子センサネットワーク

Discrete outcome quantum sensor networks ( http://arxiv.org/abs/2210.17254v1 )

ライセンス: Link先を確認
Mark Hillery, Himanshu Gupta, and Caitao Zhan(参考訳) 量子状態判別の手法を用いて量子センサネットワークをモデル化する。 量子ビット検出器と環境との相互作用はユニタリ演算子によって記述され、少なくとも1つの検出器が相互作用することを仮定する。 タスクは、どちらがやるか、誰もやらないかを判断することです。 これには検出器の初期状態の選択と測定が含まれる。 すべての検出器を同時に測定するグローバルな測定について考察する。 絡み合った初期状態は検出確率を向上させることができるが、検出器数が増えるにつれてこの利点は減少する。

We model a quantum sensor network using techniques from quantum state discrimination. The interaction between a qubit detector and the environment is described by a unitary operator, and we will assume that at most one detector does interact. The task is to determine which one does or if none do. This involves choosing an initial state of the detectors and a measurement. We consider global measurements in which all detectors are measured simultaneously. We find that an entangled initial state can improve the detection probability, but this advantage decreases as the number of detectors increases.
翻訳日:2023-01-20 22:14:33 公開日:2022-10-31
# floquet's refrigerator: 量子臨界系における共形冷却

Floquet's Refrigerator: Conformal Cooling in Driven Quantum Critical Systems ( http://arxiv.org/abs/2211.00040v1 )

ライセンス: Link先を確認
Xueda Wen, Ruihua Fan, Ashvin Vishwanath(参考訳) 共形場理論によって記述される1次元量子臨界系において、空間的変形したハミルトニアンの周期駆動による冷却の一般的な方法を提案し、それを研究する。 このプロトコルは, 有限温度ギブズ(混合ギブズ)状態をFloquet時間サイクルにおいて, 所定のサブリージョンで指数的に高速に0温度まで冷却することができる。 同時に、エントロピーとエネルギーは移動され、時間とともに縮小する相補的な領域に局在する。 これらの結論は、還元密度行列のフルタイム進化の正確な解析解によって導かれる。 また、フリーフェミオン格子モデルの数値をベンチマークとして使用し、顕著な一致を見出す。 このようなコンフォーマルなフロケ冷凍機は、合成量子システムを冷却するための将来性のある新しいルートを開く。

We propose a general method of cooling -- periodic driving generated by spatially deformed Hamiltonians -- and study it in general one-dimensional quantum critical systems described by a conformal field theory. Our protocol is able to efficiently cool a finite-temperature Gibbs (mixed) state down to zero temperature at prescribed sub-regions exponentially rapidly in Floquet time cycles. At the same time, entropy and energy are transferred and localized to the complementary regions that shrink with time. We derive these conclusions through an exact analytic solution of the full time evolution of reduced density matrices. We also use numerics in free-fermion lattice models as a benchmark and find remarkable agreement. Such conformal Floquet refrigerators open a promising new route to cooling synthetic quantum systems.
翻訳日:2023-01-20 22:08:56 公開日:2022-10-31
# ワニエブローチ像における固体中の高調波発生の量子光学的解析

Quantum optical analysis of high-harmonic generation in solids within a Wannier-Bloch picture ( http://arxiv.org/abs/2211.00033v1 )

ライセンス: Link先を確認
Javier Rivera-Dean, Philipp Stammer, Andrew S. Maxwell, Theocharis Lamprou, Andr\'es F. Ord\'o\~nez, Emilio Pisanty, Paraskevas Tzallas, Maciej Lewenstein and Marcelo F. Ciappina(参考訳) 強いレーザー駆動の物質相互作用の量子光学的特徴は、現在の量子技術プラットフォームを前例のない時間とエネルギースケールにまで拡張することができる。 本研究では,量子光学的枠組みの下で固体系における高調波発生過程を研究することにより,この方向を一歩前進させる。 これはwannier-blochアプローチで行われ、既にガスシステムで行われている分析と直接比較することができます。 これにより、発光後に得られた光の光子数確率分布を研究でき、その特徴を通常のHHGスペクトルと関連付けることができる。 さらに、HHGプロセスに自分自身を制限できる対応する量子演算を実行した後、電場モードと異なるワニエ状態の間に絡み合った状態が見つかり、そこでは電子が再結合後に見つかる。 この状態の非古典的特徴を考察し,光マッターの絡み合いとフィールドモード間の絡み合いを定量化した。

The quantum optical characterization of strongly laser-driven matter interactions may allow to extend current quantum technology platforms to unprecedented time and energy scales. In this work, we make a step forward in this direction by studying high-harmonic generation processes in solid-state systems under a quantum optical framework. We do this under a Wannier-Bloch approach, which allows us to perform a direct comparison with the analysis that has been already done for gaseous systems. This allows us to study the photon number probability distribution of the light obtained after emission, and relate its features with those found in usual HHG spectra. Furthermore, after performing the corresponding quantum operations that allow us to restrict ourselves to HHG processes, we find an entangled state between the field modes and the different Wannier states where the electron can be found after recombination, but also between the field modes themselves. We study the non-classical features of this state, and quantify the light-matter entanglement and the entanglement between the field modes.
翻訳日:2023-01-20 22:08:18 公開日:2022-10-31
# デジタルライドバーグシミュレータにおける非アベリア浮体スピン液体

Non-Abelian Floquet Spin Liquids in a Digital Rydberg Simulator ( http://arxiv.org/abs/2211.00017v1 )

ライセンス: Link先を確認
Marcin Kalinowski, Nishad Maskara, Mikhail D. Lukin(参考訳) トポロジカルマターを理解することは、物理科学のいくつかの分野にまたがる卓越した挑戦である。 プログラム可能な量子シミュレータは、そのようなシステムを研究するための強力なアプローチとして登場した。 パラダイム的トーリック符号型の量子スピン液体が実験室で最近実現されているが、非可換励起による位相相の探索制御は未解決の問題である。 周期駆動に基づく位相物質シミュレーションの新たな手法を紹介し,解析する。 具体的には、北エフのハニカムモデルにおける非アーベルスピン液体のハミルトニアンを効果的にシミュレートする並列量子ゲート演算の周期列を通して得られるいわゆるフロケスピン液体のモデルを記述する。 提案手法では, トポロジカルな状態の生成, 制御, 読み出しなどのツールボックスを, 最先端の実験プラットフォームで効率的に実装可能であることを示す。 1つの具体的実装スキームは、Rydberg原子配列に基づいており、最近実証されたコヒーレント量子ビット輸送と制御相ゲート演算を利用する。 本稿では,非可換励起と関連するマヨラナ零モードの探索方法を説明し,核融合およびブレイディング実験をシミュレートする。 本解析は,量子シミュレータによる物質の位相相探索の可能性を示す。 北エフ材料と格子ゲージ理論のシミュレーションを含む拡張についても論じる。

Understanding topological matter is an outstanding challenge across several disciplines of physical science. Programmable quantum simulators have emerged as a powerful approach to studying such systems. While quantum spin liquids of paradigmatic toric code type have recently been realized in the laboratory, controlled exploration of topological phases with non-abelian excitations remains an open problem. We introduce and analyze a new approach to simulating topological matter based on periodic driving. Specifically, we describe a model for a so-called Floquet spin liquid, obtained through a periodic sequence of parallel quantum gate operations that effectively simulates the Hamiltonian of the non-abelian spin liquid in Kitaev's honeycomb model. We show that this approach, including the toolbox for preparation, control, and readout of topological states, can be efficiently implemented in state-of-the-art experimental platforms. One specific implementation scheme is based on Rydberg atom arrays and utilizes recently demonstrated coherent qubit transport combined with controlled-phase gate operations. We describe methods for probing the non-abelian excitations, and the associated Majorana zero modes, and simulate possible fusion and braiding experiments. Our analysis demonstrates the potential of programmable quantum simulators for exploring topological phases of matter. Extensions including simulation of Kitaev materials and lattice gauge theories are also discussed.
翻訳日:2023-01-20 22:07:39 公開日:2022-10-31
# 単純回転プラズマにおけるカオスと極スキッピング

Chaos and pole-skipping in a simply spinning plasma ( http://arxiv.org/abs/2211.00016v1 )

ライセンス: Link先を確認
Markus A.G. Amano, Mike Blake, Casey Cartwright, Matthias Kaminski, Anthony P. Thompson(参考訳) ホログラフィック量子場理論における多体量子カオスとエネルギーダイナミクスの関係を、単純にスピンするマイアーズ・ペリー・アドス$_5$ブラックホールと双対に研究した。 このようなブラックホールの対称性の強化は、Kerr-AdS$_4$解に双対する場の量子論状態の以前の解析よりもはるかに単純であるポーリング現象の徹底的な検証を可能にする。 特に、エネルギーゆらぎの空間的プロファイルがOTOCの形式を規定する衝撃波方程式を満たすとき、双対量子場理論の遅延エネルギー密度グリーン関数におけるポールスキッピングの一般的な証明を与える。 さらに、大きなブラックホール限界において、ホップ円上の作用素配置に対するotocの簡単な解析式を得ることができ、関連するリアプノフ指数とバタフライ速度がエネルギー応答における極スキッピング点の族の位置とロバストに関係していることを示す。 最後に, 先行研究とは対照的に, この結果は任意の回転値に対して有効であり, エネルギー応答における音響モードの分散関係が極スキッピング位置を明示的に通り抜けることを数値的に示すことができる。

We study the relationship between many-body quantum chaos and energy dynamics in holographic quantum field theory states dual to the simply-spinning Myers-Perry-AdS$_5$ black hole. The enhanced symmetry of such black holes allows us to provide a thorough examination of the phenomenon of pole-skipping, that is significantly simpler than a previous analysis of quantum field theory states dual to the Kerr-AdS$_4$ solution. In particular we give a general proof of pole-skipping in the retarded energy density Green's function of the dual quantum field theory whenever the spatial profile of energy fluctuations satisfies the shockwave equation governing the form of the OTOC. Furthermore, in the large black hole limit we are able to obtain a simple analytic expression for the OTOC for operator configurations on Hopf circles, and demonstrate that the associated Lyapunov exponent and butterfly velocity are robustly related to the locations of a family of pole-skipping points in the energy response. Finally, we note that in contrast to previous studies, our results are valid for any value of rotation and we are able to numerically demonstrate that the dispersion relations of sound modes in the energy response explicitly pass through our pole-skipping locations.
翻訳日:2023-01-20 22:07:18 公開日:2022-10-31
# 核融合測定による量子プロセッサ上のAKLT状態の決定論的定数深度測定

Deterministic constant-depth preparation of the AKLT state on a quantum processor using fusion measurements ( http://arxiv.org/abs/2210.17548v1 )

ライセンス: Link先を確認
Kevin C. Smith, Eleanor Crane, Nathan Wiebe, S. M. Girvin(参考訳) spin-1 affleck, kennedy, lieb and tasaki (aklt)モデルの基底状態は、行列積状態と対称性保護位相相の両方のパラダイム的例であり、さらにpromiseを計測に基づく量子計算の資源状態として持つ。 非ゼロ相関長を持つaklt状態は、局所ゲートからなる定深さユニタリ回路では正確には作成できない。 本研究は, システムサイズに依存せず, 完全に決定論的であるような, 固定深度回路を融合測定で拡張することにより, このノーゴー限界を回避できることを実証する。 さらに、AKLT状態の$\mathbb{Z}_2\times\mathbb{Z}_2$対称性が、以前に知られていた準備法よりも直接このスピードアップを得られることを示す。 ノイズの多い中規模量子(NISQ)デバイスにおける計測補助準備の実用的利点を示すため,我々はIBM Quantumプロセッサ上でプロトコルを実行する。 得られたAKLT鎖の弦次数および絡み合いスペクトルを計測し,これらを指標として,既知の(純ユニタリな)逐次準備法よりも改善された結果を求める。 測定支援方式で作成したAKLT状態を用いた量子テレポーテーションの実証を行った。 この研究は、AKLT状態の形で特定の資源を調製する効率的な戦略を提供し、より広範に、NISQ時代のデバイス上での測定に基づく回路深度低減戦略によって得られる状態準備が実現可能な改善の可能性を示す。

The ground state of the spin-1 Affleck, Kennedy, Lieb and Tasaki (AKLT) model is a paradigmatic example of both a matrix product state and a symmetry-protected topological phase, and additionally holds promise as a resource state for measurement-based quantum computation. Having a nonzero correlation length, the AKLT state cannot be exactly prepared by a constant-depth unitary circuit composed of local gates. In this work, we demonstrate that this no-go limit can be evaded by augmenting a constant-depth circuit with fusion measurements, such that the total preparation time is independent of system size and entirely deterministic. We elucidate our preparation scheme using the language of tensor networks, and furthermore show that the $\mathbb{Z}_2\times\mathbb{Z}_2$ symmetry of the AKLT state directly affords this speed-up over previously known preparation methods. To demonstrate the practical advantage of measurement-assisted preparation on noisy intermediate-scale quantum (NISQ) devices, we carry out our protocol on an IBM Quantum processor. We measure both the string order and entanglement spectrum of prepared AKLT chains and, employing these as metrics, find improved results over the known (purely unitary) sequential preparation approach. We conclude with a demonstration of quantum teleportation using the AKLT state prepared by our measurement-assisted scheme. This work thus serves to provide an efficient strategy to prepare a specific resource in the form of the AKLT state and, more broadly, experimentally demonstrates the possibility for realizable improvement in state preparation afforded by measurement-based circuit depth reduction strategies on NISQ-era devices.
翻訳日:2023-01-20 22:06:57 公開日:2022-10-31
# 確率コンピュータを用いた加速量子モンテカルロ

Accelerated Quantum Monte Carlo with Probabilistic Computers ( http://arxiv.org/abs/2210.17526v1 )

ライセンス: Link先を確認
Shuvro Chowdhury, Kerem Y. Camsari, and Supriyo Datta(参考訳) 量子モンテカルロ(QMC)技術は様々な科学的問題に広く使われており、標準プロセッサ(CPU)上でQMCを高速化する最適化アルゴリズムの開発に多くの研究が費やされている。 本稿では,特別に設計されたディジタルプロセッサを用いた標準qmcアルゴリズムの2~3桁の高速化と,クロックレスアナログプロセッサへのマッピングによりさらに2~3桁の高速化を示す。 他のアプリケーションでも、ハードウェア設計のカスタマイズによる同様の改善が実証されている。 本実験では,横磁場イジングモデル (tfim) の5~6桁加速度のロードマップを提供し,他のqmcモデルにも拡張できる可能性を示した。 クロックレスアナログハードウェアは、量子アニールの古典的なものと見なすことができ、後者の$<10$の範囲で性能を提供する。 クロックレスアナログハードウェアの解法時間(TTS)は、量子ビット数が$O(N)$となり、CPU実装の$O(N^2)$スケールが向上するが、D-Waveによる量子アニーラーの報告よりも悪いように見える。

Quantum Monte Carlo (QMC) techniques are widely used in a variety of scientific problems of great interest and much work has been dedicated to developing optimized algorithms that can accelerate QMC on standard processors (CPU). In this paper, we demonstrate 2-3 orders of magnitude acceleration of a standard QMC algorithm using a specially designed digital processor, and a further 2-3 orders of magnitude by mapping it to a clockless analog processor. Similar improvements through customized hardware design have been demonstrated for other applications. Our demonstration provides a roadmap for 5-6 orders of magnitude acceleration for a transverse field Ising model (TFIM) and could possibly be extended to other QMC models as well. The clockless analog hardware can be viewed as the classical counterpart of the quantum annealer and provides performance within a factor of $<10$ of the latter. The time to solution (TTS) for the clockless analog hardware scales with the number of qubits as $O(N)$, improving the $O(N^2)$ scaling for CPU implementations, but appears worse than that reported for quantum annealers by D-Wave.
翻訳日:2023-01-20 22:06:10 公開日:2022-10-31
# 量子チャネルの漸近性

Asymptotics of quantum channels ( http://arxiv.org/abs/2210.17513v1 )

ライセンス: Link先を確認
Daniele Amato, Paolo Facchi, and Arturo Konderak(参考訳) 量子チャネルに付随する二重項時間半群の漸近力学に関するいくつかの側面について論じる。 アトラクタ多様体上の量子チャネルの作用を記述する漸近写像の明示的な表現を用いることで、漸近力学における置換の役割を解明する。 一般に、それらが漸近進化を非一意的にし、量子チャネルの可除性と関連していることを示す。 また、忠実かつ非ファシフルチャネルの漸近性に関するいくつかの結果を導出し、漸近ダイナミクスに対する構成的展開定理を定式化する。

We discuss several aspects concerning the asymptotic dynamics of dicrete-time semigroups associated with a quantum channel. By using an explicit expression of the asymptotic map, which describes the action of the quantum channel on its attractor manifold, we investigate the role of permutations in the asymptotic dynamics. We show that, in general, they make the asymptotic evolution non-unitary, and they are related to the divisibility of the quantum channel. Also, we derive several results about the asymptotics of faithful and non-faithful channels, and we establish a constructive unfolding theorem for the asymptotic dynamics.
翻訳日:2023-01-20 22:05:49 公開日:2022-10-31
# ModularFed: フェデレートラーニングフレームワークにおけるモジュラリティの活用

ModularFed: Leveraging Modularity in Federated Learning Frameworks ( http://arxiv.org/abs/2212.10427v1 )

ライセンス: Link先を確認
Mohamad Arafeh, Hadi Otrok, Hakima Ould-Slimane, Azzam Mourad, Chamseddine Talhi, Ernesto Damiani(参考訳) 最近多くの研究が、プライバシに敏感な企業で機械学習を使用する際のプライバシー上の懸念に対処するために、フェデレートラーニング(FL)を統合することを提案した。 しかし、利用可能なフレームワークの標準は、もはや急速な進歩を維持できなくなり、flソリューションの統合を妨げます。 本稿では、fl実装の複雑さと利用可能なフレームワークの適応性と拡張性の欠如に対処する、研究に焦点を当てたフレームワークである modularfed を提案する。 FLのパラダイムである適応可能なワークフロー、データセットの配布、サードパーティアプリケーションのサポートの3つをカバーするために、明確に定義されたプロトコルを通じてFLアプローチを支援する包括的なアーキテクチャを提供する。 このアーキテクチャでは、プロトコルはフレームワークのコンポーネントの設計を厳密に定義し、柔軟性に貢献し、インフラを強化する青写真である。 さらに当社のプロトコルでは,flにおけるモジュール性の実現を目指している。サードパーティのプラグイン・アンド・プレイアーキテクチャと動的シミュレータをサポートし,フィールド内の主要な組み込みデータディストリビュータを組み合わせる。 さらに、このフレームワークは、クライアントの不足、データ分散、ネットワークレイテンシなどのfl問題の一貫したレプリケーションを可能にするために、単一の環境で複数のアプローチをラップすることをサポートする。 本評価では,資源モニタリングとクライアント選択のための統計分布とモジュールベースのアプローチを含む,3つの主要なFLドメインに対処するフレームワークの適用性について検討する。

Numerous research recently proposed integrating Federated Learning (FL) to address the privacy concerns of using machine learning in privacy-sensitive firms. However, the standards of the available frameworks can no longer sustain the rapid advancement and hinder the integration of FL solutions, which can be prominent in advancing the field. In this paper, we propose ModularFed, a research-focused framework that addresses the complexity of FL implementations and the lack of adaptability and extendability in the available frameworks. We provide a comprehensive architecture that assists FL approaches through well-defined protocols to cover three dominant FL paradigms: adaptable workflow, datasets distribution, and third-party application support. Within this architecture, protocols are blueprints that strictly define the framework's components' design, contribute to its flexibility, and strengthen its infrastructure. Further, our protocols aim to enable modularity in FL, supporting third-party plug-and-play architecture and dynamic simulators coupled with major built-in data distributors in the field. Additionally, the framework support wrapping multiple approaches in a single environment to enable consistent replication of FL issues such as clients' deficiency, data distribution, and network latency, which entails a fair comparison of techniques outlying FL technologies. In our evaluation, we examine the applicability of our framework addressing three major FL domains, including statistical distribution and modular-based approaches for resource monitoring and client selection.
翻訳日:2023-01-20 21:59:06 公開日:2022-10-31
# オーディンガーの猫は生きていますか?

Is Schr\"odinger's Cat Alive? ( http://arxiv.org/abs/2211.17086v1 )

ライセンス: Link先を確認
Mani L. Bhaumik(参考訳) Erwin Schr\"odingerは、ジャンプ開始量子力学の波動方程式を提示したことで有名である。 コペンハーゲンの量子力学解釈に対する不調和により、彼は半世紀近くもあまり注目されなかったシュリンガーの猫パラドックスを公表した。 その間、量子力学に失望した彼は、周辺的な方法ではDNAの構造を啓示するが、生物学に彼の興味を向けた。 Schr\"odinger's catへの関心は最近、多くの科学論文でその姿を目立たせている。 ここで提示された議論から、伝説的な「オーディンガーの猫」は、あらゆるスケールに量子現実が存在するという深い真実を象徴する存在であり、ここに留まっているように見える。

Erwin Schr\"odinger is famous for presenting his wave equation of motion that jump-started quantum mechanics. His disenchantment with the Copenhagen interpretation of quantum mechanics led him to unveil the Schr\"odinger's cat paradox, which did not get much attention for nearly half a century. In the meantime, disappointment with quantum mechanics turned his interest to biology facilitating, albeit in a peripheral way, the revelation of the structure of DNA. Interest in Schr\"odinger's cat has recently come roaring back making its appearance conspicuously in numerous scientific articles. From the arguments presented here, it would appear that the legendary Schr\"odinger's cat is here to stay, symbolizing a profound truth that quantum reality exists at all scales; but we do not observe it in our daily macroscopic world as it is masked for all practical purposes, most likely by environmental decoherence with irreversible thermal effects.
翻訳日:2023-01-20 21:58:28 公開日:2022-10-31
# 固有値問題の解法

New Power Method for Solving Eigenvalue Problems ( http://arxiv.org/abs/2211.06303v1 )

ライセンス: Link先を確認
I Wayan Sudiarta and Hadi Susanto(参考訳) 固有値問題の解を求めるための新しいパワー手法を提案する。 この方法は、支配的あるいは最低の固有値だけでなく、デフレ手続きを必要とせずに全ての固有値を決定することができる。 この方法は演算子(または行列)の機能を使用する。 この方法は、固有値の推定に付随するパラメータを変化させることで、解を自由に選択することができる。 この手法の収束は、固有値のパラメータがどの程度近いかに大きく依存する。 本稿では,本手法の数値計算結果と解析結果との整合性について述べる。

We present a new power method to obtain solutions of eigenvalue problems. The method can determine not only the dominant or lowest eigenvalues but also all eigenvalues without the need for a deflation procedure. The method uses a functional of an operator (or a matrix). The method can freely select a solution by varying a parameter associated to an estimate of the eigenvalue. The convergence of the method is highly dependent on how closely the parameter to the eigenvalues. In this paper, numerical results of the method are shown to be in excellent agreement with the analytical ones.
翻訳日:2023-01-20 21:58:08 公開日:2022-10-31
# 原子と高精細光学キャビティとの連続的集合的強結合

Continuous collective strong coupling between atoms and a high finesse optical cavity ( http://arxiv.org/abs/2211.00158v1 )

ライセンス: Link先を確認
Julia R. K. Cline, Vera M. Sch\"afer, Zhijing Niu, Dylan J. Young, Tai Hyun Yoon and James K. Thompson(参考訳) 本研究では, ストロンチウム原子の高粒度リングキャビティへの連続負荷を実演し, 7.5kHz 遷移 $^1{\rm S}_0$ から $^3{\rm P}_1$ の遷移において, 原子とキャビティの間を真空ラビ分割した形で連続的な強結合を観察した。 原子は3次元の狭い線幅の糖蜜からキャビティにロードされるため、大きな磁場勾配とそれに伴う遷移周波数の広がりを避けることができる。 リングキャビティにより、レーザ冷却ビームがストロンチウム時計の遷移を拡大する負荷領域から原子を移動させる決定論的コンベアベルトを実現することができる。 我々は、ラムダイク領域の813nm格子内に最大10^6$の原子をトラップし、キャビティ軸に沿って原子を輸送する。 この研究は、ミリヘルツ線幅を持つ連続波スーパーラジアントレーザーの作成への道を開き、新しい物理学の探索と低振動実験室環境外における高精度光周波数基準の使用を可能にした。

We demonstrate continuous loading of strontium atoms into a high finesse ring cavity and observe continuous strong collective coupling in the form of a vacuum Rabi splitting between the atoms and the cavity on the 7.5 kHz transition $^1{\rm S}_0$ to $^3{\rm P}_1$. The atoms are loaded into the cavity from a 3D narrow linewidth molasses, thus avoiding large magnetic field gradients and associated broadening of transition frequencies. The ring cavity allows us to realize a deterministic conveyor belt to transport atoms away from the loading region where the laser cooling beams lead to broadening of the strontium clock transition. We trap up to $10^6$ atoms in an intracavity 813 nm lattice in the Lamb-Dicke regime, and transport the atoms along the cavity axis. This work opens the path to the creation of a continuous wave superradiant laser with millihertz linewidth enabling searches for new physics and the use of high-precision optical frequency references outside of low vibration laboratory environments.
翻訳日:2023-01-20 21:57:53 公開日:2022-10-31
# 超伝導量子ビットを持つ量子ソケットとデマキシズ系ゲート

The Quantum Socket and DemuXYZ-Based Gates with Superconducting Qubits ( http://arxiv.org/abs/2211.00143v1 )

ライセンス: Link先を確認
J.H. B\'ejanin, C.T. Earnest, and M. Mariantoni(参考訳) 大規模超伝導量子コンピュータの構築には、スケーラブルな配線技術と多重アーキテクチャの2つの補完的要素が必要である。 以前の研究では [b\'ejanin et al., phys] Rev. Applied 6, 044010 (2016)] 我々は量子ソケットと呼ばれる真に垂直な相互接続を導入し特徴付けた。 本稿では,高コヒーレンスフラックス可変Xmonトランスモン量子ビットを用いて量子ソケットを演算する。 特に、潜在的なキュービット加熱と1キュービットゲート性能を試験する。 99.9%以上で加熱効果や安定ゲートの忠実度は観測できない。 次に、フラックスパルスと共通の連続駆動信号であるDemuXYZに基づいて、デマルチプレクシドゲート技術を提案し、実験的に特徴付ける。 DemuXYZの動作原理を議論し、その動作を示し、適切な動作を確認するために1量子ビットゲートの選択に対して量子プロセストモグラフィーを行う。 磁束パルスの不完全さにより93%程度が制限される可能性がある。 DemuXYZ技術の改良とともに,配線統合の今後のソリューションについても論じる。

Building large-scale superconducting quantum computers requires two complimentary elements: scalable wiring techniques and multiplex architectures. In our previous work [B\'ejanin et al., Phys. Rev. Applied 6, 044010 (2016)], we have introduced and characterized a truly vertical interconnect named the quantum socket. In this paper, we exercise the quantum socket using high-coherence flux-tunable Xmon transmon qubits. In particular, we test potential qubit heating and one-qubit gate performance. We observe no heating effects and time-stable gate fidelities in excess of 99.9%. We then propose and experimentally characterize a demultiplexed gate technique based on flux pulses and a common continuous drive signal: DemuXYZ. We discuss DemuXYZ's working principle, show its operation, and perform quantum process tomography on a selection of one-qubit gates to confirm proper operation. We obtain fidelities around 93% likely limited by flux-pulse imperfections. We finally discuss future solutions for wiring integration as well as improvements to the DemuXYZ technique.
翻訳日:2023-01-20 21:57:30 公開日:2022-10-31
# 大域的モルマー・ソレンセン相互作用におけるモデリングノイズの量子近似最適化への応用

Modelling noise in global Molmer-Sorensen interactions applied to quantum approximate optimization ( http://arxiv.org/abs/2211.00133v1 )

ライセンス: Link先を確認
Phillip C. Lotshaw, Kevin D. Battles, Bryan Gard, Gilles Buchs, Travis S. Humble, and Creston D. Herold(参考訳) 閉じ込められたイオンに適用される多くの量子ビットモルマー-ソレンセン相互作用は、量子シミュレーションや量子近似最適化アルゴリズム(QAOA)を含む量子情報処理にユニークな機能を提供する。 そこで我々は, 振動モード周波数変動, レーザパワー変動, 温度初期振動状態, 状態準備と測定誤差の4つの実験ノイズ源に基づく多ビットMS相互作用を記述する物理モデルを構築した。 モデルはこれらの誤差を、自由パラメータなしで単純な実験的な測定からパラメータ化する。 我々は,MS相互作用のシーケンスを2つと3つの$^{171}$Yb$^+$イオンで実装した実験と比較してモデルを検証した。 このモデルは、減少した chi-squared 統計値 $\chi^2_\mathrm{red}<2$ によって定量化された複数の ms 相互作用の後、良好な一致を示す。 応用として、3および6イオンのMaxCut QAOA実験について検討する。 実験性能は、最適理論値の9,1\%$と8,3\%$の近似比によって定量化される。 本モデルでは, それぞれ$0.93^{+0.03}_{-0.02}$と$0.92^{+0.06}_{-0.06}$とを予測し, 後者の値の相違点について検討した。 測定誤差とラジアルトラップ周波数の変動を低減するための現実的な実験的改善により、最適な99$\%の近似比が得られる。 これらの改善を将来の実験に取り入れることで、将来のモデリングと実験的改善のための新しいノイズの側面を明らかにすることが期待される。

Many-qubit Molmer-Sorensen (MS) interactions applied to trapped ions offer unique capabilities for quantum information processing, with applications including quantum simulation and the quantum approximate optimization algorithm (QAOA). Here, we develop a physical model to describe many-qubit MS interactions under four sources of experimental noise: vibrational mode frequency fluctuations, laser power fluctuations, thermal initial vibrational states, and state preparation and measurement errors. The model parameterizes these errors from simple experimental measurements, without free parameters. We validate the model in comparison with experiments that implement sequences of MS interactions on two and three $^{171}$Yb$^+$ ions. The model shows good agreement after several MS interactions as quantified by the reduced chi-squared statistic $\chi^2_\mathrm{red}< 2$. As an application we examine MaxCut QAOA experiments on three and six ions. The experimental performance is quantified by approximation ratios that are $91\%$ and $83\%$ of the optimal theoretical values. Our model predicts $0.93^{+0.03}_{-0.02}$ and $0.92^{+0.06}_{-0.06}$, respectively, with disagreement in the latter value attributable to secondary noise sources beyond those considered in our analysis. With realistic experimental improvements to reduce measurement error and radial trap frequency variations the model achieves approximation ratios that are 99$\%$ of the optimal. Incorporating these improvements into future experiments is expected to reveal new aspects of noise for future modeling and experimental improvements.
翻訳日:2023-01-20 21:57:15 公開日:2022-10-31
# フラストレーション2次元量子材料のための有限温度テンソルネットワークアルゴリズム

Finite temperature tensor network algorithm for frustrated two-dimensional quantum materials ( http://arxiv.org/abs/2211.00121v1 )

ライセンス: Link先を確認
Philipp Schmoll, Christian Balz, Bella Lake, Jens Eisert, Augustine Kshetrimayum(参考訳) 自然量子システムのより現実的な古典的記述を目指して,フラストレーションモデル量子システムと実量子材料の有限温度特性を研究する2次元テンソルネットワークアルゴリズムを提案する。 この目的のために、熱力学特性を研究するために無限射影直交作用素アンサッツを導入する。 最先端のベンチマーク結果を得るために,カゴメ格子上のスピン1/2ハイゼンベルク反強磁性体について検討し,磁化高原の有限磁場および温度での融解について検討する。 実量子物質の実際の実験データと密接な関係を保ち、Ca$_{10}$Cr$_7$O$_{28}$の有限温度特性を研究する。 有限温度における外部磁場の存在下でのこの材料の磁化曲線と古典的シミュレーションデータとの比較を行った。 この物質の研究に熱ゆらぎと量子相関の両方を取り入れた最初の理論ツールとして、実験データとこれまでの磁化過程に関する理論的研究との間の既存の論争の解決に貢献する。

Aimed at a more realistic classical description of natural quantum systems, we present a two-dimensional tensor network algorithm to study finite temperature properties of frustrated model quantum systems and real quantum materials. For this purpose, we introduce the infinite projected entangled simplex operator ansatz to study thermodynamic properties. To obtain state-of-the-art benchmarking results, we explore the highly challenging spin-1/2 Heisenberg anti-ferromagnet on the Kagome lattice, a system for which we investigate the melting of the magnetization plateaus at finite magnetic field and temperature. Making close connection to actual experimental data of real quantum materials, we go on to studying the finite temperature properties of Ca$_{10}$Cr$_7$O$_{28}$. We compare the magnetization curve of this material in the presence of an external magnetic field at finite temperature with classically simulated data. As a first theoretical tool that incorporates both thermal fluctuations as well as quantum correlations in the study of this material, our work contributes to settling the existing controversy between the experimental data and previous theoretical works on the magnetization process.
翻訳日:2023-01-20 21:56:49 公開日:2022-10-31
# ガウスのプロセスエキスパートの高速な混合

Fast Deep Mixtures of Gaussian Process Experts ( http://arxiv.org/abs/2006.13309v3 )

ライセンス: Link先を確認
Clement Etienam, Kody Law, Sara Wade, Vitaly Zankin(参考訳) 専門家の混合は教師付き学習コンテキストにおける柔軟なモデリングのための不可欠のツールとなり、スパース・ガウス過程(gp)はそのようなモデルにおける専門家の有力な候補として約束を示している。 本稿では, 深層ニューラルネットワーク(DNN)を用いて, スパースGPの混合物から専門家を選別するゲーティングネットワークの設計を提案する。 さらに、CCR(Cluster-Classify-Regress)と呼ばれる高速な1回通過アルゴリズムを用いて、極端に高速なMAP推定器を近似する。 このモデルとアルゴリズムの強力な組み合わせは、柔軟で堅牢で極めて効率的な新しい方法を提供します。 特に、この手法は、精度と不確実性定量化の観点から競合する手法より優れている。 コストは低次元データセットと小型データセットで競合するが、高次元データセットと大規模データセットでは著しく低い。 与えられたアロケーションとアロケーションの配分を反復的に最大化する手法では,アルゴリズムがローカルMAP推定器に非常に高速な近似を達成できることを示すため,大幅な改善は得られない。 この洞察は、他の専門家モデルの混合の文脈でも有用である。

Mixtures of experts have become an indispensable tool for flexible modelling in a supervised learning context, and sparse Gaussian processes (GP) have shown promise as a leading candidate for the experts in such models. In this article, we propose to design the gating network for selecting the experts from such mixtures of sparse GPs using a deep neural network (DNN). Furthermore, a fast one pass algorithm called Cluster-Classify-Regress (CCR) is leveraged to approximate the maximum a posteriori (MAP) estimator extremely quickly. This powerful combination of model and algorithm together delivers a novel method which is flexible, robust, and extremely efficient. In particular, the method is able to outperform competing methods in terms of accuracy and uncertainty quantification. The cost is competitive on low-dimensional and small data sets, but is significantly lower for higher-dimensional and big data sets. Iteratively maximizing the distribution of experts given allocations and allocations given experts does not provide significant improvement, which indicates that the algorithm achieves a good approximation to the local MAP estimator very fast. This insight can be useful also in the context of other mixture of experts models.
翻訳日:2022-11-22 12:45:54 公開日:2022-10-31
# 情報理論からみた注意重み付けの再検討

Revisiting Attention Weights as Explanations from an Information Theoretic Perspective ( http://arxiv.org/abs/2211.07714v1 )

ライセンス: Link先を確認
Bingyang Wen, K.P. Subbalakshmi, Fan Yang(参考訳) 注意機構は、最近、様々なNLPタスクにおいて印象的なパフォーマンスを示しており、アテンションスコアは、しばしばモデル説明可能性のプロキシとして使用される。 しかし、注意重みが実際にモデルへの最も重要な入力を特定するのに使用できるかどうかについては議論がある。 我々は,モデル出力と隠れ状態の相互情報を測定することにより,情報理論的な観点からこの問題にアプローチする。 広範な実験から、以下の結論が導かれる。 (i)添加物及び深層注意機構は、隠れた状態とモデル出力(スケールドドット製品に比較して)の間の情報を保存するのが適している可能性が高い。 二 補助的注意が、入力された隠蔽表現の重要性を積極的に説明することができること。 (iii)注意値がほぼ同じである場合、注意値のランク順が相互情報のランク順と一致しない (四)Gumbel-Softmaxを1より低い温度で使用する場合、ソフトマックスよりもスキューな注意点分布を生じやすいため、説明可能な設計に適している。 (v) 相互情報の順序リストと注意重みの順序(例えば、bilstmエンコーダと付加的注意の組合せ)との相関性を保つのに優れた構成要素がある。 その結果,注意機構は他のモデル要素と慎重に組み合わされたときにモデル説明の近道として機能する可能性が示唆された。

Attention mechanisms have recently demonstrated impressive performance on a range of NLP tasks, and attention scores are often used as a proxy for model explainability. However, there is a debate on whether attention weights can, in fact, be used to identify the most important inputs to a model. We approach this question from an information theoretic perspective by measuring the mutual information between the model output and the hidden states. From extensive experiments, we draw the following conclusions: (i) Additive and Deep attention mechanisms are likely to be better at preserving the information between the hidden states and the model output (compared to Scaled Dot-product); (ii) ablation studies indicate that Additive attention can actively learn to explain the importance of its input hidden representations; (iii) when attention values are nearly the same, the rank order of attention values is not consistent with the rank order of the mutual information(iv) Using Gumbel-Softmax with a temperature lower than one, tends to produce a more skewed attention score distribution compared to softmax and hence is a better choice for explainable design; (v) some building blocks are better at preserving the correlation between the ordered list of mutual information and attention weights order (for e.g., the combination of BiLSTM encoder and Additive attention). Our findings indicate that attention mechanisms do have the potential to function as a shortcut to model explanations when they are carefully combined with other model elements.
翻訳日:2022-11-20 14:00:36 公開日:2022-10-31
# 音声言語理解システムにおける仮説退避モジュールの設計考察

Design Considerations For Hypothesis Rejection Modules In Spoken Language Understanding Systems ( http://arxiv.org/abs/2211.09711v1 )

ライセンス: Link先を確認
Aman Alok, Rahul Gupta, Shankar Ananthakrishnan(参考訳) 音声言語理解(SLU)システムは通常、SLU仮説を生成するために協調して動作する機械学習モデルからなる。 生成された仮説は、さらにアクションを起こすために下流のコンポーネントに送られる。 しかし、下流に送る前に誤った仮説を破棄することが望ましい。 本稿では,slu仮説拒絶モジュールの2つの設計について述べる。 (i)ドメイン固有SLU仮説の拒絶を行うスキームR1及び (ii)全体SLUシステムから生成された仮説を拒絶するスキームR2。 両方のスキームにおける仮説拒絶モジュールは、SLUシステムに向けられた発話、関連するSLU仮説、およびSLU信頼スコアから引き出された特徴に基づいて仮説を拒絶/受容する。 実験の結果、どちらの方式も類似した結果(スキーマR1: 2.5% FRR @ 4.5% FAR、スキームR2: 2.5% FRR @ 4.6% FAR)が得られることが示唆された。 いずれかの拒絶スキームは他方で選択できるが、この選択をしながら考慮する必要がある固有の相違がいくつかあると我々は論じる。 さらに、ASR機能をリジェクションモジュール(1.9% FRR @ 3.8% FAR)に組み込んで、改善点を分析します。

Spoken Language Understanding (SLU) systems typically consist of a set of machine learning models that operate in conjunction to produce an SLU hypothesis. The generated hypothesis is then sent to downstream components for further action. However, it is desirable to discard an incorrect hypothesis before sending it downstream. In this work, we present two designs for SLU hypothesis rejection modules: (i) scheme R1 that performs rejection on domain specific SLU hypothesis and, (ii) scheme R2 that performs rejection on hypothesis generated from the overall SLU system. Hypothesis rejection modules in both schemes reject/accept a hypothesis based on features drawn from the utterance directed to the SLU system, the associated SLU hypothesis and SLU confidence score. Our experiments suggest that both the schemes yield similar results (scheme R1: 2.5% FRR @ 4.5% FAR, scheme R2: 2.5% FRR @ 4.6% FAR), with the best performing systems using all the available features. We argue that while either of the rejection schemes can be chosen over the other, they carry some inherent differences which need to be considered while making this choice. Additionally, we incorporate ASR features in the rejection module (obtaining an 1.9% FRR @ 3.8% FAR) and analyze the improvements.
翻訳日:2022-11-20 13:59:17 公開日:2022-10-31
# 2030年の人工知能と生活 : 人工知能に関する百年の研究

Artificial Intelligence and Life in 2030: The One Hundred Year Study on Artificial Intelligence ( http://arxiv.org/abs/2211.06318v1 )

ライセンス: Link先を確認
Peter Stone, Rodney Brooks, Erik Brynjolfsson, Ryan Calo, Oren Etzioni, Greg Hager, Julia Hirschberg, Shivaram Kalyanakrishnan, Ece Kamar, Sarit Kraus, Kevin Leyton-Brown, David Parkes, William Press, AnnaLee Saxenian, Julie Shah, Milind Tambe, Astro Teller(参考訳) 2016年9月、スタンフォード大学のAI100プロジェクト(One hundred Year Study on Artificial Intelligence)は、人工知能(AI)の長期的評価とその社会への影響に関する最初の報告書を発表した。 この論文は、テキサス大学オースティン校のpeter stone氏が議長を務める、ai研究に深く根ざした17人の研究者からなるパネルによって書かれた。 2030年の「Artificial Intelligence and Life in 2030」と題されたこの報告書は、輸送、家庭とサービスロボット、医療、教育、公共安全と安全、低リソースコミュニティ、雇用と職場、エンターテイメントといった、AIが今後数年間に影響を及ぼすであろう典型的な都市環境の8つの領域を調査している。 一般大衆に、現在のAIとその潜在能力の科学的かつ技術的に正確な描写を提供し、産業や政府における意思決定のガイドと、この分野の研究と開発に関する情報を提供することを目指している。 この報告書の費用は、ハーバード大学のBarbara Groszが議長を務めるAI100 Standing Committeeのパネルに提出された。

In September 2016, Stanford's "One Hundred Year Study on Artificial Intelligence" project (AI100) issued the first report of its planned long-term periodic assessment of artificial intelligence (AI) and its impact on society. It was written by a panel of 17 study authors, each of whom is deeply rooted in AI research, chaired by Peter Stone of the University of Texas at Austin. The report, entitled "Artificial Intelligence and Life in 2030," examines eight domains of typical urban settings on which AI is likely to have impact over the coming years: transportation, home and service robots, healthcare, education, public safety and security, low-resource communities, employment and workplace, and entertainment. It aims to provide the general public with a scientifically and technologically accurate portrayal of the current state of AI and its potential and to help guide decisions in industry and governments, as well as to inform research and development in the field. The charge for this report was given to the panel by the AI100 Standing Committee, chaired by Barbara Grosz of Harvard University.
翻訳日:2022-11-20 13:58:57 公開日:2022-10-31
# 非真面目オークションにおける学習ユーティリティと平衡

Learning Utilities and Equilibria in Non-Truthful Auctions ( http://arxiv.org/abs/2007.01722v3 )

ライセンス: Link先を確認
Hu Fu, Tao Lin(参考訳) 非真面目なオークションでは、戦略のためのエージェントの効用は、敵の戦略にも依存し、また彼らのプライベートタイプに対する事前分布にも依存する。 First Price Auction を主な実演例として用いて、$\tilde O(n / \epsilon^2)$サンプルと$n$エージェントが、すべての単調入札戦略の中間ユーティリティを学習するのに十分であることを示す。 その結果、このサンプル数は近似平衡をすべて学習するのに十分である。 ほぼマッチング(ポリログ因子まで)を、学習ユーティリティのサンプル複雑性に縛り付ける。 また,エージェントが検索コストを支払わなければならないような設定も検討している。 Kleinberg et al. (2016) が最近発見した, この設定と最初の価格オークションの関連性に基づいて, この設定において, 有効性および均衡性について$\tilde O(n / \epsilon^2)$サンプルが, この設定において, 最近の福祉最適下降オークションで推定されることを示す。 また,最近Guo et al. (2021) が入手した Pandora の Box 問題 (コンシューマーサーチの古典的モデル) に対して,サンプルの複雑性境界を改善した。

In non-truthful auctions, agents' utility for a strategy depends on the strategies of the opponents and also the prior distribution over their private types; the set of Bayes Nash equilibria generally has an intricate dependence on the prior. Using the First Price Auction as our main demonstrating example, we show that $\tilde O(n / \epsilon^2)$ samples from the prior with $n$ agents suffice for an algorithm to learn the interim utilities for all monotone bidding strategies. As a consequence, this number of samples suffice for learning all approximate equilibria. We give almost matching (up to polylog factors) lower bound on the sample complexity for learning utilities. We also consider a setting where agents must pay a search cost to discover their own types. Drawing on a connection between this setting and the first price auction, discovered recently by Kleinberg et al. (2016), we show that $\tilde O(n / \epsilon^2)$ samples suffice for utilities and equilibria to be estimated in a near welfare-optimal descending auction in this setting. En route, we improve the sample complexity bound, recently obtained by Guo et al. (2021), for the Pandora's Box problem, which is a classical model for sequential consumer search.
翻訳日:2022-11-14 06:18:02 公開日:2022-10-31
# FedMint: 新しいIoTデバイスによるフェデレーション学習におけるインテリジェントな双方向クライアント選択

FedMint: Intelligent Bilateral Client Selection in Federated Learning with Newcomer IoT Devices ( http://arxiv.org/abs/2211.01805v1 )

ライセンス: Link先を確認
Osama Wehbi, Sarhad Arisdakessian, Omar Abdel Wahab, Hadi Otrok, Safa Otoum, Azzam Mourad, Mohsen Guizani(参考訳) フェデレーション学習(federated learning、fl)は、マシンラーニングモデルのトレーニングのために複数の参加者(iotデバイスなど)とのコラボレーションを可能にする、新しい分散プライバシ保存学習パラダイムである。 しかし、この共同トレーニングに寄与する参加者の選定は極めて困難である。 ランダム選択戦略を採用すると、データ品質の異質性や、参加者間の計算と通信のリソースといった問題が発生する。 ランダム選択の問題を克服するいくつかのアプローチが文献に提案されているが、これらのアプローチのほとんどは一方的な選択戦略に従っている。 実際、彼らはその選択戦略をフェデレーションされたサーバ側のみに基礎を置き、プロセスにおけるクライアントデバイスの関心を軽視している。 本論文では,ゲーム理論とブートストラップ機構を用いたIoTデバイス上でのフェデレーション学習のためのインテリジェントクライアント選択手法であるFedMintについて述べる。 本ソリューションでは,(1) クライアントIoTデバイスとフェデレートされたサーバのプライオリティ関数を用いて,精度と価格などのいくつかの要因に応じて相互にランク付けする,(2) 設計における双方の好みを考慮したインテリジェントマッチングアルゴリズム,(3) 新たに接続されたIoTデバイスの初期精度値を割り当てるために,複数のフェデレートされたサーバのコラボレーションを生かしたブートストラップ手法を設計する。 シミュレーションの結果から,我々は,クライアント機器の収益とグローバルフェデレーション学習モデルの正確性の両方を最大化するという点で,vanillafl選択アプローチを超越した。

Federated Learning (FL) is a novel distributed privacy-preserving learning paradigm, which enables the collaboration among several participants (e.g., Internet of Things devices) for the training of machine learning models. However, selecting the participants that would contribute to this collaborative training is highly challenging. Adopting a random selection strategy would entail substantial problems due to the heterogeneity in terms of data quality, and computational and communication resources across the participants. Although several approaches have been proposed in the literature to overcome the problem of random selection, most of these approaches follow a unilateral selection strategy. In fact, they base their selection strategy on only the federated server's side, while overlooking the interests of the client devices in the process. To overcome this problem, we present in this paper FedMint, an intelligent client selection approach for federated learning on IoT devices using game theory and bootstrapping mechanism. Our solution involves the design of: (1) preference functions for the client IoT devices and federated servers to allow them to rank each other according to several factors such as accuracy and price, (2) intelligent matching algorithms that take into account the preferences of both parties in their design, and (3) bootstrapping technique that capitalizes on the collaboration of multiple federated servers in order to assign initial accuracy value for the newly connected IoT devices. Based on our simulation findings, our strategy surpasses the VanillaFL selection approach in terms of maximizing both the revenues of the client devices and accuracy of the global federated learning model.
翻訳日:2022-11-04 14:44:47 公開日:2022-10-31
# ネットワーク交通システムにおける適応型交通信号制御のための強化学習に基づくサイバー攻撃モデル

Reinforcement Learning based Cyberattack Model for Adaptive Traffic Signal Controller in Connected Transportation Systems ( http://arxiv.org/abs/2211.01845v1 )

ライセンス: Link先を確認
Muhammad Sami Irfan, Mizanur Rahman, Travis Atkison, Sagar Dasgupta, Alexander Hainen(参考訳) 接続輸送システムにおいて、適応交通信号制御装置(ATSC)は、無線接続(すなわち接続車両)を介して車両から受信したリアルタイム車両軌跡データを利用して、グリーンタイムを規制する。 しかし、この無線接続されたATSCはサイバー攻撃面を増大させ、その脆弱性を様々なサイバー攻撃モードに拡大する。 攻撃者は、特定の道路にそのような混雑を作り出すために金銭的利益を受けることができる。 攻撃者は、道路交通規則に従って実際の連結車両を模倣した偽のベーシック・セーフティ・メッセージ(BSM)を生成することで、ネットワーク内で偽の車両を生成する「シビル」攻撃である。 攻撃者の最終的な目標は、車両数の急激な変化を警告することなく、信号のタイミングと位相変化が発生するような速度で偽またはシビルの車両を発生させることによってルートをブロックすることである。 高度に非線形で予測不可能な車両到着率とATSCアルゴリズムのため、交差点の異なるアプローチから注入されるシビル車両の最適速度を見つけることは困難である。 したがって、そのような攻撃の存在を証明するために、インテリジェントなサイバー攻撃モデルを開発する必要がある。 本研究では,待ち時間に基づくatscのための強化学習に基づくサイバー攻撃モデルを開発した。 具体的には、RLエージェントを訓練して、シビル車噴射の最適な速度を学習し、アプローチの混雑を発生させる。 分析の結果,RLエージェントは知的攻撃を起こすための最適なポリシーを学習できることがわかった。

In a connected transportation system, adaptive traffic signal controllers (ATSC) utilize real-time vehicle trajectory data received from vehicles through wireless connectivity (i.e., connected vehicles) to regulate green time. However, this wirelessly connected ATSC increases cyber-attack surfaces and increases their vulnerability to various cyber-attack modes, which can be leveraged to induce significant congestion in a roadway network. An attacker may receive financial benefits to create such a congestion for a specific roadway. One such mode is a 'sybil' attack in which an attacker creates fake vehicles in the network by generating fake Basic Safety Messages (BSMs) imitating actual connected vehicles following roadway traffic rules. The ultimate goal of an attacker will be to block a route(s) by generating fake or 'sybil' vehicles at a rate such that the signal timing and phasing changes occur without flagging any abrupt change in number of vehicles. Because of the highly non-linear and unpredictable nature of vehicle arrival rates and the ATSC algorithm, it is difficult to find an optimal rate of sybil vehicles, which will be injected from different approaches of an intersection. Thus, it is necessary to develop an intelligent cyber-attack model to prove the existence of such attacks. In this study, a reinforcement learning based cyber-attack model is developed for a waiting time-based ATSC. Specifically, an RL agent is trained to learn an optimal rate of sybil vehicle injection to create congestion for an approach(s). Our analyses revealed that the RL agent can learn an optimal policy for creating an intelligent attack.
翻訳日:2022-11-04 12:49:48 公開日:2022-10-31
# 機械学習における事前情報と計算能力の役割

The role of prior information and computational power in Machine Learning ( http://arxiv.org/abs/2211.01972v1 )

ライセンス: Link先を確認
Diego Marcondes, Adilson Simonis and Junior Barrera(参考訳) 科学は仮説を知覚し、実証的な証拠と向き合い、まだ偽造されていない仮説のみを保持する。 帰納的推論の下では、理論の観点から考え出され、それをファルシフィケーションしようとして経験的証拠と向き合い、帰納的推論では観察に基づいて考え出され、実証的証拠と向き合い、不確定な仮説に基づいて理論が確立される。 仮説テストが定量的データで実施可能な場合には、仮説の複雑さに高い品質が依存する機械学習手法によって対立が達成されるため、適切な仮説を盗むことなく、その複雑さを減らそうとする仮説のセットに事前情報を適切に挿入することが可能になる。 しかし,機械学習ツールは,手法の性能にのみ関心を持ち,その振る舞いの理解に限らず,実践主義の実践的視点の下で応用されている。 本稿では,学習問題の解法として,事前情報と計算能力をどのように活用するかについて議論するが,先行情報と仮説空間の慎重な設計は,結果の解釈可能性に有利であるが,高い計算能力を用いると高い性能が得られるという利点がある。 現代学習モデルのパラメータにおける分類器の特性の同定について,機械学習の基本的な理論的研究に賛同し,理解と性能の観点から組み合わせた学習手法がうまく機能する理由について考察した。

Science consists on conceiving hypotheses, confronting them with empirical evidence, and keeping only hypotheses which have not yet been falsified. Under deductive reasoning they are conceived in view of a theory and confronted with empirical evidence in an attempt to falsify it, and under inductive reasoning they are conceived based on observation, confronted with empirical evidence and a theory is established based on the not falsified hypotheses. When the hypotheses testing can be performed with quantitative data, the confrontation can be achieved with Machine Learning methods, whose quality is highly dependent on the hypotheses' complexity, hence on the proper insertion of prior information into the set of hypotheses seeking to decrease its complexity without loosing good hypotheses. However, Machine Learning tools have been applied under the pragmatic view of instrumentalism, which is concerned only with the performance of the methods and not with the understanding of their behavior, leading to methods which are not fully understood. In this context, we discuss how prior information and computational power can be employed to solve a learning problem, but while prior information and a careful design of the hypotheses space has as advantage the interpretability of the results, employing high computational power has the advantage of a higher performance. We discuss why learning methods which combine both should work better from an understanding and performance perspective, arguing in favor of basic theoretical research on Machine Learning, in special about how properties of classifiers may be identified in parameters of modern learning models.
翻訳日:2022-11-04 12:43:31 公開日:2022-10-31
# ディープニューラルネットワークのクラス干渉

Class Interference of Deep Neural Networks ( http://arxiv.org/abs/2211.01370v1 )

ライセンス: Link先を確認
Dongcui Diao, Hengshuai Yao, and Bei Jiang(参考訳) 類似した物体を区別し、伝えることは、人間にとってさらに難しい。 本稿では,すべての深層ニューラルネットワークにクラス干渉現象が存在することを示す。 クラス干渉はデータの学習の難しさを表し、ディープネットワークによる一般化エラーの最大割合を構成する。 クラス干渉を理解するために,クラス間テスト,クラスエゴ方向,干渉モデルを提案する。 これらの定義を用いて、訓練されたモデルのミニマ平坦性とクラス干渉を研究する方法を示す。 また,授業中のクラス干渉をラベルダンスパターンとクラスダンスノートで検出する方法を示す。

Recognizing and telling similar objects apart is even hard for human beings. In this paper, we show that there is a phenomenon of class interference with all deep neural networks. Class interference represents the learning difficulty in data, and it constitutes the largest percentage of generalization errors by deep networks. To understand class interference, we propose cross-class tests, class ego directions and interference models. We show how to use these definitions to study minima flatness and class interference of a trained model. We also show how to detect class interference during training through label dancing pattern and class dancing notes.
翻訳日:2022-11-04 12:05:36 公開日:2022-10-31
# 利益の最大化のための広告戦略:tmallのオンライン広告管理プラットフォームにおける新しい実践

Advertising strategy for profit-maximization: a novel practice on Tmall's online ads manager platforms ( http://arxiv.org/abs/2211.01160v1 )

ライセンス: Link先を確認
Lianghai Xiao, Yixing Zhao, Jiwei Chen(参考訳) ads managerプラットフォームは、多くのeコマースベンダー/広告業者の間で人気を集めている。 広告主がターゲット顧客に対して広告を表示するプロセスを促進するのに役立つ。 広告主、特に中小企業が直面する主な課題のひとつは、広告戦略を適切に設定することである。 不効果的な広告戦略は、あまりに多くの「ただの」クリックをもたらし、最終的には売上の成長に比例しない高い広告支出を生み出す。 本稿では,オンライン広告最適化のための新たな利益最大化モデルを提案する。 最適化問題は、ターゲット顧客が広告商品を購入する確率を最大化するために最適な機能セットを見つけるために構築される。 さらに,変更可能なパラメータを持つナップサック問題に対する最適化問題を整理し,この問題に対する解を求めるための自己調整アルゴリズムを導入する。 tmallの統計データに基づく数値実験により,提案手法は支出予算を効果的に最適化できることを示した。

Ads manager platform gains popularity among numerous e-commercial vendors/advertisers. It helps advertisers to facilitate the process of displaying their ads to target customers. One of the main challenges faced by advertisers, especially small and medium-sized enterprises, is to configure their advertising strategy properly. An ineffective advertising strategy will bring too many ``just looking'' clicks and, eventually, generate high advertising expenditure unproportionally to the growth of sales. In this paper, we present a novel profit-maximization model for online advertising optimization. The optimization problem is constructed to find optimal set of features to maximize the probability that target customers buy advertising products. We further reformulate the optimization problem to a knapsack problem with changeable parameters, and introduce a self-adjusted algorithm for finding the solution to the problem. Numerical experiment based on statistical data from Tmall show that our proposed method can optimize the advertising strategy given expenditure budget effectively.
翻訳日:2022-11-03 14:58:03 公開日:2022-10-31
# 神経発達障害に対するフェデレーション学習方式:多視点ASD検出

A Federated Learning Scheme for Neuro-developmental Disorders: Multi-Aspect ASD Detection ( http://arxiv.org/abs/2211.00643v1 )

ライセンス: Link先を確認
Hala Shamseddine, Safa Otoum, Azzam Mourad(参考訳) 自閉症スペクトラム障害(Autism Spectrum disorder、ASD)は、出生前の胚脳の変化に起因する神経発達障害である。 この障害は、特定の行動特性に加えて、特別な社会的に制限された反復行動によって患者を区別する。 したがって、これは、他の個人間の社会的行動や、コミュニティ内の全体的な相互作用を悪化させる可能性がある。 さらに、医学的な研究により、ALDは患者の顔の特徴にも影響し、個々の顔内の特異な兆候から認識できることが示された。 本研究の動機として,我々は,特定の個人におけるasdの行動と顔特徴に基づいて,患者データのプライバシーを尊重しながら,顔特徴抽出による両者の融合処理を組み込んだ,プライバシ保存型フェデレーション学習方式を提案する。 フェデレートされた機械学習モデル上での行動・顔画像データのトレーニング後、フェデレーションされた学習環境における行動特性に応じて、ASDの予測に70倍の精度で有望な結果を達成し、患者の顔の画像からASDの予測に62倍の精度で到達する。 そこで,通常のロジスティック回帰モデルでは65倍,フェデレート学習モデルでは63倍の精度で65%の精度が得られる。

Autism Spectrum Disorder (ASD) is a neuro-developmental syndrome resulting from alterations in the embryological brain before birth. This disorder distinguishes its patients by special socially restricted and repetitive behavior in addition to specific behavioral traits. Hence, this would possibly deteriorate their social behavior among other individuals, as well as their overall interaction within their community. Moreover, medical research has proved that ASD also affects the facial characteristics of its patients, making the syndrome recognizable from distinctive signs within an individual's face. Given that as a motivation behind our work, we propose a novel privacy-preserving federated learning scheme to predict ASD in a certain individual based on their behavioral and facial features, embedding a merging process of both data features through facial feature extraction while respecting patient data privacy. After training behavioral and facial image data on federated machine learning models, promising results are achieved, with 70\% accuracy for the prediction of ASD according to behavioral traits in a federated learning environment, and a 62\% accuracy is reached for the prediction of ASD given an image of the patient's face. Then, we test the behavior of regular as well as federated ML on our merged data, behavioral and facial, where a 65\% accuracy is achieved with the regular logistic regression model and 63\% accuracy with the federated learning model.
翻訳日:2022-11-03 14:49:58 公開日:2022-10-31
# minohealth.ai : ガーナ,ベトナム,アメリカ合衆国における胸水および心電図診断のための深層学習システムの臨床評価

minoHealth.ai: A Clinical Evaluation Of Deep Learning Systems For the Diagnosis of Pleural Effusion and Cardiomegaly In Ghana, Vietnam and the United States of America ( http://arxiv.org/abs/2211.00644v1 )

ライセンス: Link先を確認
Darlington Akogo, Issah Abubakari Samori, Bashiru Babatunde Jimah, Dorothea Akosua Anim, Yaw Boateng Mensah, Benjamin Dabo Sarkodie(参考訳) 急速かつ正確な心内膜および胸膜灌流の診断は、死亡率と医療費の削減に最も重要である。 人工知能は健康状態の診断に有望である。 本研究は,私のminoHealth AI Labsを開発した人工知能(AI)システムが,ガンナ,ベトナム,米国からの胸部X線を用いて,心筋および胸部灌流の診断にどの程度効果があるか,また,ガーナで働く放射線学者と比較した場合のAIシステムの性能を評価することを目的とする。 本研究で使用した評価データセットは、3つのデータセットからランダムに選択された100の画像を含む。 深層学習モデルは、500と601(561)のサンプルを含むより大きなガーナのデータセットでさらにテストされた。 2つのAIシステムが評価データセット上で評価され、評価データセット内の同じ胸部X線画像が5~20年の経験を持つ4人の放射線科医に提供された。 MinoHealth.aiはAUC-ROCが0.9と0.97であり、AUC-ROCは0.77から0.87であった。 胸水では、minohealth.aiシステムは0.97から0.91、個々の放射線科医は0.75から0.86だった。 どちらの条件でも、最高のパフォーマンスAIモデルは、最高のパフォーマンスラジオロジストを約10%上回っている。 また,minoHealth.aiシステムと放射線技師間の特異性,感度,負の予測値(NPV)および正の予測値(PPV)を評価した。

A rapid and accurate diagnosis of cardiomegaly and pleural effusion is of the utmost importance to reduce mortality and medical costs. Artificial Intelligence has shown promise in diagnosing medical conditions. With this study, we seek to evaluate how well Artificial Intelligence (AI) systems, developed my minoHealth AI Labs, will perform at diagnosing cardiomegaly and pleural effusion, using chest x-rays from Ghana, Vietnam and the USA, and how well AI systems will perform when compared with radiologists working in Ghana. The evaluation dataset used in this study contained 100 images randomly selected from three datasets. The Deep Learning models were further tested on a larger Ghanaian dataset containing five hundred and sixty one (561) samples. Two AI systems were then evaluated on the evaluation dataset, whilst we also gave the same chest x-ray images within the evaluation dataset to 4 radiologists, with 5 - 20 years experience, to diagnose independently. For cardiomegaly, minoHealth.ai systems scored Area under the Receiver operating characteristic Curve (AUC-ROC) of 0.9 and 0.97 while the AUC-ROC of individual radiologists ranged from 0.77 to 0.87. For pleural effusion, the minoHealth.ai systems scored 0.97 and 0.91 whereas individual radiologists scored between 0.75 and 0.86. On both conditions, the best performing AI model outperforms the best performing radiologist by about 10%. We also evaluate the specificity, sensitivity, negative predictive value (NPV), and positive predictive value (PPV) between the minoHealth.ai systems and radiologists.
翻訳日:2022-11-03 14:04:40 公開日:2022-10-31
# ベイジアンニューラルネットワークによるオフショア風構造に対する農業用仮想負荷モニタリング

Farm-wide virtual load monitoring for offshore wind structures via Bayesian neural networks ( http://arxiv.org/abs/2211.00642v1 )

ライセンス: Link先を確認
N. Hlaing, Pablo G. Morato, F. d. N. Santos, W. Weijtjens, C. Devriendt, P. Rigo(参考訳) オフショアの風構造は、その活動期間を通じて劣化するメカニズムを伴っている。 物理に基づく劣化モデルによって構造要素の劣化進化を推定できるとしても、プロセスに関わる不確実性はライフサイクル管理決定の選択を妨げている。 このシナリオでは、効率的なモニタリングシステムを通じて関連する情報の収集によって不確実性の低減が可能になり、最終的にはより最適なライフサイクル決定が導かれる。 しかしながら、農場のすべての風力タービンで実施される完全な監視装置は、実用的で経済的制約のために実現不可能になる可能性がある。 さらに、いくつかの負荷監視システムは、数年間の海洋環境暴露の後、しばしば欠陥となる。 上記の懸念に対処するため、フリートリーダー風力タービンによる農場全体の仮想負荷監視スキームは魅力的なソリューションを提供する。 完全装備の風力タービンから取得したデータにより、モデルは訓練され、デプロイされ、非監視の風力タービンの負荷予測が得られ、そこから標準データのみが利用可能となる。 本稿では,ベイジアンニューラルネットワーク(BNN)を介して構成された仮想負荷監視フレームワークを提案し,BNNデータに基づく仮想監視モデルの構築,トレーニング,デプロイに必要な実装の詳細について述べる。 bnnは、その決定論的対応とは対照的に、発生した負荷予測に関連する不確かさを本質的に発表し、非監視風力タービンで発生する不正確な負荷推定を検出できるようにする。 提案した仮想負荷モニタリングは, 実運用型洋上風力発電における実験キャンペーンを通じて徹底的に検証され, BNNモデルの有効性が実証された。

Offshore wind structures are subject to deterioration mechanisms throughout their operational lifetime. Even if the deterioration evolution of structural elements can be estimated through physics-based deterioration models, the uncertainties involved in the process hurdle the selection of lifecycle management decisions. In this scenario, the collection of relevant information through an efficient monitoring system enables the reduction of uncertainties, ultimately driving more optimal lifecycle decisions. However, a full monitoring instrumentation implemented on all wind turbines in a farm might become unfeasible due to practical and economical constraints. Besides, certain load monitoring systems often become defective after a few years of marine environment exposure. Addressing the aforementioned concerns, a farm-wide virtual load monitoring scheme directed by a fleet-leader wind turbine offers an attractive solution. Fetched with data retrieved from a fully-instrumented wind turbine, a model can be trained and then deployed, thus yielding load predictions of non-fully monitored wind turbines, from which only standard data remains available. In this paper, we propose a virtual load monitoring framework formulated via Bayesian neural networks (BNNs) and we provide relevant implementation details needed for the construction, training, and deployment of BNN data-based virtual monitoring models. As opposed to their deterministic counterparts, BNNs intrinsically announce the uncertainties associated with generated load predictions and allow to detect inaccurate load estimations generated for non-fully monitored wind turbines. The proposed virtual load monitoring is thoroughly tested through an experimental campaign in an operational offshore wind farm and the results demonstrate the effectiveness of BNN models for fleet-leader-based farm-wide virtual monitoring.
翻訳日:2022-11-03 12:43:43 公開日:2022-10-31
# ランダムウォークによるwikipediaのナビゲートの学習

Learning to Navigate Wikipedia by Taking Random Walks ( http://arxiv.org/abs/2211.00177v1 )

ライセンス: Link先を確認
Manzil Zaheer, Kenneth Marino, Will Grathwohl, John Schultz, Wendy Shang, Sheila Babayan, Arun Ahuja, Ishita Dasgupta, Christine Kaeser-Chen, Rob Fergus(参考訳) インテリジェントなwebベースのエージェントの基本的な能力は、新しい情報を探し、獲得することです。 インターネット検索エンジンは正しい位置を確実に見つけるが、上位の検索結果は所望のターゲットから少し離れているかもしれない。 補完的なアプローチはハイパーリンクによるナビゲーションであり、ローカルコンテンツを理解し、ターゲットに近づくリンクを選択するポリシーを採用している。 本稿では,ランダムにサンプリングされた軌跡のクローニングが有効なリンク選択方針を学習するには十分であることを示す。 我々は、38mノードと387mエッジを持つwikipediaのグラフ版でこのアプローチを実証する。 このモデルは、それぞれ96%と92%の時間を、ノード5と20ステップ間で効率的にナビゲートすることができる。 次に、結果の埋め込みとポリシーを下流の事実検証と質問応答タスクに使用し、基本的なtf-idf検索とランキング手法と組み合わせて、最先端のメソッドと競合する結果となる。

A fundamental ability of an intelligent web-based agent is seeking out and acquiring new information. Internet search engines reliably find the correct vicinity but the top results may be a few links away from the desired target. A complementary approach is navigation via hyperlinks, employing a policy that comprehends local content and selects a link that moves it closer to the target. In this paper, we show that behavioral cloning of randomly sampled trajectories is sufficient to learn an effective link selection policy. We demonstrate the approach on a graph version of Wikipedia with 38M nodes and 387M edges. The model is able to efficiently navigate between nodes 5 and 20 steps apart 96% and 92% of the time, respectively. We then use the resulting embeddings and policy in downstream fact verification and question answering tasks where, in combination with basic TF-IDF search and ranking methods, they are competitive results to the state-of-the-art methods.
翻訳日:2022-11-02 15:13:43 公開日:2022-10-31
# 双曲表現学習の数値的安定性

The Numerical Stability of Hyperbolic Representation Learning ( http://arxiv.org/abs/2211.00181v1 )

ライセンス: Link先を確認
Gal Mishne, Zhengchao Wan, Yusu Wang, Sheng Yang(参考訳) 球の半径が指数関数的に増加すると、双曲空間は任意に小さな歪みで木を埋め込むことができ、したがって階層的なデータセットを表現するために広く注目を集めている。 しかし、この指数的成長特性は数値的な不安定さの代償となり、双曲型学習モデルの訓練は時に破滅的なnan問題を引き起こし、浮動小数点演算において表現不能な値に遭遇する。 本研究では,双曲空間に対する2つの人気モデルの極限,すなわちポアンカーの球とローレンツ模型を慎重に解析する。 まず,64ビットの算術システムにおいて,ポアンカルの球は点を正しく表現するためのローレンツモデルよりも比較的大きな容量を持つことを示す。 そして,最適化の観点から,ポアンカーの球に対するローレンツモデルの優位性を理論的に検証する。 両方のモデルの数値的な制限を考えると、これらの制限を緩和できる双曲空間のユークリッドパラメトリゼーションを1つ特定する。 さらに、このユークリッドパラメトリゼーションを双曲型超平面に拡張し、双曲型SVMの性能を向上させる能力を示す。

Given the exponential growth of the volume of the ball w.r.t. its radius, the hyperbolic space is capable of embedding trees with arbitrarily small distortion and hence has received wide attention for representing hierarchical datasets. However, this exponential growth property comes at a price of numerical instability such that training hyperbolic learning models will sometimes lead to catastrophic NaN problems, encountering unrepresentable values in floating point arithmetic. In this work, we carefully analyze the limitation of two popular models for the hyperbolic space, namely, the Poincar\'e ball and the Lorentz model. We first show that, under the 64 bit arithmetic system, the Poincar\'e ball has a relatively larger capacity than the Lorentz model for correctly representing points. Then, we theoretically validate the superiority of the Lorentz model over the Poincar\'e ball from the perspective of optimization. Given the numerical limitations of both models, we identify one Euclidean parametrization of the hyperbolic space which can alleviate these limitations. We further extend this Euclidean parametrization to hyperbolic hyperplanes and exhibits its ability in improving the performance of hyperbolic SVM.
翻訳日:2022-11-02 15:13:28 公開日:2022-10-31
# コミュニケーション効率の良い分散トレーニングのための適応圧縮

Adaptive Compression for Communication-Efficient Distributed Training ( http://arxiv.org/abs/2211.00188v1 )

ライセンス: Link先を確認
Maksim Makarenko, Elnur Gasanov, Rustem Islamov, Abdurakhmon Sadiev, Peter Richtarik(参考訳) 適応圧縮勾配降下法(adacgd) - 適応圧縮レベルを有する教師付き機械学習モデルの通信効率の高い学習のための新しい最適化アルゴリズムを提案する。 我々のアプローチはRichtarikらの最近提案した3点圧縮機(3PC)フレームワーク(2022)にインスピレーションを得ており、エラーフィードバック(EF21)、遅延集約勾配(LAG)、およびそれらの組み合わせを特別なケースとして含み、これらの手法の現状を弱い仮定で提供する。 上記のメカニズムは、固定圧縮レベルまたは2つの極端値のみに適応するが、より細かい適応を行うことが提案されている。 特に,ユーザが任意の数の任意に選択した契約圧縮機構,例えば,ユーザ定義のスパーシフィケーションレベルkの選定によるトップkスパーシフィケーション,ユーザ定義の量子化レベルの選択による量子化,あるいはそれらの組み合わせを選択できる。 adacgdは最適化過程で適切な圧縮機と圧縮レベルを適応的に選択する。 それに 一 理論的に接地した多適応通信圧縮機構の提案、更に ii) 3pc フレームワークを双方向圧縮に拡張すること,すなわち,サーバの圧縮も可能にすること, 三 強凸、凸及び非凸の設定における鋭い収束境界を提供する。 3PC や EF21 など,我々の一般的なメカニズムのいくつかの重要な特別なケースにおいても,凸法の結果は新しいものである。 全てのレジームにおいて、我々のレートは既存の適応圧縮法よりも優れている。

We propose Adaptive Compressed Gradient Descent (AdaCGD) - a novel optimization algorithm for communication-efficient training of supervised machine learning models with adaptive compression level. Our approach is inspired by the recently proposed three point compressor (3PC) framework of Richtarik et al. (2022), which includes error feedback (EF21), lazily aggregated gradient (LAG), and their combination as special cases, and offers the current state-of-the-art rates for these methods under weak assumptions. While the above mechanisms offer a fixed compression level, or adapt between two extremes only, our proposal is to perform a much finer adaptation. In particular, we allow the user to choose any number of arbitrarily chosen contractive compression mechanisms, such as Top-K sparsification with a user-defined selection of sparsification levels K, or quantization with a user-defined selection of quantization levels, or their combination. AdaCGD chooses the appropriate compressor and compression level adaptively during the optimization process. Besides i) proposing a theoretically-grounded multi-adaptive communication compression mechanism, we further ii) extend the 3PC framework to bidirectional compression, i.e., we allow the server to compress as well, and iii) provide sharp convergence bounds in the strongly convex, convex and nonconvex settings. The convex regime results are new even for several key special cases of our general mechanism, including 3PC and EF21. In all regimes, our rates are superior compared to all existing adaptive compression methods.
翻訳日:2022-11-02 15:13:09 公開日:2022-10-31
# Deep Learning Interpretabilityのための相互情報のロバストな推定法

A robust estimator of mutual information for deep learning interpretability ( http://arxiv.org/abs/2211.00024v1 )

ライセンス: Link先を確認
Davide Piras, Hiranya V. Peiris, Andrew Pontzen, Luisa Lucie-Smith, Ningyuan Guo, Brian Nord(参考訳) 我々は,情報理論の確立した計量である相互情報(MI)を用いて,深層学習モデルの内部動作を解釈する。 有限個のサンプルからMIを正確に推定するために,GMM-MI($``$Jimmie$"$)を提案する。 GMM-MIは計算効率が高く、ハイパーパラメータの選択に頑健であり、有限サンプルサイズによるMI推定の不確実性を提供する。 我々は,GMM-MIを具体的真理MIが知られている玩具データに基づいて広範囲に検証し,その性能を既存の相互情報推定器と比較した。 次に、表現学習の文脈におけるMI推定器の使用を実演し、高度に非線形なプロセスを記述する合成データや物理データセットを扱う。 我々は,有意な圧縮(遅延)表現内に高次元データをエンコードする深層学習モデルを訓練し,GMM-MIを用いて潜伏変数間の絡み合いのレベルと関連する物理量との関係を定量化し,潜伏表現の解釈可能性を高める。 GMM-MIを公開しています。

We develop the use of mutual information (MI), a well-established metric in information theory, to interpret the inner workings of deep learning models. To accurately estimate MI from a finite number of samples, we present GMM-MI (pronounced $``$Jimmie$"$), an algorithm based on Gaussian mixture models that can be applied to both discrete and continuous settings. GMM-MI is computationally efficient, robust to the choice of hyperparameters and provides the uncertainty on the MI estimate due to the finite sample size. We extensively validate GMM-MI on toy data for which the ground truth MI is known, comparing its performance against established mutual information estimators. We then demonstrate the use of our MI estimator in the context of representation learning, working with synthetic data and physical datasets describing highly non-linear processes. We train deep learning models to encode high-dimensional data within a meaningful compressed (latent) representation, and use GMM-MI to quantify both the level of disentanglement between the latent variables, and their association with relevant physical quantities, thus unlocking the interpretability of the latent representation. We make GMM-MI publicly available.
翻訳日:2022-11-02 15:03:49 公開日:2022-10-31
# 感染強度、死亡率、経済の相互作用--COVID-19パンデミックの振り返り分析

The interaction of transmission intensity, mortality, and the economy: a retrospective analysis of the COVID-19 pandemic ( http://arxiv.org/abs/2211.00054v1 )

ライセンス: Link先を確認
Christian Morgenstern, Daniel J. Laydon, Charles Whittaker, Swapnil Mishra, David Haw, Samir Bhatt, Neil M. Ferguson(参考訳) 新型コロナウイルスのパンデミックにより640万人以上が死亡し、経済活動に大きな影響を与えた。 ここでは,2020年1月から2022年12月までのsars-cov-2パンデミックにおける欧州25カ国間の感染・死亡・経済の相互作用について検討した。 固定効果とランダム効果の両方を持つベイズベクトル自己回帰モデルを採用する。 疾病感染強度の増加はグロス国内総生産(GDP)を減少させ,日量過剰死を増大させ,GDPと比較して死亡率に長期的影響を与えることが判明した。 概して,本研究は,多様な対人相互作用から生じる経済活動が,直観的な現象を裏付けるものである。 我々は,非医薬品介入(NPI)がトランスミッション強度,過剰死,GDPの変化および政策立案者に与える影響について報告する。 我々の結果は、個々のNPIからの複雑なコスト対利益のトレードオフを強調します。 例えば、国際旅行の禁止はGDPを増加させるが、過度の死亡を減らす。 我々は、国のランダム効果とGDPの過剰な変化と過剰な死との関連を考察する。 例えば、ヨーロッパの多くの先進国では、新型コロナウイルス(COVID-19)のパンデミックに対してより慎重なアプローチをとっており、医療を優先し、経済的なパフォーマンスよりも過度の死を優先している。 長期的経済障害は、我々のモデルだけでなく、長期的疾病効果(Long Covid)によって完全には捉えられていない。 我が国における疾病の影響は複雑で多面的であり、経済や疾病の負担から最良の結果を抽出するための単純なヒューリスティックな結論は困難である。

The COVID-19 pandemic has caused over 6.4 million registered deaths to date, and has had a profound impact on economic activity. Here, we study the interaction of transmission, mortality, and the economy during the SARS-CoV-2 pandemic from January 2020 to December 2022 across 25 European countries. We adopt a Bayesian vector autoregressive model with both fixed and random effects. We find that increases in disease transmission intensity decreases Gross domestic product (GDP) and increases daily excess deaths, with a longer lasting impact on excess deaths in comparison to GDP, which recovers more rapidly. Broadly, our results reinforce the intuitive phenomenon that significant economic activity arises from diverse person-to-person interactions. We report on the effectiveness of non-pharmaceutical interventions (NPIs) on transmission intensity, excess deaths and changes in GDP, and resulting implications for policy makers. Our results highlight a complex cost-benefit trade off from individual NPIs. For example, banning international travel increases GDP however reduces excess deaths. We consider country random effects and their associations with excess changes in GDP and excess deaths. For example, more developed countries in Europe typically had more cautious approaches to the COVID-19 pandemic, prioritising healthcare and excess deaths over economic performance. Long term economic impairments are not fully captured by our model, as well as long term disease effects (Long Covid). Our results highlight that the impact of disease on a country is complex and multifaceted, and simple heuristic conclusions to extract the best outcome from the economy and disease burden are challenging.
翻訳日:2022-11-02 15:03:27 公開日:2022-10-31
# 類似システムからのデータによる閉ループ性能の最適化:ベイジアンメタラーニングアプローチ

Optimizing Closed-Loop Performance with Data from Similar Systems: A Bayesian Meta-Learning Approach ( http://arxiv.org/abs/2211.00077v1 )

ライセンス: Link先を確認
Ankush Chakrabarty(参考訳) ベイズ最適化(BO)はデータ制限設定における制御性能を最適化する可能性を実証している。 boアルゴリズムは、サーロゲートモデルを用いた不確実性推定を活用し、探索と搾取を効率的にトレードオフする。 これらのサロゲートは通常、ターゲットの動的システムから収集されたデータを使って学習される。 直感的には、boの収束率は、ターゲットシステム性能を正確に予測できるサロゲートモデルより優れている。 古典的なBOでは、初期サロゲートモデルは非常に限られたデータポイントを用いて構築されるため、システム性能の正確な予測はまれである。 本稿では,対象とするシステムとは異なる様々なシステムで実行される性能最適化タスクから収集したデータに基づいて,初期サロゲートモデルを生成するためのメタラーニング手法を提案する。 そこで我々は,従来のboとシームレスに統合可能な符号化ガウス過程モデルを含む,学習が容易なディープカーネルネットワーク(dkns)を採用している。 制御系性能の最適化を高速化するdkn-bo法の有効性を未知の力学系と非モデル化性能関数を用いたよく研究した非線形システムを用いて実証した。

Bayesian optimization (BO) has demonstrated potential for optimizing control performance in data-limited settings, especially for systems with unknown dynamics or unmodeled performance objectives. The BO algorithm efficiently trades-off exploration and exploitation by leveraging uncertainty estimates using surrogate models. These surrogates are usually learned using data collected from the target dynamical system to be optimized. Intuitively, the convergence rate of BO is better for surrogate models that can accurately predict the target system performance. In classical BO, initial surrogate models are constructed using very limited data points, and therefore rarely yield accurate predictions of system performance. In this paper, we propose the use of meta-learning to generate an initial surrogate model based on data collected from performance optimization tasks performed on a variety of systems that are different to the target system. To this end, we employ deep kernel networks (DKNs) which are simple to train and which comprise encoded Gaussian process models that integrate seamlessly with classical BO. The effectiveness of our proposed DKN-BO approach for speeding up control system performance optimization is demonstrated using a well-studied nonlinear system with unknown dynamics and an unmodeled performance function.
翻訳日:2022-11-02 15:02:58 公開日:2022-10-31
# 磁気共鳴分光法のためのデノイジングニューラルネットワーク

Denoising neural networks for magnetic resonance spectroscopy ( http://arxiv.org/abs/2211.00080v1 )

ライセンス: Link先を確認
Natalie Klein, Amber J. Day, Harris Mason, Michael W. Malone, Sinead A. Williamson(参考訳) 多くの科学的応用において、測定された時系列はノイズや歪みによって崩壊する。 特に信号対雑音比が低かったり、信号と雑音の特定の仮定が破られたりする場合には、従来のノイズ除去技術は、興味のある信号の回復に失敗する。 本研究では,雑音や信号特性の変動に強いロバスト性を示しながら,ディープラーニングに基づくDenoising法が従来の手法より優れていることを示す。 我々のモチベーションの例としては磁気共鳴分光法があり、従来の方法では分離が難しい強い干渉によってしばしば無視される短周期低振幅の電波信号の存在を検出することが主な目的である。 我々は、磁気共鳴信号の本質的に複雑な性質を捉えるための様々なディープラーニングアーキテクチャ選択について検討する。 合成データと実験データの両方において,我々の深層学習に基づくアプローチが従来の手法の性能を上回ることを示し,科学的時系列データ分析のための強力な新しい手法を提供する。

In many scientific applications, measured time series are corrupted by noise or distortions. Traditional denoising techniques often fail to recover the signal of interest, particularly when the signal-to-noise ratio is low or when certain assumptions on the signal and noise are violated. In this work, we demonstrate that deep learning-based denoising methods can outperform traditional techniques while exhibiting greater robustness to variation in noise and signal characteristics. Our motivating example is magnetic resonance spectroscopy, in which a primary goal is to detect the presence of short-duration, low-amplitude radio frequency signals that are often obscured by strong interference that can be difficult to separate from the signal using traditional methods. We explore various deep learning architecture choices to capture the inherently complex-valued nature of magnetic resonance signals. On both synthetic and experimental data, we show that our deep learning-based approaches can exceed performance of traditional techniques, providing a powerful new class of methods for analysis of scientific time series data.
翻訳日:2022-11-02 15:02:41 公開日:2022-10-31
# unsafe's betrayal: バイナリリバースエンジニアリングにおけるunsafe rustの悪用 - マシンラーニングによるメモリセーフなバグ発見に向けて

Unsafe's Betrayal: Abusing Unsafe Rust in Binary Reverse Engineering toward Finding Memory-safety Bugs via Machine Learning ( http://arxiv.org/abs/2211.00111v1 )

ライセンス: Link先を確認
Sangdon Park and Xiang Cheng and Taesoo Kim(参考訳) メモリセーフティバグは重要なソフトウェアセキュリティ問題を引き起こす。 rustは、プログラミングにおけるメモリセーフなバグを回避するために、メモリセーフなメカニズムを提供する。 しかし、rustのユーザビリティを高めるunsafeコードは、rustソースコードのメモリセーフなバグを見つけるための明確なスポットを提供する。 本稿では、これらの安全でないスポットは、機械学習によってrustバイナリコード内でも識別可能であり、メモリセーフなバグ発見に活用できると主張している。 このツールでは、リバースエンジニアリングが、下流分析のためにRustバイナリ内の関数のリストを提案するアンセーフな分類器を学習することができる。 textttrustspotによる関数の提案は、メモリセーフティバグの92.92セントをリコールできるが、バイナリコード全体の16.79セントをカバーしているのはわずか16.79ドルである。 アプリケーションとして、関数の提案がRustパッケージのターゲットファジングに使用されていることを示し、非ターゲットファジングと比較してファジング時間を削減することに寄与する。

Memory-safety bugs introduce critical software-security issues. Rust provides memory-safe mechanisms to avoid memory-safety bugs in programming, while still allowing unsafe escape hatches via unsafe code. However, the unsafe code that enhances the usability of Rust provides clear spots for finding memory-safety bugs in Rust source code. In this paper, we claim that these unsafe spots can still be identifiable in Rust binary code via machine learning and be leveraged for finding memory-safety bugs. To support our claim, we propose the tool textttrustspot, that enables reverse engineering to learn an unsafe classifier that proposes a list of functions in Rust binaries for downstream analysis. We empirically show that the function proposals by textttrustspot can recall $92.92\%$ of memory-safety bugs, while it covers only $16.79\%$ of the entire binary code. As an application, we demonstrate that the function proposals are used in targeted fuzzing on Rust packages, which contribute to reducing the fuzzing time compared to non-targeted fuzzing.
翻訳日:2022-11-02 15:02:24 公開日:2022-10-31
# 均質K分布:ベイズニューラルネットワークを用いたパラメータ推定と不確実性定量化

Homodyned K-distribution: parameter estimation and uncertainty quantification using Bayesian neural networks ( http://arxiv.org/abs/2211.00175v1 )

ライセンス: Link先を確認
Ali K. Z. Tehrani, Ivan M. Rosado-Mendez, and Hassan Rivaz(参考訳) 定量的超音波(QUS)は固有の組織特性を推定することができる。 スペックル統計(speckle statistics)は、超音波(us)エンベロープデータの第一次統計を記述するqusパラメータである。 Homodyned K-distribution (HK-distribution) のパラメータは、様々な散乱条件下で包絡データをモデル化できるスペックル統計である。 しかし、それらは確実に推定されるために大量のデータを必要とする。 その結果、推定パラメータの本質的な不確実性を見つけることは、推定パラメータをよりよく理解するのに役立ちます。 本稿では,HK分布のパラメータを推定し,推定器の不確かさを定量化するためのベイズニューラルネットワークを提案する。

Quantitative ultrasound (QUS) allows estimating the intrinsic tissue properties. Speckle statistics are the QUS parameters that describe the first order statistics of ultrasound (US) envelope data. The parameters of Homodyned K-distribution (HK-distribution) are the speckle statistics that can model the envelope data in diverse scattering conditions. However, they require a large amount of data to be estimated reliably. Consequently, finding out the intrinsic uncertainty of the estimated parameters can help us to have a better understanding of the estimated parameters. In this paper, we propose a Bayesian Neural Network (BNN) to estimate the parameters of HK-distribution and quantify the uncertainty of the estimator.
翻訳日:2022-11-02 15:02:03 公開日:2022-10-31
# 超音波エラストグラフィーにおける側方ひずみイメージングのための畳み込みニューラルネットワークにおける既知の演算子

Infusing known operators in convolutional neural networks for lateral strain imaging in ultrasound elastography ( http://arxiv.org/abs/2211.00172v1 )

ライセンス: Link先を確認
Ali K. Z. Tehrani, and Hassan Rivaz(参考訳) 超音波エラストグラフィー(USE)における変位推定には畳み込みニューラルネットワーク(CNN)が用いられている。 提案するネットワークにより,高品質な軸方向ひずみ(軸方向の軸方向変位の導出)を推定できる。 軸方向ひずみとは対照的に、ポアソンの比画像化と弾性復元に非常に必要とされる横方向ひずみは、品質が劣る。 主な原因はサンプリング周波数の低さ、運動の制限、横方向の位相情報の欠如である。 近年,非教師なし正規化エラストグラフィ(PICTURE)における物理的制約が提案されている。 本手法は, 運動の物理則によって定義される実効性側方ひずみの範囲を考慮し, 側方ひずみを改善するために正規化戦略を採用した。 大幅な改善にもかかわらず、正規化はトレーニング中にのみ適用されたため、試験中は横ひずみが許容範囲内であることが保証されなかった。 また, 許容範囲のみを用い, 非圧縮性などの制約は検討されなかった。 本稿では,これらの2つの問題に対処し,2つの反復アルゴリズムを既知の演算子の形でネットワークアーキテクチャに注入し,側方ひずみが許容範囲内にあることを保証し,テストフェーズ中に非圧縮性を課すkPICTUREを提案する。

Convolutional Neural Networks (CNN) have been employed for displacement estimation in ultrasound elastography (USE). High-quality axial strains (derivative of the axial displacement in the axial direction) can be estimated by the proposed networks. In contrast to axial strain, lateral strain, which is highly required in Poisson's ratio imaging and elasticity reconstruction, has a poor quality. The main causes include low sampling frequency, limited motion, and lack of phase information in the lateral direction. Recently, physically inspired constraint in unsupervised regularized elastography (PICTURE) has been proposed. This method took into account the range of the feasible lateral strain defined by the rules of physics of motion and employed a regularization strategy to improve the lateral strains. Despite the substantial improvement, the regularization was only applied during the training; hence it did not guarantee during the test that the lateral strain is within the feasible range. Furthermore, only the feasible range was employed, other constraints such as incompressibility were not investigated. In this paper, we address these two issues and propose kPICTURE in which two iterative algorithms were infused into the network architecture in the form of known operators to ensure the lateral strain is within the feasible range and impose incompressibility during the test phase.
翻訳日:2022-11-02 14:46:04 公開日:2022-10-31
# プレゼンテーションアタック検出を改善する合成idカード画像生成

Synthetic ID Card Image Generation for Improving Presentation Attack Detection ( http://arxiv.org/abs/2211.00098v1 )

ライセンス: Link先を確認
Daniel Benalcazar, Juan E. Tapia, Sebastian Gonzalez, and Christoph Busch(参考訳) 現在、以前は物理的に出席が必要だった活動のためにオンラインサービスにアクセスするのがより一般的である。 銀行業務からビザアプリケーションに至るまで、特に新型コロナウイルス(COVID-19)のパンデミックの出現以降、ユーザのリモートバイオメトリック認証を必要とする、かなりの数のプロセスがデジタル化されている。 マイナス面として、パスポートやIDカードなどの偽のID文書を使用することで、個人利益のために遠隔システムの正常な運用を妨害する目的もある。 このような不正を検出するためのディープラーニングソリューションが文献に提示されている。 しかしながら、プライバシの懸念と個人情報文書の機密性から、ディープニューラルネットワークのトレーニングに必要なサンプル数を備えたデータセットの開発は困難である。 本研究は,不正検出ネットワークのトレーニング中に,IDカード画像を合成してデータ量を増やす3つの手法を提案する。 これらの手法にはコンピュータビジョンアルゴリズムとジェネレーティブ・アドバイサル・ネットワークが含まれる。 以上の結果から, PAIS (Print/Scan Presentation Attack Instrument Species) の性能低下や, PAIS (Screen capture PAIS) の性能低下を伴わずに, 合成画像でデータベースを補足できることが示唆された。

Currently, it is ever more common to access online services for activities which formerly required physical attendance. From banking operations to visa applications, a significant number of processes have been digitised, especially since the advent of the COVID-19 pandemic, requiring remote biometric authentication of the user. On the downside, some subjects intend to interfere with the normal operation of remote systems for personal profit by using fake identity documents, such as passports and ID cards. Deep learning solutions to detect such frauds have been presented in the literature. However, due to privacy concerns and the sensitive nature of personal identity documents, developing a dataset with the necessary number of examples for training deep neural networks is challenging. This work explores three methods for synthetically generating ID card images to increase the amount of data while training fraud-detection networks. These methods include computer vision algorithms and Generative Adversarial Networks. Our results indicate that databases can be supplemented with synthetic images without any loss in performance for the print/scan Presentation Attack Instrument Species (PAIS) and a loss in performance of 1% for the screen capture PAIS.
翻訳日:2022-11-02 14:37:22 公開日:2022-10-31
# YouTubeにおけるジェンダーバイアスの自動評価

Automated Gender Bias Evaluation in YouTube ( http://arxiv.org/abs/2211.00075v1 )

ライセンス: Link先を確認
Gizem Gezici(参考訳) 学生はオンライン教材を使って新しい科目を学び、教育機関で学習プロセスを補うようになってきている。 フォーマルな教育の文脈でジェンダーバイアスの問題が提起され、それらの緩和策が提案されている。 本研究は,YouTubeにおけるジェンダーバイアスについて,教育ビデオにおけるナレーターのジェンダー検出のための手動アノテーションを用いて検討した。 本研究の目的は,オンライン教育における性バイアスを自動アノテーションを用いて評価することである。 自動パイプラインは最近の論文ですでに提案されており、本論文では経験的結果と重要な結果のみを共有する。 その結果,教育ビデオは男性に偏り,STEM関連ビデオはNON-STEMより偏りが強いことがわかった。

Students are increasingly using online materials to learn new subjects or to supplement their learning process in educational institutions. Issues regarding gender bias have been raised in the context of formal education and some measures have been proposed to mitigate them. In our previous work, we investigate the perceived gender bias in YouTube using manually annotations for detecting the narrators' perceived gender in educational videos. In this work, our goal is to evaluate the perceived gender bias in online education by exploiting an automated annotations. The automated pipeline has already proposed in a recent paper, thus in this paper we only share our empirical results with important findings. Our results show that educational videos are biased towards the male and STEM-related videos are more biased than their NON-STEM counterparts.
翻訳日:2022-11-02 14:29:26 公開日:2022-10-31
# 対物説明のための人間認知レベルに基づく実験設計 (xai) に向けて

Towards Human Cognition Level-based Experiment Design for Counterfactual Explanations (XAI) ( http://arxiv.org/abs/2211.00103v1 )

ライセンス: Link先を確認
Muhammad Suffian, Muhammad Yaseen Khan, Alessandro Bogliolo(参考訳) 説明可能な人工知能(XAI)は最近、多くの人工知能(AI)の実践者や開発者は、そのようなAIベースのシステムがどのように機能するかを合理化せざるを得ないため、関心を集めている。 数十年後、ほとんどのXAIシステムは知識ベースまたはエキスパートシステムとして開発された。 これらのシステムは、ユーザの認知能力にほとんど関係なく、説明の技術的記述の推論を仮定した。 XAI研究の重点は、より理解を深めるために、より実践的な説明アプローチに変わったようだ。 認知科学研究がXAIの進歩に大きく影響を与える可能性のある領域は、XAIシステム評価に不可欠なユーザ知識とフィードバックを評価することである。 そこで本稿では,理解の認知レベルの違いに基づいて,説明を生成・評価する枠組みを提案する。 本研究では,ユーザの認知能力を評価するモデルとして広く受け入れられているブルーム分類法を採用する。 本研究では, ユーザフィードバックを取り入れた説明提示媒体として, 各認知レベルにおける説明の理解レベルを検証するとともに, 説明生成方法の即興化を図る。

Explainable Artificial Intelligence (XAI) has recently gained a swell of interest, as many Artificial Intelligence (AI) practitioners and developers are compelled to rationalize how such AI-based systems work. Decades back, most XAI systems were developed as knowledge-based or expert systems. These systems assumed reasoning for the technical description of an explanation, with little regard for the user's cognitive capabilities. The emphasis of XAI research appears to have turned to a more pragmatic explanation approach for better understanding. An extensive area where cognitive science research may substantially influence XAI advancements is evaluating user knowledge and feedback, which are essential for XAI system evaluation. To this end, we propose a framework to experiment with generating and evaluating the explanations on the grounds of different cognitive levels of understanding. In this regard, we adopt Bloom's taxonomy, a widely accepted model for assessing the user's cognitive capability. We utilize the counterfactual explanations as an explanation-providing medium encompassed with user feedback to validate the levels of understanding about the explanation at each cognitive level and improvise the explanation generation methods accordingly.
翻訳日:2022-11-02 14:29:15 公開日:2022-10-31
# コード生成におけるバイアスを見つけるためのシンプルで効果的なアプローチ

A Simple, Yet Effective Approach to Finding Biases in Code Generation ( http://arxiv.org/abs/2211.00609v1 )

ライセンス: Link先を確認
Spyridon Mouselinos, Mateusz Malinowski, Henryk Michalewski(参考訳) 近年,高性能コード生成システムのスコアが浮上している。 多くのドメインで広く採用されているように、コード生成は大きな言語モデルをコアとして使用し、マスクや因果関係の言語モデリングスキーマの下でトレーニングされることが多い。 この研究は、現在のコード生成システムが大きな言語モデルのバックボーンから継承されたバイアスを示しており、特定の状況下で生成されたコードにリークする可能性があることを示している。 そこで本研究では,ヒントを自動削除し,コード生成モデルが使用する様々なバイアスを露呈するフレームワークを提案する。 フレームワークを3つのコーディング課題に適用し、トップパフォーマンスのコーディング生成モデルでテストします。 本実験は,コード生成中のキーワードの特定のプロンプト構造と活用に対するバイアスを明らかにする。 最後に,より堅牢なコード生成に向けた有望な方向性を見出した,データ変換手法としてのフレームワークの使用方法を示す。

Recently, scores of high-performing code generation systems have surfaced. As has become a popular choice in many domains, code generation is often approached using large language models as a core, trained under the masked or causal language modeling schema. This work shows that current code generation systems exhibit biases inherited from large language model backbones, which might leak into generated code under specific circumstances. To investigate the effect, we propose a framework that automatically removes hints and exposes various biases that these code generation models use. We apply our framework to three coding challenges and test it across top-performing coding generation models. Our experiments reveal biases towards specific prompt structure and exploitation of keywords during code generation. Finally, we demonstrate how to use our framework as a data transformation technique, which we find a promising direction toward more robust code generation.
翻訳日:2022-11-02 14:28:57 公開日:2022-10-31
# 進行性不整脈によるasr機能低下音声の分析

An analysis of degenerating speech due to progressive dysarthria on ASR performance ( http://arxiv.org/abs/2211.00089v1 )

ライセンス: Link先を確認
Katrin Tomanek, Katie Seaver, Pan-Pan Jiang, Richard Cave, Lauren Harrel, Jordan R. Green(参考訳) パーソナライズされた自動音声認識(ASR)モデルは、最近、ひどい障害のある音声を認識できるように設計されているが、縮退する音声の人には、時間とともにモデル性能が低下する可能性がある。 本研究の目的は,(1)失語者におけるasrの時間経過の変化を分析し,(2)疾患進行を通じて認識を最適化するための緩和戦略を検討することである。 症例は筋萎縮性側索硬化症(ALS)の4例であった。 記録セッション間の単語誤り率(WER)は、非適応話者独立(U-SI)、適応話者独立(A-SI)、適応話者依存(A-SDまたはパーソナライズ)の3つのモデルで計算された。 発話障害が増大するにつれて,3つのモデルの性能は時間とともに著しく低下したが,a-sdモデルの性能は,音声進行の重篤な段階からの録音により大幅に向上した。 A-SDモデルの性能向上には至らなかったが, 音声の劣化にともなって, 早期に発声を録音することは困難であった。 本研究は,進行性音声障害のある個人に対してパーソナライズされたモデルを提供する際に,連続記録(およびモデル再訓練)の重要性を強調した。

Although personalized automatic speech recognition (ASR) models have recently been designed to recognize even severely impaired speech, model performance may degrade over time for persons with degenerating speech. The aims of this study were to (1) analyze the change of performance of ASR over time in individuals with degrading speech, and (2) explore mitigation strategies to optimize recognition throughout disease progression. Speech was recorded by four individuals with degrading speech due to amyotrophic lateral sclerosis (ALS). Word error rates (WER) across recording sessions were computed for three ASR models: Unadapted Speaker Independent (U-SI), Adapted Speaker Independent (A-SI), and Adapted Speaker Dependent (A-SD or personalized). The performance of all three models degraded significantly over time as speech became more impaired, but the performance of the A-SD model improved markedly when it was updated with recordings from the severe stages of speech progression. Recording additional utterances early in the disease before speech degraded significantly did not improve the performance of A-SD models. Overall, our findings emphasize the importance of continuous recording (and model retraining) when providing personalized models for individuals with progressive speech impairments.
翻訳日:2022-11-02 14:27:32 公開日:2022-10-31
# 知識蒸留用マルチコードブックベクトル量子化指数の予測

Predicting Multi-Codebook Vector Quantization Indexes for Knowledge Distillation ( http://arxiv.org/abs/2211.00508v1 )

ライセンス: Link先を確認
Liyong Guo, Xiaoyu Yang, Quandong Wang, Yuxiang Kong, Zengwei Yao, Fan Cui, Fangjun Kuang, Wei Kang, Long Lin, Mingshuang Luo, Piotr Zelasko, Daniel Povey(参考訳) 知識蒸留(KD)は、教師モデルの出力動作を模倣するために学生モデルを訓練する自動音声認識(ASR)において、モデル性能を改善するための一般的なアプローチである。 しかし、従来のKD法は、特にトレーニングコーパスが大きい場合、教師ラベル記憶の問題に悩まされる。 オンザフライの教師ラベル生成はこの問題に対処するが、教師モデルの評価がバッチ毎に必要となるため、トレーニング速度は大幅に遅い。 本稿では,教師ラベルの生成をコーデック問題として再構成する。 本稿では,教師の埋め込みをコードブックインデックス(CI)に圧縮する,MVQ(Multi-codebook Vector Quantization)アプローチを提案する。 これに基づいて、学生モデルが自己指導型教師モデルの埋め込みから生成されたCIを予測するためのKDトレーニングフレームワーク(MVQ-KD)を提案する。 LibriSpeechのクリーン100時間の実験では、MVQ-KDフレームワークは従来のKDメソッド(l1, l2)と同等のパフォーマンスを達成し、256倍のストレージを必要とすることが示されている。 完全なlibrispeechデータセットを使用すると、mvq-kdフレームワークは、非ストリーミングトランスデューサのtest-cleanおよびtest-otherの13.8%と8.2%、ストリーミングトランスデューサの4.0%と4.9%という結果になる。 この実装はすでにオープンソースプロジェクトicefallの一部としてリリースされている。

Knowledge distillation(KD) is a common approach to improve model performance in automatic speech recognition (ASR), where a student model is trained to imitate the output behaviour of a teacher model. However, traditional KD methods suffer from teacher label storage issue, especially when the training corpora are large. Although on-the-fly teacher label generation tackles this issue, the training speed is significantly slower as the teacher model has to be evaluated every batch. In this paper, we reformulate the generation of teacher label as a codec problem. We propose a novel Multi-codebook Vector Quantization (MVQ) approach that compresses teacher embeddings to codebook indexes (CI). Based on this, a KD training framework (MVQ-KD) is proposed where a student model predicts the CI generated from the embeddings of a self-supervised pre-trained teacher model. Experiments on the LibriSpeech clean-100 hour show that MVQ-KD framework achieves comparable performance as traditional KD methods (l1, l2), while requiring 256 times less storage. When the full LibriSpeech dataset is used, MVQ-KD framework results in 13.8% and 8.2% relative word error rate reductions (WERRs) for non -streaming transducer on test-clean and test-other and 4.0% and 4.9% for streaming transducer. The implementation of this work is already released as a part of the open-source project icefall.
翻訳日:2022-11-02 14:26:42 公開日:2022-10-31
# Traffic4cast 2022 Challenge による大規模トラフィック予測

Large scale traffic forecasting with gradient boosting, Traffic4cast 2022 challenge ( http://arxiv.org/abs/2211.00157v1 )

ライセンス: Link先を確認
Martin Lumiste (1), Andrei Ilie (1 and 2) ((1) Bolt Technology, (2) University of Bucharest)(参考訳) 交通の正確な予測は、最適な交通計画と効率的な都市移動に最も重要である。 iarai(the institute of advanced research in artificial intelligence)はtraffic4castを主催する。traffic4castは、リアルタイムデータに基づく年次トラフィック予測コンペティションである(https://www.iarai.ac.at/traffic4cast/])。 我々はiarai traffic4cast 2022のコンペティションにおいて,道路グラフエッジの渋滞クラスとスーパーセグメンテーションレベルの移動時間を予測するアルゴリズムの開発を目標としたソリューションを提案する。 前年とは対照的に、今年のコンペティションは、より粗いグリッドベースのトラフィック映画ではなく、グラフエッジレベルの振る舞いのモデリングに焦点を当てている。 このため,表型データモデリング - 勾配ブースト決定木アンサンブルによく似た手法を活用した。 我々は、従来のPCA方式を用いて、トラフィックカウンタを表す入力データの次元を小さくし、LightGBMモデルに入力として供給する。 このシンプルで高速でスケーラブルなテクニックは、コアコンペで2位を獲得しました。 トレーニング済みのモデルファイルやサブミッションへのソースコードと参照はhttps://github.com/skandium/t4c22 で公開されている。

Accurate traffic forecasting is of the utmost importance for optimal travel planning and for efficient city mobility. IARAI (The Institute of Advanced Research in Artificial Intelligence) organizes Traffic4cast, a yearly traffic prediction competition based on real-life data [https://www.iarai.ac.at/traffic4cast/], aiming to leverage artificial intelligence advances for producing accurate traffic estimates. We present our solution to the IARAI Traffic4cast 2022 competition, in which the goal is to develop algorithms for predicting road graph edge congestion classes and supersegment-level travel times. In contrast to the previous years, this year's competition focuses on modelling graph edge level behaviour, rather than more coarse aggregated grid-based traffic movies. Due to this, we leverage a method familiar from tabular data modelling -- gradient-boosted decision tree ensembles. We reduce the dimensionality of the input data representing traffic counters with the help of the classic PCA method and feed it as input to a LightGBM model. This simple, fast, and scalable technique allowed us to win second place in the core competition. The source code and references to trained model files and submissions are available at https://github.com/skandium/t4c22 .
翻訳日:2022-11-02 14:19:46 公開日:2022-10-31
# FL Games: 分散シフトのためのフェデレーション学習フレームワーク

FL Games: A Federated Learning Framework for Distribution Shifts ( http://arxiv.org/abs/2211.00184v1 )

ライセンス: Link先を確認
Sharut Gupta, Kartik Ahuja, Mohammad Havaei, Niladri Chatterjee, Yoshua Bengio(参考訳) Federated Learningは、サーバのオーケストレーションの下で、クライアント間で分散されたデータの予測モデルをトレーニングすることを目的としている。 しかし、参加する各クライアントは、通常、異なるディストリビューションからのデータを保持するため、異なるクライアントからのデータに対する破滅的な一般化をもたらす可能性がある。 この研究において、非i.d.クライアント間でより良く一般化するためには、ドメイン間で安定で不変な相関を学習することが必須である。 我々は,クライアント間で不変な因果的特徴を学習するフェデレーション学習のためのゲーム理論フレームワークfl gamesを提案する。 ナッシュ均衡を達成するための訓練中、伝統的なベストレスポンス戦略は高周波振動に悩まされる。 FL GAMESは,この課題を効果的に解決し,スムーズな性能曲線を示す。 さらに、FL GAMESはクライアント数でよくスケールし、通信ラウンドを著しく少なくし、デバイスの不均一性に非依存である。 実験的な評価により,FL GAMESは様々なベンチマークにおいて高い分配性能を示す。

Federated learning aims to train predictive models for data that is distributed across clients, under the orchestration of a server. However, participating clients typically each hold data from a different distribution, which can yield to catastrophic generalization on data from a different client, which represents a new domain. In this work, we argue that in order to generalize better across non-i.i.d. clients, it is imperative to only learn correlations that are stable and invariant across domains. We propose FL GAMES, a game-theoretic framework for federated learning that learns causal features that are invariant across clients. While training to achieve the Nash equilibrium, the traditional best response strategy suffers from high-frequency oscillations. We demonstrate that FL GAMES effectively resolves this challenge and exhibits smooth performance curves. Further, FL GAMES scales well in the number of clients, requires significantly fewer communication rounds, and is agnostic to device heterogeneity. Through empirical evaluation, we demonstrate that FL GAMES achieves high out-of-distribution performance on various benchmarks.
翻訳日:2022-11-02 14:19:21 公開日:2022-10-31
# COVID-19予測のための時空間同期グラフトランスネットワーク(STSGT)

Spatial-Temporal Synchronous Graph Transformer network (STSGT) for COVID-19 forecasting ( http://arxiv.org/abs/2211.00082v1 )

ライセンス: Link先を確認
Soumyanil Banerjee, Ming Dong, Weisong Shi(参考訳) 新型コロナウイルス(covid-19)はここ数年、深刻な懸念の対象となっている。 これは世界中の多くの人々に悪影響を及ぼし、数十億ドルのビジネス資本を失った。 本稿では,新型コロナウイルスの時系列データの複雑な空間的・時間的依存性を把握し,パンデミックの進展を予知する,新しい時空間同期グラフトランスフォーマネットワーク(STSGT)を提案する。 STSGTの層は、グラフ畳み込みネットワーク(GCN)と同期時空間グラフ上の変圧器の自己保持機構を組み合わせて、新型コロナウイルスの時系列の動的に変化するパターンを捉える。 時空間同期グラフは、与えられた時間ステップにおけるグラフの頂点間の空間的および時間的依存関係を同時にキャプチャし、時系列の不均一性をキャプチャし、予測精度を向上させる。 公開されている2つの実世界のCOVID-19時系列データセットに関する大規模な実験は、STSGTが時空間予測タスクのために設計された最先端のアルゴリズムを著しく上回っていることを示している。 具体的には、平均12日間の地平線上において、米国50州とワシントンd.c.の1日当たりの感染者数と死亡数を予測しながら、次の最良のアルゴリズムよりも、12.19%と3.42%の絶対誤差(mae)の潜在的な改善を観測した。 コードとモデルはhttps://github.com/soumbane/stsgtで公開されている。

COVID-19 has become a matter of serious concern over the last few years. It has adversely affected numerous people around the globe and has led to the loss of billions of dollars of business capital. In this paper, we propose a novel Spatial-Temporal Synchronous Graph Transformer network (STSGT) to capture the complex spatial and temporal dependency of the COVID-19 time series data and forecast the future status of an evolving pandemic. The layers of STSGT combine the graph convolution network (GCN) with the self-attention mechanism of transformers on a synchronous spatial-temporal graph to capture the dynamically changing pattern of the COVID time series. The spatial-temporal synchronous graph simultaneously captures the spatial and temporal dependencies between the vertices of the graph at a given and subsequent time-steps, which helps capture the heterogeneity in the time series and improve the forecasting accuracy. Our extensive experiments on two publicly available real-world COVID-19 time series datasets demonstrate that STSGT significantly outperforms state-of-the-art algorithms that were designed for spatial-temporal forecasting tasks. Specifically, on average over a 12-day horizon, we observe a potential improvement of 12.19% and 3.42% in Mean Absolute Error(MAE) over the next best algorithm while forecasting the daily infected and death cases respectively for the 50 states of US and Washington, D.C. Additionally, STSGT also outperformed others when forecasting the daily infected cases at the state level, e.g., for all the counties in the State of Michigan. The code and models are publicly available at https://github.com/soumbane/STSGT.
翻訳日:2022-11-02 14:08:22 公開日:2022-10-31
# YOLOv7による道路損傷の検出と分類

Road Damages Detection and Classification with YOLOv7 ( http://arxiv.org/abs/2211.00091v1 )

ライセンス: Link先を確認
Vung Pham, Du Nguyen, Christopher Donan(参考訳) 道路インフラの維持は、安全で経済的で持続可能な輸送システムを実現する上で重要な要素の1つである。 手動による道路損傷データ収集は、人間が行うのに手間がかかり、安全ではない。 この領域は人工知能技術の急速な進歩と普及の恩恵を受けている。 具体的には、深層学習の進歩により、収集した道路画像から道路損傷を自動的に検出することができる。 本研究は,Googleストリートビューを用いて道路被害データを収集・ラベル付けし,YOLOv7(You Only Look Once Version 7)と座標注意とラベル平滑化やアンサンブル法などの細調整技術を用いて,道路被害の自動検出・分類のためのディープラーニングモデルを訓練することを提案する。 提案手法は,クラウドセンシングによる道路被害検出チャレンジ (CRDDC2022, IEEE BigData 2022) に適用される。 その結果、Googleストリートビューのデータ収集は効率的であることが示され、提案されたディープラーニングアプローチは、Googleストリートビューを使用して米国から収集された道路損傷データの81.7%、このデータセットの全テストイメージの74.1%をF1スコアとする。

Maintaining the roadway infrastructure is one of the essential factors in enabling a safe, economic, and sustainable transportation system. Manual roadway damage data collection is laborious and unsafe for humans to perform. This area is poised to benefit from the rapid advance and diffusion of artificial intelligence technologies. Specifically, deep learning advancements enable the detection of road damages automatically from the collected road images. This work proposes to collect and label road damage data using Google Street View and use YOLOv7 (You Only Look Once version 7) together with coordinate attention and related accuracy fine-tuning techniques such as label smoothing and ensemble method to train deep learning models for automatic road damage detection and classification. The proposed approaches are applied to the Crowdsensing-based Road Damage Detection Challenge (CRDDC2022), IEEE BigData 2022. The results show that the data collection from Google Street View is efficient, and the proposed deep learning approach results in F1 scores of 81.7% on the road damage data collected from the United States using Google Street View and 74.1% on all test images of this dataset.
翻訳日:2022-11-02 14:01:45 公開日:2022-10-31
# UmeTrack:VR用多視点エンドツーエンドハンドトラッキング

UmeTrack: Unified multi-view end-to-end hand tracking for VR ( http://arxiv.org/abs/2211.00099v1 )

ライセンス: Link先を確認
Shangchen Han, Po-chen Wu, Yubo Zhang, Beibei Liu, Linguang Zhang, Zheng Wang, Weiguang Si, Peizhao Zhang, Yujun Cai, Tomas Hodan, Randi Cabezas, Luan Tran, Muzaffer Akbay, Tsz-Ho Yu, Cem Keskin, Robert Wang(参考訳) 空間における3Dハンドポーズのリアルタイム追跡は難しい問題であり、VRインタラクションにおいて重要な役割を果たす。 この空間における既存の作業は、ルート相対的な3Dポーズを生成するか、熱マップの生成や3Dポーズを得るためにキネマティック最適化などの複数のステージに依存している。 さらに、幅広い \ac{fov} カメラからのマルチビュートラッキングを含む典型的なVRシナリオは、これらの手法によって対処されることはめったにない。 本稿では,世界空間における3Dハンドポーズを直接予測する多視点多フレームハンドトラッキングのための,統一的なエンドツーエンド微分可能なフレームワークを提案する。 フレームワークをジッタ削減やピンチ予測といった下流タスクで拡張することで、エンドツーエンドの差別化の利点を実証します。 さらに,本モデルの有効性を示すために,実データと合成データの両方からなる大規模自我中心手ポーズデータセットを提案する。 このデータセットでトレーニングしたシステムは、様々な困難なインタラクティブな動作を処理し、リアルタイムVRアプリケーションにうまく適用されている。

Real-time tracking of 3D hand pose in world space is a challenging problem and plays an important role in VR interaction. Existing work in this space are limited to either producing root-relative (versus world space) 3D pose or rely on multiple stages such as generating heatmaps and kinematic optimization to obtain 3D pose. Moreover, the typical VR scenario, which involves multi-view tracking from wide \ac{fov} cameras is seldom addressed by these methods. In this paper, we present a unified end-to-end differentiable framework for multi-view, multi-frame hand tracking that directly predicts 3D hand pose in world space. We demonstrate the benefits of end-to-end differentiabilty by extending our framework with downstream tasks such as jitter reduction and pinch prediction. To demonstrate the efficacy of our model, we further present a new large-scale egocentric hand pose dataset that consists of both real and synthetic data. Experiments show that our system trained on this dataset handles various challenging interactive motions, and has been successfully applied to real-time VR applications.
翻訳日:2022-11-02 14:01:21 公開日:2022-10-31
# サイクル一貫性を考慮した自律運転の動作予測の改善

Improving Motion Forecasting for Autonomous Driving with the Cycle Consistency Loss ( http://arxiv.org/abs/2211.00149v1 )

ライセンス: Link先を確認
Titas Chakraborty, Akshay Bhagat, Henggang Cui(参考訳) 動的シーンのロバストな動き予測は、自律走行車の重要な要素である。 これは、場面の多様性と問題の固有の不確実性のため、難しい問題である。 動き予測の精度を向上させるため,本研究では,エージェントの将来の軌道は,その履歴観測とビザの対応に一貫性のある,このタスクにおける新たな一貫性制約を明らかにする。 この特性を活用するために,新しいサイクル一貫性トレーニングスキームを提案し,この一貫性を促進するために新しいサイクル損失を定義する。 特に、予測された将来の軌道を時間的に反転させ、予測モデルにフィードバックして履歴を予測し、損失を追加サイクル損失項として計算する。 Argoverseデータセットの実験を通して、サイクル損失が競合運動予測モデルの性能を向上させることを示した。

Robust motion forecasting of the dynamic scene is a critical component of an autonomous vehicle. It is a challenging problem due to the heterogeneity in the scene and the inherent uncertainties in the problem. To improve the accuracy of motion forecasting, in this work, we identify a new consistency constraint in this task, that is an agent's future trajectory should be coherent with its history observations and visa versa. To leverage this property, we propose a novel cycle consistency training scheme and define a novel cycle loss to encourage this consistency. In particular, we reverse the predicted future trajectory backward in time and feed it back into the prediction model to predict the history and compute the loss as an additional cycle loss term. Through our experiments on the Argoverse dataset, we demonstrate that cycle loss can improve the performance of competitive motion forecasting models.
翻訳日:2022-11-02 14:01:02 公開日:2022-10-31
# 非シャープヌルと弱信号を用いたSIMPLE-RCグループネットワーク推論

SIMPLE-RC: Group Network Inference with Non-Sharp Nulls and Weak Signals ( http://arxiv.org/abs/2211.00128v1 )

ライセンス: Link先を確認
Jianqing Fan, Yingying Fan, Jinchi Lv, Fan Yang(参考訳) 不確実性定量化による大規模ネットワーク推論は、自然科学、社会科学、医学において重要な応用である。 Fan, Fan, Han, Lv (2022) の最近の研究は、与えられたノードのペアが同じメンバーシッププロファイルを共有するという鋭いヌル仮説をテストするために、大きなネットワーク(SIMPLE)のメンバシッププロファイルに関する統計的推測の一般的なフレームワークを導入した。 実際のアプリケーションでは、SIMPLEで考慮された設定よりも比較的弱い信号が存在する場合、同様のメンバーシッププロファイルを共有するノード群がしばしば存在する。 これらの課題に対処するため、本論文では、与えられたノード群が、より弱い信号の下で類似した(必ずしも同一ではない)メンバーシッププロファイルを共有するという非シャープなヌル仮説をテストするためのSIMPLE法(SIMPLE-RC)を提案する。 ランダムカップリングのアイデアを生かして,グループ内のサブサンプリングノード対に対するSIMPLEテストの最大値としてテストを構築した。 このような手法により, SIMPLE-RC試験の漸近分布の微妙な解析が可能となるとともに, パワーを保ちながら, 個々のSIMPLE試験間の相関関係を著しく低減する。 提案手法と理論は,ノード次数不均一性を伴う場合と無関係の場合の両方をカバーする。 これらの新しい理論の発展は、弱スパイクを持つランダム行列に対する我々の研究に基づいて、$\ell_\infty$-norm の下でスパイクされた固有ベクトルの2次展開によって力づけられる。 提案手法の理論的結果と実用的利点は,いくつかのシミュレーションと実データ例を用いて実証した。

Large-scale network inference with uncertainty quantification has important applications in natural, social, and medical sciences. The recent work of Fan, Fan, Han and Lv (2022) introduced a general framework of statistical inference on membership profiles in large networks (SIMPLE) for testing the sharp null hypothesis that a pair of given nodes share the same membership profiles. In real applications, there are often groups of nodes under investigation that may share similar membership profiles at the presence of relatively weaker signals than the setting considered in SIMPLE. To address these practical challenges, in this paper we propose a SIMPLE method with random coupling (SIMPLE-RC) for testing the non-sharp null hypothesis that a group of given nodes share similar (not necessarily identical) membership profiles under weaker signals. Utilizing the idea of random coupling, we construct our test as the maximum of the SIMPLE tests for subsampled node pairs from the group. Such technique reduces significantly the correlation among individual SIMPLE tests while largely maintaining the power, enabling delicate analysis on the asymptotic distributions of the SIMPLE-RC test. Our method and theory cover both the cases with and without node degree heterogeneity. These new theoretical developments are empowered by a second-order expansion of spiked eigenvectors under the $\ell_\infty$-norm, built upon our work for random matrices with weak spikes. Our theoretical results and the practical advantages of the newly suggested method are demonstrated through several simulation and real data examples.
翻訳日:2022-11-02 13:53:38 公開日:2022-10-31
# 非常に低い資源文のアライメント:luhyaとswahili

Very Low Resource Sentence Alignment: Luhya and Swahili ( http://arxiv.org/abs/2211.00046v1 )

ライセンス: Link先を確認
Everlyn Asiko Chimoto and Bruce A. Bassett(参考訳) LASERやLaBSEのような事前訓練されたモデルによって生成された言語に依存しない文の埋め込みは、大規模なデータセットをマイニングして低リソース機械翻訳のための並列コーパスを生成する魅力的な選択肢である。 我々は,Luhya と Swahili の2つの低リソースアフリカ言語に対して bitext を抽出するために LASER と LaBSE を試験した。 この研究のために、Luhya- English文8000近い新しい並列セットを作成し、LASERとLaBSEの新しいゼロショットテストを可能にした。 LaBSE は両方の言語で LASER よりも優れています。 しかし、LASERとLaBSEはいずれもゼロショットアライメントでは成績が悪く、それぞれ1.5%と22.0%しか成功していない(P@1スコア)。 並列luhya文の小さな集合に埋め込みを微調整し,有意な向上を示し,ラボアライメント精度を53.3%に向上させた。 さらに、データセットを0.7以上のコサイン類似度で文章埋め込みペアに制限すると、85%以上の精度でアライメントが得られる。

Language-agnostic sentence embeddings generated by pre-trained models such as LASER and LaBSE are attractive options for mining large datasets to produce parallel corpora for low-resource machine translation. We test LASER and LaBSE in extracting bitext for two related low-resource African languages: Luhya and Swahili. For this work, we created a new parallel set of nearly 8000 Luhya-English sentences which allows a new zero-shot test of LASER and LaBSE. We find that LaBSE significantly outperforms LASER on both languages. Both LASER and LaBSE however perform poorly at zero-shot alignment on Luhya, achieving just 1.5% and 22.0% successful alignments respectively (P@1 score). We fine-tune the embeddings on a small set of parallel Luhya sentences and show significant gains, improving the LaBSE alignment accuracy to 53.3%. Further, restricting the dataset to sentence embedding pairs with cosine similarity above 0.7 yielded alignments with over 85% accuracy.
翻訳日:2022-11-02 13:52:52 公開日:2022-10-31
# 自己補正学習によるシーケンス生成

Generating Sequences by Learning to Self-Correct ( http://arxiv.org/abs/2211.00053v1 )

ライセンス: Link先を確認
Sean Welleck, Ximing Lu, Peter West, Faeze Brahman, Tianxiao Shen, Daniel Khashabi, Yejin Choi(参考訳) シーケンス生成アプリケーションは、プログラムが正しいことの保証、特定のキーワードの使用、望ましくないコンテンツの回避など、セマンティックな制約を満たす必要がある。 微調整されたり、数発のデモでトリガーされた言語モデルは、しばしばこれらの制約に違反し、出力を反復的に修正するメカニズムが欠如している。 さらに、いくつかの強力な言語モデルは極端なスケールまたは到達不能であり、タスク固有の適応のためにパラメータを更新する非効率である。 本稿では,不完全生成器(オフザシェルフ言語モデルあるいは教師付きシーケンス・ツー・シーケンスモデル)を別個の修正器から分離し,不完全生成を反復的に補正する手法であるSelf-Correctionを提案する。 修正子を訓練するために,中間的不完全世代に対してスカラーあるいは自然言語フィードバックを使用できるオンライン学習手順を提案する。 自己補正は, ベースジェネレータがベースジェネレータよりもはるかに小さい場合でも, 数学的プログラム合成, 語彙制約生成, 毒性制御の3つのタスクにおいて, ベースジェネレータを改良することを示す。

Sequence generation applications require satisfying semantic constraints, such as ensuring that programs are correct, using certain keywords, or avoiding undesirable content. Language models, whether fine-tuned or prompted with few-shot demonstrations, frequently violate these constraints, and lack a mechanism to iteratively revise their outputs. Moreover, some powerful language models are of extreme scale or inaccessible, making it inefficient, if not infeasible, to update their parameters for task-specific adaptation. We present Self-Correction, an approach that decouples an imperfect base generator (an off-the-shelf language model or supervised sequence-to-sequence model) from a separate corrector that learns to iteratively correct imperfect generations. To train the corrector, we propose an online training procedure that can use either scalar or natural language feedback on intermediate imperfect generations. We show that Self-Correction improves upon the base generator in three diverse generation tasks - mathematical program synthesis, lexically-constrained generation, and toxicity control - even when the corrector is much smaller than the base generator.
翻訳日:2022-11-02 13:52:32 公開日:2022-10-31
# 言語固有のサブネットワークを用いたデータ効率の高い言語間転送

Data-Efficient Cross-Lingual Transfer with Language-Specific Subnetworks ( http://arxiv.org/abs/2211.00106v1 )

ライセンス: Link先を確認
Rochelle Choenni, Dan Garrette, Ekaterina Shutova(参考訳) 大規模多言語言語モデルは通常、言語間タスク転送を可能にするため、すべての言語でパラメータを共有するが、異なる言語からの更新をトレーニングする際にも学習が妨げられる。 本稿では,言語間パラメータ共有を制御する言語固有のサブネットワークを用いて,コンフリクトの低減と微調整時の肯定的な転送を促進する手法を提案する。 我々は,このモデルと共同で更新される動的サブネットワークを導入し,その手法とメタラーニングを組み合わせることにより,言語間伝達を改善する手法を提案する。 最後に、各手法がモデルにどのように影響するかを広範囲に分析する。

Large multilingual language models typically share their parameters across all languages, which enables cross-lingual task transfer, but learning can also be hindered when training updates from different languages are in conflict. In this paper, we propose novel methods for using language-specific subnetworks, which control cross-lingual parameter sharing, to reduce conflicts and increase positive transfer during fine-tuning. We introduce dynamic subnetworks, which are jointly updated with the model, and we combine our methods with meta-learning, an established, but complementary, technique for improving cross-lingual transfer. Finally, we provide extensive analyses of how each of our methods affects the models.
翻訳日:2022-11-02 13:52:12 公開日:2022-10-31
# 離散音声表現を用いたテキスト直接音声合成

Textless Direct Speech-to-Speech Translation with Discrete Speech Representation ( http://arxiv.org/abs/2211.00115v1 )

ライセンス: Link先を確認
Xinjian Li, Ye Jia, Chung-Cheng Chiu(参考訳) 近年,音声音声翻訳(S2ST)の研究が急速に進んでいる。 多くのエンドツーエンドシステムが提案され、認識、翻訳、合成のサブシステムで構成される従来のカスケードシステムよりも優れている。 しかしながら、エンド・ツー・エンドのシステムの多くは、トレーニング中の中間的なテキスト管理に依存しており、書式のない言語で作業することは不可能である。 本研究では,Translatotron 2をベースとした新しいモデルであるTextless Translatotronを提案する。 Translatotron 2のような目標音素を予測する補助タスクと共同で訓練する代わりに、学習された音声量化器やランダムな音声量化器から得られる離散音声表現を予測する補助タスクを使用する。 教師なし音声データで事前訓練された音声エンコーダを両モデルに使用した場合,提案モデルは多言語CVSS-CコーパスとバイリンガルFisher Spanish- Englishコーパスのトランスラトトロン2とほぼ同等の翻訳品質が得られる。 後者では、以前の最先端のテキストレスモデルを+18.5 BLEUで上回っている。

Research on speech-to-speech translation (S2ST) has progressed rapidly in recent years. Many end-to-end systems have been proposed and show advantages over conventional cascade systems, which are often composed of recognition, translation and synthesis sub-systems. However, most of the end-to-end systems still rely on intermediate textual supervision during training, which makes it infeasible to work for languages without written forms. In this work, we propose a novel model, Textless Translatotron, which is based on Translatotron 2, for training an end-to-end direct S2ST model without any textual supervision. Instead of jointly training with an auxiliary task predicting target phonemes as in Translatotron 2, the proposed model uses an auxiliary task predicting discrete speech representations which are obtained from learned or random speech quantizers. When a speech encoder pre-trained with unsupervised speech data is used for both models, the proposed model obtains translation quality nearly on-par with Translatotron 2 on the multilingual CVSS-C corpus as well as the bilingual Fisher Spanish-English corpus. On the latter, it outperforms the prior state-of-the-art textless model by +18.5 BLEU.
翻訳日:2022-11-02 13:52:00 公開日:2022-10-31
# ストリーミング音声認識用トランスコーダの音声/テキスト合同学習

Joint Audio/Text Training for Transformer Rescorer of Streaming Speech Recognition ( http://arxiv.org/abs/2211.00174v1 )

ライセンス: Link先を確認
Suyoun Kim, Ke Li, Lucas Kabela, Rongqing Huang, Jiedan Zhu, Ozlem Kalinli, Duc Le(参考訳) 近年,従来の第1パスストリーミングASRモデルの上に第2パス再構成モデルを組み込んだ2パスストリーミングエンドツーエンド音声認識(ASR)への関心が高まっており,レイテンシを低く保ちながら認識精度の向上が図られている。 最新の第2パス再構成モデルであるTransformer Rescorerは、第1パスモデルからn-best初期出力とオーディオ埋め込みを取得し、n-best初期出力を再描画することで最良の出力を選択する。 しかし、このTransformer Rescorerのトレーニングには、入力としてオーディオ埋め込みを使用するため、高価なペアオーディオテキストトレーニングデータが必要である。 本研究では,Transformer Rescorer を用いた音声/テキスト共同学習手法を提案する。 我々は,Librispeechデータセットと大規模社内データセットのジョイントオーディオ/テキストトレーニングによるTransformer Rescorerの評価を行い,モデルパラメータや遅延を必要とせずに,標準的なTransformer Rescorerと比較して単語誤り率(WER)を大幅に向上させることができることを示す。

Recently, there has been an increasing interest in two-pass streaming end-to-end speech recognition (ASR) that incorporates a 2nd-pass rescoring model on top of the conventional 1st-pass streaming ASR model to improve recognition accuracy while keeping latency low. One of the latest 2nd-pass rescoring model, Transformer Rescorer, takes the n-best initial outputs and audio embeddings from the 1st-pass model, and then choose the best output by re-scoring the n-best initial outputs. However, training this Transformer Rescorer requires expensive paired audio-text training data because the model uses audio embeddings as input. In this work, we present our Joint Audio/Text training method for Transformer Rescorer, to leverage unpaired text-only data which is relatively cheaper than paired audio-text data. We evaluate Transformer Rescorer with our Joint Audio/Text training on Librispeech dataset as well as our large-scale in-house dataset and show that our training method can improve word error rate (WER) significantly compared to standard Transformer Rescorer without requiring any extra model parameters or latency.
翻訳日:2022-11-02 13:51:39 公開日:2022-10-31
# 顔認識は近赤外スペクトルでもバイアスされているか?

Is Facial Recognition Biased at Near-Infrared Spectrum As Well? ( http://arxiv.org/abs/2211.00129v1 )

ライセンス: Link先を確認
Anoop Krishnan, Brian Neas and Ajita Rattani(参考訳) 学術研究やメディアの記事は、顔認識は人口統計に偏っていることを示唆している。 特に、女性、浅黒い肌の人、年上の人の不平等なパフォーマンスが得られる。 しかし、これらの研究は可視スペクトル(vis)における顔認識のバイアスを調査している。 顔の化粧、顔の毛髪、肌の色、照明の変化などの要因は、VISにおけるこの技術のバイアスに起因する。 近赤外スペクトル(NIR)は、照明の変化、顔の化粧、肌の色などの要因に対する堅牢性において、VISに対して有利である。 したがって、近赤外スペクトル(NIR)における顔認識のバイアスを調査する価値がある。 本研究は,NIRスペクトルにおける顔認識システムのバイアスについて検討する。 この目的のために、アフリカとコーカサスの被験者からなるCASIA-Face-AfricaとNotre-Dame-NIVLという2つの一般的なNIR顔画像データセットを用いて、性別と人種の顔認識技術の偏見を調査する。 興味深いことに、NIRスペクトルにおける性別と人種の平等な顔認識性能が実験的に示唆された。

Published academic research and media articles suggest face recognition is biased across demographics. Specifically, unequal performance is obtained for women, dark-skinned people, and older adults. However, these published studies have examined the bias of facial recognition in the visible spectrum (VIS). Factors such as facial makeup, facial hair, skin color, and illumination variation have been attributed to the bias of this technology at the VIS. The near-infrared (NIR) spectrum offers an advantage over the VIS in terms of robustness to factors such as illumination changes, facial makeup, and skin color. Therefore, it is worthwhile to investigate the bias of facial recognition at the near-infrared spectrum (NIR). This first study investigates the bias of the face recognition systems at the NIR spectrum. To this aim, two popular NIR facial image datasets namely, CASIA-Face-Africa and Notre-Dame-NIVL consisting of African and Caucasian subjects, respectively, are used to investigate the bias of facial recognition technology across gender and race. Interestingly, experimental results suggest equitable face recognition performance across gender and race at the NIR spectrum.
翻訳日:2022-11-02 13:43:37 公開日:2022-10-31
# 運用気象学のための機械学習チュートリアル,その2:ニューラルネットワークとディープラーニング

A Machine Learning Tutorial for Operational Meteorology, Part II: Neural Networks and Deep Learning ( http://arxiv.org/abs/2211.00147v1 )

ライセンス: Link先を確認
Randy J. Chase, David R. Harrison, Gary Lackmann and Amy McGovern(参考訳) 過去10年間で、気象学における機械学習の利用は急速に増加している。 特にニューラルネットワークとディープラーニングは、前例のない速度で使用されている。 本稿では,ニューラルネットワークをカバーする資源を気象レンズで補うために,運用上の気象コミュニティをターゲットとした,平易な言語形式の機械学習手法について述べる。 気象学者のための機械学習リソースとしての機能を目指すペアの2番目の論文です。 従来の機械学習手法(ランダムフォレストなど)に焦点を当てた最初の論文では、ニューラルネットワークとディープラーニング手法の幅広いスペクトルについて論じている。 具体的には,パーセプトロン,ニューラルネットワーク,畳み込みニューラルネットワーク,uネットワークについて述べる。 パート1の論文のように、本書はニューラルネットワークとそのトレーニングに関連する用語を記述している。 その後、写本はあらゆる方法の背景に直感を与え、衛星画像(例:雷光)から雷雨を診断する気象学的例で使用するそれぞれの方法を示す。 この論文は、提供されたデータセット(論文で使用される)または代替データセットのテンプレートを使用して、読者がニューラルネットワークを探索できるようにするオープンソースコードリポジトリを伴っている。

Over the past decade the use of machine learning in meteorology has grown rapidly. Specifically neural networks and deep learning have been being used at an unprecedented rate. In order to fill the dearth of resources covering neural networks with a meteorological lens, this paper discusses machine learning methods in a plain language format that is targeted for the operational meteorolgical community. This is the second paper in a pair that aim to serve as a machine learning resource for meteorologists. While the first paper focused on traditional machine learning methods (e.g., random forest), here a broad spectrum of neural networks and deep learning methods are discussed. Specifically this paper covers perceptrons, artificial neural networks, convolutional neural networks and U-networks. Like the part 1 paper, this manuscript discusses the terms associated with neural networks and their training. Then the manuscript provides some intuition behind every method and concludes by showing each method used in a meteorological example of diagnosing thunderstorms from satellite images (e.g., lightning flashes). This paper is accompanied by an open-source code repository to allow readers to explore neural networks using either the dataset provided (which is used in the paper) or as a template for alternate datasets.
翻訳日:2022-11-02 13:43:19 公開日:2022-10-31
# トランスデューサの高速・並列復号化

Fast and parallel decoding for transducer ( http://arxiv.org/abs/2211.00484v1 )

ライセンス: Link先を確認
Wei Kang, Liyong Guo, Fangjun Kuang, Long Lin, Mingshuang Luo, Zengwei Yao, Xiaoyu Yang, Piotr \.Zelasko, Daniel Povey(参考訳) トランスデューサアーキテクチャは、自然にストリーミングされるだけでなく、精度も高いため、音声認識の分野ではますます人気が高まっている。 トランスデューサの欠点の1つは、時間ステップ毎に出力されるシンボルの制限されていない数のために、高速かつ並列にデコードすることが難しいことである。 本研究では,シーケンス間の厳密な一調的アライメントを学習するために,トランスデューサロスの制約付きバージョンを導入する。また,トランスデューサ復号において時間単位のシンボル数を制限し,バッチと並列に復号する効率を向上させることにより,標準のグリーディ探索およびビーム探索アルゴリズムを改善した。 さらに,GPU上のグラフで効率的に動作可能な有限状態オートマトン(FSA)並列ビーム探索アルゴリズムを提案する。 実験の結果,単語誤り率(WER)が向上し,復号処理の高速化が図られた。 私たちの仕事はオープンソースで公開されています。

The transducer architecture is becoming increasingly popular in the field of speech recognition, because it is naturally streaming as well as high in accuracy. One of the drawbacks of transducer is that it is difficult to decode in a fast and parallel way due to an unconstrained number of symbols that can be emitted per time step. In this work, we introduce a constrained version of transducer loss to learn strictly monotonic alignments between the sequences; we also improve the standard greedy search and beam search algorithms by limiting the number of symbols that can be emitted per time step in transducer decoding, making it more efficient to decode in parallel with batches. Furthermore, we propose an finite state automaton-based (FSA) parallel beam search algorithm that can run with graphs on GPU efficiently. The experiment results show that we achieve slight word error rate (WER) improvement as well as significant speedup in decoding. Our work is open-sourced and publicly available\footnote{https://github.com/k2-fsa/icefall}.
翻訳日:2022-11-02 13:35:42 公開日:2022-10-31
# 低遅延ストリーミングasr用遅延ペナルティ化トランスデューサ

Delay-penalized transducer for low-latency streaming ASR ( http://arxiv.org/abs/2211.00490v1 )

ライセンス: Link先を確認
Wei Kang, Zengwei Yao, Fangjun Kuang, Liyong Guo, Xiaoyu Yang, Long lin, Piotr \.Zelasko, Daniel Povey(参考訳) ストリーミング自動音声認識(ASR)では,音声認識精度に最小限の影響を与えながら,レイテンシを極力低減することが望ましい。 既存のメソッドはこの目標を達成することができるが、外部アライメントに依存しているため実装は困難である。 本稿では,外部アライメントを伴わないストリーミングモデルにおいて,シンボル遅延と精度のトレードオフをバランスさせるため,トランスデューサモデルにおいてシンボル遅延をペナルタイズする簡単な方法を提案する。 具体的には、Tはフレームの数であり、tは現在のフレームであり、2次元トランスデューサ再帰に入力されるすべての非ブランク対数確率(正規化後)に、小さな定数時間(T/2 - t)を加える。 ストリーミングコンフォーマーモデルと一方向長短期メモリ(LSTM)モデルの両方に対して、実験結果から、許容性能劣化によるシンボル遅延を大幅に低減できることが示された。 提案手法は以前公表したFastEmitと同じような遅延精度のトレードオフを実現するが, 正当性が高いため, 平均的なシンボル遅延をペナルティ化するのと同等である。 私たちの仕事はオープンソースで公開されている(https://github.com/k2-fsa/k2)。

In streaming automatic speech recognition (ASR), it is desirable to reduce latency as much as possible while having minimum impact on recognition accuracy. Although a few existing methods are able to achieve this goal, they are difficult to implement due to their dependency on external alignments. In this paper, we propose a simple way to penalize symbol delay in transducer model, so that we can balance the trade-off between symbol delay and accuracy for streaming models without external alignments. Specifically, our method adds a small constant times (T/2 - t), where T is the number of frames and t is the current frame, to all the non-blank log-probabilities (after normalization) that are fed into the two dimensional transducer recursion. For both streaming Conformer models and unidirectional long short-term memory (LSTM) models, experimental results show that it can significantly reduce the symbol delay with an acceptable performance degradation. Our method achieves similar delay-accuracy trade-off to the previously published FastEmit, but we believe our method is preferable because it has a better justification: it is equivalent to penalizing the average symbol delay. Our work is open-sourced and publicly available (https://github.com/k2-fsa/k2).
翻訳日:2022-11-02 13:35:25 公開日:2022-10-31
# whittleにはインデクサビリティが不十分 - restless banditsのための改良されたほぼ最適アルゴリズム

Indexability is Not Enough for Whittle: Improved, Near-Optimal Algorithms for Restless Bandits ( http://arxiv.org/abs/2211.00112v1 )

ライセンス: Link先を確認
Abheek Ghosh, Dheeraj Nagaraj, Manish Jain, Milind Tambe(参考訳) 本稿では,複数アクションによるレストレス・マルチアーム・バンディット(rmabs)の計画について検討する。 マルチチャネル通信や監視,マシンメンテナンスタスク,ヘルスケアといったアプリケーションを備えた,マルチエージェントシステムの一般的なモデルです。 ラグランジアン緩和に基づくウィトルインデックスポリシーは、特定の条件下での単純さとほぼ最適性のために、これらの設定で広く使用されている。 本稿では、WhittleインデックスポリシーがRMAB設定で失敗しうることを最初に示し、RMABがインデックス化可能である場合に \textit{even} を示す。 最適性保証が失敗した理由と漸近的最適性が実際に適切な計画地平線にうまく変換できない理由について考察する。 そこで我々は,Whittleインデックスポリシが要求する厳密な構造的仮定を必要とせず,多数のアームを持つ近似ポリシーを有効かつ効率的に得る平均場法に基づく代替計画アルゴリズムを提案する。 これは既存の研究からアイデアを借り、いくつかの改善を加えた:我々のアプローチはハイパーパラメータフリーであり、改善された非漸近分析を提供する。 a) 既知の問題パラメータに対する外因性ハイパーパラメータとより厳密な多項式依存の要件がないこと。 b) 政策の報奨が信頼できることを示す高確率境界,及び (c)このアルゴリズムのアーム数に対する部分最適下界のマッチングにより、我々の境界の厳密さが証明される。 実験により, 平均場アプローチが他のベースラインと一致しているか, 上回っていることを示す。

We study the problem of planning restless multi-armed bandits (RMABs) with multiple actions. This is a popular model for multi-agent systems with applications like multi-channel communication, monitoring and machine maintenance tasks, and healthcare. Whittle index policies, which are based on Lagrangian relaxations, are widely used in these settings due to their simplicity and near-optimality under certain conditions. In this work, we first show that Whittle index policies can fail in simple and practically relevant RMAB settings, \textit{even when} the RMABs are indexable. We discuss why the optimality guarantees fail and why asymptotic optimality may not translate well to practically relevant planning horizons. We then propose an alternate planning algorithm based on the mean-field method, which can provably and efficiently obtain near-optimal policies with a large number of arms, without the stringent structural assumptions required by the Whittle index policies. This borrows ideas from existing research with some improvements: our approach is hyper-parameter free, and we provide an improved non-asymptotic analysis which has: (a) no requirement for exogenous hyper-parameters and tighter polynomial dependence on known problem parameters; (b) high probability bounds which show that the reward of the policy is reliable; and (c) matching sub-optimality lower bounds for this algorithm with respect to the number of arms, thus demonstrating the tightness of our bounds. Our extensive experimental analysis shows that the mean-field approach matches or outperforms other baselines.
翻訳日:2022-11-02 13:34:44 公開日:2022-10-31
# 物体操作のためのハンドグラブ回帰における群分布シフトの新しいベンチマーク メタ学習はバーを上げることができるか?

A new benchmark for group distribution shifts in hand grasp regression for object manipulation. Can meta-learning raise the bar? ( http://arxiv.org/abs/2211.00110v1 )

ライセンス: Link先を確認
Th\'eo Morales and Gerard Lacey(参考訳) コンピュータビジョンによるハンドオブジェクトのポーズを理解することは、人間とロボットの相互作用を支援する、複合現実における新しいアプリケーションへの扉を開く。 ほとんどのメソッドは、バランスのとれたデータセットでトレーニングされ、評価される。 これらのメソッドは、未知のオブジェクトに対して野放しでどのように機能するのか? 本稿では,オブジェクト群分布シフトとオブジェクトポーズ回帰の新たなベンチマークを提案する。 次に、ベースラインポーズ回帰ニューラルネットワークのメタラーニングがこれらのシフトに適応し、未知のオブジェクトにより良い一般化ができるという仮説をテストする。 その結果,事前知識の量によってベースラインよりも測定可能な改善が示された。 手動姿勢回帰の課題として,メタラーナーの最適干渉を観察する。 この問題に対処し,さらに手法を改良するために,このベンチマークの今後の研究の基盤となる包括的分析を行う。

Understanding hand-object pose with computer vision opens the door to new applications in mixed reality, assisted living or human-robot interaction. Most methods are trained and evaluated on balanced datasets. This is of limited use in real-world applications; how do these methods perform in the wild on unknown objects? We propose a novel benchmark for object group distribution shifts in hand and object pose regression. We then test the hypothesis that meta-learning a baseline pose regression neural network can adapt to these shifts and generalize better to unknown objects. Our results show measurable improvements over the baseline, depending on the amount of prior knowledge. For the task of joint hand-object pose regression, we observe optimization interference for the meta-learner. To address this issue and improve the method further, we provide a comprehensive analysis which should serve as a basis for future work on this benchmark.
翻訳日:2022-11-02 13:25:26 公開日:2022-10-31
# SAGE: Saliency-Guided Mixupと最適リアレンジ

SAGE: Saliency-Guided Mixup with Optimal Rearrangements ( http://arxiv.org/abs/2211.00113v1 )

ライセンス: Link先を確認
Avery Ma, Nikita Dvornik, Ran Zhang, Leila Pishdad, Konstantinos G. Derpanis, Afsaneh Fazly(参考訳) データ拡張は、オーバーフィッティングを減らし、一般化を改善することによって、正確なモデルをトレーニングするための重要な要素である。 画像分類では、最も一般的なデータ拡張技術は、単純な測光と幾何変換から、視覚的サリエンシを使って新しいトレーニング例を作成するより複雑な方法まで様々である。 拡張手法が複雑化するにつれて、テスト精度を向上させる能力は向上するが、これらの手法は困難で非効率になり、ドメイン外の一般化が貧弱になる。 これは、単純で効率的(最小の計算オーバーヘッド)で一般化可能でありながら高い精度のゲインを可能にする新しい拡張技術である。 そこで本研究では,視覚的サリエンシーを指導として画像ペアを再構成・混合することにより,新たなトレーニング例を作成するため,サリエンシーガイド付き最適再配置(sage)を提案する。 サリエンシを明示的に活用することにより、SAGEは差別的前景オブジェクトを促進し、トレーニングに有用な情報的新しい画像を生成する。 我々は, CIFAR-10 と CIFAR-100 を用いて, SAGE がより効率的でありながら, より優れた性能, 同等の性能を発揮することを示す。 さらに,Mini-ImageNetにおけるアウト・オブ・ディストリビューション・セッティングの評価や,少数ショット学習の結果から,SAGEはロバスト性を引き離すことなく,一般化性能の向上を実現していることが示された。

Data augmentation is a key element for training accurate models by reducing overfitting and improving generalization. For image classification, the most popular data augmentation techniques range from simple photometric and geometrical transformations, to more complex methods that use visual saliency to craft new training examples. As augmentation methods get more complex, their ability to increase the test accuracy improves, yet, such methods become cumbersome, inefficient and lead to poor out-of-domain generalization, as we show in this paper. This motivates a new augmentation technique that allows for high accuracy gains while being simple, efficient (i.e., minimal computation overhead) and generalizable. To this end, we introduce Saliency-Guided Mixup with Optimal Rearrangements (SAGE), which creates new training examples by rearranging and mixing image pairs using visual saliency as guidance. By explicitly leveraging saliency, SAGE promotes discriminative foreground objects and produces informative new images useful for training. We demonstrate on CIFAR-10 and CIFAR-100 that SAGE achieves better or comparable performance to the state of the art while being more efficient. Additionally, evaluations in the out-of-distribution setting, and few-shot learning on mini-ImageNet, show that SAGE achieves improved generalization performance without trading off robustness.
翻訳日:2022-11-02 13:25:12 公開日:2022-10-31
# スケッチによる画像分類の公平性向上

Improving Fairness in Image Classification via Sketching ( http://arxiv.org/abs/2211.00168v1 )

ライセンス: Link先を確認
Ruichen Yao, Ziteng Cui, Xiaoxiao Li, Lin Gu(参考訳) 公正は、信頼できる人間中心人工知能(AI)システムの基本要件である。 しかし、ディープニューラルネットワーク(DNN)は、異なる属性(色、性別、年齢など)の異なるサブ集団からトレーニングデータが収集されると不公平な予測を行う傾向にあり、バイアスのあるDNN予測につながる。 このような厄介な現象はデータ自体によって引き起こされることが多く、つまりバイアス情報は有用な情報(クラス情報、セマンティック情報)とともにDNNに符号化される。 そこで我々は,この現象をスケッチとして扱うことを提案する。 データの有用性を失うことなく、ターゲット分類に有用な意味情報を維持しつつ、無駄なバイアス情報をフィルタリングするイメージ・ツー・スケッチ手法を探索する。 さらに、モデルフェア性をさらに改善するために、公正な損失をデザインします。 本手法は,一般的なシーンデータセットと医療シーンデータセットの両方に関する広範な実験を通じて評価する。 その結果, 所望の画像からスケッチまでの手法は, モデルフェアネスを向上し, 最新技術の中で満足できる結果が得られることがわかった。

Fairness is a fundamental requirement for trustworthy and human-centered Artificial Intelligence (AI) system. However, deep neural networks (DNNs) tend to make unfair predictions when the training data are collected from different sub-populations with different attributes (i.e. color, sex, age), leading to biased DNN predictions. We notice that such a troubling phenomenon is often caused by data itself, which means that bias information is encoded to the DNN along with the useful information (i.e. class information, semantic information). Therefore, we propose to use sketching to handle this phenomenon. Without losing the utility of data, we explore the image-to-sketching methods that can maintain useful semantic information for the target classification while filtering out the useless bias information. In addition, we design a fair loss to further improve the model fairness. We evaluate our method through extensive experiments on both general scene dataset and medical scene dataset. Our results show that the desired image-to-sketching method improves model fairness and achieves satisfactory results among state-of-the-art.
翻訳日:2022-11-02 13:24:48 公開日:2022-10-31
# Federated Averaging Langevin Dynamics : 統一理論と新しいアルゴリズムを目指して

Federated Averaging Langevin Dynamics: Toward a unified theory and new algorithms ( http://arxiv.org/abs/2211.00100v1 )

ライセンス: Link先を確認
Vincent Plassier, Alain Durmus, Eric Moulines(参考訳) 本稿では,連邦学習文脈(FL)におけるベイズ推論に焦点を当てた。 いくつかの分散MCMCアルゴリズムが提案されているが、通信ボトルネックや統計的不均一性などのFLの特定の制限を考慮するものはほとんどない。 近年,フェデレート平均化アルゴリズムをベイズ推定に拡張したフェデレート平均化ランジュバンダイナミクス(fald)が導入された。 FALDではワッサーシュタイン距離から大域後方への新たな非漸近上界が得られる。 この境界は、収束に悪影響を及ぼす局所的な更新の漂流を引き起こす統計的不均一性の影響を強調している。 制御変数を用いてクライアントのドリフトを補正する新しいアルゴリズムvr-fald*を提案する。 vr-fald*が統計的不均一性に影響されないことを示す非漸近境界を確立する。 最後にベイズ推定のためのいくつかのFLベンチマークについて述べる。

This paper focuses on Bayesian inference in a federated learning context (FL). While several distributed MCMC algorithms have been proposed, few consider the specific limitations of FL such as communication bottlenecks and statistical heterogeneity. Recently, Federated Averaging Langevin Dynamics (FALD) was introduced, which extends the Federated Averaging algorithm to Bayesian inference. We obtain a novel tight non-asymptotic upper bound on the Wasserstein distance to the global posterior for FALD. This bound highlights the effects of statistical heterogeneity, which causes a drift in the local updates that negatively impacts convergence. We propose a new algorithm VR-FALD* that uses control variates to correct the client drift. We establish non-asymptotic bounds showing that VR-FALD* is not affected by statistical heterogeneity. Finally, we illustrate our results on several FL benchmarks for Bayesian inference.
翻訳日:2022-11-02 13:15:02 公開日:2022-10-31
# 事前学習した言語モデルの校正について

A Close Look into the Calibration of Pre-trained Language Models ( http://arxiv.org/abs/2211.00151v1 )

ライセンス: Link先を確認
Yangyi Chen, Lifan Yuan, Ganqu Cui, Zhiyuan Liu, Heng Ji(参考訳) 事前訓練された言語モデル(PLM)は、多くの下流タスクにおいて顕著な性能を達成するが、予測の不確かさを確実に見積もることに失敗する。 PLMの校正に関する包括的理解が欠如していることを踏まえ、この新たな研究課題を詳しく検討し、(1)PLMはトレーニング過程において校正を習うかという2つの疑問に答える。 2)既存の校正方法はどの程度効果的か? まず,訓練におけるplmsのキャリブレーション性能の動的変化を調べるために,細粒度制御実験を行う。 データセットの難易度、利用可能なトレーニングサンプル、トレーニングステップ、チューニング可能なパラメータの数、モデルスケール、事前トレーニングを含む6つの要因を制御変数として検討する。 実験では,6因子の校正性能が一貫した変化を観察した。 PLMは、予測が正しいかどうかに関わらず、信頼の連続的な増加によって証明される訓練において校正されることを学ばない。 我々の発見は2つの確定した結論と矛盾する点を強調している。 (a)より大型のPLMは校正される。 b)事前訓練はモデルの校正を改善する。 次に,既存のキャリブレーション手法による過信問題を緩和する手法の有効性について検討した。 学習不可能なキャリブレーション法に加えて、モデルを直接収集して適切な信頼度を推定する2つの学習可能な手法を適用する。 また,従来のタスク性能を犠牲にすることなく,PLMのキャリブレーションをさらに改善・維持するための学習可能な拡張手法を提案する。 実験の結果,学習可能な手法は誤り予測に対するplmsの信頼度を著しく低下させ,従来の手法よりも優れた性能を示すことがわかった。

Pre-trained language models (PLMs) achieve remarkable performance on many downstream tasks, but may fail in giving reliable estimates of their predictive uncertainty. Given the lack of a comprehensive understanding of PLMs calibration, we take a close look into this new research problem, aiming to answer two questions: (1) Do PLMs learn to become calibrated in the training process? (2) How effective are existing calibration methods? For the first question, we conduct fine-grained control experiments to study the dynamic change in PLMs' calibration performance in training. We consider six factors as control variables, including dataset difficulty, available training samples, training steps, the number of tunable parameters, model scale, and pretraining. In experiments, we observe a consistent change in calibration performance across six factors. We find that PLMs don't learn to become calibrated in training, evidenced by the continual increase in confidence, no matter the predictions are correct or not. We highlight that our finding presents some contradiction with two established conclusions: (a) Larger PLMs are more calibrated; (b) Pretraining improves model calibration. Next, we study the effectiveness of existing calibration methods in mitigating the overconfidence issue, in both in-distribution and various out-of-distribution settings. Besides unlearnable calibration methods, we adapt two recently proposed learnable methods that directly collect data to train models to have reasonable confidence estimations. Also, we propose extended learnable methods based on existing ones to further improve or maintain PLMs calibration without sacrificing the original task performance. Experimental results show that learnable methods significantly reduce PLMs' confidence in wrong predictions, and our methods exhibit superior performance compared with previous methods.
翻訳日:2022-11-02 13:08:41 公開日:2022-10-31
# disentangle (複数形 disentangles)

Disentangled (Un)Controllable Features ( http://arxiv.org/abs/2211.00086v1 )

ライセンス: Link先を確認
Jacob E. Kooi, Mark Hoogendoorn, Vincent Fran\c{c}ois-Lavet(参考訳) 高次元状態のMDPでは、元の入力空間の圧縮された低次元表現を使用する場合、強化学習によりより良い結果が得られる。 そのため、有用な表現を学ぶために様々な学習目的が使用されている。 しかし、これらの表現は通常、異なる特徴の解釈可能性に欠ける。 本稿では,潜在特徴を制御可能部分と制御不能部分とに分離できる表現学習アルゴリズムを提案する。 結果として得られる表現は容易に解釈でき、2つの部分の特定の特性を利用して効率的に学習や計画に使用できる。 このアプローチの利点を強調するために、3つの異なる環境においてアルゴリズムの分離特性を示す。

In the context of MDPs with high-dimensional states, reinforcement learning can achieve better results when using a compressed, low-dimensional representation of the original input space. A variety of learning objectives have therefore been used to learn useful representations. However, these representations usually lack interpretability of the different features. We propose a representation learning algorithm that is able to disentangle latent features into a controllable and an uncontrollable part. The resulting representations are easily interpretable and can be used for learning and planning efficiently by leveraging the specific properties of the two parts. To highlight the benefits of the approach, the disentangling properties of the algorithm are illustrated in three different environments.
翻訳日:2022-11-02 13:06:45 公開日:2022-10-31
# 数学の変圧器は? --解釈可能性と一般化の3つの結果

What is my math transformer doing? -- Three results on interpretability and generalization ( http://arxiv.org/abs/2211.00170v1 )

ライセンス: Link先を確認
Fran\c{c}ois Charton(参考訳) 本稿では,行列逆転と固有値分解に基づく変圧器の故障事例と分布外挙動について検討する。 間違ったモデル予測は、解の深い数学的性質(例えば、正しい固有値、固有ベクトルの単位ノルム)を保持しており、ほとんどすべてのモデル失敗は問題や解の性質に起因し、予測可能であることを示す。 これは、疑わしい場合、数学のトランスフォーマーは(しばしば提案されたように)不条理な解を暗示しないが、'roughly right'のままであることを示している。 また、トレーニングデータセットの慎重な選択はトレーニングを加速し、モデルをトレーニング分布から一般化させ、暗記された例から「単なる補間」という考え方を無効化できることも示します。

This paper investigates the failure cases and out-of-distribution behavior of transformers trained on matrix inversion and eigenvalue decomposition. I show that incorrect model predictions still retain deep mathematical properties of the solution (e.g. correct eigenvalues, unit norm of eigenvectors), and that almost all model failures can be attributed to, and predicted from, properties of the problem or solution. This demonstrates that, when in doubt, math transformers do not hallucinate absurd solutions (as was sometimes proposed) but remain ``roughly right''. I also show that the careful choice of a training dataset can accelerate training, while allowing the model to generalize out of its training distribution, invalidating the idea that transformers ``merely interpolate'' from memorized examples.
翻訳日:2022-11-02 13:06:35 公開日:2022-10-31
# TaTa: アフリカ言語用多言語テーブル・トゥ・テキストデータセット

TaTa: A Multilingual Table-to-Text Dataset for African Languages ( http://arxiv.org/abs/2211.00142v1 )

ライセンス: Link先を確認
Sebastian Gehrmann, Sebastian Ruder, Vitaly Nikolaev, Jan A. Botha, Michael Chavinda, Ankur Parikh, Clara Rivera(参考訳) 既存のデータ・テキスト生成データセットはほとんど英語に限られている。 このデータ不足に対処するため、アフリカ言語に焦点をあてた最初の大規模多言語テーブルツーテキストデータセットであるtata(table-to-text in african languages)を作成しました。 我々は、数値を翻訳し、Demographic and Health Surveys Programによるバイリンガルレポートに付随するテキストを添付してTaTaを作成し、続いてプロフェッショナル翻訳を行い、データセットを完全に並列にしました。 TaTaには、アフリカの4つの言語(Hausa、Igbo、Swahili、Yor\`ub\'a)とゼロショットテスト言語(ロシア語)を含む9つの言語で8700の例が含まれている。 また,多言語マルチモーダル手法の今後の研究のために,原図のスクリーンショットも公開する。 詳細な人的評価を通じて、TaTaは現在のモデルでは困難であり、mT5-XXLモデルからの出力の半分以下は、ソースデータに関連があることが示される。 さらに,既存の測定値がtataに対してパフォーマンスに乏しいことを実証し,人間の判断と高い相関性を達成するための学習指標を導入する。 私たちはすべてのデータとアノテーションをhttps://github.com/google-research/url-nlpでリリースします。

Existing data-to-text generation datasets are mostly limited to English. To address this lack of data, we create Table-to-Text in African languages (TaTa), the first large multilingual table-to-text dataset with a focus on African languages. We created TaTa by transcribing figures and accompanying text in bilingual reports by the Demographic and Health Surveys Program, followed by professional translation to make the dataset fully parallel. TaTa includes 8,700 examples in nine languages including four African languages (Hausa, Igbo, Swahili, and Yor\`ub\'a) and a zero-shot test language (Russian). We additionally release screenshots of the original figures for future research on multilingual multi-modal approaches. Through an in-depth human evaluation, we show that TaTa is challenging for current models and that less than half the outputs from an mT5-XXL-based model are understandable and attributable to the source data. We further demonstrate that existing metrics perform poorly for TaTa and introduce learned metrics that achieve a high correlation with human judgments. We release all data and annotations at https://github.com/google-research/url-nlp.
翻訳日:2022-11-02 12:56:52 公開日:2022-10-31
# エージェント・コントローラ表現:リッチ外生情報を用いた原理的オフラインRL

Agent-Controller Representations: Principled Offline RL with Rich Exogenous Information ( http://arxiv.org/abs/2211.00164v1 )

ライセンス: Link先を確認
Riashat Islam, Manan Tomar, Alex Lamb, Yonathan Efroni, Hongyu Zang, Aniket Didolkar, Dipendra Misra, Xin Li, Harm van Seijen, Remi Tachet des Combes, John Langford(参考訳) リッチなピクセルベースの視覚観測空間においてオフラインで収集されたデータからエージェントを制御する学習は、強化学習(RL)の現実的な応用に不可欠である。 この設定における大きな課題は、エージェントの制御とは無関係でモデル化が難しい入力情報の存在である。 この問題は、外因性情報、すなわち観測に含まれる制御非関連情報のレンズを通して、理論的なRLコミュニティによってアプローチされてきた。 例えば、にぎやかな通りをナビゲートするロボットは、バックグラウンドで歩いている他の人、オブジェクトのテクスチャ、空にいる鳥など、無関係な情報を無視する必要があります。 本稿では,視覚的に詳細な外部情報を含む設定に着目し,この問題を解析可能な新しいオフラインrlベンチマークを提案する。 ノイズが複雑で時間依存のプロセスであるデータセットでは,現代表現学習手法が失敗する可能性がある。 そこで我々は,RL理論コミュニティに多大な関心を寄せている多段階逆モデルを用いて,Offline-RLのためのエージェント・コントローラ表現(ACRO)を学ぶことを提案する。 単純で報酬を必要としないにもかかわらず、この目的によって作成された表現がベースラインを大きく上回っていることを理論的および実証的に示す。

Learning to control an agent from data collected offline in a rich pixel-based visual observation space is vital for real-world applications of reinforcement learning (RL). A major challenge in this setting is the presence of input information that is hard to model and irrelevant to controlling the agent. This problem has been approached by the theoretical RL community through the lens of exogenous information, i.e, any control-irrelevant information contained in observations. For example, a robot navigating in busy streets needs to ignore irrelevant information, such as other people walking in the background, textures of objects, or birds in the sky. In this paper, we focus on the setting with visually detailed exogenous information, and introduce new offline RL benchmarks offering the ability to study this problem. We find that contemporary representation learning techniques can fail on datasets where the noise is a complex and time dependent process, which is prevalent in practical applications. To address these, we propose to use multi-step inverse models, which have seen a great deal of interest in the RL theory community, to learn Agent-Controller Representations for Offline-RL (ACRO). Despite being simple and requiring no reward, we show theoretically and empirically that the representation created by this objective greatly outperforms baselines.
翻訳日:2022-11-02 12:50:25 公開日:2022-10-31
# Xtreme Margin:二項分類問題に対するTunable Loss関数

Xtreme Margin: A Tunable Loss Function for Binary Classification Problems ( http://arxiv.org/abs/2211.00176v1 )

ライセンス: Link先を確認
Rayan Wali(参考訳) 損失関数は機械学習アルゴリズムの最適化を駆動する。 損失関数の選択はモデルのトレーニングやモデルがどのようにデータを学習するかに大きな影響を与える可能性がある。 バイナリ分類は、医療画像の故障検出に使用される機械学習問題の主要な柱の1つである。 二項分類において最も一般的に用いられるサーロゲート損失関数は二項クロスエントロピーとヒンジ損失関数であり、これは我々の研究の焦点となっている。 本稿では,新しい損失関数であるxtreme margin loss functionの概要について述べる。 2値のクロスエントロピーやヒンジ損失関数とは異なり、この損失関数は研究者や実践者が、精度とAUCスコアの最大化から、調整可能なハイパーパラメータ $\lambda_1$ と $\lambda_2$ を通じて、特定のクラスの条件精度の最大化まで、トレーニングプロセスの柔軟性を提供する。

Loss functions drive the optimization of machine learning algorithms. The choice of a loss function can have a significant impact on the training of a model, and how the model learns the data. Binary classification is one of the major pillars of machine learning problems, used in medical imaging to failure detection applications. The most commonly used surrogate loss functions for binary classification include the binary cross-entropy and the hinge loss functions, which form the focus of our study. In this paper, we provide an overview of a novel loss function, the Xtreme Margin loss function. Unlike the binary cross-entropy and the hinge loss functions, this loss function provides researchers and practitioners flexibility with their training process, from maximizing precision and AUC score to maximizing conditional accuracy for a particular class, through tunable hyperparameters $\lambda_1$ and $\lambda_2$, i.e., changing their values will alter the training of a model.
翻訳日:2022-11-02 12:50:04 公開日:2022-10-31
# ハイブリッドCNN-Interpreter:CNNモデルにおけるローカルおよびグローバルコンテキストの解釈

Hybrid CNN -Interpreter: Interpret local and global contexts for CNN-based Models ( http://arxiv.org/abs/2211.00185v1 )

ライセンス: Link先を確認
Wenli Yang, Guan Huang, Renjie Li, Jiahao Yu, Yanyu Chen, Quan Bai, Beyong Kang(参考訳) convolutional neural network (cnn)モデルでは、さまざまなドメインのパフォーマンスが改善されているが、ai支援アプリケーションの受け入れと展開のための運用中の保証と規制には、解釈可能性の欠如が大きな障壁となっている。 入力-出力関係の分析に焦点をあてた入力解釈可能性の研究は数多く行われているが、モデルの内部論理は現在の主流解釈法では解明されていない。 本研究では,(1)局所的な解釈可能性に対する層特異的な予測結果を調べるために,新しいハイブリッドcnn-interpreterを提案する。 2) 特徴相関とフィルタの重要性を示す新たなグローバル解釈可能性。 局所的およびグローバルな解釈能力を組み合わせることで、ハイブリッドCNN-インタープリタは、学習プロセス全体におけるモデルコンテキストの理解とモニタリングを、詳細かつ一貫した表現で実現する。 最後に,提案する解釈性は様々なcnnモデル構造に適応することが実証されている。

Convolutional neural network (CNN) models have seen advanced improvements in performance in various domains, but lack of interpretability is a major barrier to assurance and regulation during operation for acceptance and deployment of AI-assisted applications. There have been many works on input interpretability focusing on analyzing the input-output relations, but the internal logic of models has not been clarified in the current mainstream interpretability methods. In this study, we propose a novel hybrid CNN-interpreter through: (1) An original forward propagation mechanism to examine the layer-specific prediction results for local interpretability. (2) A new global interpretability that indicates the feature correlation and filter importance effects. By combining the local and global interpretabilities, hybrid CNN-interpreter enables us to have a solid understanding and monitoring of model context during the whole learning process with detailed and consistent representations. Finally, the proposed interpretabilities have been demonstrated to adapt to various CNN-based model structures.
翻訳日:2022-11-02 12:49:45 公開日:2022-10-31
# Edge Grasp Network: Grasp検出に対するグラフベースのSE(3)不変アプローチ

Edge Grasp Network: A Graph-Based SE(3)-invariant Approach to Grasp Detection ( http://arxiv.org/abs/2211.00191v1 )

ライセンス: Link先を確認
Haojie Huang, Dian Wang, Xupeng Zhu, Robin Walters, Robert Platt(参考訳) 点雲入力が与えられた場合、6-DoFグルーピングポーズ検出の問題は、SE(3)における手ポーズの集合を、オブジェクトをうまく把握できる状態から識別することである。 この重要な問題には多くの実用的応用がある。 本稿では,文献から得られるものと比較して,成功率をよりよく把握できる新しい手法とニューラルネットワークモデルを提案する。 この方法は標準点雲データを入力として取り出し、任意の視野方向から観測される単一視点雲とうまく連携する。

Given point cloud input, the problem of 6-DoF grasp pose detection is to identify a set of hand poses in SE(3) from which an object can be successfully grasped. This important problem has many practical applications. Here we propose a novel method and neural network model that enables better grasp success rates relative to what is available in the literature. The method takes standard point cloud data as input and works well with single-view point clouds observed from arbitrary viewing directions.
翻訳日:2022-11-02 12:49:15 公開日:2022-10-31
# WHEN FLUE MEETS FLANG:ファイナンシャルドメインのためのベンチマークと大規模事前学習言語モデル

WHEN FLUE MEETS FLANG: Benchmarks and Large Pre-trained Language Model for Financial Domain ( http://arxiv.org/abs/2211.00083v1 )

ライセンス: Link先を確認
Raj Sanjay Shah, Kunal Chawla, Dheeraj Eidnani, Agam Shah, Wendi Du, Sudheer Chava, Natraj Raman, Charese Smiley, Jiaao Chen, Diyi Yang(参考訳) 事前訓練された言語モデルは、様々なタスクやドメインで素晴らしいパフォーマンスを示している。 金融言語モデルに関するこれまでの研究では、金融データの豊かさを完全に活用することなく、標準モデルアーキテクチャをトレーニングするために一般的なトレーニングスキームを採用している。 本稿では,金融キーワードとフレーズを用いてマスキングを改善する新しいドメイン特化金融言語モデル(flang)と,スパン境界目標とインファイリング目標を提案する。 さらに、この分野の評価ベンチマークは制限されている。 この目的のために私たちは、金融ドメインのためのベンチマークのオープンソース総合スイートであるfinancial language understanding evaluation(flue)にコントリビュートします。 ファイナンシャルドメインの5つのNLPタスクにまたがる新しいベンチマークや、以前の調査で使用された一般的なベンチマークが含まれる。 これらのベンチマーク実験から,NLPタスクの先行研究において,本モデルの方が優れていたことが示唆された。 私たちのモデル、コード、ベンチマークデータはgithubとhughingfaceで公開されている。

Pre-trained language models have shown impressive performance on a variety of tasks and domains. Previous research on financial language models usually employs a generic training scheme to train standard model architectures, without completely leveraging the richness of the financial data. We propose a novel domain specific Financial LANGuage model (FLANG) which uses financial keywords and phrases for better masking, together with span boundary objective and in-filing objective. Additionally, the evaluation benchmarks in the field have been limited. To this end, we contribute the Financial Language Understanding Evaluation (FLUE), an open-source comprehensive suite of benchmarks for the financial domain. These include new benchmarks across 5 NLP tasks in financial domain as well as common benchmarks used in the previous research. Experiments on these benchmarks suggest that our model outperforms those in prior literature on a variety of NLP tasks. Our models, code and benchmark data are publicly available on Github and Huggingface.
翻訳日:2022-11-02 12:41:12 公開日:2022-10-31
# どこから始めるか? 中間モデルのポテンシャル値の解析

Where to start? Analyzing the potential value of intermediate models ( http://arxiv.org/abs/2211.00107v1 )

ライセンス: Link先を確認
Leshem Choshen, Elad Venezian, Shachar Don-Yehia, Noam Slonim, Yoav Katz(参考訳) 以前の研究では、微調整されたモデルはバニラ事前訓練されたモデルよりも良い基礎モデルである可能性がある。 そのようなモデルは、あるソースデータセットで微調整され、望ましいターゲットデータセット上の新しい微調整プロセスの出発点となるかもしれない。 ここでは、この「emph{intertraining}」スキームを、幅広い英語の分類タスクに対して体系的に分析する。 意外なことに,本分析は,対象データセットに対して,ベースモデルが出発点として考慮されている場合の,潜在的な相互学習利得を,対象データセットに対して独立に分析できることを示唆している。 これは、ターゲットデータセットとベースモデルを生成するために使用されるソースデータセットのアライメントが、インタートレーニングの成功を決定する主要な要因であるという現在の認識とは対照的である。 それぞれに寄与するさまざまな側面を分析します。 さらに,本研究では,実環境におけるベースモデルの選択方法を決定するための,実用的で効率的な手法を提案する。 最後に、HuggingFace Hub per architecture\anonm{remove this link: https://ibm.github.io/model-recycling/。

Previous studies observed that finetuned models may be better base models than the vanilla pretrained model. Such a model, finetuned on some source dataset, may provide a better starting point for a new finetuning process on a desired target dataset. Here, we perform a systematic analysis of this \emph{intertraining} scheme, over a wide range of English classification tasks. Surprisingly, our analysis suggests that the potential intertraining gain can be analyzed \emph{independently} for the target dataset under consideration, and for a base model being considered as a starting point. This is in contrast to current perception that the alignment between the target dataset and the source dataset used to generate the base model is a major factor in determining intertraining success. We analyze different aspects that contribute to each. Furthermore, we leverage our analysis to propose a practical and efficient approach to determine if and how to select a base model in real-world settings. Last, we release an updating ranking of best models in the HuggingFace hub per architecture\anonm{remove this link: https://ibm.github.io/model-recycling/.
翻訳日:2022-11-02 12:40:55 公開日:2022-10-31
# LSTMはジェンダーに見えるか? LSTMによる抽象構文規則の学習能力の検証

Do LSTMs See Gender? Probing the Ability of LSTMs to Learn Abstract Syntactic Rules ( http://arxiv.org/abs/2211.00153v1 )

ライセンス: Link先を確認
Priyanka Sukumaran, Conor Houghton, Nina Kazanina(参考訳) 次単語予測に基づいて訓練されたLSTMは、長距離構文依存の追跡を必要とする言語タスクを正確に実行することができる。 特に、モデル精度は、数字合意タスク(Gulordava et al., 2018)で人間のパフォーマンスに近づきます。 しかし、LSTMがそのような言語的タスクをどのように行うかという機械的な理解は得られていない。 LSTMは抽象文法規則を学ぶのか、それとも単純なヒューリスティックに依存しているのか? ここでは、階層的構文構造と語彙単位の固有性の両方を追跡する必要があるフランス語における性別合意をテストする。 本モデルは、名詞形容詞と名詞パッシブ動詞の2つの文脈において、長距離性合意を確実に予測することができる。 本モデルでは,複数名詞句に性誘惑詞を呈する単語が特異例よりも不正確であることが示唆された。 本研究は、LSTMが人間の行動から逸脱する鍵となる方法と、LSTMが抽象構文規則やカテゴリを真に学習するかどうかを考察する。 本稿では,LSTM言語モデルの基本メカニズム,内部表現,言語能力の解明に,ジェンダーアグリーメントを有効活用することを提案する。

LSTMs trained on next-word prediction can accurately perform linguistic tasks that require tracking long-distance syntactic dependencies. Notably, model accuracy approaches human performance on number agreement tasks (Gulordava et al., 2018). However, we do not have a mechanistic understanding of how LSTMs perform such linguistic tasks. Do LSTMs learn abstract grammatical rules, or do they rely on simple heuristics? Here, we test gender agreement in French which requires tracking both hierarchical syntactic structures and the inherent gender of lexical units. Our model is able to reliably predict long-distance gender agreement in two subject-predicate contexts: noun-adjective and noun-passive-verb agreement. The model showed more inaccuracies on plural noun phrases with gender attractors compared to singular cases, suggesting a reliance on clues from gendered articles for agreement. Overall, our study highlights key ways in which LSTMs deviate from human behaviour and questions whether LSTMs genuinely learn abstract syntactic rules and categories. We propose using gender agreement as a useful probe to investigate the underlying mechanisms, internal representations, and linguistic capabilities of LSTM language models.
翻訳日:2022-11-02 12:40:36 公開日:2022-10-31
# 感情埋め込みを使って感情、言語、アノテーション間の知識を伝達する

Using Emotion Embeddings to Transfer Knowledge Between Emotions, Languages, and Annotation Formats ( http://arxiv.org/abs/2211.00171v1 )

ライセンス: Link先を確認
Georgios Chochlakis (1 and 2), Gireesh Mahajan (3), Sabyasachee Baruah (1 and 2), Keith Burghardt (2), Kristina Lerman (2), Shrikanth Narayanan (1 and 2) ((1) Signal Analysis and Interpretation Lab, University of Southern California, (2) Information Science Institute, University of Southern California, (3) Microsoft Cognitive Services)(参考訳) テキストからの感情推論の必要性は、ますます多くの規律が感情を理論や応用に統合するにつれて、多様化し続けている。 これらのニーズには、異なる感情タイプの推定、複数の言語を扱うこと、異なるアノテーションフォーマットが含まれる。 異なる構成間で共有されたモデルは、知識の共有とトレーニングコストの削減を可能にし、新しい環境に感情認識モデルをデプロイするプロセスを簡素化する。 本研究では、多言語モデルを活用することで、これらの構成間の遷移を可能にする単一のモデルを構築する方法と、関心の感情を含むインプットを持つトランスフォーマーベースのモデルであるDemuxについて検討し、モデルによって予測される感情を動的に変更できるようにする。 Demuxは感情の埋め込みも生成し、その上で操作を実行することで、各クラスタの埋め込みをプールすることで、感情のクラスタに移行することができます。 Demuxは、知識をゼロショットで新しい言語に、新しいアノテーション形式に、そして見当たらない感情に、同時に変換できることを示す。 コードはhttps://github.com/gchochla/Demux-MEmoで入手できる。

The need for emotional inference from text continues to diversify as more and more disciplines integrate emotions into their theories and applications. These needs include inferring different emotion types, handling multiple languages, and different annotation formats. A shared model between different configurations would enable the sharing of knowledge and a decrease in training costs, and would simplify the process of deploying emotion recognition models in novel environments. In this work, we study how we can build a single model that can transition between these different configurations by leveraging multilingual models and Demux, a transformer-based model whose input includes the emotions of interest, enabling us to dynamically change the emotions predicted by the model. Demux also produces emotion embeddings, and performing operations on them allows us to transition to clusters of emotions by pooling the embeddings of each cluster. We show that Demux can simultaneously transfer knowledge in a zero-shot manner to a new language, to a novel annotation format and to unseen emotions. Code is available at https://github.com/gchochla/Demux-MEmo .
翻訳日:2022-11-02 12:40:18 公開日:2022-10-31
# 自己監督型階層構造モデリング

Self-Supervised Hierarchical Metrical Structure Modeling ( http://arxiv.org/abs/2210.17183v1 )

ライセンス: Link先を確認
Junyan Jiang and Gus Xia(参考訳) 本稿では,シンボリック音楽と音声信号の階層的距離構造を,最小限のドメイン知識で自己教師あり方式でモデル化する新しい手法を提案する。 モデルはビート調整された音楽信号の訓練と推論を行い、ビートからセクションレベルまで8層階層的メトリックツリーを予測する。 訓練手続きはビートを除いて階層的な計量的ラベリングを必要とせず、純粋に計量的正則性の性質と帰納的バイアスとしての音声間の一貫性に依存する。 本手法は,シンボリックな音楽信号と音声信号の両方において,複数の計量構造解析タスクにおいて教師付きベースラインと同等の性能が得られることを示す。 すべてのデモ、ソースコード、事前訓練されたモデルはGitHubで公開されている。

We propose a novel method to model hierarchical metrical structures for both symbolic music and audio signals in a self-supervised manner with minimal domain knowledge. The model trains and inferences on beat-aligned music signals and predicts an 8-layer hierarchical metrical tree from beat, measure to the section level. The training procedural does not require any hierarchical metrical labeling except for beats, purely relying on the nature of metrical regularity and inter-voice consistency as inductive biases. We show in experiments that the method achieves comparable performance with supervised baselines on multiple metrical structure analysis tasks on both symbolic music and audio signals. All demos, source code and pre-trained models are publicly available on GitHub.
翻訳日:2022-11-01 20:08:52 公開日:2022-10-31
# GNN at the Edge: 分散エッジサーバ上での費用効率の良いグラフニューラルネットワーク処理

GNN at the Edge: Cost-Efficient Graph Neural Network Processing over Distributed Edge Servers ( http://arxiv.org/abs/2210.17281v1 )

ライセンス: Link先を確認
Liekang Zeng, Chongyu Yang, Peng Huang, Zhi Zhou, Shuai Yu, Xu Chen(参考訳) edge intelligenceは、機械学習技術に依存するさまざまなスマートアプリケーションをサポートする、有望なコンピューティングパラダイムとして生まれました。 コミュニティは、従来のディープラーニングモデル(CNN、RNNなど)の多層エッジデプロイメントを幅広く調査してきたが、新興のグラフニューラルネットワーク(GNN)はまだ探索中であり、トラフィックフローの予測やロケーションベースのソーシャルレコメンデーションといった、エッジ採用に対する大きな違いを示している。 このギャップを埋めるために,多層ヘテロジニアスエッジネットワーク上での分散GNN処理のコスト最適化を公式に検討する。 我々は、様々なコスト要因をキャプチャできる包括的なモデリングフレームワークを構築し、npハードであることが証明されたコスト効率の良いグラフレイアウト最適化問題を定式化する。 従来のデータ配置の知恵を自明に応用する代わりに、GNNのユニークな計算パターンに絡む二次部分モジュラリティの構造特性を理論的に明らかにし、グラフカットを利用した効率的な反復解の設計を動機付けます。 厳密な分析は、パラメータ化定数近似比、保証収束、正確な実現可能性を提供することを示している。 GNN処理における潜在的なグラフトポロジ的進化に対処するため、より軽量な動的レイアウト最適化のための漸進的な更新戦略と適応スケジューリングアルゴリズムを考案する。 実世界のデータセットと様々なGNNベンチマークによる評価は、我々の手法が高速収束速度で95.8%以上のコストでデファクトベースラインよりも優れた性能を達成することを示した。

Edge intelligence has arisen as a promising computing paradigm for supporting miscellaneous smart applications that rely on machine learning techniques. While the community has extensively investigated multi-tier edge deployment for traditional deep learning models (e.g. CNNs, RNNs), the emerging Graph Neural Networks (GNNs) are still under exploration, presenting a stark disparity to its broad edge adoptions such as traffic flow forecasting and location-based social recommendation. To bridge this gap, this paper formally studies the cost optimization for distributed GNN processing over a multi-tier heterogeneous edge network. We build a comprehensive modeling framework that can capture a variety of different cost factors, based on which we formulate a cost-efficient graph layout optimization problem that is proved to be NP-hard. Instead of trivially applying traditional data placement wisdom, we theoretically reveal the structural property of quadratic submodularity implicated in GNN's unique computing pattern, which motivates our design of an efficient iterative solution exploiting graph cuts. Rigorous analysis shows that it provides parameterized constant approximation ratio, guaranteed convergence, and exact feasibility. To tackle potential graph topological evolution in GNN processing, we further devise an incremental update strategy and an adaptive scheduling algorithm for lightweight dynamic layout optimization. Evaluations with real-world datasets and various GNN benchmarks demonstrate that our approach achieves superior performance over de facto baselines with more than 95.8% cost eduction in a fast convergence speed.
翻訳日:2022-11-01 20:08:39 公開日:2022-10-31
# 拡散に基づく生成音源分離

Diffusion-based Generative Speech Source Separation ( http://arxiv.org/abs/2210.17327v1 )

ライセンス: Link先を確認
Robin Scheibler, Youna Ji, Soo-Whan Chung, Jaeuk Byun, Soyeon Choe, Min-Seok Choi(参考訳) 本稿では,確率微分方程式(sde)のスコアマッチングに基づく新しい単一チャネル音源分離法を提案する。 我々は, 分離源から分離した混合源を中心とするガウス分布に収束する連続時間拡散混合法を考案する。 この定式化により、スコアベース生成モデルの適用が可能となる。 まず,限界確率や拡散混合過程のスコア関数を近似するためにニューラルネットワークを訓練する。 次に、ソースを混合から徐々に分離する逆時間sdeを解決するためにそれを使う。 モデルミスマッチとソース置換のあいまいさを扱うための修正トレーニング戦略を提案する。 WSJ0 2mixデータセットの実験では、メソッドの可能性が示されています。 さらに、この手法は音声強調にも適しており、VoiceBank-DEMANDデータセットの先行研究と競合する性能を示す。

We propose a new single channel source separation method based on score-matching of a stochastic differential equation (SDE). We craft a tailored continuous time diffusion-mixing process starting from the separated sources and converging to a Gaussian distribution centered on their mixture. This formulation lets us apply the machinery of score-based generative modelling. First, we train a neural network to approximate the score function of the marginal probabilities or the diffusion-mixing process. Then, we use it to solve the reverse time SDE that progressively separates the sources starting from their mixture. We propose a modified training strategy to handle model mismatch and source permutation ambiguity. Experiments on the WSJ0 2mix dataset demonstrate the potential of the method. Furthermore, the method is also suitable for speech enhancement and shows performance competitive with prior work on the VoiceBank-DEMAND dataset.
翻訳日:2022-11-01 20:07:54 公開日:2022-10-31
# グラフニューラルネットワークによる多角格子の集約とマルチグリッド解法への応用

Agglomeration of Polygonal Grids using Graph Neural Networks with applications to Multigrid solvers ( http://arxiv.org/abs/2210.17457v1 )

ライセンス: Link先を確認
P. F. Antonietti, N. Farenga, E. Manuzzi, G. Martinelli, L. Saverio(参考訳) アグルーメレーションに基づく戦略は適応的改良アルゴリズムとスケーラブルな多レベル代数解法の構築の両方において重要である。 本稿では,多角格子の凝集を自動的に行うために,グラフニューラルネットワーク(gnns)を用いて計算メッシュの接続グラフを分割する手法を提案する。 GNNは、メッシュのグラフ構造と、要素の領域やバリ中心座標などの幾何学的情報の両方を自然に同時に処理する利点がある。 グラフ情報のみを処理するためのグラフ分割の標準的なアルゴリズムであるmetisや、幾何学的情報のみを処理するk-meansクラスタリングアルゴリズムなど、他のアプローチではそうではない。 品質指標のパフォーマンスは機械学習(ML)戦略のために向上しており、GNNはオンラインでの計算コストを下げている。 このようなモデルはまた、脳mriスキャンのようなより複雑なジオメトリや、グリッドの品質を維持する能力に適用するときに、適切な一般化を示す。 これらの戦略の有効性は、多角形不連続ガレルキン(polydg)フレームワークにおけるマルチグリッド(mg)ソルバにも示される。

Agglomeration-based strategies are important both within adaptive refinement algorithms and to construct scalable multilevel algebraic solvers. In order to automatically perform agglomeration of polygonal grids, we propose the use of Graph Neural Networks (GNNs) to partition the connectivity graph of a computational mesh. GNNs have the advantage to process naturally and simultaneously both the graph structure of mesh and the geometrical information, such as the areas of the elements or their barycentric coordinates. This is not the case with other approaches such as METIS, a standard algorithm for graph partitioning which is meant to process only the graph information, or the k-means clustering algorithm, which can process only the geometrical information. Performance in terms of quality metrics is enhanced for Machine Learning (ML) strategies, with GNNs featuring a lower computational cost online. Such models also show a good degree of generalization when applied to more complex geometries, such as brain MRI scans, and the capability of preserving the quality of the grid. The effectiveness of these strategies is demonstrated also when applied to MultiGrid (MG) solvers in a Polygonal Discontinuous Galerkin (PolyDG) framework.
翻訳日:2022-11-01 20:07:43 公開日:2022-10-31
# Blind Asynchronous Over-the-Air Federated Edge Learning

Blind Asynchronous Over-the-Air Federated Edge Learning ( http://arxiv.org/abs/2210.17469v1 )

ライセンス: Link先を確認
Saeed Razavikia, Jaume Anguera Peris, Jose Mairton B. da Silva Jr, and Carlo Fischione(参考訳) Federated Edge Learning(FEEL)は、各デバイスがデータのローカル計算を独立して実行することにより、グローバル推論モデルのトレーニングに寄与する分散機械学習技術である。 より最近では、FEELはOAC(Over-the-air calculation)と統合され、アナログ信号の重ね合わせを利用してグローバルモデルが空気中を計算されている。 しかし、FEELをOACで実装する際には、アナログ信号をプリコードして受信機での時間的ずれを克服する方法が課題である。 本研究では,時間的不一致に関する事前情報を必要とせず,空気上でのグローバルモデルのパラメータを復元する新しい同期フリー手法を提案する。 そこで我々は,ノルム最小化問題に基づく凸最適化を構築し,凸半定義プログラムを解いて大域モデルを直接復元する。 数値実験により,提案手法の性能を精度と収束性の観点から評価した。 提案するアルゴリズムは理想の同期化シナリオに近い10\%$であり,リカバリ手法を用いない単純な場合よりも4\times$が優れていることを示す。

Federated Edge Learning (FEEL) is a distributed machine learning technique where each device contributes to training a global inference model by independently performing local computations with their data. More recently, FEEL has been merged with over-the-air computation (OAC), where the global model is calculated over the air by leveraging the superposition of analog signals. However, when implementing FEEL with OAC, there is the challenge on how to precode the analog signals to overcome any time misalignment at the receiver. In this work, we propose a novel synchronization-free method to recover the parameters of the global model over the air without requiring any prior information about the time misalignments. For that, we construct a convex optimization based on the norm minimization problem to directly recover the global model by solving a convex semi-definite program. The performance of the proposed method is evaluated in terms of accuracy and convergence via numerical experiments. We show that our proposed algorithm is close to the ideal synchronized scenario by $10\%$, and performs $4\times$ better than the simple case where no recovering method is used.
翻訳日:2022-11-01 20:07:22 公開日:2022-10-31
# 不規則性と量子クリプトアナリシス:基礎から応用まで

Unclonability and Quantum Cryptanalysis: From Foundations to Applications ( http://arxiv.org/abs/2210.17545v1 )

ライセンス: Link先を確認
Mina Doosti(参考訳) 未知の量子系の完全な同一コピーを作成することの不可能性は、量子理論の基本概念であり、量子情報の主要な非古典的性質の1つである。 量子力学によって課せられるこの制限は、非閉化定理として知られているが、量子プロトコルのセキュリティにおける鍵となる要素として量子暗号において中心的な役割を果たしている。 この論文では、物理学と計算機科学の幅広い文脈において、より具体的には暗号、学習可能性、ハードウェアの仮定のレンズを通して、unclonabilityを考察する。 量子世界において、新しいアンクローナビリティ概念、すなわち量子物理アンクローナビリティを導入し、暗号特性とアンクローナビリティや量子疑似ランダムネスなどの仮定との関係について研究する。 本研究の目的は、量子暗号解析の分野への新たな洞察を、不規則の概念自体に持ち込むことである。 また,この新タイプのunclonabilityを,セキュアな量子プロトコルの設計のための暗号リソースとして利用することについても検討した。 さらに、量子状態の近似クローニング問題に関する新しい実用的な暗号解析手法を提案する。 我々は、量子機械学習に基づく暗号解析アルゴリズムを設計し、量子学習ツールの能力を攻撃戦略と強力なツールの両方として示す。

The impossibility of creating perfect identical copies of unknown quantum systems is a fundamental concept in quantum theory and one of the main non-classical properties of quantum information. This limitation imposed by quantum mechanics, famously known as the no-cloning theorem, has played a central role in quantum cryptography as a key component in the security of quantum protocols. In this thesis, we look at Unclonability in a broader context in physics and computer science and more specifically through the lens of cryptography, learnability and hardware assumptions. We introduce new notions of unclonability in the quantum world, namely quantum physical unclonability, and study the relationship with cryptographic properties and assumptions such as unforgeability, and quantum pseudorandomness. The purpose of this study is to bring new insights into the field of quantum cryptanalysis and into the notion of unclonability itself. We also discuss several applications of this new type of unclonability as a cryptographic resource for designing provably secure quantum protocols. Furthermore, we present a new practical cryptanalysis technique concerning the problem of approximate cloning of quantum states. We design a quantum machine learning-based cryptanalysis algorithm to demonstrate the power of quantum learning tools as both attack strategies and powerful tools for the practical study of quantum unclonability.
翻訳日:2022-11-01 20:07:04 公開日:2022-10-31
# FrozenQubits: ホットスポットノードのスキッピングによるQAOAの忠実度向上

FrozenQubits: Boosting Fidelity of QAOA by Skipping Hotspot Nodes ( http://arxiv.org/abs/2210.17037v1 )

ライセンス: Link先を確認
Ramin Ayanzadeh, Narges Alavisamani, Poulami Das, Moinuddin Qureshi(参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、短期量子コンピュータを用いた量子優位性を示す主要な候補の1つである。 残念なことに、デバイスエラー率が高いため、数量子ビット以上の問題に対して、確実にQAOA回路を動作させることが制限されます。 qaoaでは、問題グラフは量子回路に変換され、各エッジは回路の各層における2つの2量子ビットcnot演算に対応する。 CNOTはエラーを起こしやすいため、QAOA回路の忠実度は問題グラフのエッジ数によって決定される。 実世界のアプリケーションに対応するグラフの大多数は,いくつかのホットスポットノードが接続数を大幅に多くする `power-law`" 分布に従っている。 この知見を利用して、ホットスポットノードやキュービットを凍結し、与えられた問題の状態空間を複数の小さな部分空間にインテリジェントに分割し、独立して解く `frozenqubits`` を提案する。 対応するQAOAサブ回路は、各サブ回路におけるCNOT演算数の減少によるゲートおよびデコヒーレンスエラーに対して、著しく脆弱である。 従来の回路切断アプローチとは異なり、FrozenQubitsは指数関数的に複雑な後処理ステップを必要としない。 IBMの8つの異なる量子コンピュータ上の5,300QAOA回路を用いて評価したところ、FrozenQubitsは平均8.73倍(最大57倍)で解の質を向上させることができる。

Quantum Approximate Optimization Algorithm (QAOA) is one of the leading candidates for demonstrating the quantum advantage using near-term quantum computers. Unfortunately, high device error rates limit us from reliably running QAOA circuits for problems with more than a few qubits. In QAOA, the problem graph is translated into a quantum circuit such that every edge corresponds to two 2-qubit CNOT operations in each layer of the circuit. As CNOTs are extremely error-prone, the fidelity of QAOA circuits is dictated by the number of edges in the problem graph. We observe that majority of graphs corresponding to real-world applications follow the ``power-law`` distribution, where some hotspot nodes have significantly higher number of connections. We leverage this insight and propose ``FrozenQubits`` that freezes the hotspot nodes or qubits and intelligently partitions the state-space of the given problem into several smaller sub-spaces which are then solved independently. The corresponding QAOA sub-circuits are significantly less vulnerable to gate and decoherence errors due to the reduced number of CNOT operations in each sub-circuit. Unlike prior circuit-cutting approaches, FrozenQubits does not require any exponentially complex post-processing step. Our evaluations with 5,300 QAOA circuits on eight different quantum computers from IBM shows that FrozenQubits can improve the quality of solutions by 8.73x on average (and by up to 57x), albeit utilizing 2x more quantum resources.
翻訳日:2022-11-01 20:06:21 公開日:2022-10-31
# 音声認識と合成のための構造化状態空間デコーダ

Structured State Space Decoder for Speech Recognition and Synthesis ( http://arxiv.org/abs/2210.17098v1 )

ライセンス: Link先を確認
Koichi Miyazaki, Masato Murata, Tomoki Koriyama(参考訳) 近年開発された自動音声認識(ASR)システムは、従来のリカレントニューラルネットワークを置き換える自己認識モデル(TransformerやConformerなど)で有望な結果を示している。 一方、構造化状態空間モデル(S4)が最近提案され、生音声分類を含む様々な時系列モデリングタスクに有望な結果が得られた。 S4モデルはトランスフォーマーモデルと同様に並列で訓練することができる。 本研究では,ATRとTTSタスクのデコーダとしてS4を適用し,Transformerデコーダと比較した。 CSJ eval1/eval2/eval3 セットでは,ASR タスクにおいて,提案モデルが LibriSpeech テストクリーン/テスト-他セットでは 1.88%/4.25%,文字誤り率 (CER) が 3.80%/2.63%/2.98% であることを示す。 さらに,提案モデルは標準トランスフォーマーモデルよりも頑健であり,特に両データセットの長文音声に対して頑健である。 TTSタスクでは,提案手法がTransformerベースラインより優れている。

Automatic speech recognition (ASR) systems developed in recent years have shown promising results with self-attention models (e.g., Transformer and Conformer), which are replacing conventional recurrent neural networks. Meanwhile, a structured state space model (S4) has been recently proposed, producing promising results for various long-sequence modeling tasks, including raw speech classification. The S4 model can be trained in parallel, same as the Transformer model. In this study, we applied S4 as a decoder for ASR and text-to-speech (TTS) tasks by comparing it with the Transformer decoder. For the ASR task, our experimental results demonstrate that the proposed model achieves a competitive word error rate (WER) of 1.88%/4.25% on LibriSpeech test-clean/test-other set and a character error rate (CER) of 3.80%/2.63%/2.98% on the CSJ eval1/eval2/eval3 set. Furthermore, the proposed model is more robust than the standard Transformer model, particularly for long-form speech on both the datasets. For the TTS task, the proposed method outperforms the Transformer baseline.
翻訳日:2022-11-01 19:57:20 公開日:2022-10-31
# 彼らの言うことを聞く: ユーザのフィードバックでオンラインの誤情報を理解し検出する

Listen to what they say: Better understand and detect online misinformation with user feedback ( http://arxiv.org/abs/2210.17166v1 )

ライセンス: Link先を確認
Hubert Etienne and Onur \c{C}elebi(参考訳) コンテンツを報告しているソーシャルメディアユーザーは、オンラインの誤情報の管理において重要な味方であるが、その役割とレポート活動の背景にある異なるトレンドを理解する研究はまだ行われていない。 我々は,誤情報を調査するための独自のアプローチを提案する。報告ユーザの視点から,コンテンツレベルと,地域やプラットフォーム間で比較して検討する。 本稿では,c のレビューから得られた報告内容の第一の分類を提案する。 2020年6月にフランス、イギリス、米国でfacebookとinstagramで9000件が報告された。 これにより、ボリューム、タイプ、トピック、操作技術が大きく異なるため、国とプラットフォーム間のコンテンツの報告に関する有意義な区別を観察できます。 これらの技術のうち6つを調べることで、instagram usに特有で、他よりはるかに洗練された新しい技術を特定し、アルゴリズムによる検出と人間のモデレーションに関する具体的な課題を提示した。 また,誤報として報告されたコンテンツの半分の正確さを説明できる4種類のノイズを抽出する4つの報告行動も同定した。 最後に,ユーザ報告信号を複数の動作に分割することで,基本的なユーザレポートを組み合わせることで,異なるタイプのコンテンツ片を分類する,単純な,競争的な,小さなデータセット上の分類器を訓練できることを示す。

Social media users who report content are key allies in the management of online misinformation, however, no research has been conducted yet to understand their role and the different trends underlying their reporting activity. We suggest an original approach to studying misinformation: examining it from the reporting users perspective at the content-level and comparatively across regions and platforms. We propose the first classification of reported content pieces, resulting from a review of c. 9,000 items reported on Facebook and Instagram in France, the UK, and the US in June 2020. This allows us to observe meaningful distinctions regarding reporting content between countries and platforms as it significantly varies in volume, type, topic, and manipulation technique. Examining six of these techniques, we identify a novel one that is specific to Instagram US and significantly more sophisticated than others, potentially presenting a concrete challenge for algorithmic detection and human moderation. We also identify four reporting behaviours, from which we derive four types of noise capable of explaining half of the inaccuracy found in content reported as misinformation. We finally show that breaking down the user reporting signal into a plurality of behaviours allows to train a simple, although competitive, classifier on a small dataset with a combination of basic users-reports to classify the different types of reported content pieces.
翻訳日:2022-11-01 19:56:55 公開日:2022-10-31
# A-LAQ:Adaptive Lazily Aggregated Quantized Gradient

A-LAQ: Adaptive Lazily Aggregated Quantized Gradient ( http://arxiv.org/abs/2210.17474v1 )

ライセンス: Link先を確認
Afsaneh Mahmoudi, Jos\'e Mairton Barros Da Silva J\'unior, Hossein S. Ghadikolaei, Carlo Fischione(参考訳) フェデレートラーニング(FL)は、クライアントに分散したデータで機械学習問題を解決する上で、重要な役割を果たす。 flでは、クライアントとサーバ間のデータの通信オーバーヘッドを低減するため、各クライアントはローカルデータの代わりにローカルflパラメータを通信する。 しかし、無線ネットワークがクライアントとサーバを接続する場合、クライアントの通信リソースの制限により、FLイテレーションのトレーニングが完了するのを防ぐことができる。 そのため,FLの通信効率の変動は広く研究されている。 Lazily Aggregated Quantized Gradient (LAQ)は、FLにおけるリソース使用量を減らすための有望な通信効率のアプローチの1つである。 しかし、LAQは全てのイテレーションに対して固定数のビットを割り当てるが、これはイテレーションの数が中から高い場合や収束が近づいている場合、通信非効率である可能性がある。 本稿では,FLイテレーション中に複数の通信ビットをアダプティブに割り当てることで,LAQを大幅に拡張する手法であるAdaptive Lazily Aggregated Quantized Gradient (A-LAQ)を提案する。 エネルギー制約条件下でflを訓練し,a-laqの収束解析を行った。 実験の結果,A-LAQは通信エネルギーの50ドル%削減,テスト精度の11ドル%向上に対してLAQを上回った。

Federated Learning (FL) plays a prominent role in solving machine learning problems with data distributed across clients. In FL, to reduce the communication overhead of data between clients and the server, each client communicates the local FL parameters instead of the local data. However, when a wireless network connects clients and the server, the communication resource limitations of the clients may prevent completing the training of the FL iterations. Therefore, communication-efficient variants of FL have been widely investigated. Lazily Aggregated Quantized Gradient (LAQ) is one of the promising communication-efficient approaches to lower resource usage in FL. However, LAQ assigns a fixed number of bits for all iterations, which may be communication-inefficient when the number of iterations is medium to high or convergence is approaching. This paper proposes Adaptive Lazily Aggregated Quantized Gradient (A-LAQ), which is a method that significantly extends LAQ by assigning an adaptive number of communication bits during the FL iterations. We train FL in an energy-constraint condition and investigate the convergence analysis for A-LAQ. The experimental results highlight that A-LAQ outperforms LAQ by up to a $50$% reduction in spent communication energy and an $11$% increase in test accuracy.
翻訳日:2022-11-01 19:51:21 公開日:2022-10-31
# デモからモジュール型ロボットの移動学習

Learning Modular Robot Locomotion from Demonstrations ( http://arxiv.org/abs/2210.17491v1 )

ライセンス: Link先を確認
Julian Whitman and Howie Choset(参考訳) モジュールロボットは、小さなコンポーネントセットからさまざまなデザインを作成するように再構成することができる。 しかし、ロボットのハードウェアを自分で作るだけでは十分ではありません。 個々のデザインのためのコントローラを作ることもできるが、追加設計のためのポリシーを開発するのには時間がかかる。 本研究は,ある設計セットからのデモンストレーションを用いて,追加設計のためのポリシー学習を加速する手法を提案する。 グラフニューラルネットワークがモジュールコンポーネントで構成され,各コンポーネントがモジュールタイプ(脚,車輪,体など)に対応している学習フレームワークを活用して,複数の設計から一度に学習できるように再結合することが可能である。 本稿では,強化学習と模倣学習を組み合わせたアルゴリズムを提案する。 提案手法は,1つの設計に対する報酬を最大化し,異なる設計からのデモンストレーションを1つの目的関数内で同時に模倣するように最適化されている。 モジュラーポリシーをこの組み合わせの目的に最適化すると、ある設計セットからのデモンストレーションは、ポリシーが異なる設計でどのように振る舞うかに影響し、必要なトレーニングイテレーションの数を減少させる。

Modular robots can be reconfigured to create a variety of designs from a small set of components. But constructing a robot's hardware on its own is not enough -- each robot needs a controller. One could create controllers for some designs individually, but developing policies for additional designs can be time consuming. This work presents a method that uses demonstrations from one set of designs to accelerate policy learning for additional designs. We leverage a learning framework in which a graph neural network is made up of modular components, each component corresponds to a type of module (e.g., a leg, wheel, or body) and these components can be recombined to learn from multiple designs at once. In this paper we develop a combined reinforcement and imitation learning algorithm. Our method is novel because the policy is optimized to both maximize a reward for one design, and simultaneously imitate demonstrations from different designs, within one objective function. We show that when the modular policy is optimized with this combined objective, demonstrations from one set of designs influence how the policy behaves on a different design, decreasing the number of training iterations needed.
翻訳日:2022-11-01 19:51:00 公開日:2022-10-31
# 複数仮説検定のためのコスト認識一般$\alpha$-investing

Cost-aware Generalized $\alpha$-investing for Multiple Hypothesis Testing ( http://arxiv.org/abs/2210.17514v1 )

ライセンス: Link先を確認
Thomas Cook and Harsh Vardhan Dubey and Ji Ah Lee and Guangyu Zhu and Tingting Zhao and Patrick Flaherty(参考訳) 非自明なデータ収集コストを伴う逐次多重仮説テストの問題を考える。 この問題は、例えば、病気の過程において特異的に発現する遺伝子を同定する生物学的実験を行う際に現れる。 この作業は、シーケンシャルなテスト環境での偽発見率の制御を可能にする一般的な$\alpha$-investingフレームワーク上に構築されている。 我々は,$\alpha$-wealth の長期漸近的挙動を理論的に解析し,$\alpha$-investing 決定規則におけるサンプルサイズについて考察する。 ゲーム理論の偏差原理を用いて、期待される$\alpha$-wealthの戻り値(ERO)を最適化し、テストに最適なサンプルサイズを提供する決定ルールを構築する。 コストを意識したero決定規則は、他の手法よりも偽のヌル仮説を正しく否定する経験的な結果を示す。 コストを意識したERO投資を有限水平試験に拡張し、非生産的テストのリスクに対する意思決定ルールのヘッジを可能にする。 最後に、生物学的実験から得られた実データに対する実証的なテストでは、コストを認識したeroは、どのテストを実行するか、どんなサンプルサイズで実行するか、実行可能な決定を下す。

We consider the problem of sequential multiple hypothesis testing with nontrivial data collection cost. This problem appears, for example, when conducting biological experiments to identify differentially expressed genes in a disease process. This work builds on the generalized $\alpha$-investing framework that enables control of the false discovery rate in a sequential testing setting. We make a theoretical analysis of the long term asymptotic behavior of $\alpha$-wealth which motivates a consideration of sample size in the $\alpha$-investing decision rule. Using the game theoretic principle of indifference, we construct a decision rule that optimizes the expected return (ERO) of $\alpha$-wealth and provides an optimal sample size for the test. We show empirical results that a cost-aware ERO decision rule correctly rejects more false null hypotheses than other methods. We extend cost-aware ERO investing to finite-horizon testing which enables the decision rule to hedge against the risk of unproductive tests. Finally, empirical tests on a real data set from a biological experiment show that cost-aware ERO produces actionable decisions as to which tests to conduct and if so at what sample size.
翻訳日:2022-11-01 19:50:41 公開日:2022-10-31
# ガウス微分プライバシーのための完全適応構成

Fully Adaptive Composition for Gaussian Differential Privacy ( http://arxiv.org/abs/2210.17520v1 )

ライセンス: Link先を確認
Adam Smith and Abhradeep Thakurta(参考訳) ガウス雑音付加の分析に合わせた微分プライバシーの変種であるガウス微分プライバシーが,完全適応型アナリストの存在下においても優雅に構成されていることを示す。 このような分析者は、以前同じデータセット上で実行された他のメカニズムからの回答に基づいて、(機密データセット上で実行される)メカニズムとそれらのプライバシー予算を適応的に選択する。 Rogers, Roth, Ullman, Vadhan の言語では、これは非適応的な構成と同じパラメータを持つGDPのフィルタを与える。

We show that Gaussian Differential Privacy, a variant of differential privacy tailored to the analysis of Gaussian noise addition, composes gracefully even in the presence of a fully adaptive analyst. Such an analyst selects mechanisms (to be run on a sensitive data set) and their privacy budgets adaptively, that is, based on the answers from other mechanisms run previously on the same data set. In the language of Rogers, Roth, Ullman and Vadhan, this gives a filter for GDP with the same parameters as for nonadaptive composition.
翻訳日:2022-11-01 19:50:17 公開日:2022-10-31
# Sparse Rewards Multi-Agent Reinforcement Learningのためのエージェント時間アテンション

Agent-Time Attention for Sparse Rewards Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2210.17540v1 )

ライセンス: Link先を確認
Jennifer She, Jayesh K. Gupta, Mykel J. Kochenderfer(参考訳) スパースと遅延報酬は、単一のエージェント強化学習に挑戦する。 この課題は、MARL(Multi-agent reinforcement learning)において増幅され、これらの報酬のクレジット割り当ては、時間だけでなくエージェントを通して行われる必要がある。 協調的MARLにおけるスパース再分配と遅延報酬に対する補助的損失を有するニューラルネットワークモデルであるエージェント・タイム・アテンション(ATA)を提案する。 私たちは、エージェントにそれぞれのローカル再分配報酬と共有されたグローバル再分配報酬がどのように異なるポリシーを動機付けるかを示す簡単な例を示します。 マルチルームやドアキーといったミニグリッド環境をマルチエージェントの遅延報酬設定まで拡張します。 ATAは、これらの環境の多くのインスタンスにおいて、様々なベースラインを上回ります。 実験のソースコードはhttps://github.com/jshe/agent-time-attentionで入手できる。

Sparse and delayed rewards pose a challenge to single agent reinforcement learning. This challenge is amplified in multi-agent reinforcement learning (MARL) where credit assignment of these rewards needs to happen not only across time, but also across agents. We propose Agent-Time Attention (ATA), a neural network model with auxiliary losses for redistributing sparse and delayed rewards in collaborative MARL. We provide a simple example that demonstrates how providing agents with their own local redistributed rewards and shared global redistributed rewards motivate different policies. We extend several MiniGrid environments, specifically MultiRoom and DoorKey, to the multi-agent sparse delayed rewards setting. We demonstrate that ATA outperforms various baselines on many instances of these environments. Source code of the experiments is available at https://github.com/jshe/agent-time-attention.
翻訳日:2022-11-01 19:50:07 公開日:2022-10-31
# 合成音声検出のための話者自動検証と韻律解析の併用

Combining Automatic Speaker Verification and Prosody Analysis for Synthetic Speech Detection ( http://arxiv.org/abs/2210.17222v1 )

ライセンス: Link先を確認
Luigi Attorresi, Davide Salvi, Clara Borrelli, Paolo Bestagini, Stefano Tubaro(参考訳) メディアコンテンツ合成技術の急速な普及と、オーディオやビデオのディープフェイクによる人々の生活への影響により、これらの偽造を自動検出できるシステムを実装する必要性が高まっている。 本研究では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。 一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。 一方、音声のリズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。 教師付きバイナリ分類器に供給されるこれら2つの埋め込みの組み合わせにより,音声変換技術と音声変換技術の両方で生成されたディープフェイク音声の検出が可能となる。 以上の結果から,ベースラインに対する改善,複数のデータセットに対する優れた一般化特性,音声圧縮に対する堅牢性が示された。

The rapid spread of media content synthesis technology and the potentially damaging impact of audio and video deepfakes on people's lives have raised the need to implement systems able to detect these forgeries automatically. In this work we present a novel approach for synthetic speech detection, exploiting the combination of two high-level semantic properties of the human voice. On one side, we focus on speaker identity cues and represent them as speaker embeddings extracted using a state-of-the-art method for the automatic speaker verification task. On the other side, voice prosody, intended as variations in rhythm, pitch or accent in speech, is extracted through a specialized encoder. We show that the combination of these two embeddings fed to a supervised binary classifier allows the detection of deepfake speech generated with both Text-to-Speech and Voice Conversion techniques. Our results show improvements over the considered baselines, good generalization properties over multiple datasets and robustness to audio compression.
翻訳日:2022-11-01 19:49:02 公開日:2022-10-31
# マルチエージェント協調のためのグラフ学習

Unrolled Graph Learning for Multi-Agent Collaboration ( http://arxiv.org/abs/2210.17101v1 )

ライセンス: Link先を確認
Enpei Zhang, Shuo Tang, Xiaowen Dong, Siheng Chen, Yanfeng Wang(参考訳) マルチエージェント学習は、データ交換の制限の下で分散機械学習シナリオに取り組むために注目を集めている。 しかし、既存のマルチエージェント学習モデルは、通常、エージェント間の固定的かつ強制的な協調関係の下でのデータ融合を検討する。 このギャップを埋めるために,エージェントが適切なコラボレータを自律的に検出し,パフォーマンス向上のためにコラボレータのモデルを参照できる,ヒューマンコラボレーションにインスパイアされた分散マルチエージェント学習モデルを提案する。 このような適応的な協調を実現するために,協調グラフを用いて協調関係を示す。 協調グラフは、異なるエージェント間のモデル類似性に基づいたグラフ学習技術によって得られる。 モデルの類似性は固定されたグラフィカル最適化では定式化できないため、グラフ学習ネットワークを展開することで設計する。 回帰タスクと分類タスクの両方をテストすることで,提案する協調モデルが正確な協調関係を解明し,エージェントの学習性能を大幅に向上できることを確認した。

Multi-agent learning has gained increasing attention to tackle distributed machine learning scenarios under constrictions of data exchanging. However, existing multi-agent learning models usually consider data fusion under fixed and compulsory collaborative relations among agents, which is not as flexible and autonomous as human collaboration. To fill this gap, we propose a distributed multi-agent learning model inspired by human collaboration, in which the agents can autonomously detect suitable collaborators and refer to collaborators' model for better performance. To implement such adaptive collaboration, we use a collaboration graph to indicate the pairwise collaborative relation. The collaboration graph can be obtained by graph learning techniques based on model similarity between different agents. Since model similarity can not be formulated by a fixed graphical optimization, we design a graph learning network by unrolling, which can learn underlying similar features among potential collaborators. By testing on both regression and classification tasks, we validate that our proposed collaboration model can figure out accurate collaborative relationship and greatly improve agents' learning performance.
翻訳日:2022-11-01 19:42:20 公開日:2022-10-31
# 深いガウス過程に基づく化学反応器の多元的ベイズ最適化

Deep Gaussian Process-based Multi-fidelity Bayesian Optimization for Simulated Chemical Reactors ( http://arxiv.org/abs/2210.17213v1 )

ライセンス: Link先を確認
Tom Savage, Nausheen Basha, Omar Matar Ehecatl, Antonio Del-Rio Chanona(参考訳) 3dプリンティングのような新しい製造技術により、これまで実現できなかった化学反応器の設計が可能になった。 次世代の化学反応器の幾何学を最適化することは、基礎となる物理を理解し、現実の世界で原子炉の実現性を確保するために重要である。 この最適化問題は計算コストが高く、非線形で微分なしであり、解決が難しい。 本研究では,重み付きガウス過程(dgps)をベイズ最適化環境でのマルチフィデリティコイル型反応器シミュレーションに応用する。 マルチフィデリティベイズ最適化法を適用して,予測の不確実性とシミュレーションコストに基づいて選択された異なるフィデリティシミュレーションのアマルガムを用いて,反応器ジオメトリーの探索空間を探索し,計算予算の最大化を行う。 DGPの使用は、5つの離散メッシュ忠実度に対するエンドツーエンドモデルを提供し、最適化時に優れた解を得るための計算労力を減らすことができる。 これらの5つの忠実度シミュレーションの精度は、3Dプリントされた原子炉構成から得られた実験データに対して決定され、適切なハイパーパラメータに関する洞察を与える。 この研究が、エンジニアリング発見におけるdgpベースのマルチフィデリティベイズ最適化の実用性に関する興味深い洞察を提供してくれることを願っている。

New manufacturing techniques such as 3D printing have recently enabled the creation of previously infeasible chemical reactor designs. Optimizing the geometry of the next generation of chemical reactors is important to understand the underlying physics and to ensure reactor feasibility in the real world. This optimization problem is computationally expensive, nonlinear, and derivative-free making it challenging to solve. In this work, we apply deep Gaussian processes (DGPs) to model multi-fidelity coiled-tube reactor simulations in a Bayesian optimization setting. By applying a multi-fidelity Bayesian optimization method, the search space of reactor geometries is explored through an amalgam of different fidelity simulations which are chosen based on prediction uncertainty and simulation cost, maximizing the use of computational budget. The use of DGPs provides an end-to-end model for five discrete mesh fidelities, enabling less computational effort to gain good solutions during optimization. The accuracy of simulations for these five fidelities is determined against experimental data obtained from a 3D printed reactor configuration, providing insights into appropriate hyper-parameters. We hope this work provides interesting insight into the practical use of DGP-based multi-fidelity Bayesian optimization for engineering discovery.
翻訳日:2022-11-01 19:42:01 公開日:2022-10-31
# 対称性, 平らなミニマおよび保存された勾配流量

Symmetries, flat minima, and the conserved quantities of gradient flow ( http://arxiv.org/abs/2210.17216v1 )

ライセンス: Link先を確認
Bo Zhao, Iordan Ganev, Robin Walters, Rose Yu, Nima Dehmamy(参考訳) ディープ・ネットワークの損失景観に関する実証的研究により、多くのローカル・ミニマが低損失の谷を通っていることが明らかになった。 低損失谷の様々な部分をサンプリングするアンサンブルモデルがSOTAのパフォーマンスに到達した。 しかし、これらの谷の理論的起源についてはほとんど分かっていない。 パラメータ空間における連続対称性を見つけるための一般的な枠組みについて述べる。 さらに,ニューラルネットのための非線形データ依存対称性を新たに導入する。 これらの対称性は、新しいサンプルでも同様に動作するように訓練されたモデルを変換することができる。 次に、線形対称性に関連する保存量を用いて、低損失谷に沿った座標を定義することができることを示す。 保存された量は、共通の初期化法を用いることで、勾配流が大域最小値のごく一部しか探索しないことを示すのに役立つ。 保存量と最小の収束率と鋭さを関連付けることにより、初期化が収束性と一般化可能性にどのように影響するかを洞察する。 また,特定の攻撃下でのロバスト性を改善するために,アンサンブル構築に非線形作用が有効であることも確認した。

Empirical studies of the loss landscape of deep networks have revealed that many local minima are connected through low-loss valleys. Ensemble models sampling different parts of a low-loss valley have reached SOTA performance. Yet, little is known about the theoretical origin of such valleys. We present a general framework for finding continuous symmetries in the parameter space, which carve out low-loss valleys. Importantly, we introduce a novel set of nonlinear, data-dependent symmetries for neural networks. These symmetries can transform a trained model such that it performs similarly on new samples. We then show that conserved quantities associated with linear symmetries can be used to define coordinates along low-loss valleys. The conserved quantities help reveal that using common initialization methods, gradient flow only explores a small part of the global minimum. By relating conserved quantities to convergence rate and sharpness of the minimum, we provide insights on how initialization impacts convergence and generalizability. We also find the nonlinear action to be viable for ensemble building to improve robustness under certain adversarial attacks.
翻訳日:2022-11-01 19:41:42 公開日:2022-10-31
# vertibayes氏: 欠落値を持つ垂直分割データからベイズネットワークパラメータを学習する

VertiBayes: Learning Bayesian network parameters from vertically partitioned data with missing values ( http://arxiv.org/abs/2210.17228v1 )

ライセンス: Link先を確認
Florian van Daalen, Lianne Ippel, Andre Dekker, Inigo Bermejo(参考訳) フェデレーション学習は、分散データに基づいて機械学習モデルをトレーニングすることを可能にする。 ベイズネットワークは確率的グラフィカルモデルであり、人工知能アプリケーションで広く使われている。 それらの人気は、既存の専門家の知識とデータを組み合わせることで構築できるという事実に起因しており、非常に解釈可能であり、医療などの意思決定支援に有用である。 ベイジアンネットワークのフェデレーション学習に関するいくつかの研究が公表されているが、垂直分割または不均質なデータセット(異なる変数が異なるデータセットにある)におけるベイジアンネットワークの出版は限られており、欠落したデータの処理など重要な欠落に悩まされている。 本稿では,垂直分割されたデータに対してベイズネットワーク(構造とパラメータ)をトレーニングするためのvertibayesと呼ばれる新しい手法を提案する。 構造学習のために、我々はプライバシー保護スカラー製品プロトコルを用いて広く使われているK2アルゴリズムを適用した。 パラメータ学習には2段階のアプローチを用いる: まず、欠落した値を特別な値として扱い、最大極大を用いて中間モデルを学習し、次にEMアルゴリズムを用いて中間モデルが生成した合成データに基づいてモデルを訓練する。 当社のアプローチのプライバシ保証は、使用するプライバシ保護スカラー製品プロトコルが提供するものと同等です。 従来のアルゴリズムを用いて学習したモデルに匹敵するモデルを生成する手法を実験的に示し,サンプル,ネットワークサイズ,複雑性の観点から複雑性の増加を推定した。 最後に,垂直分割データを用いてモデルの性能を推定する2つの方法を提案する。

Federated learning makes it possible to train a machine learning model on decentralized data. Bayesian networks are probabilistic graphical models that have been widely used in artificial intelligence applications. Their popularity stems from the fact they can be built by combining existing expert knowledge with data and are highly interpretable, which makes them useful for decision support, e.g. in healthcare. While some research has been published on the federated learning of Bayesian networks, publications on Bayesian networks in a vertically partitioned or heterogeneous data setting (where different variables are located in different datasets) are limited, and suffer from important omissions, such as the handling of missing data. In this article, we propose a novel method called VertiBayes to train Bayesian networks (structure and parameters) on vertically partitioned data, which can handle missing values as well as an arbitrary number of parties. For structure learning we adapted the widely used K2 algorithm with a privacy-preserving scalar product protocol. For parameter learning, we use a two-step approach: first, we learn an intermediate model using maximum likelihood by treating missing values as a special value and then we train a model on synthetic data generated by the intermediate model using the EM algorithm. The privacy guarantees of our approach are equivalent to the ones provided by the privacy preserving scalar product protocol used. We experimentally show our approach produces models comparable to those learnt using traditional algorithms and we estimate the increase in complexity in terms of samples, network size, and complexity. Finally, we propose two alternative approaches to estimate the performance of the model using vertically partitioned data and we show in experiments that they lead to reasonably accurate estimates.
翻訳日:2022-11-01 19:41:26 公開日:2022-10-31
# 物理インフォームドCNNによる力学系におけるスパース観測の超解法

Physics-Informed CNNs for Super-Resolution of Sparse Observations on Dynamical Systems ( http://arxiv.org/abs/2210.17319v1 )

ライセンス: Link先を確認
Daniel Kelshaw, Georgios Rigas, Luca Magri(参考訳) 高分解能サンプルがない場合、力学系におけるスパース観測の超分解能は、実験環境における広範囲の応用において難しい問題である。 格子上のスパース観測の超解像に対する物理インフォームド畳み込みニューラルネットワークの適用について述べる。 その結果, カオス乱流コルモゴロフ流は, 古典補間法と比較して乱流の微妙なスケールを解消する可能性を示し, 行方不明物理を効果的に再構成した。

In the absence of high-resolution samples, super-resolution of sparse observations on dynamical systems is a challenging problem with wide-reaching applications in experimental settings. We showcase the application of physics-informed convolutional neural networks for super-resolution of sparse observations on grids. Results are shown for the chaotic-turbulent Kolmogorov flow, demonstrating the potential of this method for resolving finer scales of turbulence when compared with classic interpolation methods, and thus effectively reconstructing missing physics.
翻訳日:2022-11-01 19:40:17 公開日:2022-10-31
# L-GreCo: 階層適応型勾配圧縮のための効率的で汎用的なフレームワーク

L-GreCo: An Efficient and General Framework for Layerwise-Adaptive Gradient Compression ( http://arxiv.org/abs/2210.17357v1 )

ライセンス: Link先を確認
Mohammadreza Alimohammadi, Ilia Markov, Elias Frantar, Dan Alistarh(参考訳) data-parallel distributed training of deep neural networks (dnn) は広く採用されているが、勾配伝達による通信ボトルネックを経験できる。 この問題に対処するために、量子化、スパーシフィケーション、低ランク近似など、損失のある勾配圧縮機構のファミリー全体が開発され、そのいくつかは実用的な適用が行われている。 この進歩にもかかわらず、ほとんどすべての既知の圧縮スキームはDNN層に一様に適用されるが、パラメータ数とモデル精度への影響は不均一である。 本研究では,トレーニング中にモデルの層を動的に圧縮し,精度を犠牲にすることなく全体的な圧縮を著しく改善する汎用フレームワークを提案する。 我々のフレームワークはL-GreCoと呼ばれ、理論上最適化された誤差制約を尊重しながら、最適な圧縮比を保証するモデル層に対する最適圧縮パラメータを自動的に選択する効率的な適応アルゴリズムに基づいている。 画像分類および言語モデリングタスクに関する広範な実験により,l-grecoは3つの圧縮ファミリすべてにおいて有効であり,最大2.5$\times$ トレーニングスピードアップと最大5$\times$ 圧縮改善を達成し,完全な精度を回復した。 さらに,L-GreCoは圧縮率を50%向上し,スループットを66%向上させる既存の適応アルゴリズムと相補的であることを示す。

Data-parallel distributed training of deep neural networks (DNN) has gained very widespread adoption, but can still experience communication bottlenecks due to gradient transmission. To address this issue, entire families of lossy gradient compression mechanisms have been developed, including quantization, sparsification, and low-rank approximation, some of which are seeing significant practical adoption. Despite this progress, almost all known compression schemes apply compression uniformly across DNN layers, although layers are heterogeneous in terms of parameter count and their impact on model accuracy. In this work, we provide a general framework for adapting the degree of compression across the model's layers dynamically during training, significantly improving the overall compression without sacrificing accuracy. Our framework, called L-GreCo, is based on an efficient adaptive algorithm, which automatically picks the optimal compression parameters for model layers guaranteeing the best compression ratio while respecting a theoretically-justified error constraint. Our extensive experimental study over image classification and language modeling tasks shows that L-GreCo is effective across all three compression families, and achieves up to 2.5$\times$ training speedup and up to 5$\times$ compression improvement over efficient implementations of standard approaches while recovering full accuracy. Moreover, we show that L-GreCo is complementary to existing adaptive algorithms improving their compression ratio by 50% and practical throughput by 66%.
翻訳日:2022-11-01 19:40:08 公開日:2022-10-31
# SoK: 信頼、プライバシ、解釈可能性のためのセキュリティ監視における説明可能性のモデリング

SoK: Modeling Explainability in Security Monitoring for Trust, Privacy, and Interpretability ( http://arxiv.org/abs/2210.17376v1 )

ライセンス: Link先を確認
Dipkamal Bhusal, Nidhi Rastogi(参考訳) 信頼、プライバシ、解釈性は、セキュリティ監視のためにディープラーニングモデルをデプロイする専門家にとって重要な懸念となっている。 バックボックスの性質のため、これらのモデルは機械学習の予測を直感的に理解することはできない。 security operations centerには、ログを分析し、セキュリティアナリストが調査する脅威アラートを生成する、多数のセキュリティ監視ツールがある。 アラートは、それがなぜ起動されたのか、あるいは発生したコンテキストについて十分な説明が欠けている。 セキュリティに関する既存の説明方法は、信頼性が低く、安定性が低く、プライバシの懸念を無視する。 しかし、説明は非常に望ましいため、我々はこの知識を説明モデルに体系化し、セキュリティ監視における信頼とプライバシを確保することができる。 セキュリティ運用センター,セキュリティ監視ツール,説明手法の協力研究を通じて,既存の手法の長所と,セキュリティログ分析などのvis-a-visアプリケーションの長所について論じる。 解釈可能・プライバシー保護システム監視ツールの設計パイプラインを提案する。 さらに,説明可能なセキュリティ手法を評価するための定量的指標を定式化し,提案する。 最後に,課題を議論し,探索のためのエキサイティングな研究指針を提示する。

Trust, privacy, and interpretability have emerged as significant concerns for experts deploying deep learning models for security monitoring. Due to their back-box nature, these models cannot provide an intuitive understanding of the machine learning predictions, which are crucial in several decision-making applications, like anomaly detection. Security operations centers have a number of security monitoring tools that analyze logs and generate threat alerts which security analysts inspect. The alerts lack sufficient explanation on why it was raised or the context in which they occurred. Existing explanation methods for security also suffer from low fidelity and low stability and ignore privacy concerns. However, explanations are highly desirable; therefore, we systematize this knowledge on explanation models so they can ensure trust and privacy in security monitoring. Through our collaborative study of security operation centers, security monitoring tools, and explanation techniques, we discuss the strengths of existing methods and concerns vis-a-vis applications, such as security log analysis. We present a pipeline to design interpretable and privacy-preserving system monitoring tools. Additionally, we define and propose quantitative metrics to evaluate methods in explainable security. Finally, we discuss challenges and enlist exciting research directions for explorations.
翻訳日:2022-11-01 19:39:40 公開日:2022-10-31
# グローバルゲート型ディープリニアネットワーク

Globally Gated Deep Linear Networks ( http://arxiv.org/abs/2210.17449v1 )

ライセンス: Link先を確認
Qianyi Li, Haim Sompolinsky(参考訳) 近年提案されたゲート型線形ネットワークは、扱いやすい非線形ネットワークアーキテクチャを示し、局所的エラー信号を用いた学習や逐次学習における忘れることの軽減といった興味深い能力を示す。 本研究では,GGDLN(Globally Gated Deep Linear Networks)と呼ばれる新しいゲーティングアーキテクチャを導入し,各レイヤ内のすべての処理ユニット間でゲーティングユニットを共有することにより,非線形だが学習されていないゲーティングのアーキテクチャと学習された線形処理モチーフを分離する。 p,n\rightarrow\infty,p/n\sim o(1)$ で定義される有限幅熱力学的極限におけるこれらのネットワークの一般化特性の厳密な方程式を導出する。 ネットワーク予測器の統計は,GPカーネルと比較して,データ依存行列による形状再正規化を行うカーネルで表現できることがわかった。 本理論は勾配降下ダイナミクスで学習した有限幅ggdlnの挙動を正確に捉える。 カーネル形状の正規化は、ネットワーク幅、深さ、L2正規化振幅のリッチな一般化特性をもたらすことを示す。 興味深いことに、十分なゲーティングユニットを持つネットワークは、標準のReLUネットワークと同様に振る舞う。 モデルにおけるゲーティングは教師付き学習には関与しないが,ゲーティングパラメータの教師なし学習の有用性を示す。 さらに,本理論は,タスク関連情報をゲーティングユニットに組み込むことで,複数のタスクを学習するネットワーク能力の評価を可能にする。 まとめると、我々の研究は有限幅の非線形ネットワーク群における学習の最初の正確な理論解である。 GGDLNのリッチで多様な振る舞いは、有限幅非線形ディープネットワークにおいて、単一のタスクと複数のタスクを学習する分析的に抽出可能なモデルであることを示している。

Recently proposed Gated Linear Networks present a tractable nonlinear network architecture, and exhibit interesting capabilities such as learning with local error signals and reduced forgetting in sequential learning. In this work, we introduce a novel gating architecture, named Globally Gated Deep Linear Networks (GGDLNs) where gating units are shared among all processing units in each layer, thereby decoupling the architectures of the nonlinear but unlearned gatings and the learned linear processing motifs. We derive exact equations for the generalization properties in these networks in the finite-width thermodynamic limit, defined by $P,N\rightarrow\infty, P/N\sim O(1)$, where P and N are the training sample size and the network width respectively. We find that the statistics of the network predictor can be expressed in terms of kernels that undergo shape renormalization through a data-dependent matrix compared to the GP kernels. Our theory accurately captures the behavior of finite width GGDLNs trained with gradient descent dynamics. We show that kernel shape renormalization gives rise to rich generalization properties w.r.t. network width, depth and L2 regularization amplitude. Interestingly, networks with sufficient gating units behave similarly to standard ReLU networks. Although gatings in the model do not participate in supervised learning, we show the utility of unsupervised learning of the gating parameters. Additionally, our theory allows the evaluation of the network's ability for learning multiple tasks by incorporating task-relevant information into the gating units. In summary, our work is the first exact theoretical solution of learning in a family of nonlinear networks with finite width. The rich and diverse behavior of the GGDLNs suggests that they are helpful analytically tractable models of learning single and multiple tasks, in finite-width nonlinear deep networks.
翻訳日:2022-11-01 19:39:22 公開日:2022-10-31
# 物質不均一弾塑性固体における応力の代理モデリングのための2つの人工ニューラルネットワークの比較

Comparison of two artificial neural networks trained for the surrogate modeling of stress in materially heterogeneous elastoplastic solids ( http://arxiv.org/abs/2210.16994v1 )

ライセンス: Link先を確認
Sarthak Kapoor, Jaber Rezaei Mianroodi, Mohammad Khorrami, Nima S. Siboni, Bob Svendsen(参考訳) 本研究の目的は, 材料異種周期多結晶組織における応力場のサロゲートモデリングへの2つのニューラルネットワーク(anns)の適用を体系的に比較することである。 第1のANNは、周期データのためのUNetベースの畳み込みニューラルネットワーク(CNN)であり、第2のANNはフーリエニューラルネットワーク(FNO)に基づいている。 正方形領域を持つ周期的結晶粒微細構造における準静力学的平衡に対する境界値問題 (BVP) の数値解を用いて, どちらも訓練, 検証, および試験を行った。 より具体的には, 材料特性の空間分布と一軸引張荷重下での平衡応力場との関係について検討した。 得られたトレーニングされたANN (tANNs) は、対応するBVPの数値解よりも1000から2500(FNO)の順序で、与えられたマイクロ構造の応力場を計算する。 テストデータセットのマイクロ構造では、FNOベースのtANN(または単にFNO)は、UNetベースのものよりも正確であり、前者の異なる応力成分の正規化平均絶対誤差は、後者の1.41-2.15%と比較すると0.25-0.40%である。 FNOの誤差は粒界領域に制限されるが、U-Netの誤差は粒内からもたらされる。 U-Netと比較して、FNOの誤差は、空間分解能の大きな変化に対してより堅牢であり、粒度は小さい。 一方、U-Netの誤差は境界ボックスのアスペクト比のばらつきに対して頑健であるが、FNOの誤差はドメインが長方形になるにつれて増加する。 しかし、両方のtANNは強い応力勾配を再現することができず、特に応力集中の領域では顕著である。

The purpose of this work is the systematic comparison of the application of two artificial neural networks (ANNs) to the surrogate modeling of the stress field in materially heterogeneous periodic polycrystalline microstructures. The first ANN is a UNet-based convolutional neural network (CNN) for periodic data, and the second is based on Fourier neural operators (FNO). Both of these were trained, validated, and tested with results from the numerical solution of the boundary-value problem (BVP) for quasi-static mechanical equilibrium in periodic grain microstructures with square domains. More specifically, these ANNs were trained to correlate the spatial distribution of material properties with the equilibrium stress field under uniaxial tensile loading. The resulting trained ANNs (tANNs) calculate the stress field for a given microstructure on the order of 1000 (UNet) to 2500 (FNO) times faster than the numerical solution of the corresponding BVP. For microstructures in the test dataset, the FNO-based tANN, or simply FNO, is more accurate than its UNet-based counterpart; the normalized mean absolute error of different stress components for the former is 0.25-0.40% as compared to 1.41-2.15% for the latter. Errors in FNO are restricted to grain boundary regions, whereas the error in U-Net also comes from within the grain. In comparison to U-Net, errors in FNO are more robust to large variations in spatial resolution as well as small variations in grain density. On other hand, errors in U-Net are robust to variations in boundary box aspect ratio, whereas errors in FNO increase as the domain becomes rectangular. Both tANNs are however unable to reproduce strong stress gradients, especially around regions of stress concentration.
翻訳日:2022-11-01 19:33:26 公開日:2022-10-31
# l ojasiewicz関数に対する確率的零次勾配降下のほぼ確実収束率

Almost Sure Convergence Rates of Stochastic Zeroth-order Gradient Descent for \L ojasiewicz Functions ( http://arxiv.org/abs/2210.16997v1 )

ライセンス: Link先を確認
Tianyu Wang(参考訳) L ojasiewicz関数に対するゼロ階勾配 Descent (SZGD) アルゴリズムの 'emph{almost sure convergence rate} を証明する。 x_{t+1} = x_t - \eta_t \widehat{\nabla} f (x_t), \qquad t = 0,1,2,3,\cdots , \end{align*} ここで、$f$ は \l ojasiewicz の不等式を満たす目的関数であり、 \l ojasiewicz exponent $\theta$, $\eta_t$ はステップサイズ(学習率)、$ \widehat{\nabla} f (x_t) $ はゼロ次情報を用いて推定される近似勾配である。 我々は、 {smooth} \L ojasiewicz 関数に対して、SZGD が支配する列 $\{ x_t \}_{t\in\mathbb{N}}$ が有界点 $x_\infty$ にほぼ確実に収束し、$x_\infty$ は$f$ の臨界点であることを示す。 もし$\theta \in (0,\frac{1}{2}]$, $ f (x_t) - f (x_\infty) $, $ \sum_{s=t}^\infty \| x_s - x_\infty \|^2$ and $ \| x_tx_\infty \| $$$\| \cdot \|$ is the Euclidean norm) が 0 \emph{linearlyly} に収束する。 もし$\theta \in (\frac{1}{2}, 1)$, $ f (x_t) - f (x_\infty) $ (and $ \sum_{s=t}^\infty \| x_{s+1} - x_s \|^2 $) $o \left( t^{\frac{1}{1 - 2\theta}} \log t \right) $ ほぼ確実に$ \| x_{t} - x_\infty \| $ が 0 に収束すると、$ $o \left( t^{\frac{1-\theta}{1-2\theta}} \log t \right) $ はほぼ確実に 0 に収束する。 我々の知識を最大限に活用するために、この論文は \L ojasiewicz 関数に対する確率零次アルゴリズムに対する最初の \emph{almost sure convergence rate} 保証を提供する。

We prove \emph{almost sure convergence rates} of Zeroth-order Gradient Descent (SZGD) algorithms for \L ojasiewicz functions. The SZGD algorithm iterates as \begin{align*} x_{t+1} = x_t - \eta_t \widehat{\nabla} f (x_t), \qquad t = 0,1,2,3,\cdots , \end{align*} where $f$ is the objective function that satisfies the \L ojasiewicz inequality with \L ojasiewicz exponent $\theta$, $\eta_t$ is the step size (learning rate), and $ \widehat{\nabla} f (x_t) $ is the approximate gradient estimated using zeroth-order information. We show that, for {smooth} \L ojasiewicz functions, the sequence $\{ x_t \}_{t\in\mathbb{N}}$ governed by SZGD converges to a bounded point $x_\infty$ almost surely, and $x_\infty$ is a critical point of $f$. If $\theta \in (0,\frac{1}{2}]$, $ f (x_t) - f (x_\infty) $, $ \sum_{s=t}^\infty \| x_s - x_\infty \|^2$ and $ \| x_t - x_\infty \| $ ($\| \cdot \|$ is the Euclidean norm) converge to zero \emph{linearly almost surely}. If $\theta \in (\frac{1}{2}, 1)$, then $ f (x_t) - f (x_\infty) $ (and $ \sum_{s=t}^\infty \| x_{s+1} - x_s \|^2 $) converges to zero at rate $o \left( t^{\frac{1}{1 - 2\theta}} \log t \right) $ almost surely; $ \| x_{t} - x_\infty \| $ converges to zero at rate $o \left( t^{\frac{1-\theta}{1-2\theta}} \log t \right) $ almost surely. To the best of our knowledge, this paper provides the first \emph{almost sure convergence rate} guarantee for stochastic zeroth order algorithms for \L ojasiewicz functions.
翻訳日:2022-11-01 19:32:57 公開日:2022-10-31
# 不確かさに気付くトレーダー企業法:不確かさを捉えた解釈可能な株価予測

Uncertainty Aware Trader-Company Method: Interpretable Stock Price Prediction Capturing Uncertainty ( http://arxiv.org/abs/2210.17030v1 )

ライセンス: Link先を確認
Yugo Fujimotol, Kei Nakagawa, Kentaro Imajo, Kentaro Minami(参考訳) 機械学習はますます人気の高いツールであり、株価の予測に成功している。 有望な方法の1つは、株式市場のダイナミズムを考慮して高い予測力と解釈能力を持つトレーダー・コンパニ−(tc)法である。 TC法を含む機械学習に基づくストック予測手法は,ポイント予測に集中している。 しかしながら、不確実性推定の欠如によるポイント予測は信頼性の定量化を欠き、安全性への懸念を引き起こす。 本論文の課題は,高い予測能力と不確実性を定量化する能力を組み合わせた投資戦略を作ることである。 本稿では,不確かさを意識するトレーダー・企業手法~(UTC)手法という新しい手法を提案する。 このアプローチの中核となる考え方は、確率論的予測と不確実性推定を提供するTCメソッドと確率論的モデリングを組み合わせることによって、両方のフレームワークの強みを組み合わせることである。 これは不確かさを捉えながら、tc法の予測力と解釈可能性を維持することを期待する。 理論的には,提案手法は後方分散を推定し,元のTC法から追加バイアスを生じさせない。 我々は,合成および実市場データセットに基づくアプローチの包括的評価を行う。 我々は,UTC法が不確実性が増大し,予測が難しい状況を検出することができることを,合成データで確認した。 また,UTC法はデータ生成分布の急激な変化を検出できることを確認した。 我々は,UTC法がベースラインよりも高いリターンとリスクを達成できることを実市場データで示す。

Machine learning is an increasingly popular tool with some success in predicting stock prices. One promising method is the Trader-Company~(TC) method, which takes into account the dynamism of the stock market and has both high predictive power and interpretability. Machine learning-based stock prediction methods including the TC method have been concentrating on point prediction. However, point prediction in the absence of uncertainty estimates lacks credibility quantification and raises concerns about safety. The challenge in this paper is to make an investment strategy that combines high predictive power and the ability to quantify uncertainty. We propose a novel approach called Uncertainty Aware Trader-Company Method~(UTC) method. The core idea of this approach is to combine the strengths of both frameworks by merging the TC method with the probabilistic modeling, which provides probabilistic predictions and uncertainty estimations. We expect this to retain the predictive power and interpretability of the TC method while capturing the uncertainty. We theoretically prove that the proposed method estimates the posterior variance and does not introduce additional biases from the original TC method. We conduct a comprehensive evaluation of our approach based on the synthetic and real market datasets. We confirm with synthetic data that the UTC method can detect situations where the uncertainty increases and the prediction is difficult. We also confirmed that the UTC method can detect abrupt changes in data generating distributions. We demonstrate with real market data that the UTC method can achieve higher returns and lower risks than baselines.
翻訳日:2022-11-01 19:31:37 公開日:2022-10-31
# 薬物発見のためのニューラルネットワークにおける点予測不確かさの評価

Evaluating Point-Prediction Uncertainties in Neural Networks for Drug Discovery ( http://arxiv.org/abs/2210.17043v1 )

ライセンス: Link先を確認
Ya Ju Fan, Jonathan E. Allen, Kevin S. McLoughlin, Da Shi, Brian J. Bennion, Xiaohua Zhang, and Felice C. Lightstone(参考訳) ニューラルネットワーク(NN)モデルは、薬物発見プロセスをスピードアップし、失敗率を低下させる可能性がある。 NNモデルの成功には不確実な定量化(UQ)が必要である。 標準NNモデルは不確実性情報を提供しない。 ベイズモデルとNNモデルを組み合わせた手法はこの問題に対処するが、実装は困難であり、訓練費も高い。 いくつかの方法はNNアーキテクチャやトレーニング手順を変更し、NNモデルの選択を制限する必要がある。 さらに、予測の不確実性は異なる情報源から生じる。 モデルが不確実性の原因に応じて様々なアクションを取ることができるため、異なるタイプの予測の不確実性を別々にモデル化する能力を持つことが重要である。 本稿では,薬物発見を目的としたNNモデルの予測不確かさを推定するUQ手法について検討する。 以前の化学化合物に関する知識を実験の設計に用いている。 可視化手法を用いて, 化合物の集合体から非重なり, 化学的に多様な分配を生成する。 これらのパーティションは、nnモデルの不確実性を調べるためのトレーニングとテストセット分割として使用される。 選択した手法によって推定された不確実性は,異なる分割および破砕スキームの下で異なる不確実性源を記述し,予測誤差との関係を示す。

Neural Network (NN) models provide potential to speed up the drug discovery process and reduce its failure rates. The success of NN models require uncertainty quantification (UQ) as drug discovery explores chemical space beyond the training data distribution. Standard NN models do not provide uncertainty information. Methods that combine Bayesian models with NN models address this issue, but are difficult to implement and more expensive to train. Some methods require changing the NN architecture or training procedure, limiting the selection of NN models. Moreover, predictive uncertainty can come from different sources. It is important to have the ability to separately model different types of predictive uncertainty, as the model can take assorted actions depending on the source of uncertainty. In this paper, we examine UQ methods that estimate different sources of predictive uncertainty for NN models aiming at drug discovery. We use our prior knowledge on chemical compounds to design the experiments. By utilizing a visualization method we create non-overlapping and chemically diverse partitions from a collection of chemical compounds. These partitions are used as training and test set splits to explore NN model uncertainty. We demonstrate how the uncertainties estimated by the selected methods describe different sources of uncertainty under different partitions and featurization schemes and the relationship to prediction error.
翻訳日:2022-11-01 19:31:14 公開日:2022-10-31
# フーリエニューラル演算子を用いた炭素捕獲・貯蔵の高速化

Accelerating Carbon Capture and Storage Modeling using Fourier Neural Operators ( http://arxiv.org/abs/2210.17051v1 )

ライセンス: Link先を確認
Gege Wen, Zongyi Li, Qirui Long, Kamyar Azizzadenesheli, Anima Anandkumar, Sally M. Benson(参考訳) 炭素捕獲貯蔵(CCS)は、二酸化炭素排出量を削減し、気候変動を緩和するための重要な戦略である。 地下貯水池に二酸化炭素を注入するCCSの貯蔵面について考察する。 これは、二酸化炭素配管の移動と貯水池圧力の上昇の正確かつ高精度な予測を必要とする。 しかし,既存の数値計算手法の計算コストが高いため,大規模化は困難である。 我々は4次元空間時間モデリングのための新しい機械学習手法を導入し、既存の手法と比較して約70万倍の予測を高速化する。 多様な貯水池条件下での高精度な予測、地質学的不均一性、および注入スキームを提供する。 我々のフレームワークであるNested Fourier Neural Operator (FNO)は、二酸化炭素-水相流を管理する偏微分方程式の族に対する解演算子を学習する。 FNOモデルの階層構造を使用して、異なる洗練レベルで出力を生成する。 これにより,前例のない二酸化炭素貯留量のリアルタイム高分解能モデリングが可能となる。

Carbon capture and storage (CCS) is an important strategy for reducing carbon dioxide emissions and mitigating climate change. We consider the storage aspect of CCS, which involves injecting carbon dioxide into underground reservoirs. This requires accurate and high-resolution predictions of carbon dioxide plume migration and reservoir pressure buildup. However, such modeling is challenging at scale due to the high computational costs of existing numerical methods. We introduce a novel machine learning approach for four-dimensional spatial-temporal modeling, which speeds up predictions nearly 700,000 times compared to existing methods. It provides highly accurate predictions under diverse reservoir conditions, geological heterogeneity, and injection schemes. Our framework, Nested Fourier Neural Operator (FNO), learns the solution operator for the family of partial differential equations governing the carbon dioxide-water multiphase flow. It uses a hierarchy of FNO models to produce outputs at different refinement levels. Thus, our approach enables unprecedented real-time high-resolution modeling for carbon dioxide storage.
翻訳日:2022-11-01 19:30:53 公開日:2022-10-31
# 知識駆動型およびデータ駆動型手法によるnpcインバータのオープンサーキット故障の診断

Fault diagnosis for open-circuit faults in NPC inverter based on knowledge-driven and data-driven approaches ( http://arxiv.org/abs/2210.17057v1 )

ライセンス: Link先を確認
Lei Kou, Chuang Liu, Guo-wei Cai, Jia-ning Zhou, Quan-de Yuan, Si-miao Pang(参考訳) 本研究では,NPCインバータの開回路異常診断と位置問題について検討した。 NPCインバータの絶縁ゲートバイポーラトランジスタ(IGBT)の開回路欠陥に対して,知識駆動とデータ駆動に基づく新しい故障診断手法が提案され,故障診断分類器の堅牢性向上のためにコンコルディア変換(知識駆動)とランダムフォレスト(データ駆動)技術(データ駆動)が採用された。 まず、NPCインバータの正常状態または開回路故障状態のACの故障特徴データを解析して抽出する。 第2に,コンコルディア変換を断層試料の処理に用い,本研究で流跡の斜面が異なる荷重の影響を及ぼさないことを検証し,提案手法が断層データへの過度な依存を減少させるのに役立つことを示す。 さらに、変換された故障サンプルを用いてRFs故障診断分類器を訓練し、故障診断結果から、故障診断分類器の分類精度と堅牢性を改善したことを示す。 最後に, オンライン故障診断実験の診断結果から, 提案した分類器は, 異なる負荷条件下でのNPCインバータのIGBTの開回路障害を特定できることを示した。

In this study, the open-circuit faults diagnosis and location issue of the neutral-point-clamped (NPC) inverters are analysed. A novel fault diagnosis approach based on knowledge driven and data driven was presented for the open-circuit faults in insulated-gate bipolar transistors (IGBTs) of NPC inverter, and Concordia transform (knowledge driven) and random forests (RFs) technique (data driven) are employed to improve the robustness performance of the fault diagnosis classifier. First, the fault feature data of AC in either normal state or open-circuit faults states of NPC inverter are analysed and extracted. Second, the Concordia transform is used to process the fault samples, and it has been verified that the slopes of current trajectories are not affected by different loads in this study, which can help the proposed method to reduce overdependence on fault data. Moreover, then the transformed fault samples are adopted to train the RFs fault diagnosis classifier, and the fault diagnosis results show that the classification accuracy and robustness performance of the fault diagnosis classifier are improved. Finally, the diagnosis results of online fault diagnosis experiments show that the proposed classifier can locate the open-circuit fault of IGBTs in NPC inverter under the conditions of different loads.
翻訳日:2022-11-01 19:30:42 公開日:2022-10-31
# 反事実を利用した規則に基づく説明の計算

Computing Rule-Based Explanations by Leveraging Counterfactuals ( http://arxiv.org/abs/2210.17071v1 )

ライセンス: Link先を確認
Zixuan Geng, Maximilian Schleich, Dan Suciu(参考訳) 高度なマシンモデルは、日常生活で高リスクの決定にますます使われている。 このような自動決定のための効果的な説明手法を開発する必要がある。 ローンアプリケーションのような高リスクの決定には、ユーザの決定に対する信頼度を高めるためにルールベースの説明が提案されている。 しかし、ルールベースの説明は計算に非常に非効率であり、既存のシステムは合理的な性能を達成するために品質を犠牲にする。 提案手法は,複数の効率的なシステムがすでに開発されている,異なるタイプの説明法である対実説明法を用いて,ルールに基づく説明を計算するための新しい手法を提案する。 本稿では,ルールベースと反ファクトベースの説明が相互に二重であることを示すデュナリティ定理を証明し,これを用いてルールベースの説明を計算するための効率的なアルゴリズムを開発した。 我々は,従来の2つのシステムであるMinSetCoverとAnchorよりも高い品質,あるいは同等あるいは優れた性能のルールベースの説明を計算できることを示す広範な実験を行った。

Sophisticated machine models are increasingly used for high-stakes decisions in everyday life. There is an urgent need to develop effective explanation techniques for such automated decisions. Rule-Based Explanations have been proposed for high-stake decisions like loan applications, because they increase the users' trust in the decision. However, rule-based explanations are very inefficient to compute, and existing systems sacrifice their quality in order to achieve reasonable performance. We propose a novel approach to compute rule-based explanations, by using a different type of explanation, Counterfactual Explanations, for which several efficient systems have already been developed. We prove a Duality Theorem, showing that rule-based and counterfactual-based explanations are dual to each other, then use this observation to develop an efficient algorithm for computing rule-based explanations, which uses the counterfactual-based explanation as an oracle. We conduct extensive experiments showing that our system computes rule-based explanations of higher quality, and with the same or better performance, than two previous systems, MinSetCover and Anchor.
翻訳日:2022-11-01 19:30:20 公開日:2022-10-31
# 大グラフ上の汎用分布を用いたMCMC最適スケーリングのためのディリクレ形式収束

Convergence of Dirichlet Forms for MCMC Optimal Scaling with General Target Distributions on Large Graphs ( http://arxiv.org/abs/2210.17042v1 )

ライセンス: Link先を確認
Ning Ning(参考訳) マルコフ連鎖モンテカルロ (MCMC) アルゴリズムは統計学、物理学、機械学習などにおいて重要な役割を担い、高次元問題に対する唯一の一般的かつ効率的なアプローチである。 最も古典的なMCMCアルゴリズムであるMetropolis-Hastings (MH)アルゴリズムは、科学と工学の発展と実践に大きな影響を与えた。 高次元問題におけるMHアルゴリズムの挙動は、拡散過程の弱い収束結果を通して研究される。 本稿では,マルコフ特性を満たす任意の確率測度を含むgibbs測度を対象分布とする大規模グラフ上でのmhアルゴリズムの解析において,ディリクレ形式のmosco収束を導入する。 ディリクレ形式の抽象的かつ強力な理論は、無限次元空間上で直接自然に働くことができ、モスコ収束の概念は、MHマルコフ連鎖に付随するディリクレ形式をヒルベルト空間の変化に置き換えることを可能にする。 最適スケーリング問題を通じて,標準拡散アプローチに対するディリクレ形式アプローチの印象的な強みを示す。

Markov chain Monte Carlo (MCMC) algorithms have played a significant role in statistics, physics, machine learning and others, and they are the only known general and efficient approach for some high-dimensional problems. The Metropolis-Hastings (MH) algorithm as the most classical MCMC algorithm, has had a great influence on the development and practice of science and engineering. The behavior of the MH algorithm in high-dimensional problems is typically investigated through a weak convergence result of diffusion processes. In this paper, we introduce Mosco convergence of Dirichlet forms in analyzing the MH algorithm on large graphs, whose target distribution is the Gibbs measure that includes any probability measure satisfying a Markov property. The abstract and powerful theory of Dirichlet forms allows us to work directly and naturally on the infinite-dimensional space, and our notion of Mosco convergence allows Dirichlet forms associated with the MH Markov chains to lie on changing Hilbert spaces. Through the optimal scaling problem, we demonstrate the impressive strengths of the Dirichlet form approach over the standard diffusion approach.
翻訳日:2022-11-01 19:15:47 公開日:2022-10-31
# 変分推定による時間変化チャネルの推定

Variational Inference Aided Estimation of Time Varying Channels ( http://arxiv.org/abs/2210.17177v1 )

ライセンス: Link先を確認
Benedikt B\"ock, Michael Baur, Valentina Rizzello, Wolfgang Utschick(参考訳) 時間変化チャネルの推定を改善する一つの方法は、以前の観測の知識を取り入れることである。 この文脈では、Dynamical VAE(DVAE)は、時系列データの分布を学習するのに適した、有望なディープラーニング(DL)フレームワークを構築します。 我々はk-MemoryMarkovVAE (k-MMVAE)と呼ばれる新しいDVAEアーキテクチャを導入する。 [1]のアプローチに従うと、連続する観測の時間的相関を考慮したk-MMVAE支援チャネル推定器が導出される。 これらの結果から,k-MMVAE支援チャネル推定器は,メモリレス,あるいは経時変化チャネルに拡張した他の機械学習(ML)支援チャネル推定器よりも明らかに優れていることが示された。

One way to improve the estimation of time varying channels is to incorporate knowledge of previous observations. In this context, Dynamical VAEs (DVAEs) build a promising deep learning (DL) framework which is well suited to learn the distribution of time series data. We introduce a new DVAE architecture, called k-MemoryMarkovVAE (k-MMVAE), whose sparsity can be controlled by an additional memory parameter. Following the approach in [1] we derive a k-MMVAE aided channel estimator which takes temporal correlations of successive observations into account. The results are evaluated on simulated channels by QuaDRiGa and show that the k-MMVAE aided channel estimator clearly outperforms other machine learning (ML) aided estimators which are either memoryless or naively extended to time varying channels without major adaptions.
翻訳日:2022-11-01 19:15:28 公開日:2022-10-31
# エンサンブル輸送平滑化 -その2:非線形更新

Ensemble transport smoothing -- Part 2: nonlinear updates ( http://arxiv.org/abs/2210.17435v1 )

ライセンス: Link先を確認
Maximilian Ramgraber, Ricardo Baptista, Dennis McLaughlin, Youssef Marzouk(参考訳) 平滑化は状態空間モデルに対するベイズ推論の特殊な形式であり、関連する観測列が与えられた状態の集合の後方分布を特徴づける。 本論文では,線形カルマン型スムーサを特別に含むトランスポート型アンサンブル平滑化の汎用的枠組みを提案する。 そこで本稿では,非線形逆アンサンブル輸送スムーサを実現するため,この基盤を構築し,実演する。 関連するトランスポート写像のパラメータ化と正規化について検討し、非ガウス挙動を示す非線形・カオス力学系に対するこれらの平滑化の性能について検討する。 これらの設定では, 非線形輸送スムーサは, 従来の線形スムーサよりも低い推定誤差と, カルマン・スムーサと同等数のモデル評価を行う。

Smoothing is a specialized form of Bayesian inference for state-space models that characterizes the posterior distribution of a collection of states given an associated sequence of observations. Our companion manuscript proposes a general framework for transport-based ensemble smoothing, which includes linear Kalman-type smoothers as special cases. Here, we build on this foundation to realize and demonstrate nonlinear backward ensemble transport smoothers. We discuss parameterization and regularization of the associated transport maps, and then examine the performance of these smoothers for nonlinear and chaotic dynamical systems that exhibit non-Gaussian behavior. In these settings, our nonlinear transport smoothers yield lower estimation error than conventional linear smoothers and state-of-the-art iterative ensemble Kalman smoothers, for comparable numbers of model evaluations.
翻訳日:2022-11-01 19:15:13 公開日:2022-10-31
# 自己組織化による空間流体適応サンプリング

Space-fluid Adaptive Sampling by Self-Organisation ( http://arxiv.org/abs/2210.17505v1 )

ライセンス: Link先を確認
Roberto Casadei, Stefano Mariani, Danilo Pianini, Mirko Viroli, Franco Zambonelli(参考訳) 座標系におけるリカレントタスクは、分散センシングデータや計算結果など、空間的に異なる信号を管理する(推定、予測、制御)ことである。 特に大規模な環境では、ノードは局所的に知覚し、処理し、信号に作用し、近隣と協調して集団戦略を実装することができる。 そこで本研究では,協調型適応サンプリングによる空間現象推定のための分散協調戦略を考案する。 我々の設計は、空間を競合する領域に動的に分割し、正確な集計を行うという考え方に基づいている。 このような領域は、その構造が基礎となる現象によって作用する圧力に応じて適応するため、「流動」であるある種の仮想空間を定義する。 フィールドベースのコーディネーションフレームワークにおいて適応サンプリングアルゴリズムを提供し,自己安定化的で局所最適であることを証明した。 最後に,提案手法が精度と効率のトレードオフを維持しつつ,空間適応サンプリングを効果的に行うことをシミュレーションにより検証する。

A recurrent task in coordinated systems is managing (estimating, predicting, or controlling) signals that vary in space, such as distributed sensed data or computation outcomes. Especially in large-scale settings, the problem can be addressed through decentralised and situated computing systems: nodes can locally sense, process, and act upon signals, and coordinate with neighbours to implement collective strategies. Accordingly, in this work we devise distributed coordination strategies for the estimation of a spatial phenomenon through collaborative adaptive sampling. Our design is based on the idea of dynamically partitioning space into regions that compete and grow/shrink to provide accurate aggregate sampling. Such regions hence define a sort of virtualised space that is "fluid", since its structure adapts in response to pressure forces exerted by the underlying phenomenon. We provide an adaptive sampling algorithm in the field-based coordination framework, and prove it is self-stabilising and locally optimal. Finally, we verify by simulation that the proposed algorithm effectively carries out a spatially adaptive sampling while maintaining a tuneable trade-off between accuracy and efficiency.
翻訳日:2022-11-01 19:14:54 公開日:2022-10-31
# 新しい動的ビジュアルデータ表現と短長畳み込み計算を用いた量子インスピレーションエッジ検出アルゴリズムの実装

Quantum-Inspired Edge Detection Algorithms Implementation using New Dynamic Visual Data Representation and Short-Length Convolution Computation ( http://arxiv.org/abs/2210.17490v1 )

ライセンス: Link先を確認
Artyom M. Grigoryan, Sos S. Agaian, Karen Panetta(参考訳) 画像データの可用性が向上し続けるにつれ、送信、ストレージ、処理能力の要求も高まる。 この大量のデータを扱うための処理要件は、従来の処理技術の実用性を急速に上回っている。 従来の手法よりも有望な効率を提供する量子処理とアルゴリズムへの移行は、これらの問題に対処することができる。 しかし、この変換を可能にするためには、インテリジェント分析アプリケーションに必要な重要なプロセスに対して、リアルタイム量子アルゴリズムを実装するという根本的な問題を克服する必要がある。 例えば、時間を要する取得プロセスを必要とするエッジ検出タスクを考慮すれば、使用するデバイスの複雑さにより、リアルタイムアプリケーションの実装可能性が制限される。 畳み込み(convolution)は、信号や画像処理の応用に不可欠な演算の例であり、数理演算は、かなりの計算資源を必要とする乗算と加算のインテリジェントな混合からなる。 本稿では、1次元および2次元信号の畳み込みと勾配のペア変換に基づく新しい量子表現と計算について述べる。 畳み込み計算を単純化し、より効率的な性能のために畳み込み演算と勾配演算を並列化できるようにする新しいビジュアルデータ表現が定義されている。 新しいデータ表現は、量子エッジ検出、勾配、畳み込みの複数の例で示されている。 さらに,実世界の画像に提案手法の効率性を示す。

As the availability of imagery data continues to swell, so do the demands on transmission, storage and processing power. Processing requirements to handle this plethora of data is quickly outpacing the utility of conventional processing techniques. Transitioning to quantum processing and algorithms that offer promising efficiencies over conventional methods can address some of these issues. However, to make this transformation possible, fundamental issues of implementing real time Quantum algorithms must be overcome for crucial processes needed for intelligent analysis applications. For example, consider edge detection tasks which require time-consuming acquisition processes and are further hindered by the complexity of the devices used thus limiting feasibility for implementation in real-time applications. Convolution is another example of an operation that is essential for signal and image processing applications, where the mathematical operations consist of an intelligent mixture of multiplication and addition that require considerable computational resources. This paper studies a new paired transform-based quantum representation and computation of one-dimensional and 2-D signals convolutions and gradients. A new visual data representation is defined to simplify convolution calculations making it feasible to parallelize convolution and gradient operations for more efficient performance. The new data representation is demonstrated on multiple illustrative examples for quantum edge detection, gradients, and convolution. Furthermore, the efficiency of the proposed approach is shown on real-world images.
翻訳日:2022-11-01 19:06:13 公開日:2022-10-31
# Ensemble Transport smoothing -- Part 1: 統一フレームワーク

Ensemble transport smoothing -- Part 1: unified framework ( http://arxiv.org/abs/2210.17000v1 )

ライセンス: Link先を確認
Maximilian Ramgraber, Ricardo Baptista, Dennis McLaughlin, Youssef Marzouk(参考訳) smoothers はベイズ時系列再解析のアルゴリズムである。 ほとんどの操作スムーダはアフィンカルマン型変換または逐次重要サンプリングに依存する。 これらの戦略は、統計一般性と一貫性のために計算効率とスケーラビリティを交換するスペクトルの反対端を占有する: 非ガウス性は真のベイズ解と矛盾しないアフィン・カルマンの更新を誘導するが、重要サンプリングの成功に必要なアンサンブルサイズは禁じられる。 本稿では,測度輸送の観点からスムーズな問題を再考し,ベイズ予想に対する一貫した先-後変換の可能性を示唆する。 我々はこの能力を利用して、輸送ベースの平滑化のための一般的なアンサンブルフレームワークを提案する。 本枠組みでは,非線形輸送写像に基づくスムーズな再帰の包括的集合を導出し,非ガウス的条件下での状態空間モデルの構造をどのように活用するかを詳述する。 また,標準kalman型平滑化アルゴリズムの出現回数を,フレームワークの特別な場合として記述した。 本稿では, 非線形アンサンブル搬送スムーサのより深い実装について検討する。

Smoothers are algorithms for Bayesian time series re-analysis. Most operational smoothers rely either on affine Kalman-type transformations or on sequential importance sampling. These strategies occupy opposite ends of a spectrum that trades computational efficiency and scalability for statistical generality and consistency: non-Gaussianity renders affine Kalman updates inconsistent with the true Bayesian solution, while the ensemble size required for successful importance sampling can be prohibitive. This paper revisits the smoothing problem from the perspective of measure transport, which offers the prospect of consistent prior-to-posterior transformations for Bayesian inference. We leverage this capacity by proposing a general ensemble framework for transport-based smoothing. Within this framework, we derive a comprehensive set of smoothing recursions based on nonlinear transport maps and detail how they exploit the structure of state-space models in fully non-Gaussian settings. We also describe how many standard Kalman-type smoothing algorithms emerge as special cases of our framework. A companion paper explores the implementation of nonlinear ensemble transport smoothers in greater depth.
翻訳日:2022-11-01 19:03:22 公開日:2022-10-31
# point-syn2real:半教師付き合成から現実へのクロスドメイン学習による3次元点雲のオブジェクト分類

Point-Syn2Real: Semi-Supervised Synthetic-to-Real Cross-Domain Learning for Object Classification in 3D Point Clouds ( http://arxiv.org/abs/2210.17009v1 )

ライセンス: Link先を確認
Ziwei Wang, Reza Arablouei, Jiajun Liu, Paulo Borges, Greg Bishop-Hurley, Nicholas Heaney(参考訳) LiDAR 3Dポイントクラウドデータを用いたオブジェクト分類は、自律運転のような現代的なアプリケーションにとって重要である。 しかし、ポイントクラウドデータのラベル付けは、人間のアノテータが異なる視点から3Dデータを視覚化して検査する必要があるため、労働集約的である。 本稿では,ポイントクラウドの手動アノテーションに依存しず,完全に教師付きアプローチと類似した実行を行う,半教師付きクロスドメイン学習手法を提案する。 利用可能な3Dオブジェクトモデルを用いて,実世界の点雲に一般化可能な分類器を訓練する。 複数の視点から3次元オブジェクトモデルをサンプリングし、任意の部分閉塞で点雲の取得をシミュレートする。 結果として得られる点群をランダムな回転で増やし、実世界のシナリオをよりよくエミュレートするためにガウスノイズを追加する。 次に,合成および拡張データセット上でdgcnn,pointnet++などのポイントクラウド符号化モデルをトレーニングし,対応する実世界のデータセット上でのクロスドメイン分類性能を評価する。 また、ポイントクラウド上のクロスドメイン学習のための新しいベンチマークデータセットであるpoint-syn2realも紹介する。 このデータセットを用いた広範な実験の結果,提案するポイントクラウドのクロスドメイン学習アプローチが,屋内と屋外の両方における関連するベースラインおよび最先端のアプローチを,クロスドメイン一般化可能性の観点から上回っていることが示された。 コードとデータは公開時に利用可能になる。

Object classification using LiDAR 3D point cloud data is critical for modern applications such as autonomous driving. However, labeling point cloud data is labor-intensive as it requires human annotators to visualize and inspect the 3D data from different perspectives. In this paper, we propose a semi-supervised cross-domain learning approach that does not rely on manual annotations of point clouds and performs similar to fully-supervised approaches. We utilize available 3D object models to train classifiers that can generalize to real-world point clouds. We simulate the acquisition of point clouds by sampling 3D object models from multiple viewpoints and with arbitrary partial occlusions. We then augment the resulting set of point clouds through random rotations and adding Gaussian noise to better emulate the real-world scenarios. We then train point cloud encoding models, e.g., DGCNN, PointNet++, on the synthesized and augmented datasets and evaluate their cross-domain classification performance on corresponding real-world datasets. We also introduce Point-Syn2Real, a new benchmark dataset for cross-domain learning on point clouds. The results of our extensive experiments with this dataset demonstrate that the proposed cross-domain learning approach for point clouds outperforms the related baseline and state-of-the-art approaches in both indoor and outdoor settings in terms of cross-domain generalizability. The code and data will be available upon publishing.
翻訳日:2022-11-01 18:56:35 公開日:2022-10-31
# 学習画像圧縮の多世代ロバスト性向上

Improving Multi-generation Robustness of Learned Image Compression ( http://arxiv.org/abs/2210.17039v1 )

ライセンス: Link先を確認
Litian Li, Zheng Yang, Ronggang Wang(参考訳) 近年,フレキシブルネットワーク設計とエンドツーエンド共同最適化アプローチの恩恵により,学習画像圧縮(lic)は優れた符号化性能と実用的な実現可能性を示した。 しかし、既存の圧縮モデルは、画像編集やトランスコーディング中に常に発生する深刻なマルチジェネレーションの損失に苦しむ。 繰り返し符号化と復号を行う過程において、画像の品質は急速に低下し、様々な種類の歪みが生じ、licの実用的利用が著しく制限される。 本稿では,連続画像圧縮(sic)における生成損失の発生源を決定するために,詳細な解析を行う。 本研究では,sicに影響を与える量子化ドリフト問題を指摘・解決し,再生可能性損失関数とチャネル緩和関数を用いて,発生損失を更に低減する手法を提案する。 実験により,提案手法を用いることで,ネットワーク構造の変化を伴わずに50回再符号化しても,BPGの最初の圧縮に匹敵する性能が得られることが示された。

Benefit from flexible network designs and end-to-end joint optimization approach, learned image compression (LIC) has demonstrated excellent coding performance and practical feasibility in recent years. However, existing compression models suffer from serious multi-generation loss, which always occurs during image editing and transcoding. During the process of repeatedly encoding and decoding, the quality of the image will rapidly degrade, resulting in various types of distortion, which significantly limits the practical application of LIC. In this paper, a thorough analysis is carried out to determine the source of generative loss in successive image compression (SIC). We point out and solve the quantization drift problem that affects SIC, reversibility loss function as well as channel relaxation method are proposed to further reduce the generation loss. Experiments show that by using our proposed solutions, LIC can achieve comparable performance to the first compression of BPG even after 50 times reencoding without any change of the network structure.
翻訳日:2022-11-01 18:56:13 公開日:2022-10-31
# TW-BAG:破壊型拡散型テンソルイメージングのためのテンソル対応ゲートネットワーク

TW-BAG: Tensor-wise Brain-aware Gate Network for Inpainting Disrupted Diffusion Tensor Imaging ( http://arxiv.org/abs/2210.17076v1 )

ライセンス: Link先を確認
Zihao Tang, Xinyi Wang, Lihaowen Zhu, Mariano Cabezas, Dongnan Liu, Michael Barnett, Weidong Cai, Chengyu Wang(参考訳) 拡散重み付きイメージング(dwi)は、拡散テンソルイメージング(dti)モデルを介して神経科学および神経臨床研究で一般的に用いられる高度なイメージング技術である。 分画異方性、平均拡散率、軸方向拡散率を含む体積スカラー測定は、DTIモデルから導出され、臨床研究のための水拡散率およびその他の定量的ミクロ構造情報を要約することができる。 しかし、臨床実践上の制約は、スライスを欠く(視野の制限や中断されたスライスの取得による)最適でないDWI買収につながる可能性がある。 グループワイズ研究における価値ある主題の破棄を避けるため,ディスラプトDTIを塗布するための新しい3Dテンソルワイズ脳認識ゲートネットワーク(TW-BAG)を提案する。 提案手法は動的ゲート機構と独立なテンソルワイドデコーダで問題に適応する。 提案手法を,予測テンソルとスカラーDTIから得られた共通画像類似度指標を用いて,一般公開されたHuman Connectome Project(HCP)データセット上で評価した。 実験の結果,提案手法は脳のDTI容積を再構築し,関連する臨床画像情報を復元できることがわかった。

Diffusion Weighted Imaging (DWI) is an advanced imaging technique commonly used in neuroscience and neurological clinical research through a Diffusion Tensor Imaging (DTI) model. Volumetric scalar metrics including fractional anisotropy, mean diffusivity, and axial diffusivity can be derived from the DTI model to summarise water diffusivity and other quantitative microstructural information for clinical studies. However, clinical practice constraints can lead to sub-optimal DWI acquisitions with missing slices (either due to a limited field of view or the acquisition of disrupted slices). To avoid discarding valuable subjects for group-wise studies, we propose a novel 3D Tensor-Wise Brain-Aware Gate network (TW-BAG) for inpainting disrupted DTIs. The proposed method is tailored to the problem with a dynamic gate mechanism and independent tensor-wise decoders. We evaluated the proposed method on the publicly available Human Connectome Project (HCP) dataset using common image similarity metrics derived from the predicted tensors and scalar DTI metrics. Our experimental results show that the proposed approach can reconstruct the original brain DTI volume and recover relevant clinical imaging information.
翻訳日:2022-11-01 18:55:58 公開日:2022-10-31
# Tech Report: 1段軽量物体検出器

Tech Report: One-stage Lightweight Object Detectors ( http://arxiv.org/abs/2210.17151v1 )

ライセンス: Link先を確認
Deokki Hong(参考訳) この研究は、mAPと遅延の点でよく機能するワンステージ軽量検出器を設計するためのものである。 GPUとCPUを対象とするベースラインモデルでは、ベースラインモデルのバックボーンネットワークにおけるメイン操作の代わりに、さまざまな操作が適用される。 バックボーンネットワークと操作の実験に加えて,いくつかの特徴ピラミッドネットワーク(FPN)アーキテクチャについて検討した。 ベンチマークと提案された検出器は、オブジェクト検出のベンチマークデータセットであるMS COCOデータセット上で、パラメータ、Gflops、GPUレイテンシ、CPUレイテンシ、mAPの数で分析される。 この研究は、精度とレイテンシのトレードオフを考慮した、類似またはより良いネットワークアーキテクチャを提案する。 例えば、提案するgpuターゲットバックボーンネットワークは、nvidia geforce rtx 2080 ti gpuのベンチマークとして選択されたyolox-tinyを1.53倍の速度で0.5マップの精度で上回っている。

This work is for designing one-stage lightweight detectors which perform well in terms of mAP and latency. With baseline models each of which targets on GPU and CPU respectively, various operations are applied instead of the main operations in backbone networks of baseline models. In addition to experiments about backbone networks and operations, several feature pyramid network (FPN) architectures are investigated. Benchmarks and proposed detectors are analyzed in terms of the number of parameters, Gflops, GPU latency, CPU latency and mAP, on MS COCO dataset which is a benchmark dataset in object detection. This work propose similar or better network architectures considering the trade-off between accuracy and latency. For example, our proposed GPU-target backbone network outperforms that of YOLOX-tiny which is selected as the benchmark by 1.43x in speed and 0.5 mAP in accuracy on NVIDIA GeForce RTX 2080 Ti GPU.
翻訳日:2022-11-01 18:55:39 公開日:2022-10-31
# 自律型ロボット実験装置による物理シーン特性のリアルタイムマッピング

Real-time Mapping of Physical Scene Properties with an Autonomous Robot Experimenter ( http://arxiv.org/abs/2210.17325v1 )

ライセンス: Link先を確認
Iain Haughton, Edgar Sucar, Andre Mouton, Edward Johns, Andrew J. Davison(参考訳) ニューラルネットワークはスクラッチからトレーニングでき、3dシーンの形状や外観を効率的に表現できる。 また、人間のラベルラーからのスパース相互作用を通じて、意味論のような相関特性を密にマッピングできることも示されている。 そこで本研究では,ロボットが任意の離散的あるいは連続的な物理的特性を持つシーンを,自己自発的な実験的なインタラクションを通じて,rgb-dカメラでスキャン・マッピングできることを示す。 例えば、力センシングを使って剛性を決定すること、局所材料型を単画素分光法で測定すること、押下による力分布の予測などである。 スパースな実験相互作用はエントロピーによって誘導され、数十の相互作用から数分で、テーブルトップのシーン特性がスクラッチから密にマッピングされる。

Neural fields can be trained from scratch to represent the shape and appearance of 3D scenes efficiently. It has also been shown that they can densely map correlated properties such as semantics, via sparse interactions from a human labeller. In this work, we show that a robot can densely annotate a scene with arbitrary discrete or continuous physical properties via its own fully-autonomous experimental interactions, as it simultaneously scans and maps it with an RGB-D camera. A variety of scene interactions are possible, including poking with force sensing to determine rigidity, measuring local material type with single-pixel spectroscopy or predicting force distributions by pushing. Sparse experimental interactions are guided by entropy to enable high efficiency, with tabletop scene properties densely mapped from scratch in a few minutes from a few tens of interactions.
翻訳日:2022-11-01 18:55:23 公開日:2022-10-31
# gcorf: 生成的組成ラミアンス場

gCoRF: Generative Compositional Radiance Fields ( http://arxiv.org/abs/2210.17344v1 )

ライセンス: Link先を確認
Mallikarjun BR, Ayush Tewari, Xingang Pan, Mohamed Elgharib, Christian Theobalt(参考訳) オブジェクトの3次元生成モデルにより、3次元制御によるフォトリアリスティック画像合成が可能となる。 既存の方法はシーンをグローバルなシーン表現としてモデル化し、シーンの構成的側面を無視します。 合成推論は、汎用化可能な3d推論に加えて、幅広い編集アプリケーションを可能にする。 本稿では,対象の個々の意味的部分を2次元データのみから学習した独立した3次元表現として表現する合成生成モデルを提案する。 まず、グローバルな生成モデル(GAN)から始め、2次元セグメンテーションマスクの監督を用いて、異なる意味部分に分解することを学ぶ。 そして、コヒーレントなグローバルシーンを作るために、独立したサンプル部品の合成を学ぶ。 異なるパーツは、オブジェクトの残りを固定しながら、独立してサンプルすることができる。 本手法を多種多様なオブジェクトや部品で評価し,編集アプリケーションの実演を行った。

3D generative models of objects enable photorealistic image synthesis with 3D control. Existing methods model the scene as a global scene representation, ignoring the compositional aspect of the scene. Compositional reasoning can enable a wide variety of editing applications, in addition to enabling generalizable 3D reasoning. In this paper, we present a compositional generative model, where each semantic part of the object is represented as an independent 3D representation learned from only in-the-wild 2D data. We start with a global generative model (GAN) and learn to decompose it into different semantic parts using supervision from 2D segmentation masks. We then learn to composite independently sampled parts in order to create coherent global scenes. Different parts can be independently sampled while keeping the rest of the object fixed. We evaluate our method on a wide variety of objects and parts and demonstrate editing applications.
翻訳日:2022-11-01 18:55:06 公開日:2022-10-31
# 一般化を再考する: アノテーションスタイルが医用画像セグメンテーションに及ぼす影響

Rethinking Generalization: The Impact of Annotation Style on Medical Image Segmentation ( http://arxiv.org/abs/2210.17398v1 )

ライセンス: Link先を確認
Brennan Nichyporuk, Jillian Cardinell, Justin Szeto, Raghav Mehta, Jean-Pierre R. Falet, Douglas L. Arnold, Sotirios A. Tsaftaris, Tal Arbel(参考訳) 一般化は機械学習モデルの重要な属性であり、特に信頼性の低い予測が現実的な結果をもたらす、医学的コンテキストに展開すべきものである。 データセットをまたいで一般化するモデルの失敗は、典型的にはデータ分布のミスマッチに起因するが、パフォーマンスのギャップは、しばしば ``ground-truth" ラベルアノテーションのバイアスの結果である。 これは、アノテーションプロセスがより主観的であり、アノテーションプロトコル、レートラー教育/経験、臨床目的など多くの基礎要因に影響される、病理構造(例えば病変)の医用画像分割の文脈において特に重要である。 本稿では,アノテーションのバイアスを無視するのではなく,データセット間のアノテーションスタイルの違いを考慮に入れた,有望な手法を示す。 そこで本研究では,(1)単一モデルを用いて複数のデータセットにまたがる異なるアノテーションスタイルを学習し,説明すること,(2)有効なアグリゲーションを可能にするために,異なるデータセットにまたがる類似アノテーションスタイルを識別すること,(3)完全に訓練されたモデルを少数のサンプルで新しいアノテーションスタイルに微調整することを提案する。 次に,特定の画像特徴に関連付けられたアノテーションスタイルをモデル化するイメージコンディショニング手法を提案する。

Generalization is an important attribute of machine learning models, particularly for those that are to be deployed in a medical context, where unreliable predictions can have real world consequences. While the failure of models to generalize across datasets is typically attributed to a mismatch in the data distributions, performance gaps are often a consequence of biases in the ``ground-truth" label annotations. This is particularly important in the context of medical image segmentation of pathological structures (e.g. lesions), where the annotation process is much more subjective, and affected by a number underlying factors, including the annotation protocol, rater education/experience, and clinical aims, among others. In this paper, we show that modeling annotation biases, rather than ignoring them, poses a promising way of accounting for differences in annotation style across datasets. To this end, we propose a generalized conditioning framework to (1) learn and account for different annotation styles across multiple datasets using a single model, (2) identify similar annotation styles across different datasets in order to permit their effective aggregation, and (3) fine-tune a fully trained model to a new annotation style with just a few samples. Next, we present an image-conditioning approach to model annotation styles that correlate with specific image features, potentially enabling detection biases to be more easily identified.
翻訳日:2022-11-01 18:54:54 公開日:2022-10-31
# 深層畳み込みニューラルネットワークの高速化

A Faster Approach to Spiking Deep Convolutional Neural Networks ( http://arxiv.org/abs/2210.17442v1 )

ライセンス: Link先を確認
Shahriar Rezghi Shirsavar (University of Tehran, Iran), Mohammad-Reza A. Dehaqani (University of Tehran, Iran)(参考訳) スパイキングニューラルネットワーク(SNN)は、現在のディープニューラルネットワークよりも脳に近いダイナミクスを持つ。 その低消費電力とサンプル効率はこれらのネットワークを興味深いものにしている。 近年,いくつかの深部畳み込み型ニューラルネットワークが提案されている。 これらのネットワークは、機械学習タスクに適用できる強力なツールを作成しながら、生物学的な可能性を高めることを目指している。 本稿では,ネットワークのランタイムと精度を改善するために,従来の作業に基づくネットワーク構造を提案する。 ネットワークの改善には、トレーニングイテレーションを1回だけ削減すること、主成分分析(PCA)次元の削減、重み量子化、分類のためのタイムドアウトプット、高パラメータチューニングの改善などが含まれる。 さらに、前処理ステップを変更して、白黒のみでなく色付き画像の処理を可能とし、精度を向上させる。 提案した構造はランタイムを分数化し、深層畳み込みSNNへの効率的なアプローチを導入する。

Spiking neural networks (SNNs) have closer dynamics to the brain than current deep neural networks. Their low power consumption and sample efficiency make these networks interesting. Recently, several deep convolutional spiking neural networks have been proposed. These networks aim to increase biological plausibility while creating powerful tools to be applied to machine learning tasks. Here, we suggest a network structure based on previous work to improve network runtime and accuracy. Improvements to the network include reducing training iterations to only once, effectively using principal component analysis (PCA) dimension reduction, weight quantization, timed outputs for classification, and better hyperparameter tuning. Furthermore, the preprocessing step is changed to allow the processing of colored images instead of only black and white to improve accuracy. The proposed structure fractionalizes runtime and introduces an efficient approach to deep convolutional SNNs.
翻訳日:2022-11-01 18:54:29 公開日:2022-10-31
# Blank Collapse: 高速デコードのためのCTCエミッション圧縮

Blank Collapse: Compressing CTC emission for the faster decoding ( http://arxiv.org/abs/2210.17017v1 )

ライセンス: Link先を確認
Minkyu Jung, Ohhyeok Kwon, Seunghyun Seo, Soonshin Seo(参考訳) コネクショニスト時間分類(ctc)モデルは、特に音声データに対してシーケンスをモデル化する非常に効率的な手法である。 CTCモデルを自動音声認識(ASR)タスクとして使用するためには,n-gram LMのような外部言語モデルを用いたビームサーチデコーディングが必要である。 本稿では,CTCビーム探索におけるブランクラベルを深く分析し,より高速なビーム探索復号を実現する計算量を削減するための非常に簡単な手法を提案する。 この方法では、LibriSpeechデータセットの精度が極めて低いまま、通常のビームサーチデコーディングよりも最大78%高速なデコーディングが可能となる。 本手法は, 実験だけでなく, 理論的にも数学的推論によって有効であることを示す。 また,モデルの精度が高ければ,この削減がより明確であることも確認した。

Connectionist Temporal Classification (CTC) model is a very efficient method for modeling sequences, especially for speech data. In order to use CTC model as an Automatic Speech Recognition (ASR) task, the beam search decoding with an external language model like n-gram LM is necessary to obtain reasonable results. In this paper we analyze the blank label in CTC beam search deeply and propose a very simple method to reduce the amount of calculation resulting in faster beam search decoding speed. With this method, we can get up to 78% faster decoding speed than ordinary beam search decoding with a very small loss of accuracy in LibriSpeech datasets. We prove this method is effective not only practically by experiments but also theoretically by mathematical reasoning. We also observe that this reduction is more obvious if the accuracy of the model is higher.
翻訳日:2022-11-01 18:48:16 公開日:2022-10-31
# 音声から音声への直接翻訳のための音声とバイリンガルテキストの合同事前学習

Joint Pre-Training with Speech and Bilingual Text for Direct Speech to Speech Translation ( http://arxiv.org/abs/2210.17027v1 )

ライセンス: Link先を確認
Kun Wei, Long Zhou, Ziqiang Zhang, Liping Chen, Shujie Liu, Lei He, Jinyu Li, Furu Wei(参考訳) 直接音声音声翻訳(S2ST)は,カスケードされたS2STに比べて多くの利点がある。 しかし、ソース言語の音声からターゲット言語の音声へのコーパスは非常に稀であるため、直接S2STはデータ不足の問題に悩まされる。 そこで本論文では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを併用したSpeech2Sモデルを提案する。 ペア化されたテキストデータを効果的に活用することにより、Speech2Sはソースからターゲット言語への言語間変換をモデル化することができる。 本研究では,Europarl-STおよびVoxPopuliデータセット上で提案したSpeech2Sの性能を検証する。 実験結果から,Speech2Sはエンコーダのみの事前学習モデルに比べて約5BLEUのスコアが向上し,既存の最先端モデルよりも競争力や性能が向上していることがわかった。

Direct speech-to-speech translation (S2ST) is an attractive research topic with many advantages compared to cascaded S2ST. However, direct S2ST suffers from the data scarcity problem because the corpora from speech of the source language to speech of the target language are very rare. To address this issue, we propose in this paper a Speech2S model, which is jointly pre-trained with unpaired speech and bilingual text data for direct speech-to-speech translation tasks. By effectively leveraging the paired text data, Speech2S is capable of modeling the cross-lingual speech conversion from source to target language. We verify the performance of the proposed Speech2S on Europarl-ST and VoxPopuli datasets. Experimental results demonstrate that Speech2S gets an improvement of about 5 BLEU scores compared to encoder-only pre-training models, and achieves a competitive or even better performance than existing state-of-the-art models1.
翻訳日:2022-11-01 18:48:03 公開日:2022-10-31
# FusionFormer: 効率的なストリーム音声認識のための変換器の融合操作

FusionFormer: Fusing Operations in Transformer for Efficient Streaming Speech Recognition ( http://arxiv.org/abs/2210.17079v1 )

ライセンス: Link先を確認
Xingchen Song, Di Wu, Binbin Zhang, Zhiyong Wu, Wenpeng Li, Dongfang Li, Pengshen Zhang, Zhendong Peng, Fuping Pan, Changbao Zhu, Zhongqin Wu(参考訳) 畳み込みと注意を組み合わせることでローカルとグローバルの両方の依存関係をキャプチャする、最近提案されたconformerアーキテクチャは、自動音声認識のための \textit{de facto} backboneモデル(asr)となった。 自然言語処理(NLP)タスクを継承し、デフォルトの正規化技術としてレイヤ正規化~(LN)を採用する。 しかし、一連の系統的な研究を通じて、ln はフロップの 0.1\% にしか寄与しないにもかかわらず、推論時間の 10\% を要していることが分かった。 これにより、LN を他の正規化手法、例えば Batch Normalization~(BN) に置き換えて、演算子融合法の助けを借りて推論を高速化し、推論中の平均および分散統計を計算できないようにする。 すべてのLN層を直接取り除いたり、同じ場所でBNで置き換えたりするいくつかの単純な試みを調べた結果、分散問題は主に不安定な層出力に起因することが判明した。 そこで我々は,安定トレーニング結果が観測された各線形あるいは畳み込み層にBN層を付加することを提案する。 また,ReLUに置き換えることで,SwishやGLUといったコンフォーマーのアクティベーションの簡素化も提案する。 これらの交換されたすべてのモジュールは隣接する線形/畳み込み層の重みに融合することができ、したがって推論コストはゼロである。 したがってFusionFormerと名付けます。 実験の結果, fusionformer は ln ベースのコンフォーメータと同じくらい有効であり,約 10\% 高速であることがわかった。

The recently proposed Conformer architecture which combines convolution with attention to capture both local and global dependencies has become the \textit{de facto} backbone model for Automatic Speech Recognition~(ASR). Inherited from the Natural Language Processing (NLP) tasks, the architecture takes Layer Normalization~(LN) as a default normalization technique. However, through a series of systematic studies, we find that LN might take 10\% of the inference time despite that it only contributes to 0.1\% of the FLOPs. This motivates us to replace LN with other normalization techniques, e.g., Batch Normalization~(BN), to speed up inference with the help of operator fusion methods and the avoidance of calculating the mean and variance statistics during inference. After examining several plain attempts which directly remove all LN layers or replace them with BN in the same place, we find that the divergence issue is mainly caused by the unstable layer output. We therefore propose to append a BN layer to each linear or convolution layer where stabilized training results are observed. We also propose to simplify the activations in Conformer, such as Swish and GLU, by replacing them with ReLU. All these exchanged modules can be fused into the weights of the adjacent linear/convolution layers and hence have zero inference cost. Therefore, we name it FusionFormer. Our experiments indicate that FusionFormer is as effective as the LN-based Conformer and is about 10\% faster.
翻訳日:2022-11-01 18:47:47 公開日:2022-10-31
# MixGenとマルチレベルテスト時間拡張によるオーディオ言語学習の改善

Improving Audio-Language Learning with MixGen and Multi-Level Test-Time Augmentation ( http://arxiv.org/abs/2210.17143v1 )

ライセンス: Link先を確認
Eungbeom Kim, Jinhee Kim, Yoori Oh, Kyungsu Kim, Minju Park, Jaeheon Sim, Jinwoo Lee, Kyogu Lee(参考訳) 本稿では,新しい拡張法を2つ提案する。 1)音声言語MixGen(AL-MixGen)および 2) 音声学習のためのマルチレベルテスト時間拡張(Multi-TTA)。 視覚言語学習に応用されたMixGenに着想を得て,音声言語領域の拡張手法を提案する。 また、テスト時間拡張の影響についても検討し、深層学習モデルの複数層にわたるテスト時間拡張を一般化するマルチTTAを提案する。 AL-MixGenとMulti-TTAをベースラインに組み込むことで、オーディオキャプションの47.5 SPIDErを達成する。 音声テキスト検索では,提案手法はベースライン性能を超越する。

In this paper, we propose two novel augmentation methods 1) audio-language MixGen (AL-MixGen) and 2) multi-level test-time augmentation (Multi-TTA) for audio-language learning. Inspired by MixGen, which is originally applied to vision-language learning, we introduce an augmentation method for the audio-language domain. We also explore the impact of test-time augmentations and present Multi-TTA which generalizes test-time augmentation over multiple layers of a deep learning model. Incorporating AL-MixGen and Multi-TTA into the baseline achieves 47.5 SPIDEr on audio captioning, which is an +18.2% over the baseline and outperforms the state-of-the-art approach with a 5x smaller model. In audio-text retrieval, the proposed methods surpass the baseline performance as well.
翻訳日:2022-11-01 18:47:19 公開日:2022-10-31
# 言語モデルがプライベートライブラリと出会うとき

When Language Model Meets Private Library ( http://arxiv.org/abs/2210.17236v1 )

ライセンス: Link先を確認
Daoguang Zan, Bei Chen, Zeqi Lin, Bei Guan, Yongji Wang, Jian-Guang Lou(参考訳) 事前学習技術の急速な発展に伴い、多数の言語モデルが大規模コードコーパスで事前訓練され、コード生成でよく機能している。 本稿では,プライベートライブラリのコード生成機能を備えた事前学習型言語モデルの構築方法について検討する。 実際、プログラマはプライベートライブラリを使ってコードを書くのが一般的です。 しかし、トレーニング中にプライベートAPIを見たことがないため、言語モデルにとってこれは課題である。 APIRetrieverは有用なAPIを見つけ、APICoderはこれらのAPIを使ってコードを生成する。 APIRetrieverでは,高密度検索システムとユーザとの親和性のあるインタラクションを設計する。 APICoderでは、既製の言語モデルを直接使用したり、API情報を含むコードコーパスでベースモデルを継続的に事前トレーニングしたりできます。 どちらのモジュールもパブリックライブラリのデータを使ってトレーニングされ、プライベートライブラリに一般化することができる。 さらに、プライベートライブラリ向けにTorchDataEval、MonkeyEval、BeatNumEvalという3つのベンチマークを作成しました。 実験結果は,このフレームワークの印象的な性能を示す。

With the rapid development of pre-training techniques, a number of language models have been pre-trained on large-scale code corpora and perform well in code generation. In this paper, we investigate how to equip pre-trained language models with the ability of code generation for private libraries. In practice, it is common for programmers to write code using private libraries. However, this is a challenge for language models since they have never seen private APIs during training. Motivated by the fact that private libraries usually come with elaborate API documentation, we propose a novel framework with two modules: the APIRetriever finds useful APIs, and then the APICoder generates code using these APIs. For APIRetriever, we present a dense retrieval system and also design a friendly interaction to involve uses. For APICoder, we can directly use off-the-shelf language models, or continually pre-train the base model on a code corpus containing API information. Both modules are trained with data from public libraries and can be generalized to private ones. Furthermore, we craft three benchmarks for private libraries, named TorchDataEval, MonkeyEval, and BeatNumEval. Experimental results demonstrate the impressive performance of our framework.
翻訳日:2022-11-01 18:47:03 公開日:2022-10-31
# 深部ソースコード処理モデルにおける毒物攻撃と防御

Poison Attack and Defense on Deep Source Code Processing Models ( http://arxiv.org/abs/2210.17029v1 )

ライセンス: Link先を確認
Jia Li, Zhuo Li, Huangzhao Zhang, Ge Li, Zhi Jin, Xing Hu, Xin Xia(参考訳) ソフトウェアエンジニアリングコミュニティでは、最近多くのソースコード処理タスクにディープラーニング(DL)が適用されています。 DLモデルの解釈性が悪いため、セキュリティ上の脆弱性は精査が必要である。 最近、研究者らは突発的なセキュリティの脅威、すなわち毒物攻撃を発見した。 攻撃者は、トレーニングデータに毒のサンプルを注入することで、悪質なバックドアをモデルに注入する。 有毒モデルは正常にクリーンな入力で動作しますが、ターゲットとする誤った結果とトリガーを組み込んだ有毒な入力を生成します。 バックドアをアクティベートすることで、攻撃者はセキュリティ関連のシナリオで有毒なモデルを操作できる。 本稿では,既存の深層ソースコード処理モデルのマルウェア攻撃に対する脆弱性を検証するため,ソースコードに対する毒物攻撃フレームワークであるcodepoisonerを提案する。 codepoisonerは、トレーニングデータを毒物サンプルで毒付けすることで、人間に受け入れられない毒物サンプルや攻撃モデルも作成できる。 毒物攻撃から守るため,我々はさらに,訓練データ中の毒物サンプルを検出するためのコード検出装置という効果的な防御手法を提案する。 CodeDetectorは多くのモデルアーキテクチャに適用でき、複数の毒物攻撃アプローチに対して効果的に防御できる。 CodePoisonerとCodeDetectorを、欠陥検出、クローン検出、コード修復を含む3つのタスクに適用します。 その結果,(1)CodePoisonerは,誤動作に対する誤誘導モデルにおいて,高い攻撃成功率(max:100%)を達成することがわかった。 既存のディープソースコード処理モデルが、毒物攻撃に対して強力な脆弱性があることを検証する。 2) CodeDetectorは, トレーニングデータ中の毒サンプル(最大100%)を検出することで, 複数の毒素攻撃アプローチを効果的に防御する。 この研究は、実践者が毒の攻撃に気づき、より高度な防衛技術の設計を促すのに役立つことを期待している。

In the software engineering community, deep learning (DL) has recently been applied to many source code processing tasks. Due to the poor interpretability of DL models, their security vulnerabilities require scrutiny. Recently, researchers have identified an emergent security threat, namely poison attack. The attackers aim to inject insidious backdoors into models by poisoning the training data with poison samples. Poisoned models work normally with clean inputs but produce targeted erroneous results with poisoned inputs embedded with triggers. By activating backdoors, attackers can manipulate the poisoned models in security-related scenarios. To verify the vulnerability of existing deep source code processing models to the poison attack, we present a poison attack framework for source code named CodePoisoner as a strong imaginary enemy. CodePoisoner can produce compilable even human-imperceptible poison samples and attack models by poisoning the training data with poison samples. To defend against the poison attack, we further propose an effective defense approach named CodeDetector to detect poison samples in the training data. CodeDetector can be applied to many model architectures and effectively defend against multiple poison attack approaches. We apply our CodePoisoner and CodeDetector to three tasks, including defect detection, clone detection, and code repair. The results show that (1) CodePoisoner achieves a high attack success rate (max: 100%) in misleading models to targeted erroneous behaviors. It validates that existing deep source code processing models have a strong vulnerability to the poison attack. (2) CodeDetector effectively defends against multiple poison attack approaches by detecting (max: 100%) poison samples in the training data. We hope this work can help practitioners notice the poison attack and inspire the design of more advanced defense techniques.
翻訳日:2022-11-01 18:40:01 公開日:2022-10-31
# CodeEditor: トレーニング済みモデルでソースコードを編集する学習

CodeEditor: Learning to Edit Source Code with Pre-trained Models ( http://arxiv.org/abs/2210.17040v1 )

ライセンス: Link先を確認
Jia Li, Ge Li, Zhuo Li, Zhi Jin, Xing Hu, Kechi Zhang, Zhiyi Fu(参考訳) 開発者はソフトウェア開発において、様々な理由で反復的なコード編集活動(例えば、コードリファクタリング)を行うことが多い。 コード編集履歴から学習することで、コード編集を自動化するために、多くのディープラーニングモデルが適用される。 近年,事前訓練されたコード編集モデルがSOTA(State-of-the-art)の結果を得た。 事前トレーニングされたモデルは、まず事前トレーニングタスクで事前トレーニングされ、コード編集タスクで微調整される。 既存の事前トレーニングタスクは、主に、自然言語処理分野から派生したコードインフィルディングタスク(例えば、マスク付き言語モデリング)であり、コード編集用に設計されていない。 本稿では,コード編集に特化した事前学習タスクを提案し,CodeEditorというコード編集モデルを提案する。 我々の事前学習タスクは、コード編集モデルの性能と一般化能力をさらに向上させる。 具体的には、実世界のコードスニペットを基礎として収集し、ジェネレータを使用してそれらを自然だが劣ったバージョンに書き換える。 次に、CodeEditorを事前トレーニングして、下位バージョンを土台に編集し、編集パターンを学ぶ。 4つのデータセットの実験を行い、3つの設定でモデルを評価する。 1)微調整設定では,トレーニング済みのCodeEditorを4つのデータセットで微調整する。 CodeEditorは4つのデータセットでSOTAベースラインを15%、25.5%、9.4%、26.6%で上回っている。 2) 少数の設定では、訓練済みのCodeEditorに限られたデータを加えます。 codeeditorは、すべてのデータで微調整されたベースラインよりもパフォーマンスが優れています。 (3)ゼロショット設定では、微調整なしで事前訓練したCodeEditorを評価する。 CodeEditorは1,113のプログラムを正しく編集するが、SOTAのベースラインは動作しない。 その結果、事前学習タスクと事前学習したコードエディタの優位性は、自動コード編集においてより効果的であることが判明した。

Developers often perform repetitive code editing activities for various reasons (e.g., code refactor) during software development. Many deep learning models are applied to automate code editing by learning from the code editing history. Recently, pre-trained code editing models have achieved the state-of-the-art (SOTA) results. Pre-trained models are first pre-trained with pre-training tasks and fine-tuned with the code editing task. Existing pre-training tasks mainly are code infilling tasks (e.g., masked language modeling), which are derived from the natural language processing field and are not designed for code editing. In this paper, we propose a pre-training task specialized in code editing and present an effective pre-trained code editing model named CodeEditor. Our pre-training task further improves the performance and generalization ability of code editing models. Specifically, we collect real-world code snippets as the ground truth and use a generator to rewrite them into natural but inferior versions. Then, we pre-train our CodeEditor to edit inferior versions into the ground truth, to learn edit patterns. We conduct experiments on four datasets and evaluate models in three settings. (1) In the fine-tuning setting, we fine-tune the pre-trained CodeEditor with four datasets. CodeEditor outperforms SOTA baselines by 15%, 25.5%, and 9.4% and 26.6% on four datasets. (2) In the few-shot setting, we fine-tune the pre-trained CodeEditor with limited data. CodeEditor substantially performs better than all baselines, even outperforming baselines that are fine-tuned with all data. (3) In the zero-shot setting, we evaluate the pre-trained CodeEditor without fine-tuning. CodeEditor correctly edits 1,113 programs while SOTA baselines can not work. The results prove that the superiority of our pre-training task and the pre-trained CodeEditor is more effective in automatic code editing.
翻訳日:2022-11-01 18:39:38 公開日:2022-10-31
# 形式的概念分析とデンプスター・シェーファー理論を用いた監査の柔軟分類

Flexible categorization for auditing using formal concept analysis and Dempster-Shafer theory ( http://arxiv.org/abs/2210.17330v1 )

ライセンス: Link先を確認
Marcel Boersma, Krishna Manoorkar, Alessandra Palmigiano, Mattia Panettiere, Apostolos Tzimoulis, Nachoem Wijnberg(参考訳) ビジネスプロセスの分類は監査の重要な部分です。 監査における多量の超国家的データは、重み付き二部グラフを用いて財務口座間の取引として表すことができる。 このような二部グラフを多値形式的文脈と捉え、形式的概念分析の手法を用いて、ビジネスプロセスにかかわる財務会計の観点で、これらのビジネスプロセスの説明可能な分類を得る。 本論文で導入された方法論の具体的説明可能性の特徴は,例えば—説明不能な機械学習技術よりもいくつかの利点があり,実際,透明で説明可能な原理に基づいてクラスタリングを行うアルゴリズムの開発の基盤とすることができる。 ここでは、監査におけるさまざまなエージェントやサブタスクの異なる財務会計、尋問的議題に対する異なる関心度に応じて分類する様々な方法の取得と研究に焦点をあてる。 Dempster-Shaferマス関数を使用して、さまざまな金融口座に対する異なる関心を示すアジェンダを表現します。 これらの課題から分類を行うための2つの新しい手法を提案する。 また,質問アジェンダの異なるエージェント間の検討シナリオをモデル化し,アジェンダの集約と分類を行った。 本稿では,組織内の異なるエージェント(監査会社など)の議題に従って,二部グラフとして表されるデータから説明可能な分類を入手し,検討するための公式な基盤を提供する。

Categorization of business processes is an important part of auditing. Large amounts of transnational data in auditing can be represented as transactions between financial accounts using weighted bipartite graphs. We view such bipartite graphs as many-valued formal contexts, which we use to obtain explainable categorization of these business processes in terms of financial accounts involved in a business process by using methods in formal concept analysis. The specific explainability feature of the methodology introduced in the present paper provides several advantages over e.g.~non-explainable machine learning techniques, and in fact, it can be taken as a basis for the development of algorithms which perform the task of clustering on transparent and accountable principles. Here, we focus on obtaining and studying different ways to categorize according to different extents of interest in different financial accounts, or interrogative agendas, of various agents or sub-tasks in audit. We use Dempster-Shafer mass functions to represent agendas showing different interest in different set of financial accounts. We propose two new methods to obtain categorizations from these agendas. We also model some possible deliberation scenarios between agents with different interrogative agendas to reach an aggregated agenda and categorization. The framework developed in this paper provides a formal ground to obtain and study explainable categorizations from the data represented as bipartite graphs according to the agendas of different agents in an organization (e.g.~an audit firm), and interaction between these through deliberation.
翻訳日:2022-11-01 18:39:11 公開日:2022-10-31
# ランダム化試験における精度とパワー向上のための最適戦略の適応的選択

Adaptive Selection of the Optimal Strategy to Improve Precision and Power in Randomized Trials ( http://arxiv.org/abs/2210.17453v1 )

ライセンス: Link先を確認
Laura B. Balzer, Erica Cai, Lucas Godoy Garraza, Pracheta Amaranath(参考訳) benkeser氏らは、ランダム化された試行におけるベースライン共変量の調整が、バイナリ、順序、イベント時間など、さまざまなアウトカムタイプの精度を有意義に改善できることをデモしている。 この発見は1932年にr・a・フィッシャーと共に始まり、アメリカ食品医薬品局(fda)や欧州医薬品局(esa)の支持を得た。 ここでは, 精度を最大化するために, 調整手法(変数, 形式)をどう選択するか, の名目上の信頼区間のカバレッジを維持しながら検討する。 Balzerらはこれまで提案し、評価し、Adaptive Prespecificationを適用して、既定集合から小さなランダム化試行(N<40)において経験効率を最大化する変数を柔軟に選択した。 ランダム化単位の少ないオーバーフィッティングを避けるため, 従来, 作業一般化線形モデル(GLM)では1つの共変量に, 作業GLMでは1つの共変量に制限されていた。 ここでは、アダプティブ・プレ種別を多くのランダム化単位による試行に合わせる。 具体的には、損失関数としてV-foldクロスバリデーションと2乗影響曲線を用いて、パラメトリック法と半パラメトリック法の両方を含む拡張された候補アルゴリズムから、予測結果の推定器と既知確率スコアの最適組み合わせを選択する。 シミュレーションを用いて,様々なデータ生成プロセスにおいて,新しい手法による精度の劇的な向上を示す。

Benkeser et al. demonstrate how adjustment for baseline covariates in randomized trials can meaningfully improve precision for a variety of outcome types, including binary, ordinal, and time-to-event. Their findings build on a long history, starting in 1932 with R.A. Fisher and including the more recent endorsements by the U.S. Food and Drug Administration and the European Medicines Agency. Here, we address an important practical consideration: how to select the adjustment approach -- which variables and in which form -- to maximize precision, while maintaining nominal confidence interval coverage. Balzer et al. previously proposed, evaluated, and applied Adaptive Prespecification to flexibly select, from a prespecified set, the variables that maximize empirical efficiency in small randomized trials (N<40). To avoid overfitting with few randomized units, adjustment was previously limited to a single covariate in a working generalized linear model (GLM) for the expected outcome and a single covariate in a working GLM for the propensity score. Here, we tailor Adaptive Prespecification to trials with many randomized units. Specifically, using V-fold cross-validation and the squared influence curve as the loss function, we select from an expanded set of candidate algorithms, including both parametric and semi-parametric methods, the optimal combination of estimators of the expected outcome and known propensity score. Using simulations, under a variety of data generating processes, we demonstrate the dramatic gains in precision offered by our novel approach.
翻訳日:2022-11-01 18:38:31 公開日:2022-10-31
# HARRIS:アルゴリズム選択のためのハイブリッドランキングと回帰フォレスト

HARRIS: Hybrid Ranking and Regression Forests for Algorithm Selection ( http://arxiv.org/abs/2210.17341v1 )

ライセンス: Link先を確認
Lukas Fehring, Jonas Hanselle, Alexander Tornede(参考訳) アルゴリズム選択の動機付け(英: motivating algorithm selection, as)とは、アルゴリズムの問題のインスタンスが与えられたとき、その解くのに最も適したアルゴリズムである。 このように、as問題は様々なアプローチでかなりの注目を集めており、その多くが回帰問題やランキング問題を内部で解決している。 これら2つの定式化は非常に自然な方法でASに取り組むことができるが、それらはかなり弱い。 一方、インスタンス上のアルゴリズムのパフォーマンスを正確に予測することは、アルゴリズムよりも正しいランキングを作り、特に最も優れたアルゴリズムをランク付けするのには十分だが、必要な条件ではない。 一方で、古典的なランキングアプローチは、トレーニングデータで利用可能な具体的なパフォーマンス値を考慮せず、そのようなデータから得られるランキングのみを活用する。 本稿では,HARRIS- Hybrid rAnkingとRegRessIon foreStsを提案する。 HARRISの決定は、ハイブリッドランキングと回帰損失関数に基づいて最適化された分割に基づいて木を作成する森林モデルに基づいている。 ASLibに関する予備的な実験的研究が示すように、HARRISはいくつかのシナリオにおいて標準的なアルゴリズム選択アプローチよりも改善し、木でのランキングと回帰の組み合わせがASにとって本当に有望であることを示す。

It is well known that different algorithms perform differently well on an instance of an algorithmic problem, motivating algorithm selection (AS): Given an instance of an algorithmic problem, which is the most suitable algorithm to solve it? As such, the AS problem has received considerable attention resulting in various approaches - many of which either solve a regression or ranking problem under the hood. Although both of these formulations yield very natural ways to tackle AS, they have considerable weaknesses. On the one hand, correctly predicting the performance of an algorithm on an instance is a sufficient, but not a necessary condition to produce a correct ranking over algorithms and in particular ranking the best algorithm first. On the other hand, classical ranking approaches often do not account for concrete performance values available in the training data, but only leverage rankings composed from such data. We propose HARRIS- Hybrid rAnking and RegRessIon foreSts - a new algorithm selector leveraging special forests, combining the strengths of both approaches while alleviating their weaknesses. HARRIS' decisions are based on a forest model, whose trees are created based on splits optimized on a hybrid ranking and regression loss function. As our preliminary experimental study on ASLib shows, HARRIS improves over standard algorithm selection approaches on some scenarios showing that combining ranking and regression in trees is indeed promising for AS.
翻訳日:2022-11-01 18:30:27 公開日:2022-10-31
# 高次元タンパク質発現データを用いたミトコンドリア病の詳細な深層学習

Explainable Deep Learning to Profile Mitochondrial Disease Using High Dimensional Protein Expression Data ( http://arxiv.org/abs/2210.17360v1 )

ライセンス: Link先を確認
Atif Khan, Conor Lawless, Amy E Vincent, Satish Pilla, Sushanth Ramesh, A. Stephen McGough(参考訳) ミトコンドリア病は現在、その病理の理解が限られているため治療できない。 骨格筋線維(SM)における各種ミトコンドリア蛋白の発現について検討し, イメージング・マス・サイトメトリー(IMC)を用いてミトコンドリア病理のプロセスを明らかにする。 imcは、細胞内変異を含む組織内のタンパク質のパネルの発現の空間的変化を表す高次元のマルチチャネル擬似画像を生成する。 これらの画像の統計的解析には、患者の筋肉生検のIMC画像に数千のSMの半自動アノテーションが必要である。 本稿では,IMCデータに対する深層学習(DL)を用いた手作業による事前処理,統計要約,統計モデルによる分析について検討する。 このために、我々はまず、利用可能なすべての画像チャンネルで最先端のコンピュータビジョンDLモデルを訓練します。 これらのモデルの多くは,予測精度よりも優れていた。 次に、コンピュータビジョンDLに関連する最新技術を適用し、これらのモデルの予測の基盤を見出す。 その結果得られた視覚的な説明可能な地図のいくつかは、筋線維内のミトコンドリア疾患の進行に関する最新の仮説と一致しているように見える画像の特徴を強調している。

Mitochondrial diseases are currently untreatable due to our limited understanding of their pathology. We study the expression of various mitochondrial proteins in skeletal myofibres (SM) in order to discover processes involved in mitochondrial pathology using Imaging Mass Cytometry (IMC). IMC produces high dimensional multichannel pseudo-images representing spatial variation in the expression of a panel of proteins within a tissue, including subcellular variation. Statistical analysis of these images requires semi-automated annotation of thousands of SMs in IMC images of patient muscle biopsies. In this paper we investigate the use of deep learning (DL) on raw IMC data to analyse it without any manual pre-processing steps, statistical summaries or statistical models. For this we first train state-of-art computer vision DL models on all available image channels, both combined and individually. We observed better than expected accuracy for many of these models. We then apply state-of-the-art explainable techniques relevant to computer vision DL to find the basis of the predictions of these models. Some of the resulting visual explainable maps highlight features in the images that appear consistent with the latest hypotheses about mitochondrial disease progression within myofibres.
翻訳日:2022-11-01 18:30:02 公開日:2022-10-31
# 時系列予測のための確率分解変換器

Probabilistic Decomposition Transformer for Time Series Forecasting ( http://arxiv.org/abs/2210.17393v1 )

ライセンス: Link先を確認
Junlong Tong, Liping Xie, Wankou Yang, Kanjian Zhang(参考訳) 時系列予測は災害警報、天気予報、エネルギー消費など多くの分野において重要である。 トランスフォーマーベースのモデルはシーケンスモデリングの分野に革命をもたらしたと考えられている。 しかし、時系列の複雑な時間パターンは、信頼できる時間依存のマイニングを妨げている。 さらに、Transformerの自己回帰形式は、推論ステップで累積誤差を導入する。 本稿では,複雑な時系列に対して階層的かつ解釈可能な確率予測を提供する条件生成モデルと変換器を結合した確率分解変換器モデルを提案する。 Transformerは時間パターンの学習と一次確率予測の実装に使用され、条件生成モデルは非自己回帰的階層的確率予測を潜在空間特徴表現を導入して達成する。 さらに、条件生成モデルは、季節性やトレンド項などのシリーズの典型的な特徴を、潜在空間の確率分布から再構成し、複雑なパターン分離を可能にし、解釈可能な予測を提供する。 いくつかのデータセットに関する広範囲な実験は、提案されたモデルの有効性と堅牢性を示し、それが芸術の状況と好適に比較できることを示している。

Time series forecasting is crucial for many fields, such as disaster warning, weather prediction, and energy consumption. The Transformer-based models are considered to have revolutionized the field of sequence modeling. However, the complex temporal patterns of the time series hinder the model from mining reliable temporal dependencies. Furthermore, the autoregressive form of the Transformer introduces cumulative errors in the inference step. In this paper, we propose the probabilistic decomposition Transformer model that combines the Transformer with a conditional generative model, which provides hierarchical and interpretable probabilistic forecasts for intricate time series. The Transformer is employed to learn temporal patterns and implement primary probabilistic forecasts, while the conditional generative model is used to achieve non-autoregressive hierarchical probabilistic forecasts by introducing latent space feature representations. In addition, the conditional generative model reconstructs typical features of the series, such as seasonality and trend terms, from probability distributions in the latent space to enable complex pattern separation and provide interpretable forecasts. Extensive experiments on several datasets demonstrate the effectiveness and robustness of the proposed model, indicating that it compares favorably with the state of the art.
翻訳日:2022-11-01 18:29:44 公開日:2022-10-31
# マルチモーダル情報ボトルネック:最小限のユニモーダル表現とマルチモーダル表現の学習

Multimodal Information Bottleneck: Learning Minimal Sufficient Unimodal and Multimodal Representations ( http://arxiv.org/abs/2210.17444v1 )

ライセンス: Link先を確認
Sijie Mai, Ying Zeng, Haifeng Hu(参考訳) クロスモーダルデータに対する効果的な共同埋め込みの学習は、常にマルチモーダル機械学習の分野に焦点を合わせてきた。 マルチモーダル融合では, 生成したマルチモーダル埋め込みは冗長であり, 識別的ユニモーダル情報は無視され, しばしば正確な予測に干渉し, オーバーフィッティングのリスクが高くなる。 さらに、単項表現は、クロスモーダル力学の学習に悪影響を及ぼすノイズ情報も含んでいる。 そこで本研究では,冗長性のない強力で十分なマルチモーダル表現を学習し,ユニモーダル表現におけるノイズ情報をフィルタリングすることを目的としたマルチモーダル情報ボトルネック(mib)を提案する。 具体的には、一般情報ボトルネック(IB)から受け継いだMIBは、表現と対象の間の相互情報を最大化し、表現と入力データ間の相互情報を同時に制限することにより、与えられたタスクに対する最小限の表現を学習することを目的としている。 一般のIBと異なり、MIBは、どんな融合法とも互換性のある包括的で柔軟なフレームワークであるマルチモーダル表現とユニモーダル表現の両方を正規化しています。 情報制約の異なる視点に焦点を合わせるために,MIB の3つの変種,すなわちアーリーフュージョン MIB,レイトフュージョン MIB,フルMIB を開発した。 実験結果から,提案手法は3つの広く使用されているデータセットを対象としたマルチモーダル感情分析とマルチモーダル感情認識のタスクにおいて,最先端の性能に達することが示唆された。 コードは \url{https://github.com/tmacmai/multimodal-information-bottleneck} で入手できる。

Learning effective joint embedding for cross-modal data has always been a focus in the field of multimodal machine learning. We argue that during multimodal fusion, the generated multimodal embedding may be redundant, and the discriminative unimodal information may be ignored, which often interferes with accurate prediction and leads to a higher risk of overfitting. Moreover, unimodal representations also contain noisy information that negatively influences the learning of cross-modal dynamics. To this end, we introduce the multimodal information bottleneck (MIB), aiming to learn a powerful and sufficient multimodal representation that is free of redundancy and to filter out noisy information in unimodal representations. Specifically, inheriting from the general information bottleneck (IB), MIB aims to learn the minimal sufficient representation for a given task by maximizing the mutual information between the representation and the target and simultaneously constraining the mutual information between the representation and the input data. Different from general IB, our MIB regularizes both the multimodal and unimodal representations, which is a comprehensive and flexible framework that is compatible with any fusion methods. We develop three MIB variants, namely, early-fusion MIB, late-fusion MIB, and complete MIB, to focus on different perspectives of information constraints. Experimental results suggest that the proposed method reaches state-of-the-art performance on the tasks of multimodal sentiment analysis and multimodal emotion recognition across three widely used datasets. The codes are available at \url{https://github.com/TmacMai/Multimodal-Information-Bottleneck}.
翻訳日:2022-11-01 18:29:28 公開日:2022-10-31
# マルチスケール非負なカーネルグラフを用いたマニフォールド幾何学の研究

Study of Manifold Geometry using Multiscale Non-Negative Kernel Graphs ( http://arxiv.org/abs/2210.17475v1 )

ライセンス: Link先を確認
Carlos Hurtado, Sarath Shekkizhar, Javier Ruiz-Hidalgo, Antonio Ortega(参考訳) 現代の機械学習システムは、高次元空間に埋め込まれた大量のデータに基づいて、ますます訓練されている。 多くの場合、データセットの構造を分析することなく行われる。 本研究では,データの幾何学的構造を研究するための枠組みを提案する。 我々は、最近導入された非負のカーネル(NNK)回帰グラフを用いて、点密度、固有次元、およびデータ多様体(曲率)の線型性を推定する。 さらに,入力データの近傍を反復的にマージすることにより,グラフ構成と幾何推定を多元スケールに一般化する。 本実験は,データ多様体の局所的形状を合成および実データセット上で推定する上で,他のベースラインに対する提案手法の有効性を示す。

Modern machine learning systems are increasingly trained on large amounts of data embedded in high-dimensional spaces. Often this is done without analyzing the structure of the dataset. In this work, we propose a framework to study the geometric structure of the data. We make use of our recently introduced non-negative kernel (NNK) regression graphs to estimate the point density, intrinsic dimension, and the linearity of the data manifold (curvature). We further generalize the graph construction and geometric estimation to multiple scale by iteratively merging neighborhoods in the input data. Our experiments demonstrate the effectiveness of our proposed approach over other baselines in estimating the local geometry of the data manifolds on synthetic and real datasets.
翻訳日:2022-11-01 18:29:00 公開日:2022-10-31
# ディスカッションボードテキストデータセットからの自動コード抽出

Automated Code Extraction from Discussion Board Text Dataset ( http://arxiv.org/abs/2210.17495v1 )

ライセンス: Link先を確認
Sina Mahdipour Saravani, Sadaf Ghaffari, Yanye Luther, James Folkestad, and Marcia Moraes(参考訳) 本研究では,比較的小さな掲示板データセットからコード抽出を自動化するために,3種類のテキストマイニング手法,すなわち潜時意味解析,潜時ディリクレ解析,クラスタリングワードベクトルを導入,検討する。 各アルゴリズムの出力を、手動で2人の人手によってコーディングされた以前のデータセットと比較する。 その結果、比較的小さなデータセットであっても、自動的なアプローチは、認識論的ネットワーク分析で使用できるいくつかの議論コードを抽出することによって、コースインストラクターの資産となり得ることがわかった。

This study introduces and investigates the capabilities of three different text mining approaches, namely Latent Semantic Analysis, Latent Dirichlet Analysis, and Clustering Word Vectors, for automating code extraction from a relatively small discussion board dataset. We compare the outputs of each algorithm with a previous dataset that was manually coded by two human raters. The results show that even with a relatively small dataset, automated approaches can be an asset to course instructors by extracting some of the discussion codes, which can be used in Epistemic Network Analysis.
翻訳日:2022-11-01 18:28:50 公開日:2022-10-31
# GotFlow3D: 粒子追跡における3次元流れの学習のためのグラフ最適輸送

GotFlow3D: Recurrent Graph Optimal Transport for Learning 3D Flow Motion in Particle Tracking ( http://arxiv.org/abs/2210.17012v1 )

ライセンス: Link先を確認
Jiaming Liang and Chao Xu and Shengze Cai(参考訳) 粒子追跡速度計(PTV)のような流れの可視化技術は、自然と産業のプロセスから発生する3次元乱流の全広さを理解するために広く用いられている。 3D取得技術の進歩にもかかわらず、粒子追跡における動き推定アルゴリズムは、大きな粒子変位、密度粒子分布、高い計算コストにおいて大きな課題である。 GotFlow3Dと呼ばれるグラフ最適輸送に基づく新しいディープニューラルネットワークを導入することで、両フレーム粒子集合から3次元流体の動きを学習するエンドツーエンドのソリューションを提案する。 提案するネットワークは,幾何学的特徴空間と特徴空間に2つのグラフを構築し,グラフニューラルネットワークから学習した融合内在的特徴と外在的特徴により,元の粒子表現をさらに強化する。 抽出した深部特徴を利用して粒子対の対応を示す最適な輸送計画を行い、繰り返し流れの学習を誘導するために反復的に適応的に回収する。 実世界の実験における数値実験の評価や検証を含む実験評価により,提案したGotFlow3Dは,最近開発されたシーンフロー学習者と粒子追跡アルゴリズムの両方に対して,印象的な精度,堅牢性,一般化能力を備えた最先端性能を実現し,より広い物理・生物学的システムの複雑な力学を深く理解することができることを示した。

Flow visualization technologies such as particle tracking velocimetry (PTV) are broadly used in understanding the all-pervasiveness three-dimensional (3D) turbulent flow from nature and industrial processes. Despite the advances in 3D acquisition techniques, the developed motion estimation algorithms in particle tracking remain great challenges of large particle displacements, dense particle distributions and high computational cost. By introducing a novel deep neural network based on recurrent Graph Optimal Transport, called GotFlow3D, we present an end-to-end solution to learn the 3D fluid flow motion from double-frame particle sets. The proposed network constructs two graphs in the geometric and feature space and further enriches the original particle representations with the fused intrinsic and extrinsic features learnt from a graph neural network. The extracted deep features are subsequently utilized to make optimal transport plans indicating the correspondences of particle pairs, which are then iteratively and adaptively retrieved to guide the recurrent flow learning. Experimental evaluations, including assessments on numerical experiments and validations on real-world experiments, demonstrate that the proposed GotFlow3D achieves state-of-the-art performance against both recently-developed scene flow learners and particle tracking algorithms, with impressive accuracy, robustness and generalization ability, which can provide deeper insight into the complex dynamics of broad physical and biological systems.
翻訳日:2022-11-01 18:27:49 公開日:2022-10-31
# 典型的な学習可能なタスクの空間の写真

A picture of the space of typical learnable tasks ( http://arxiv.org/abs/2210.17011v1 )

ライセンス: Link先を確認
Rahul Ramesh, Jialin Mao, Itay Griniasty, Rubing Yang, Han Kheng Teoh, Mark Transtrum, James P. Sethna, Pratik Chaudhari(参考訳) 我々は,教師付き,メタ・コントラスト学習を用いて,異なるタスクで学習した深層ネットワークの表現を分析する手法を開発した。 確率モデルの空間を低次元空間、すなわち対距離を保存する空間に等尺的に埋め込み、そのような表現を可視化する手法を開発した。 We discover the following surprising phenomena that shed light upon the structure in the space of learnable tasks: (1) the manifold of probabilistic models trained on different tasks using different representation learning methods is effectively low-dimensional; (2) supervised learning on one task results in a surprising amount of progress on seemingly dissimilar tasks; progress on other tasks is larger if the training task has diverse classes; (3) the structure of the space of tasks indicated by our analysis is consistent with parts of the Wordnet phylogenetic tree; (4) fine-tuning a model upon a sub-task does not change the representation much if the model was trained for a large number of epochs; (5) episodic meta-learning algorithms fit similar models eventually as that of supervised learning, even if the two traverse different trajectories during training; (6) contrastive learning methods trained on different datasets learn similar representations. CIFAR-10とImagenetデータセットから構築した分類タスクを用いてこれらの現象を研究する。

We develop a technique to analyze representations learned by deep networks when they are trained on different tasks using supervised, meta- and contrastive learning. We develop a technique to visualize such representations using an isometric embedding of the space of probabilistic models into a lower-dimensional space, i.e., one that preserves pairwise distances. We discover the following surprising phenomena that shed light upon the structure in the space of learnable tasks: (1) the manifold of probabilistic models trained on different tasks using different representation learning methods is effectively low-dimensional; (2) supervised learning on one task results in a surprising amount of progress on seemingly dissimilar tasks; progress on other tasks is larger if the training task has diverse classes; (3) the structure of the space of tasks indicated by our analysis is consistent with parts of the Wordnet phylogenetic tree; (4) fine-tuning a model upon a sub-task does not change the representation much if the model was trained for a large number of epochs; (5) episodic meta-learning algorithms fit similar models eventually as that of supervised learning, even if the two traverse different trajectories during training; (6) contrastive learning methods trained on different datasets learn similar representations. We use classification tasks constructed from the CIFAR-10 and Imagenet datasets to study these phenomena.
翻訳日:2022-11-01 18:21:47 公開日:2022-10-31
# k-meansとk-mediansクラスタリングのための学習提示アルゴリズムの改善

Improved Learning-augmented Algorithms for k-means and k-medians Clustering ( http://arxiv.org/abs/2210.17028v1 )

ライセンス: Link先を確認
Thy Nguyen, Anamay Chaturvedi, Huy L\^e Nguyen(参考訳) 学習強化環境でのクラスタリングの問題は、$d$次元ユークリッド空間のデータセットと、どの点のサブセットをクラスタ化すべきかを示すオラクルによって与えられる各データポイントのラベルが与えられることである。 この設定は、例えばニューラルネットワークによって出力されるラベルなど、クラスタリングの対象に関連のあるデータセットに関する補助的な情報にアクセス可能な状況をキャプチャする。 先行研究の後、予測されたクラスタごとに少なくとも$c<1$の偽陽性と偽陰性の比率に対して$\alpha \in (0,c)$があると仮定し、ラベルが最適なクラスタリングコストである$\mathrm{opt}$を得ることができないと仮定する。 サイズが$m$のデータセットでは、$O(d m \log m)$ランタイムを保ちながら、以前のランダム化アルゴリズムと比較してクラスタリングコストが改善されたセンターを生成する決定論的$k$-meansアルゴリズムを提案する。 さらに、予測があまり正確でない場合でも、アルゴリズムは動作します。すなわち、我々のバウンドは、$\alpha$が$/2$で、$\alpha$が以前の作業で最大$/7$で改善されます。 k$-medians問題では、精度パラメータの近似係数の依存度が2次的に改善され、$(1+o(\alpha))\mathrm{opt}$となるが、基本的には$o(md \log^3 m/\alpha)$ランタイムが必要となる。

We consider the problem of clustering in the learning-augmented setting, where we are given a data set in $d$-dimensional Euclidean space, and a label for each data point given by an oracle indicating what subsets of points should be clustered together. This setting captures situations where we have access to some auxiliary information about the data set relevant for our clustering objective, for instance the labels output by a neural network. Following prior work, we assume that there are at most an $\alpha \in (0,c)$ for some $c<1$ fraction of false positives and false negatives in each predicted cluster, in the absence of which the labels would attain the optimal clustering cost $\mathrm{OPT}$. For a dataset of size $m$, we propose a deterministic $k$-means algorithm that produces centers with improved bound on clustering cost compared to the previous randomized algorithm while preserving the $O( d m \log m)$ runtime. Furthermore, our algorithm works even when the predictions are not very accurate, i.e. our bound holds for $\alpha$ up to $1/2$, an improvement over $\alpha$ being at most $1/7$ in the previous work. For the $k$-medians problem we improve upon prior work by achieving a biquadratic improvement in the dependence of the approximation factor on the accuracy parameter $\alpha$ to get a cost of $(1+O(\alpha))\mathrm{OPT}$, while requiring essentially just $O(md \log^3 m/\alpha)$ runtime.
翻訳日:2022-11-01 18:21:28 公開日:2022-10-31
# mambanet:nbaのプレーオフを予測するハイブリッドニューラルネットワーク

MambaNet: A Hybrid Neural Network for Predicting the NBA Playoffs ( http://arxiv.org/abs/2210.17060v1 )

ライセンス: Link先を確認
Reza Khanmohammadi and Sari Saba-Sadiya and Sina Esfandiarpour and Tuka Alhanai and Mohammad M. Ghassemi(参考訳) 本稿では,バスケットボールの試合の結果を予測するためのハイブリッドニューラルネットワークであるmambanetを提案する。 シーズンゲームを中心とした他の研究とは対照的に,本研究はプレーオフゲームについて検討する。 MambaNetは、チームとプレーヤーのゲーム統計の時系列を処理し、NBAのプレーオフマッチに勝つか負けるかの確率を生成するハイブリッドニューラルネットワークアーキテクチャである。 本手法では,機能模倣ネットワークを用いてゲーム統計の潜在的信号処理特徴表現を提供し,畳み込み・再帰・密集した神経層でさらに処理を行う。 6つの異なるデータセットを用いた3つの実験を行い、アーキテクチャの性能と一般化性を評価する。 最終方法はaucを 0.72 から 0.82 に予測し、最高性能のベースラインモデルを打ち破った。

In this paper, we present Mambanet: a hybrid neural network for predicting the outcomes of Basketball games. Contrary to other studies, which focus primarily on season games, this study investigates playoff games. MambaNet is a hybrid neural network architecture that processes a time series of teams' and players' game statistics and generates the probability of a team winning or losing an NBA playoff match. In our approach, we utilize Feature Imitating Networks to provide latent signal-processing feature representations of game statistics to further process with convolutional, recurrent, and dense neural layers. Three experiments using six different datasets are conducted to evaluate the performance and generalizability of our architecture against a wide range of previous studies. Our final method successfully predicted the AUC from 0.72 to 0.82, beating the best-performing baseline models by a considerable margin.
翻訳日:2022-11-01 18:20:53 公開日:2022-10-31
# SEVGGNet-LSTM:心電図分類のための融合ディープラーニングモデル

SEVGGNet-LSTM: a fused deep learning model for ECG classification ( http://arxiv.org/abs/2210.17111v1 )

ライセンス: Link先を確認
Tongyue He, Yiming Chen, Junxin Chen, Wei Wang, Yicong Zhou(参考訳) 本稿では,ECG分類のための融合深層学習アルゴリズムを提案する。 これは、ECG分類のための畳み込みニューラルネットワークと繰り返しニューラルネットワークの組み合わせと、注意機構の重み付け能力を利用する。 入力ECG信号をまずセグメント化して正規化し、VGGとLSTMネットワークに入力して特徴抽出と分類を行う。 注目機構(SEブロック)をコアネットワークに組み込んで重要な特徴の重み付けを行う。 異なる情報源とデバイスから得られた2つのデータベースを用いて性能検証を行い,提案アルゴリズムの有効性とロバスト性を示す。

This paper presents a fused deep learning algorithm for ECG classification. It takes advantages of the combined convolutional and recurrent neural network for ECG classification, and the weight allocation capability of attention mechanism. The input ECG signals are firstly segmented and normalized, and then fed into the combined VGG and LSTM network for feature extraction and classification. An attention mechanism (SE block) is embedded into the core network for increasing the weight of important features. Two databases from different sources and devices are employed for performance validation, and the results well demonstrate the effectiveness and robustness of the proposed algorithm.
翻訳日:2022-11-01 18:20:40 公開日:2022-10-31
# $\omega$GNNs: 複数の伝搬演算子によって強化されたディープグラフニューラルネットワーク

$\omega$GNNs: Deep Graph Neural Networks Enhanced by Multiple Propagation Operators ( http://arxiv.org/abs/2210.17224v1 )

ライセンス: Link先を確認
Moshe Eliasof, Lars Ruthotto, Eran Treister(参考訳) グラフニューラルネットワーク(GNN)は、伝播演算子で制限される。 これらの演算子はしばしば非負の要素のみを含み、チャネルや層間で共有され、GNNの表現性を制限する。 さらに、一部のGNNは過密に悩まされ、深さが制限される。 一方、畳み込みニューラルネットワーク(CNN)は多様な伝搬フィルタを学習でき、過度に滑らかな現象は典型的にはCNNでは見られない。 本稿では,各層における複数の平滑化・研削伝播演算子の学習と混合のために,訓練可能なチャネル単位の重み付け係数$\omega$を組み込むことにより,このギャップを埋める。 我々のジェネリックメソッドは$\omega$GNNと呼ばれ、$\omega$GCNと$\omega$GATの2つの変種を研究する。 $\omega$GCNの場合、理論的にその振る舞いと得られたノード機能に対する$\omega$の影響を分析する。 実験ではこれらの知見を確認し,両変種が過度に滑らかでないことを示す。 さらに、ノードとグラフの分類タスクで15の実世界のデータセットを実験し、$\omega$GCNと$\omega$GATは、最先端のメソッドと同等あるいは同等に機能する。

Graph Neural Networks (GNNs) are limited in their propagation operators. These operators often contain non-negative elements only and are shared across channels and layers, limiting the expressiveness of GNNs. Moreover, some GNNs suffer from over-smoothing, limiting their depth. On the other hand, Convolutional Neural Networks (CNNs) can learn diverse propagation filters, and phenomena like over-smoothing are typically not apparent in CNNs. In this paper, we bridge this gap by incorporating trainable channel-wise weighting factors $\omega$ to learn and mix multiple smoothing and sharpening propagation operators at each layer. Our generic method is called $\omega$GNN, and we study two variants: $\omega$GCN and $\omega$GAT. For $\omega$GCN, we theoretically analyse its behaviour and the impact of $\omega$ on the obtained node features. Our experiments confirm these findings, demonstrating and explaining how both variants do not over-smooth. Additionally, we experiment with 15 real-world datasets on node- and graph-classification tasks, where our $\omega$GCN and $\omega$GAT perform better or on par with state-of-the-art methods.
翻訳日:2022-11-01 18:20:31 公開日:2022-10-31
# QNet: 量子ネイティブシーケンスエンコーダアーキテクチャ

QNet: A Quantum-native Sequence Encoder Architecture ( http://arxiv.org/abs/2210.17262v1 )

ライセンス: Link先を確認
Wei Day, Hao-Sheng Chen, Min-Te Sun(参考訳) 本研究は,現在の量子コンピュータが自然言語処理タスクの性能を改善する方法について検討する。 この目的を達成するために、最小数の量子ビットを用いて量子コンピュータ上で完全に推論する新しいシーケンスエンコーダモデルQNetを提案した。 QNetはトークンを関連付けるアテンションメカニズムに基づいた最先端のニューラルネットワークモデルであるTransformerにインスパイアされている。 注意機構は行列乗算演算を行うために$O(n^2 \cdot d)$の時間複雑さを必要とするが、QNetは単に$O(n+d)$の量子回路深さを持ち、$n$と$d$はそれぞれシーケンスの長さと埋め込みサイズを表す。 NISQデバイスにQNetを採用するために、ResQNetは、残差接続によってリンクされた複数のQNetブロックからなる量子古典ハイブリッドモデルである。 テキスト分類,評価スコア予測,名前付きエンティティ認識など,自然言語処理タスクにおけるResQNetの評価を行った。 ResQNetは、これらすべてのタスクに対して、正確な埋め込み次元を使用して、古典的な最先端モデルよりも6%から818%のパフォーマンス向上を示す。 まとめると、この研究は自然言語処理タスクにおける量子コンピューティングの利点を示している。

This work investigates how current quantum computers can improve the performance of natural language processing tasks. To achieve this goal, we proposed QNet, a novel sequence encoder model entirely inferences on the quantum computer using a minimum number of qubits. QNet is inspired by Transformer, the state-of-the-art neural network model based on the attention mechanism to relate the tokens. While the attention mechanism requires time complexity of $O(n^2 \cdot d)$ to perform matrix multiplication operations, QNet has merely $O(n+d)$ quantum circuit depth, where $n$ and $d$ represent the length of the sequence and the embedding size, respectively. To employ QNet on the NISQ devices, ResQNet, a quantum-classical hybrid model composed of several QNet blocks linked by residual connections, is introduced. We evaluate ResQNet on various natural language processing tasks, including text classification, rating score prediction, and named entity recognition. ResQNet exhibits a 6% to 818% performance gain on all these tasks over classical state-of-the-art models using the exact embedding dimensions. In summary, this work demonstrates the advantage of quantum computing in natural language processing tasks.
翻訳日:2022-11-01 18:20:10 公開日:2022-10-31
# CausalBench: シングルセル摂動データによるネットワーク推論のための大規模ベンチマーク

CausalBench: A Large-scale Benchmark for Network Inference from Single-cell Perturbation Data ( http://arxiv.org/abs/2210.17283v1 )

ライセンス: Link先を確認
Mathieu Chevalley, Yusuf Roohani, Arash Mehrjou, Jure Leskovec, Patrick Schwab(参考訳) 細胞系における生物学的メカニズムのマッピングは、疾患関連分子標的が薬理学的介入によって効果的に調節されるかどうかの仮説を生成するのに役立つ、初期の薬物発見の基本的なステップである。 遺伝子摂動下での単一細胞遺伝子発現を高スループットで測定する手法が出現し, 因果遺伝子と遺伝子間の相互作用の証拠を大規模に生成する有効な手段が得られた。 しかし、実世界の遺伝子-遺伝子相互作用ネットワークで典型的に発生する大きさのグラフィカルネットワークの推定は、真の因果グラフの忠実性の実現と評価の両方において困難である。 さらに、摂動単細胞データにおける因果発見法を比較するための標準ベンチマークもまだ存在しない。 本稿では,大規模な摂動単細胞遺伝子発現データに基づくネットワーク推定手法を評価するためのベンチマークスイートCausalBenchを紹介する。 causorbenchは生物学的に有意義ないくつかのパフォーマンス指標を導入し、2つの大きな、キュレートされた、オープンに利用可能なベンチマークデータセットで動作し、摂動下で生成された単一細胞データから遺伝子制御ネットワークの推論方法を評価する。 CausalBenchは、介入中のnumprint{200000}トレーニングサンプルからなる実世界のデータセットを使用することで、これまでの現実世界の摂動データから因果関係を発見するための、最大規模の公開テストベッドを提供することによって、因果関係推論の進歩を促進する可能性がある。

Mapping biological mechanisms in cellular systems is a fundamental step in early-stage drug discovery that serves to generate hypotheses on what disease-relevant molecular targets may effectively be modulated by pharmacological interventions. With the advent of high-throughput methods for measuring single-cell gene expression under genetic perturbations, we now have effective means for generating evidence for causal gene-gene interactions at scale. However, inferring graphical networks of the size typically encountered in real-world gene-gene interaction networks is difficult in terms of both achieving and evaluating faithfulness to the true underlying causal graph. Moreover, standardised benchmarks for comparing methods for causal discovery in perturbational single-cell data do not yet exist. Here, we introduce CausalBench - a comprehensive benchmark suite for evaluating network inference methods on large-scale perturbational single-cell gene expression data. CausalBench introduces several biologically meaningful performance metrics and operates on two large, curated and openly available benchmark data sets for evaluating methods on the inference of gene regulatory networks from single-cell data generated under perturbations. With real-world datasets consisting of over \numprint{200000} training samples under interventions, CausalBench could potentially help facilitate advances in causal network inference by providing what is - to the best of our knowledge - the largest openly available test bed for causal discovery from real-world perturbation data to date.
翻訳日:2022-11-01 18:19:49 公開日:2022-10-31
# GPT-3を用いたゼロショットとFew-Shotテーブル質問応答に向けて

Towards Zero-Shot and Few-Shot Table Question Answering using GPT-3 ( http://arxiv.org/abs/2210.17284v1 )

ライセンス: Link先を確認
Pragya Srivastava, Tanuja Ganu and Saikat Guha(参考訳) GPT-3を用いて表データの質問応答を行うのは非常に初期の結果を示す。 事前学習したストックGPT-3は、シリアライズされたJSON配列からテーブル構造をゼロショットで学習でき、自然言語のルックアップクエリや単純な比較質問に、微調整なしで答えることができる。 さらに、数ショットの静的Q&A例を含む単純なプロンプトエンジニアリングは精度を大幅に向上させる。 最後に,異種データに対する合成文の精度がさらに向上することを示す。 このアプローチを新聞インフォグラフィックの単純な表の新しいデータセットに適用し,有望な結果を得た。 全体として、私たちはこの基本的なアプローチで楽観主義の大きな原因を見つけます。

We present very early results on using GPT-3 to perform question answering on tabular data. We find that stock pre-trained GPT-3 is able to zero-shot learn the table structure from a serialized JSON array-of-arrays representation, and able to answer lookup queries and simple comparison questions in natural language without any fine-tuning. We further find that simple prompt engineering to include few-shot static Q&A examples significantly improves accuracy. Lastly, we find that intermixing passage text improves accuracy even further on heterogeneous data. We apply our approach on a novel dataset of simple tables in newspaper infographics with promising results. Overall, we find much cause for optimism in this basic approach.
翻訳日:2022-11-01 18:19:20 公開日:2022-10-31
# GPTQ: 生成事前学習変圧器の高精度後量子化

GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers ( http://arxiv.org/abs/2210.17323v1 )

ライセンス: Link先を確認
Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh(参考訳) Generative Pre-trained Transformer (GPT) モデルは、複雑な言語モデリングタスクにまたがるブレークスルー性能と、非常に高い計算とストレージコストによって、自身を分離した。 特に、その巨大なサイズのため、大規模で高精度なGPTモデルに対する推論でさえ、実行には複数のパフォーマンスGPUを必要とする可能性があるため、そのようなモデルのユーザビリティが制限される。 モデル圧縮によるこのプレッシャーの軽減に向けた新たな取り組みがあるが、既存の圧縮技術の適用性と性能は、GPTモデルのスケールと複雑さによって制限されている。 本稿では,この課題に対処し,高正確かつ高効率な,近似的な2次情報に基づく新しい単発重量量子化法であるgptqを提案する。 特にgptqは、約4gpu時間で175億のパラメータを持つgptモデルを量子化でき、ビット幅を3ビットから4ビットに減らし、圧縮されていないベースラインと比較して精度を低下させる。 提案手法は,従来提案した1ショット量子化法と比較して圧縮ゲインを2倍以上にし,精度を保ち,単一のGPU内で175億パラメータモデルを実行することができる。 ハイエンドgpu(nvidia a100)と4倍(nvidia a6000)を使用することで、fp16よりもエンドツーエンドの推論速度を2倍程度向上できることを実験的に示します。 実装はhttps://github.com/ist-daslab/gptqで利用可能である。

Generative Pre-trained Transformer (GPT) models set themselves apart through breakthrough performance across complex language modelling tasks, but also by their extremely high computational and storage costs. Specifically, due to their massive size, even inference for large, highly-accurate GPT models may require multiple performant GPUs to execute, which limits the usability of such models. While there is emerging work on relieving this pressure via model compression, the applicability and performance of existing compression techniques is limited by the scale and complexity of GPT models. In this paper, we address this challenge, and propose GPTQ, a new one-shot weight quantization method based on approximate second-order information, that is both highly-accurate and highly-efficient. Specifically, GPTQ can quantize GPT models with 175 billion parameters in approximately four GPU hours, reducing the bitwidth down to 3 or 4 bits per weight, with negligible accuracy degradation relative to the uncompressed baseline. Our method more than doubles the compression gains relative to previously-proposed one-shot quantization methods, preserving accuracy, allowing us for the first time to execute an 175 billion-parameter model inside a single GPU. We show experimentally that these improvements can be leveraged for end-to-end inference speedups over FP16, of around 2x when using high-end GPUs (NVIDIA A100) and 4x when using more cost-effective ones (NVIDIA A6000). The implementation is available at https://github.com/IST-DASLab/gptq.
翻訳日:2022-11-01 18:19:08 公開日:2022-10-31
# 自然言語生成チャットボットにおける複数応答の効果

The Effect of Multiple Replies for Natural Language Generation Chatbots ( http://arxiv.org/abs/2210.17209v1 )

ライセンス: Link先を確認
Eason Chen(参考訳) 本研究では,グループチャットの雰囲気を作り出すために,ユーザの発話に応答することで,自然言語生成チャットボットが不適切なコンテンツで応答する可能性のある問題を緩和し,ユーザエクスペリエンスを悪化させる。 調査結果によると、ユーザーは適切な返信に注意を払い、不適切な返信を無視する傾向があります。 異なる条件下でのチャット体験を比較するために,2(single reply vs. five replylies)x2(anonymous avatar vs. anime avatar)を繰り返し測定実験を行った。 その結果,NLGモデルから複数の応答を一度に受信すると,単一の応答に比べてチャット体験が向上することがわかった。 さらに,その効果の大きさに応じて,単一応答と匿名アバターであるNLGチャットボットのチャット体験を改善するため,アニメアバターの設定よりも5つの応答が有効となる。

In this research, by responding to users' utterances with multiple replies to create a group chat atmosphere, we alleviate the problem that Natural Language Generation chatbots might reply with inappropriate content, thus causing a bad user experience. Because according to our findings, users tend to pay attention to appropriate replies and ignore inappropriate replies. We conducted a 2 (single reply vs. five replies) x 2 (anonymous avatar vs. anime avatar) repeated measures experiment to compare the chatting experience in different conditions. The result shows that users will have a better chatting experience when receiving multiple replies at once from the NLG model compared to the single reply. Furthermore, according to the effect size of our result, to improve the chatting experience for NLG chatbots which is single reply and anonymous avatar, providing five replies will have more benefits than setting an anime avatar.
翻訳日:2022-11-01 18:04:25 公開日:2022-10-31
# 画像分類課題における帰納バイアスの研究

Studying inductive biases in image classification task ( http://arxiv.org/abs/2210.17141v1 )

ライセンス: Link先を確認
Nana Arizumi(参考訳) 近年,コンピュータビジョン分野では自己注意構造が普及している。 ローカルに独立したフィルタを持ち、かつて人気があった畳み込みニューラルネットワーク(CNN)と矛盾する大きなカーネルを使用することができる。 CNNの成功は、局所性と空間的不変性のハードコード誘導バイアスに起因する。 しかし、最近の研究では、CNNの誘導バイアスは制限的すぎることが示されている。 一方,局部saネットワークでは,dw畳み込みに類似した相対的位置符号化が必要であり,sa構造は完全に空間的変異ではないことを示している。 したがって、帰納バイアスのどの部分が局所的なSA構造の成功に寄与するかを判断したい。 そこで我々は,複数のトレーニング可能なベースカーネルにアテンションマップを分解して,コンテキストアウェア(CA)パラメータを用いて蓄積する,コンテキストアウェア分解アテンション(CADA)を導入した。 こうすることで、cnnとsaネットワーク間のリンクを特定できます。 ImageNet分類タスクに適用したResNet50を用いてアブレーション研究を行った。 DW畳み込みはCNNと比較して計算コストを増大させることなく大きな局所性を持つが、精度はより大きなカーネルで飽和する。 CADAはこの特性の局所性に従う。 文脈認識は重要な特性であることがわかったが,CAパラメータの構築には大きなローカル情報が必要ではなかった。 空間的不変性は訓練を難しくするものではないが、よりリラックスした空間的不変性は厳密な空間的不変性よりも精度が高い。 また、相対的な位置符号化による強空間的不分散も好ましい。 これらの実験をダウンサンプリングのフィルタに拡張し,局所性バイアスはダウンサンプリングより重要であるが,ゆるやかな空間不変性を用いて強い局所性バイアスを除去できることを示した。

Recently, self-attention (SA) structures became popular in computer vision fields. They have locally independent filters and can use large kernels, which contradicts the previously popular convolutional neural networks (CNNs). CNNs success was attributed to the hard-coded inductive biases of locality and spatial invariance. However, recent studies have shown that inductive biases in CNNs are too restrictive. On the other hand, the relative position encodings, similar to depthwise (DW) convolution, are necessary for the local SA networks, which indicates that the SA structures are not entirely spatially variant. Hence, we would like to determine which part of inductive biases contributes to the success of the local SA structures. To do so, we introduced context-aware decomposed attention (CADA), which decomposes attention maps into multiple trainable base kernels and accumulates them using context-aware (CA) parameters. This way, we could identify the link between the CNNs and SA networks. We conducted ablation studies using the ResNet50 applied to the ImageNet classification task. DW convolution could have a large locality without increasing computational costs compared to CNNs, but the accuracy saturates with larger kernels. CADA follows this characteristic of locality. We showed that context awareness was the crucial property; however, large local information was not necessary to construct CA parameters. Even though no spatial invariance makes training difficult, more relaxed spatial invariance gave better accuracy than strict spatial invariance. Also, additional strong spatial invariance through relative position encoding was preferable. We extended these experiments to filters for downsampling and showed that locality bias is more critical for downsampling but can remove the strong locality bias using relaxed spatial invariance.
翻訳日:2022-11-01 17:55:12 公開日:2022-10-31
# LAD-RCNN:家畜の顔検出と正規化のための強力なツール

LAD-RCNN:A Powerful Tool for Livestock Face Detection and Normalization ( http://arxiv.org/abs/2210.17146v1 )

ライセンス: Link先を確認
Ling Sun, Guiqiong Liu, Junrui Liu, Xunping Jiang, Xu Wang, Han Yang and Shiping Yang(参考訳) 大規模な家畜農業の標準化と人工知能技術の発達が求められ、豚、牛、羊、その他の家畜に動物の顔認識に関する多くの研究が行われた。 顔認識は、顔検出、顔正規化、顔識別の3つのサブタスクで構成される。 動物顔認識研究の大半は、顔検出と顔識別に焦点を当てている。 動物は写真撮影時にしばしば非協力的であるため、収集された動物の顔画像はしばしば任意の方向にある。 非標準画像の使用は顔認識システムの性能を大幅に低下させる可能性がある。 しかし、任意方向の動物顔像の正規化については研究されていない。 本研究では,1段目の動物の顔の回転角と位置を検出できる新しい回転角符号化法を含む軽量な角度検出・領域ベース畳み込みネットワーク(LAD-RCNN)を開発した。 LAD-RCNNは1台のGeForce RTX 2080 Ti GPU上で72.74 FPS(全ステップを含む)のフレームレートを持つ。 lad-rcnnは、ヤギデータセットやgaot赤外線画像を含む複数のデータセットで評価されている。 その結果, 顔検出のAPは95%以上であり, 検出した回転角と地軸回転角の偏差は全試験データセットで0.036(すなわち6.48{\deg})未満であった。 この結果から,LAD-RCNNは家畜の顔と方向検出に優れており,家畜の顔検出と正常化に非常に適していることがわかった。 コードはhttps://github.com/SheepBreedingLab-HZAU/LAD-RCNN/で公開されている。

With the demand for standardized large-scale livestock farming and the development of artificial intelligence technology, a lot of research in area of animal face recognition were carried on pigs, cattle, sheep and other livestock. Face recognition consists of three sub-task: face detection, face normalizing and face identification. Most of animal face recognition study focuses on face detection and face identification. Animals are often uncooperative when taking photos, so the collected animal face images are often in arbitrary directions. The use of non-standard images may significantly reduce the performance of face recognition system. However, there is no study on normalizing of the animal face image with arbitrary directions. In this study, we developed a light-weight angle detection and region-based convolutional network (LAD-RCNN) containing a new rotation angle coding method that can detect the rotation angle and the location of animal face in one-stage. LAD-RCNN has a frame rate of 72.74 FPS (including all steps) on a single GeForce RTX 2080 Ti GPU. LAD-RCNN has been evaluated on multiple dataset including goat dataset and gaot infrared image. Evaluation result show that the AP of face detection was more than 95% and the deviation between the detected rotation angle and the ground-truth rotation angle were less than 0.036 (i.e. 6.48{\deg}) on all the test dataset. This shows that LAD-RCNN has excellent performance on livestock face and its direction detection, and therefore it is very suitable for livestock face detection and Normalizing. Code is available at https://github.com/SheepBreedingLab-HZAU/LAD-RCNN/
翻訳日:2022-11-01 17:54:45 公開日:2022-10-31
# 効率的なニューラルネットワーク探索のためのサブスペース自動実行

Automatic Subspace Evoking for Efficient Neural Architecture Search ( http://arxiv.org/abs/2210.17180v1 )

ライセンス: Link先を確認
Yaofo Chen, Yong Guo, Daihai Liao, Fanbing Lv, Hengjie Song, Mingkui Tan(参考訳) Neural Architecture Search (NAS)は、事前に定義された検索空間から効果的なアーキテクチャを自動的に見つけることを目的としている。 しかし、検索スペースは極めて大きいことが多い。 その結果、このような大きな探索空間で直接探索することは非自明であり、非常に時間がかかる。 上記の問題に対処するため,各検索ステップにおいて,検索空間を小さいが有効な部分空間に制限し,検索性能と検索効率の両立を図る。 そこで,本稿では,自動サブスペースを自動生成するサブスペースにおける有望なアーキテクチャを見つけるための,ASE-NASによるニューラルアーキテクチャ探索手法を提案する。 具体的には、まずグローバル検索、すなわち自動部分空間誘発を行い、候補の集合から良い部分空間を導き出す/探す。 そして,実効的なアーキテクチャを見つけるために,誘発部分空間内の局所探索を行う。 より重要なことは、よく設計された/調査されたアーキテクチャを初期候補部分空間とすることで、検索性能をさらに向上させることである。 大規模な実験により、ASE-NASは検索コストを大幅に削減するだけでなく、様々なベンチマーク検索空間における最先端の手法よりも優れたアーキテクチャも見出した。

Neural Architecture Search (NAS) aims to automatically find effective architectures from a predefined search space. However, the search space is often extremely large. As a result, directly searching in such a large search space is non-trivial and also very time-consuming. To address the above issues, in each search step, we seek to limit the search space to a small but effective subspace to boost both the search performance and search efficiency. To this end, we propose a novel Neural Architecture Search method via Automatic Subspace Evoking (ASE-NAS) that finds promising architectures in automatically evoked subspaces. Specifically, we first perform a global search, i.e., automatic subspace evoking, to evoke/find a good subspace from a set of candidates. Then, we perform a local search within the evoked subspace to find an effective architecture. More critically, we further boost search performance by taking well-designed/searched architectures as the initial candidate subspaces. Extensive experiments show that our ASE-NAS not only greatly reduces the search cost but also finds better architectures than state-of-the-art methods in various benchmark search spaces.
翻訳日:2022-11-01 17:54:20 公開日:2022-10-31
# CorrLoss: 影響認識のための共起ドメイン知識の統合

CorrLoss: Integrating Co-Occurrence Domain Knowledge for Affect Recognition ( http://arxiv.org/abs/2210.17233v1 )

ライセンス: Link先を確認
Ines Rieger, Jaspar Pahl, Bettina Finzel, Ute Schmid(参考訳) ニューラルネットワークは広く採用されているが、ドメイン知識の統合はまだ未利用である。 本研究では,共生顔の動きに関するドメイン知識を損失関数の制約として統合し,感情認識のためのニューラルネットワークのトレーニングを強化することを提案する。 共起パターンはデータセット間で類似する傾向があるため,本手法の適用によりモデルの一般化性が向上し,オーバーフィッティングのリスクが低くなる。 各種データセットに対するクロスデータセットテストの性能向上を示すことでこれを実証する。 また,異なる表情に対するニューラルネットワークの校正手法の適用性を示す。

Neural networks are widely adopted, yet the integration of domain knowledge is still underutilized. We propose to integrate domain knowledge about co-occurring facial movements as a constraint in the loss function to enhance the training of neural networks for affect recognition. As the co-ccurrence patterns tend to be similar across datasets, applying our method can lead to a higher generalizability of models and a lower risk of overfitting. We demonstrate this by showing performance increases in cross-dataset testing for various datasets. We also show the applicability of our method for calibrating neural networks to different facial expressions.
翻訳日:2022-11-01 17:54:01 公開日:2022-10-31
# 3次元物体検出のためのマルチカメラキャリブレーションフリーbev表現

Multi-Camera Calibration Free BEV Representation for 3D Object Detection ( http://arxiv.org/abs/2210.17252v1 )

ライセンス: Link先を確認
Hongxiang Jiang, Wenming Meng, Hongmei Zhu, Qian Zhang, Jihao Yin(参考訳) 自律運転の高度なパラダイムでは、周囲の視点からバードアイビュー(bev)表現を学ぶことはマルチタスクフレームワークにとって不可欠である。 しかし、深度推定やカメラ駆動の注意に基づく既存の手法では、ノイズの多いカメラパラメータ下での変換は安定せず、主に精度の高い深度予測とキャリブレーションという2つの課題がある。 本稿では,カメラ内在性や外在性に依存しない暗黙的マッピングの探索に焦点を当てた,ロバストなbev表現のための完全マルチカメラキャリブレーションフリートランスフォーマ(cft)を提案する。 画像ビューからBEVへのより良い特徴学習を導くため、CFTは設計した位置認識強化(PA)を通してBEVの潜在的な3D情報をマイニングする。 より効率的な領域でのインタラクションや計算コストの低減のために,カメラ駆動のポイントワイドやグローバルトランスフォーメーションの代わりに,冗長な計算を減らし,収束を促進するビューアウェアアテンションを提案する。 cftはヌースセンシング検出タスクのリーダーボード上で49.7%のndsを達成しており、これは他の幾何誘導方式に匹敵するカメラパラメータを削除する最初の作業である。 時間入力やその他のモーダル情報がなければ、CFTは1600 * 640より小さい画像入力で2番目に高い性能を達成する。 ビューアテンション変異により、CFTはバニラ注意のためのメモリとトランスフォーマーFLOPをそれぞれ約12%と60%削減し、NDSを1.0%改善した。 さらに、ノイズの多いカメラパラメータに対する自然な堅牢性により、CFTはより競争力がある。

In advanced paradigms of autonomous driving, learning Bird's Eye View (BEV) representation from surrounding views is crucial for multi-task framework. However, existing methods based on depth estimation or camera-driven attention are not stable to obtain transformation under noisy camera parameters, mainly with two challenges, accurate depth prediction and calibration. In this work, we present a completely Multi-Camera Calibration Free Transformer (CFT) for robust BEV representation, which focuses on exploring implicit mapping, not relied on camera intrinsics and extrinsics. To guide better feature learning from image views to BEV, CFT mines potential 3D information in BEV via our designed position-aware enhancement (PA). Instead of camera-driven point-wise or global transformation, for interaction within more effective region and lower computation cost, we propose a view-aware attention which also reduces redundant computation and promotes converge. CFT achieves 49.7% NDS on the nuScenes detection task leaderboard, which is the first work removing camera parameters, comparable to other geometry-guided methods. Without temporal input and other modal information, CFT achieves second highest performance with a smaller image input 1600 * 640. Thanks to view-attention variant, CFT reduces memory and transformer FLOPs for vanilla attention by about 12% and 60%, respectively, with improved NDS by 1.0%. Moreover, its natural robustness to noisy camera parameters makes CFT more competitive.
翻訳日:2022-11-01 17:53:52 公開日:2022-10-31
# 正規サンプルが少ない3次元点雲異常検出のための教師学習ネットワーク

Teacher-Student Network for 3D Point Cloud Anomaly Detection with Few Normal Samples ( http://arxiv.org/abs/2210.17258v1 )

ライセンス: Link先を確認
Jianjian Qin, Chunzhi Gu, Jun Yu, Chao Zhang(参考訳) 異常検出(英: Anomaly detection)は、コンピュータビジョンにおいて重要で一般的なトピックであり、正常な(非異常な)サンプルとは異なる異常なサンプルを検出することを目的としている。 現在の主流の手法は画像の異常検出に重点を置いているが、3Dポイントクラウドにはほとんど注目されていない。 本稿では,教師・生徒の知識伝達能力と,近年のニューラルネットワークの特徴抽出能力から着想を得た3次元異常検出のための教師・学生構造モデルを提案する。 具体的には,特徴空間アライメント,次元拡大,最大プーリングを用いてポイントクラウドの特徴を抽出し,教師と学生ネットワークが生成する特徴ベクトル間のマルチスケール損失を最小化する。 また,本手法では,教師・学生の蒸留機構により,学生のネットワークを訓練するためのサンプルはごくわずかである。 トレーニングが完了すると、教師と学生のネットワークペアを併用して、計算された異常スコアに基づいて3次元点雲異常検出を実現する。 評価のために,ShapeNet-Partデータセットの再構成手法との比較を行った。 実験結果とアブレーション研究により,本モデルが3次元異常検出における技量よりも高い性能を達成できることを定量的に,定性的に確認した。

Anomaly detection, which is a critical and popular topic in computer vision, aims to detect anomalous samples that are different from the normal (i.e., non-anomalous) ones. The current mainstream methods focus on anomaly detection for images, whereas little attention has been paid to 3D point cloud. In this paper, drawing inspiration from the knowledge transfer ability of teacher-student architecture and the impressive feature extraction capability of recent neural networks, we design a teacher-student structured model for 3D anomaly detection. Specifically, we use feature space alignment, dimension zoom, and max pooling to extract the features of the point cloud and then minimize a multi-scale loss between the feature vectors produced by the teacher and the student networks. Moreover, our method only requires very few normal samples to train the student network due to the teacher-student distillation mechanism. Once trained, the teacher-student network pair can be leveraged jointly to fulfill 3D point cloud anomaly detection based on the calculated anomaly score. For evaluation, we compare our method against the reconstruction-based method on the ShapeNet-Part dataset. The experimental results and ablation studies quantitatively and qualitatively confirm that our model can achieve higher performance compared with the state of the arts in 3D anomaly detection with very few training samples.
翻訳日:2022-11-01 17:53:26 公開日:2022-10-31
# 連続視覚言語事前学習のための生成ネガティブテキスト再生

Generative Negative Text Replay for Continual Vision-Language Pretraining ( http://arxiv.org/abs/2210.17322v1 )

ライセンス: Link先を確認
Shipeng Yan, Lanqing Hong, Hang Xu, Jianhua Han, Tinne Tuytelaars, Zhenguo Li, Xuming He(参考訳) 近年,視覚言語事前学習(VLP)が注目されている。 大量の画像テキストペアによって、コントラスト損失でトレーニングされたvlpモデルは、さまざまなタスク、特にダウンストリームデータセットのゼロショット一般化において、印象的なパフォーマンスを達成している。 しかし、実際的なアプリケーションでは、大量のデータはストリーミング形式で収集されるため、VLPモデルは入ってくるデータから新しい知識を継続的に統合し、学習知識を保持する必要がある。 本研究では,画像テキスト対データの逐次チャンクを用いたvlpモデルの学習に注目する。 このマルチモーダル連続学習環境における破滅的な忘れの問題に対処するために,まず,学習知識を良く保存するだけでなく,対照的な損失に負のサンプルの多様性を向上する,記憶中のトレーニング画像に条件付けられたハードネガティブテキストを生成する擬似テキストリプレイを導入する。 さらに,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。 我々は,概念キャプションデータセットのインスタンス分割とクラス分割の両方でモデルを段階的に事前学習し,ゼロショット画像分類と画像テキスト検索タスクでモデルを評価する。 提案手法は,既存のベースラインを高いマージンで常に上回り,その優位性を示している。 特に、クラスインクリメンタルスプリットのイメージ分類ダウンストリームデータセットでの平均パフォーマンスが$4.60\%向上していることに気付きました。

Vision-language pre-training (VLP) has attracted increasing attention recently. With a large amount of image-text pairs, VLP models trained with contrastive loss have achieved impressive performance in various tasks, especially the zero-shot generalization on downstream datasets. In practical applications, however, massive data are usually collected in a streaming fashion, requiring VLP models to continuously integrate novel knowledge from incoming data and retain learned knowledge. In this work, we focus on learning a VLP model with sequential chunks of image-text pair data. To tackle the catastrophic forgetting issue in this multi-modal continual learning setting, we first introduce pseudo text replay that generates hard negative texts conditioned on the training images in memory, which not only better preserves learned knowledge but also improves the diversity of negative samples in the contrastive loss. Moreover, we propose multi-modal knowledge distillation between images and texts to align the instance-wise prediction between old and new models. We incrementally pre-train our model on both the instance and class incremental splits of the Conceptual Caption dataset, and evaluate the model on zero-shot image classification and image-text retrieval tasks. Our method consistently outperforms the existing baselines with a large margin, which demonstrates its superiority. Notably, we realize an average performance boost of $4.60\%$ on image-classification downstream datasets for the class incremental split.
翻訳日:2022-11-01 17:53:06 公開日:2022-10-31
# Vision Transformers を用いた Max Pooling は弱教師付きセマンティックセグメンテーションにおけるクラスと形状を調整する

Max Pooling with Vision Transformers reconciles class and shape in weakly supervised semantic segmentation ( http://arxiv.org/abs/2210.17400v1 )

ライセンス: Link先を確認
Simone Rossetti (1 and 2), Damiano Zappia (1), Marta Sanzari (2), Marco Schaerf (1 and 2), Fiora Pirri (1 and 2) ((1) DeepPlants, (2) DIAG Sapienza)(参考訳) Wakly Supervised Semantic Segmentation (WSSS) 研究は、典型的なパイプラインCNNとクラスアクティベーションマップ(CAM)と改善のための多くの方向を探索してきた。 完全に教師された手法とのギャップは減るが、このフレームワーク内では、さらなる拡散が不可能に思える。 一方、ビジョントランスフォーマー(ViT)に基づくWSSS手法は、CAMの有効な代替手段をまだ検討していない。 ViTの機能はシーンレイアウトを保ち、オブジェクト境界は自己教師型学習で保持されている。 これらの事実を確認するために,自己教師法におけるトランスフォーマーの利点は,パッチ機能を利用してクラス確率で画素ラベル確率を交渉できるグローバルマックスプーリング(gmp)によってさらに強化されていることを証明した。 本研究は,CAMをベースとしない新しいWSSS手法であるViT-PCM(ViT Patch-Class Mapping)を提案する。 エンドツーエンドのネットワークは、単一の最適化プロセス、洗練された形状、セグメンテーションマスクの適切なローカライゼーションで学習する。 私たちのモデルはベースラインの擬似マスク(bpm)の最先端を上回っており、pascalvoc 2012 $val$ setで69.3\%$ miouを達成しています。 提案手法は,他の手法よりも精度は高いものの,パラメータが最小であることが判明した。 文中では,VT-PCMがCNN-CAMアーキテクチャの優れた代替品であることを示す。

Weakly Supervised Semantic Segmentation (WSSS) research has explored many directions to improve the typical pipeline CNN plus class activation maps (CAM) plus refinements, given the image-class label as the only supervision. Though the gap with the fully supervised methods is reduced, further abating the spread seems unlikely within this framework. On the other hand, WSSS methods based on Vision Transformers (ViT) have not yet explored valid alternatives to CAM. ViT features have been shown to retain a scene layout, and object boundaries in self-supervised learning. To confirm these findings, we prove that the advantages of transformers in self-supervised methods are further strengthened by Global Max Pooling (GMP), which can leverage patch features to negotiate pixel-label probability with class probability. This work proposes a new WSSS method dubbed ViT-PCM (ViT Patch-Class Mapping), not based on CAM. The end-to-end presented network learns with a single optimization process, refined shape and proper localization for segmentation masks. Our model outperforms the state-of-the-art on baseline pseudo-masks (BPM), where we achieve $69.3\%$ mIoU on PascalVOC 2012 $val$ set. We show that our approach has the least set of parameters, though obtaining higher accuracy than all other approaches. In a sentence, quantitative and qualitative results of our method reveal that ViT-PCM is an excellent alternative to CNN-CAM based architectures.
翻訳日:2022-11-01 17:52:40 公開日:2022-10-31
# 深層学習に基づく樹木の検出と径推定

Tree Detection and Diameter Estimation Based on Deep Learning ( http://arxiv.org/abs/2210.17424v1 )

ライセンス: Link先を確認
Vincent Grondin, Jean-Michel Fortin, Fran\c{c}ois Pomerleau, Philippe Gigu\`ere,(参考訳) 樹木認識は、自律林業にとって不可欠な建物である。 現在の開発では、森林の航行、木の検出、直径推定の問題を解決するためにlidarセンサーからの入力データを考慮している。 ディープラーニングアルゴリズムと組み合わせたカメラは、通常種分類や森林異常検出に対処する。 いずれの場合も、データの利用不能と森林多様性は、自律システムのディープラーニング開発を抑制する。 そこで我々は,境界ボックス,セグメンテーションマスク,キーポイント検出のための合成画像データセット43kを2つ提案し,視覚に基づく手法の可能性を評価する。 我々のデータセットでトレーニングされたディープニューラルネットワークモデルは、木検出の精度90.4%、木分割の87.2%、正確なキーポイント推定を達成する。 他のフォレストデータセットでテストする場合のモデルの一般化性と、異なるデータセットサイズとアーキテクチャの改善によるスケーラビリティを測定します。 総合的な実験結果から, 自律倒木作業や森林問題への有望な道筋が得られた。 この記事のデータセットと事前トレーニングされたモデルは、 \href{https://github.com/norlab-ulaval/perceptreev1}{github} (https://github.com/norlab-ulaval/perceptreev1)で公開されている。

Tree perception is an essential building block toward autonomous forestry operations. Current developments generally consider input data from lidar sensors to solve forest navigation, tree detection and diameter estimation problems. Whereas cameras paired with deep learning algorithms usually address species classification or forest anomaly detection. In either of these cases, data unavailability and forest diversity restrain deep learning developments for autonomous systems. So, we propose two densely annotated image datasets - 43k synthetic, 100 real - for bounding box, segmentation mask and keypoint detections to assess the potential of vision-based methods. Deep neural network models trained on our datasets achieve a precision of 90.4% for tree detection, 87.2% for tree segmentation, and centimeter accurate keypoint estimations. We measure our models' generalizability when testing it on other forest datasets, and their scalability with different dataset sizes and architectural improvements. Overall, the experimental results offer promising avenues toward autonomous tree felling operations and other applied forestry problems. The datasets and pre-trained models in this article are publicly available on \href{https://github.com/norlab-ulaval/PercepTreeV1}{GitHub} (https://github.com/norlab-ulaval/PercepTreeV1).
翻訳日:2022-11-01 17:52:09 公開日:2022-10-31
# ユニバーサルドメイン適応のための統一最適輸送フレームワーク

Unified Optimal Transport Framework for Universal Domain Adaptation ( http://arxiv.org/abs/2210.17067v1 )

ライセンス: Link先を確認
Wanxing Chang, Ye Shi, Hoang Duong Tuan, Jingya Wang(参考訳) Universal Domain Adaptation (UniDA) は、ソースドメインからターゲットドメインに、ラベルセットに制約を加えることなく知識を転送することを目的としている。 両方のドメインがプライベートクラスを持つ可能性があるので、ドメインアライメントのためのターゲットの共通サンプルを特定することは、UniDAにとって重要な問題である。 既存の手法の多くは、共通サンプルを検出するために手動で指定または手動のしきい値を必要とするため、共通クラスの割合が多様であるため、より現実的なUniDAに拡張することは困難である。 さらに、これらのプライベートサンプルを全体として扱うため、ターゲットプライベートサンプル間で異なるカテゴリを認識することはできない。 本稿では,これらの問題を統一されたフレームワーク,すなわち UniOT で処理するために Optimal Transport (OT) を提案する。 まず,適応充填を用いたOTベースの部分アライメントにより,現実的UniDAのしきい値のない共通クラスを検出する。 OTから得られた代入行列の統計情報に基づいて,共通クラスと私クラスの固有差を自動的に検出する。 第2に,サンプルのグローバルな識別と局所的な一貫性の両立を促すOTに基づくターゲット表現学習を提案する。 特に、UniOTは、UniDAのターゲットドメイン内のプライベートカテゴリを自動的に検出し、認識する機能を持つ最初の方法である。 そこで我々は,共通サンプルの精度とプライベートサンプルのクラスタリング性能の両面から評価するために,新しい計量H^3スコアを導入した。 広範な実験は、UniDAの幅広い最先端手法に対するUniOTの利点を明らかに示している。

Universal Domain Adaptation (UniDA) aims to transfer knowledge from a source domain to a target domain without any constraints on label sets. Since both domains may hold private classes, identifying target common samples for domain alignment is an essential issue in UniDA. Most existing methods require manually specified or hand-tuned threshold values to detect common samples thus they are hard to extend to more realistic UniDA because of the diverse ratios of common classes. Moreover, they cannot recognize different categories among target-private samples as these private samples are treated as a whole. In this paper, we propose to use Optimal Transport (OT) to handle these issues under a unified framework, namely UniOT. First, an OT-based partial alignment with adaptive filling is designed to detect common classes without any predefined threshold values for realistic UniDA. It can automatically discover the intrinsic difference between common and private classes based on the statistical information of the assignment matrix obtained from OT. Second, we propose an OT-based target representation learning that encourages both global discrimination and local consistency of samples to avoid the over-reliance on the source. Notably, UniOT is the first method with the capability to automatically discover and recognize private categories in the target domain for UniDA. Accordingly, we introduce a new metric H^3-score to evaluate the performance in terms of both accuracy of common samples and clustering performance of private ones. Extensive experiments clearly demonstrate the advantages of UniOT over a wide range of state-of-the-art methods in UniDA.
翻訳日:2022-11-01 17:43:54 公開日:2022-10-31
# インテリジェント・ペインティング:拡散モデルを用いた画像合成

Intelligent Painter: Picture Composition With Resampling Diffusion Model ( http://arxiv.org/abs/2210.17106v1 )

ライセンス: Link先を確認
Wing-Fung Ku, Wan-Chi Siu, Xi Cheng, H. Anthony Chan(参考訳) あなたは知的な画家になれると 思ったことがありますか? これは、いくつかの期待されるオブジェクトを念頭に置いて、あるいは望ましいシーンで絵を描くことができることを意味する。 これは、特定のオブジェクトの位置を決定できない通常のペイントアプローチとは異なる。 本稿では,ある人物の想像上の場面を一行で生成する知的画家について,明示的なヒントを与える。 本研究では,特定の場所で明示的なランドマーク入力を注入することにより,高調波画像を構成するための拡散確率モデル(DDPM)の再サンプリング手法を提案する。 拡散特性を利用して効率よく再サンプリングし,現実的な画像を生成する。 実験結果から,本手法は効率よく生成した出力の意味を選好し,ぼやけた出力を生成する。 画像品質評価の定量的解析は,最先端の手法と比較して高い知覚的品質画像を生成することを示す。

Have you ever thought that you can be an intelligent painter? This means that you can paint a picture with a few expected objects in mind, or with a desirable scene. This is different from normal inpainting approaches for which the location of specific objects cannot be determined. In this paper, we present an intelligent painter that generate a person's imaginary scene in one go, given explicit hints. We propose a resampling strategy for Denoising Diffusion Probabilistic Model (DDPM) to intelligently compose harmonized scenery images by injecting explicit landmark inputs at specific locations. By exploiting the diffusion property, we resample efficiently to produce realistic images. Experimental results show that our resampling method favors the semantic meaning of the generated output efficiently and generate less blurry output. Quantitative analysis of image quality assessment shows that our method produces higher perceptual quality images compared with the state-of-the-art methods.
翻訳日:2022-11-01 17:43:29 公開日:2022-10-31
# ViT-LSLA:光自己制限型視覚変換器

ViT-LSLA: Vision Transformer with Light Self-Limited-Attention ( http://arxiv.org/abs/2210.17115v1 )

ライセンス: Link先を確認
Zhenzhe Hechen, Wei Huang, Yixin Zhao(参考訳) トランスフォーマーは幅広いビジョンタスクで競合性能を示してきたが、グローバル・セルフ・アテンションを計算するのは非常に高価である。 多くのメソッドは、計算の複雑さを減らすためにローカルウィンドウ内の注意の範囲を制限する。 しかし、それらのアプローチはパラメータの数を節約できない。一方、自己アテンションと内位置バイアス(ソフトマックス関数の内側)は、各クエリが類似したクローズパッチにフォーカスする。 そこで本稿では,計算コストとパラメータ数を削減する軽量自己保持機構 (LSA) と,性能向上のための自己拘束機構 (SLA) からなる軽量自己保持機構 (LSLA) を提案する。 まず LSA は、自己注意の K (Key) と V (Value) を X (origin input) に置き換える。 エンコーダアーキテクチャと自己アテンション機構を持つトランスフォーマーを視覚に応用すれば、計算が簡単になる。 第2に、SLAは位置情報モジュールと限定アテンションモジュールを有する。 前者は、自己注意スコアの分布を調整し、位置情報を強化するための動的スケールと内位置バイアスを含む。 後者はソフトマックス関数の後の位置バイアスを利用して、注意重みの大きい値を制限する。 最後に、光自己拘束型階層型視覚変換器(ViT-LSLA)について述べる。 実験の結果、IP102ではVT-LSLAが71.6%(Swin-Tでは2.4%)、Mini-ImageNetでは87.2%(Swin-Tでは3.7%)であることがわかった。 さらに、FLOP(3.5GFLOPs vs. 4.5GFLOPs of Swin-T)とパラメータ(18.9M vs. 27.6M of Swin-T)を大幅に削減する。

Transformers have demonstrated a competitive performance across a wide range of vision tasks, while it is very expensive to compute the global self-attention. Many methods limit the range of attention within a local window to reduce computation complexity. However, their approaches cannot save the number of parameters; meanwhile, the self-attention and inner position bias (inside the softmax function) cause each query to focus on similar and close patches. Consequently, this paper presents a light self-limited-attention (LSLA) consisting of a light self-attention mechanism (LSA) to save the computation cost and the number of parameters, and a self-limited-attention mechanism (SLA) to improve the performance. Firstly, the LSA replaces the K (Key) and V (Value) of self-attention with the X(origin input). Applying it in vision Transformers which have encoder architecture and self-attention mechanism, can simplify the computation. Secondly, the SLA has a positional information module and a limited-attention module. The former contains a dynamic scale and an inner position bias to adjust the distribution of the self-attention scores and enhance the positional information. The latter uses an outer position bias after the softmax function to limit some large values of attention weights. Finally, a hierarchical Vision Transformer with Light self-Limited-attention (ViT-LSLA) is presented. The experiments show that ViT-LSLA achieves 71.6% top-1 accuracy on IP102 (2.4% absolute improvement of Swin-T); 87.2% top-1 accuracy on Mini-ImageNet (3.7% absolute improvement of Swin-T). Furthermore, it greatly reduces FLOPs (3.5GFLOPs vs. 4.5GFLOPs of Swin-T) and parameters (18.9M vs. 27.6M of Swin-T).
翻訳日:2022-11-01 17:43:14 公開日:2022-10-31
# 1Cademy @ Causal News Corpus 2022: ビームサーチによる位置選択器による因果検出

1Cademy @ Causal News Corpus 2022: Enhance Causal Span Detection via Beam-Search-based Position Selector ( http://arxiv.org/abs/2210.17157v1 )

ライセンス: Link先を確認
Xingran Chen, Ge Zhang, Adam Nik, Mingyu Li, Jie Fu(参考訳) 本稿では,ケース2022における共有タスク3~\cite{tan-etal-2022-event}のサブタスク2の因果効果信号スパン検出に対するアプローチと実証観測について述べる。 共有タスクは、与えられた因果文から原因、効果、信号スパンを抽出することを目的としている。 本稿では,タスクを読み取り理解(RC)問題としてモデル化し,トークンレベルRCベースのスパン予測パラダイムをベースラインとして適用する。 性能改善のための言語モデル(LM)に基づくデータ拡張(DA)トリックと同様に、モデルを微調整するための異なるトレーニング目標を検討する。 さらに,スパン検出の欠点に起因して,効率的なビーム探索後処理戦略を提案し,さらなる性能向上を図る。 提案手法は,CASEコンペティションにおける平均F_1$スコア54.15とtextbf{$1^{st}$}をランク付けする。 我々のコードは \url{https://github.com/Gzhang-umich/1CademyTeamOfCASE} で利用可能です。

In this paper, we present our approach and empirical observations for Cause-Effect Signal Span Detection -- Subtask 2 of Shared task 3~\cite{tan-etal-2022-event} at CASE 2022. The shared task aims to extract the cause, effect, and signal spans from a given causal sentence. We model the task as a reading comprehension (RC) problem and apply a token-level RC-based span prediction paradigm to the task as the baseline. We explore different training objectives to fine-tune the model, as well as data augmentation (DA) tricks based on the language model (LM) for performance improvement. Additionally, we propose an efficient beam-search post-processing strategy to due with the drawbacks of span detection to obtain a further performance gain. Our approach achieves an average $F_1$ score of 54.15 and ranks \textbf{$1^{st}$} in the CASE competition. Our code is available at \url{https://github.com/Gzhang-umich/1CademyTeamOfCASE}.
翻訳日:2022-11-01 17:19:13 公開日:2022-10-31
# テレポーテーション・ネガを用いた高密度検索訓練における壊滅的記憶の軽減

Reduce Catastrophic Forgetting of Dense Retrieval Training with Teleportation Negatives ( http://arxiv.org/abs/2210.17167v1 )

ライセンス: Link先を確認
Si Sun, Chenyan Xiong, Yue Yu, Arnold Overwijk, Zhiyuan Liu, Jie Bao(参考訳) 本稿では, モデル学習とハード・ネガティブ・セレクションを繰り返す標準高密度検索訓練の不安定性について, 学習中モデルを用いて検討する。 モデルが異なる負のグループを学習し、トレーニングイテレーション中に忘れるという、トレーニング不安定の背後にある破滅的な忘れる現象を示す。 次に,過去の反復からのモーメント負を蓄積し,ルックアヘッド負を用いた将来のイテレーションを学習プロセスを円滑にするための時間軸に沿った「テレポーテーション」として近似するance-teleを提案する。 Web検索とOpenQAでは、ANCE-Teleは、類似したサイズの最先端システムよりも優れており、スパース検索の負の依存性を排除し、より多くの(50倍)パラメータを使用するシステム間で競合する。 本研究では, テレポーテーション陰性が壊滅的な記憶を減少させ, コンバージェンス速度を向上させることを示す。 私たちのコードはhttps://github.com/openmatch/ance-teleで利用可能です。

In this paper, we investigate the instability in the standard dense retrieval training, which iterates between model training and hard negative selection using the being-trained model. We show the catastrophic forgetting phenomena behind the training instability, where models learn and forget different negative groups during training iterations. We then propose ANCE-Tele, which accumulates momentum negatives from past iterations and approximates future iterations using lookahead negatives, as "teleportations" along the time axis to smooth the learning process. On web search and OpenQA, ANCE-Tele outperforms previous state-of-the-art systems of similar size, eliminates the dependency on sparse retrieval negatives, and is competitive among systems using significantly more (50x) parameters. Our analysis demonstrates that teleportation negatives reduce catastrophic forgetting and improve convergence speed for dense retrieval training. Our code is available at https://github.com/OpenMatch/ANCE-Tele.
翻訳日:2022-11-01 17:18:53 公開日:2022-10-31
# pneg:対話応答選択タスクのためのプロンプトに基づく否定応答生成

Pneg: Prompt-based Negative Response Generation for Dialogue Response Selection Task ( http://arxiv.org/abs/2210.17238v1 )

ライセンス: Link先を確認
Nyoungwoo Lee, ChaeHun Park, Ho-Jin Choi, and Jaegul Choo(参考訳) 検索に基づく対話システムでは、応答選択モデルがランサーとして機能し、複数の候補の中から最も適切な応答を選択する。 しかし、このような選択モデルは文脈応答の類似性に頼りがちであり、意味的に類似するが対話の文脈に関係しない敵の反応に対して脆弱なモデルとなる。 近年の研究では、これらの逆応答を負のトレーニングサンプルとして利用することは、選択モデルの識別能力を向上させるのに有用であることが示されている。 それでも、人間による逆応答の収集は高価であり、既存の合成手法はスケーラビリティに乏しいことが多い。 これらの制約を克服するために,大規模言語モデルを利用した対向的負の応答生成法を提案する。 対話選択タスクの実験結果から,本手法は他の逆負応答合成法よりも優れていた。 これらの結果から,本手法はヒトのアノテータに有効な代替手段である可能性が示唆された。 私たちのデータセットと生成コードは、https://github.com/leenw23/generating-negatives-by-gpt3で利用可能です。

In retrieval-based dialogue systems, a response selection model acts as a ranker to select the most appropriate response among several candidates. However, such selection models tend to rely on context-response content similarity, which makes models vulnerable to adversarial responses that are semantically similar but not relevant to the dialogue context. Recent studies have shown that leveraging these adversarial responses as negative training samples is useful for improving the discriminating power of the selection model. Nevertheless, collecting human-written adversarial responses is expensive, and existing synthesizing methods often have limited scalability. To overcome these limitations, this paper proposes a simple but efficient method for generating adversarial negative responses leveraging a large-scale language model. Experimental results on dialogue selection tasks show that our method outperforms other methods of synthesizing adversarial negative responses. These results suggest that our method can be an effective alternative to human annotators in generating adversarial responses. Our dataset and generation code is available at https://github.com/leenw23/generating-negatives-by-gpt3.
翻訳日:2022-11-01 17:18:32 公開日:2022-10-31
# t5を用いた自然言語推論のための効果的なクロスタスク転送学習

Effective Cross-Task Transfer Learning for Explainable Natural Language Inference with T5 ( http://arxiv.org/abs/2210.17301v1 )

ライセンス: Link先を確認
Irina Bigoulaeva, Rachneet Sachdeva, Harish Tayyar Madabushi, Aline Villavicencio and Iryna Gurevych(参考訳) 連続的な微調整とマルチタスク学習のモデルを比較し,2つのタスクのパフォーマンス向上に関心がある状況において,その一方が他方に依存している。 これらのモデルをFigLang2022共有タスクでテストし、このタスクでは、参加者は、図形言語上の言語推論ラベルを、対応するテキストによる推論予測と合わせて予測する必要がある。 その結果,2つの対象タスクの1つで逐次的マルチタスク学習をチューニングできるが,2つ目では性能が低下し,さらにオーバーフィットに苦しむことが分かった。 以上の結果から,テキスト対テキストモデルの単純な逐次的微調整は,複数の相互依存的目標を同時に予測しながら,タスク間の知識伝達を行うための極めて強力な手法であることが示された。 ですから,私たちの最高のモデルは,そのタスクで最高のスコアを獲得しました。

We compare sequential fine-tuning with a model for multi-task learning in the context where we are interested in boosting performance on two tasks, one of which depends on the other. We test these models on the FigLang2022 shared task which requires participants to predict language inference labels on figurative language along with corresponding textual explanations of the inference predictions. Our results show that while sequential multi-task learning can be tuned to be good at the first of two target tasks, it performs less well on the second and additionally struggles with overfitting. Our findings show that simple sequential fine-tuning of text-to-text models is an extraordinarily powerful method for cross-task knowledge transfer while simultaneously predicting multiple interdependent targets. So much so, that our best model achieved the (tied) highest score on the task.
翻訳日:2022-11-01 17:18:14 公開日:2022-10-31
# 要約データセットの妥当性の疑問と事実整合性の改善

Questioning the Validity of Summarization Datasets and Improving Their Factual Consistency ( http://arxiv.org/abs/2210.17378v1 )

ライセンス: Link先を確認
Yanzhu Guo, Chlo\'e Clavel, Moussa Kamal Eddine and Michalis Vazirgiannis(参考訳) 近年,抽象的な要約システムの急速な発展により,要約評価の話題が注目されている。 しかし、タスクの定式化は曖昧であり、言語や自然言語処理コミュニティは相互に合意された定義を与えることに成功したわけではない。 この明確に定義された定式化の欠如により、多くの一般的な抽象要約データセットが、正当性を保証せず、また要約の最も重要な基準の1つである事実整合性を満たさない方法で構築される。 本稿では、現状の事実整合性モデルを組み合わせて、一般的な要約データセットに存在する問題事例を特定する。 SummFCは、事実整合性を改善したフィルタリング要約データセットであり、このデータセットでトレーニングされたモデルは、ほぼ全ての品質面において、パフォーマンスを向上させることを実証する。 我々は,データセットが要約システムの開発と評価のための有効なベンチマークとなるべきだと論じている。

The topic of summarization evaluation has recently attracted a surge of attention due to the rapid development of abstractive summarization systems. However, the formulation of the task is rather ambiguous, neither the linguistic nor the natural language processing community has succeeded in giving a mutually agreed-upon definition. Due to this lack of well-defined formulation, a large number of popular abstractive summarization datasets are constructed in a manner that neither guarantees validity nor meets one of the most essential criteria of summarization: factual consistency. In this paper, we address this issue by combining state-of-the-art factual consistency models to identify the problematic instances present in popular summarization datasets. We release SummFC, a filtered summarization dataset with improved factual consistency, and demonstrate that models trained on this dataset achieve improved performance in nearly all quality aspects. We argue that our dataset should become a valid benchmark for developing and evaluating summarization systems.
翻訳日:2022-11-01 17:17:57 公開日:2022-10-31
# 名前付きエンティティを含む実テキストにおける意味的ノベルティ検出と特徴付け

Semantic Novelty Detection and Characterization in Factual Text Involving Named Entities ( http://arxiv.org/abs/2210.17440v1 )

ライセンス: Link先を確認
Nianzu Ma, Sahisnu Mazumder, Alexander Politowicz, Bing Liu, Eric Robertson, Scott Grigsby(参考訳) テキストの新規性検出に関する既存の研究の多くは、トピックレベルで研究されている。 細かな意味レベル(あるいは文脈レベルでの作業はほとんど行われていません。 例えば、イーロン・マスクがテクノロジー企業のCEOであることを考えると、「エロン・マスクがシットコム『ビッグバン理論』で演じた」という文は、普通はCEOが俳優にならないので、新しく驚きます。 既存のトピックに基づくノベルティ検出手法は,テキスト中の名前付きエンティティとその背景知識の関係に関する意味的推論を行なわないため,この問題には不十分である。 本稿では,この問題を解決するための効果的なモデル(PAT-SND)を提案する。 注釈付きデータセットも作成される。 PAT-SNDは10基線よりも大きなマージンで優れていた。

Much of the existing work on text novelty detection has been studied at the topic level, i.e., identifying whether the topic of a document or a sentence is novel or not. Little work has been done at the fine-grained semantic level (or contextual level). For example, given that we know Elon Musk is the CEO of a technology company, the sentence "Elon Musk acted in the sitcom The Big Bang Theory" is novel and surprising because normally a CEO would not be an actor. Existing topic-based novelty detection methods work poorly on this problem because they do not perform semantic reasoning involving relations between named entities in the text and their background knowledge. This paper proposes an effective model (called PAT-SND) to solve the problem, which can also characterize the novelty. An annotated dataset is also created. Evaluation shows that PAT-SND outperforms 10 baselines by large margins.
翻訳日:2022-11-01 17:17:42 公開日:2022-10-31
# MixMT 2022におけるコードスイッチトMTのためのドメインキュリキュラ

Domain Curricula for Code-Switched MT at MixMT 2022 ( http://arxiv.org/abs/2210.17463v1 )

ライセンス: Link先を確認
Lekan Raheem and Maab Elrashid(参考訳) 多言語の口語環境では、異なる言語のトークンやフレーズを含むテキストや音声の表現を構成する習慣的な発生であり、コードスイッチやコードミックス(cmx)として知られる現象である。 我々は、wmt 2022において、コード混合機械翻訳(mixmt)共有タスクのアプローチと結果について述べる: このタスクは、モノリンガルからコード混合機械翻訳(subtask-1)と、コード混合からモノリンガルへの機械翻訳(subtask-2)の2つのサブタスクから構成される。 非合成のコード混合データのほとんどはソーシャルメディアからのものですが、この種のデータ収集にはかなりの労力がかかり、この形式のデータは他のドメインよりも書き込みのバリエーションが多いため、両方のサブタスクにおいて、ドメイン外データのスケジュールを実験しました。 事前学習と微調整により,文章の複数の領域を学習し,文のアライメント目標と組み合わせる。 ドメイン間の切り替えによって、トレーニングの最初期に見られたドメインのパフォーマンスが向上したが、残りのドメインのパフォーマンスは損なわれた。 異なるドメインのデータを戦略的に提供した継続的トレーニング実行は、微調整よりも大幅にパフォーマンスが向上した。

In multilingual colloquial settings, it is a habitual occurrence to compose expressions of text or speech containing tokens or phrases of different languages, a phenomenon popularly known as code-switching or code-mixing (CMX). We present our approach and results for the Code-mixed Machine Translation (MixMT) shared task at WMT 2022: the task consists of two subtasks, monolingual to code-mixed machine translation (Subtask-1) and code-mixed to monolingual machine translation (Subtask-2). Most non-synthetic code-mixed data are from social media but gathering a significant amount of this kind of data would be laborious and this form of data has more writing variation than other domains, so for both subtasks, we experimented with data schedules for out-of-domain data. We jointly learn multiple domains of text by pretraining and fine-tuning, combined with a sentence alignment objective. We found that switching between domains caused improved performance in the domains seen earliest during training, but depleted the performance on the remaining domains. A continuous training run with strategically dispensed data of different domains showed a significantly improved performance over fine-tuning.
翻訳日:2022-11-01 17:17:27 公開日:2022-10-31
# 慢性痛患者物語は現在の痛みの強さを推定できる

Chronic pain patient narratives allow for the estimation of current pain intensity ( http://arxiv.org/abs/2210.17473v1 )

ライセンス: Link先を確認
Diogo A.P. Nunes, Joana Ferreira-Gomes, Carlos Vaz, Daniela Oliveira, Sofia Pimenta, Fani Neto and David Martins de Matos(参考訳) 慢性的な痛みは多次元的な経験であり、痛みの強さは患者の感情バランス、心理学、行動に影響を及ぼす。 痛みに対するvisual analogue scaleのような標準的な自己報告ツールは、これらの影響を捉えられません。 さらに、これらのツールは、患者が使う方法、社会的バイアス、複雑な経験をスケールに翻訳する能力を明確に理解することに依存する、主観的度合いの程度に影響を受けやすい。 これらとその他の自己報告課題を克服するために、表情、脳波、脳画像、自律神経機能に基づく痛み強度の推定が以前に研究されてきた。 しかし、我々の知る限りでは、慢性的な痛みの個人的な経験を患者に物語化させることが試みられず、これが本研究で提案されているものである。 実際、慢性的な痛みの臨床的評価と管理において、言語、社会文化的、精神社会的変数が絡み合っているため、言語コミュニケーションは、標準の報告ツールで容易にアクセスできない医師に情報を伝えるのに不可欠である。 患者ナラティブからの言語特徴は,痛みの強さ推定に関連する情報を実際に伝達し,計算モデルがそれを活用できることを示す。 具体的には, 軽度痛の患者は動詞の使用に重点を置いているのに対し, 中等度および重度痛の患者は副詞, 名詞, 形容詞に焦点を合わせており, これらの違いはこれら3つの痛みのクラスを区別できることを示している。

Chronic pain is a multi-dimensional experience, and pain intensity plays an important part, impacting the patients emotional balance, psychology, and behaviour. Standard self-reporting tools, such as the Visual Analogue Scale for pain, fail to capture these impacts. Moreover, these tools are susceptible to a degree of subjectivity, dependent on the patients clear understanding of how to use them, social biases, and their ability to translate a complex experience to a scale. To overcome these and other self-reporting challenges, pain intensity estimation has been previously studied based on facial expressions, electroencephalograms, brain imaging, and autonomic features. However, to the best of our knowledge, it has never been attempted to base this estimation on the patient narratives of the personal experience of chronic pain, which is what we propose in this work. Indeed, in the clinical assessment and management of chronic pain, verbal communication is essential to convey information to physicians that would otherwise not be easily accessible through standard reporting tools, since language, sociocultural, and psychosocial variables are intertwined. We show that language features from patient narratives indeed convey information relevant for pain intensity estimation, and that our computational models can take advantage of that. Specifically, our results show that patients with mild pain focus more on the use of verbs, whilst moderate and severe pain patients focus on adverbs, and nouns and adjectives, respectively, and that these differences allow for the distinction between these three pain classes.
翻訳日:2022-11-01 17:17:05 公開日:2022-10-31
# クローズドブック長文質問応答のためのクエリリファインメントプロンプト

Query Refinement Prompts for Closed-Book Long-Form Question Answering ( http://arxiv.org/abs/2210.17525v1 )

ライセンス: Link先を確認
Reinald Kim Amplayo, Kellie Webster, Michael Collins, Dipanjan Das, Shashi Narayan(参考訳) 大規模言語モデル(LLM)は、質問への回答や長い形式のテキストの生成において、どちらも数ショットのクローズドブック設定でうまく機能することが示されている。 前者はよく知られた評価指標を使って検証できるが、後者は評価が難しい。 両タスクを同時に実行することで、ロングフォームなアウトプットを評価することの難しさを解消し、ロングフォームな回答を必要とする質問に答える。 このような質問は多面的になりがちで、曖昧さや複数の情報源からの情報を必要とする。 この目的を達成するために、llmが質問の多面性を明確に表現し、質問の複数の面をカバーする長文の回答を生成するクエリ改善プロンプトを定義する。 AsQA と AQuAMuSe という2つの長文質問応答データセットに対する実験により,クローズドブック設定における完全微調整モデルよりも優れ,検索可能なオープンブックモデルに匹敵する結果が得られることを示した。

Large language models (LLMs) have been shown to perform well in answering questions and in producing long-form texts, both in few-shot closed-book settings. While the former can be validated using well-known evaluation metrics, the latter is difficult to evaluate. We resolve the difficulties to evaluate long-form output by doing both tasks at once -- to do question answering that requires long-form answers. Such questions tend to be multifaceted, i.e., they may have ambiguities and/or require information from multiple sources. To this end, we define query refinement prompts that encourage LLMs to explicitly express the multifacetedness in questions and generate long-form answers covering multiple facets of the question. Our experiments on two long-form question answering datasets, ASQA and AQuAMuSe, show that using our prompts allows us to outperform fully finetuned models in the closed book setting, as well as achieve results comparable to retrieve-then-generate open-book models.
翻訳日:2022-11-01 17:16:37 公開日:2022-10-31
# 副語置換による変圧器に対する文字レベルホワイトボックス攻撃

Character-level White-Box Adversarial Attacks against Transformers via Attachable Subwords Substitution ( http://arxiv.org/abs/2210.17004v1 )

ライセンス: Link先を確認
Aiwei Liu, Honghai Yu, Xuming Hu, Shu'ang Li, Li Lin, Fukun Ma, Yawen Yang, Lijie Wen(参考訳) トランスフォーマーモデルに対する最初の文字レベルホワイトボックス攻撃法を提案する。 本手法の直観は, 単語をトランスフォーマモデルに流す前にサブトケンに分割し, 2つの近接サブトケン間の置換がキャラクタ修飾に類似した効果を持つという観察から得られた。 本手法は主に3つのステップを含む。 まず、文中の最も脆弱な単語を見つけるために勾配に基づく手法を採用する。 次に,選択した単語をサブトークンに分割し,トランスフォーマーのトークン化結果を置き換える。 最後に,Gumbel-softmax の手法を導入して勾配伝播を確実にするアタッチ可能なサブトークンの置換を誘導するために,逆損失を利用する。 一方,最小文字修正を実現するため,最適化プロセスにおいて視覚と長さの制約を導入する。 文レベルのタスクとトークンレベルのタスクの両方について広範な実験を行った結果,提案手法が従来の攻撃手法よりも成功率と編集距離の点で優れていた。 さらに、人間の評価は、我々の敵の例が原産地のラベルを保存できることを検証する。

We propose the first character-level white-box adversarial attack method against transformer models. The intuition of our method comes from the observation that words are split into subtokens before being fed into the transformer models and the substitution between two close subtokens has a similar effect to the character modification. Our method mainly contains three steps. First, a gradient-based method is adopted to find the most vulnerable words in the sentence. Then we split the selected words into subtokens to replace the origin tokenization result from the transformer tokenizer. Finally, we utilize an adversarial loss to guide the substitution of attachable subtokens in which the Gumbel-softmax trick is introduced to ensure gradient propagation. Meanwhile, we introduce the visual and length constraint in the optimization process to achieve minimum character modifications. Extensive experiments on both sentence-level and token-level tasks demonstrate that our method could outperform the previous attack methods in terms of success rate and edit distance. Furthermore, human evaluation verifies our adversarial examples could preserve their origin labels.
翻訳日:2022-11-01 17:09:24 公開日:2022-10-31
# gps: 遺伝的プロンプトによる効率的なマイノリティ学習

GPS: Genetic Prompt Search for Efficient Few-shot Learning ( http://arxiv.org/abs/2210.17041v1 )

ライセンス: Link先を確認
Hanwei Xu, Yujun Chen, Yulun Du, Nan Shao, Yanggang Wang, Haiyu Li, Zhilin Yang(参考訳) Promptベースの技術は、事前訓練された言語モデルの数ショットの一般化を改善する大きな可能性を実証している。 しかし、その性能はプロンプトの手動設計に大きく依存しており、多くの人的努力を必要とする。 本稿では,遺伝的アルゴリズムを用いて高パフォーマンスプロンプトの自動検索を行う,プロンプトを用いたマイズショット学習を改善するための遺伝的プロンプト検索(gps)を提案する。 GPSは勾配のないため、モデルパラメータを更新する必要はなく、小さな検証セットのみである。 多様なデータセットの実験によりGPSの有効性が証明され、2.6ポイントの差で手動のプロンプトを上回った。 また,提案手法は,プロンプトチューニングなどのパラメータ効率の良いチューニング手法よりも優れている。

Prompt-based techniques have demostrated great potential for improving the few-shot generalization of pretrained language models. However, their performance heavily relies on the manual design of prompts and thus requires a lot of human efforts. In this paper, we introduce Genetic Prompt Search (GPS) to improve few-shot learning with prompts, which utilizes a genetic algorithm to automatically search for high-performing prompts. GPS is gradient-free and requires no update of model parameters but only a small validation set. Experiments on diverse datasets proved the effectiveness of GPS, which outperforms manual prompts by a large margin of 2.6 points. Our method is also better than other parameter-efficient tuning methods such as prompt tuning.
翻訳日:2022-11-01 17:09:03 公開日:2022-10-31
# RLET: 拡張学習に基づく説明可能なQAのための拡張学習アプローチ

RLET: A Reinforcement Learning Based Approach for Explainable QA with Entailment Trees ( http://arxiv.org/abs/2210.17095v1 )

ライセンス: Link先を確認
Tengxiao Liu, Qipeng Guo, Xiangkun Hu, Yue Zhang, Xipeng Qiu and Zheng Zhang(参考訳) 質問から回答への推論プロセスの解釈は、説明可能なQAに近づく上での課題である。 最近提案された構造的推論形式であるentailment treeは、ツリー構造にentailment stepsを持つ明示的な論理的推論を提供する。 包含木を生成するために、先行する単一パスシーケンスからシーケンスへのモデルは、可視的な内部決定確率を欠き、ステップワイズアプローチは抽出された単一ステップデータに監督され、ツリー全体をモデル化できない。 本研究では,木全体にわたる累積信号の活用を訓練した強化学習ベースのEntailment Tree生成フレームワークであるRLETを提案する。 RLETは、文選択と推論生成モジュールによる単一ステップ推論を反復的に実行し、そこからトレーニング信号が木全体に蓄積され、評価と整合した精巧に設計されたアライメント報酬関数を持つ。 我々の知識を最大限に活用するために、我々はまずRLをentailment tree generationタスクに導入する。 entailmentbankデータセットの3つの設定の実験は、rlフレームワークの使用の強さを示しています。

Interpreting the reasoning process from questions to answers poses a challenge in approaching explainable QA. A recently proposed structured reasoning format, entailment tree, manages to offer explicit logical deductions with entailment steps in a tree structure. To generate entailment trees, prior single pass sequence-to-sequence models lack visible internal decision probability, while stepwise approaches are supervised with extracted single step data and cannot model the tree as a whole. In this work, we propose RLET, a Reinforcement Learning based Entailment Tree generation framework, which is trained utilising the cumulative signals across the whole tree. RLET iteratively performs single step reasoning with sentence selection and deduction generation modules, from which the training signal is accumulated across the tree with elaborately designed aligned reward function that is consistent with the evaluation. To the best of our knowledge, we are the first to introduce RL into the entailment tree generation task. Experiments on three settings of the EntailmentBank dataset demonstrate the strength of using RL framework.
翻訳日:2022-11-01 17:08:51 公開日:2022-10-31
# チャージ予測モデルは法理論を学ぶか?

Do Charge Prediction Models Learn Legal Theory? ( http://arxiv.org/abs/2210.17108v1 )

ライセンス: Link先を確認
Zhenwei An, Quzhe Huang, Cong Jiang, Yansong Feng, Dongyan Zhao(参考訳) 料金予測タスクは、その事実の説明から事件の料金を予測することを目的としている。 近年のモデルは, この課題においてすでに顕著な精度を達成しているが, 判断に使用するメカニズムについてはほとんど理解されていない。実際, 民法国家において, 請求予測モデルは, 民法の枠組みとして, 特定の地方法理論に基づいてすべての事件を判断すべきである。 例えば中国では、ほぼ全ての刑事判事が、Four Elements Theory(FET)に基づいて決定を行う。 本稿では、信頼に値する電荷予測モデルが法理論を考慮に入れるべきであり、モデル解釈における先行研究を踏まえて、信頼に値するモデルに対する3つの原則を提案する。 以上より,既存の電荷予測モデルがベンチマークデータセットの選択的原理を満たしているものの,そのほとんどはまだ感度に乏しく,無実の仮定を満たしていないことが示唆された。 私たちのコードとデータセットはhttps://github.com/zhenweian/exp_ljpでリリースされています。

The charge prediction task aims to predict the charge for a case given its fact description. Recent models have already achieved impressive accuracy in this task, however, little is understood about the mechanisms they use to perform the judgment.For practical applications, a charge prediction model should conform to the certain legal theory in civil law countries, as under the framework of civil law, all cases are judged according to certain local legal theories. In China, for example, nearly all criminal judges make decisions based on the Four Elements Theory (FET).In this paper, we argue that trustworthy charge prediction models should take legal theories into consideration, and standing on prior studies in model interpretation, we propose three principles for trustworthy models should follow in this task, which are sensitive, selective, and presumption of innocence.We further design a new framework to evaluate whether existing charge prediction models learn legal theories. Our findings indicate that, while existing charge prediction models meet the selective principle on a benchmark dataset, most of them are still not sensitive enough and do not satisfy the presumption of innocence. Our code and dataset are released at https://github.com/ZhenweiAn/EXP_LJP.
翻訳日:2022-11-01 17:08:30 公開日:2022-10-31
# QuaLA-MiniLM:量子長適応型ミニフィルム

QuaLA-MiniLM: a Quantized Length Adaptive MiniLM ( http://arxiv.org/abs/2210.17114v1 )

ライセンス: Link先を確認
Shira Guskin, Moshe Wasserblat, Chang Wang, Haihao Shen(参考訳) 限られた計算予算は、しばしば変圧器が生産に使用され、高い精度で使用されることを妨げている。 知識蒸留法では、BERTを自己蒸留し、より少ない層と少ない内部埋め込みを持つより小さなトランス表現に変換する。 しかし、これらのモデルの性能はレイヤー数を減らし、特にスパン質問応答のような高度なNLPタスクでは低下する。 さらに、異なる計算予算を持つ推論シナリオごとに、別のモデルを訓練する必要がある。 Dynamic-TinyBERTは、Longth Adaptive Transformer (LAT) 技術をTinyBERTに部分的に実装し、最小限の精度でBERTベース上でx3スピードアップする。 本研究では、より効率的なモデルを生成するために、Dynamic-TinyBERTアプローチを拡張した。 我々は,LAT法と併用してMiniLM蒸留を行い,低ビット量子化を適用して効率を向上させる。 我々の量子化長適応ミニLMモデル(QuaLA-MiniLM)は1回だけ訓練され、推論シナリオに動的に適合し、SQuAD1.1データセット上の任意の計算予算に対して、他の効率的なアプローチよりも優れた精度と効率のトレードオフを達成する。 この作品を再現するコードは、間もなくgithubで公開される予定だ。

Limited computational budgets often prevent transformers from being used in production and from having their high accuracy utilized. A knowledge distillation approach addresses the computational efficiency by self-distilling BERT into a smaller transformer representation having fewer layers and smaller internal embedding. However, the performance of these models drops as we reduce the number of layers, notably in advanced NLP tasks such as span question answering. In addition, a separate model must be trained for each inference scenario with its distinct computational budget. Dynamic-TinyBERT tackles both limitations by partially implementing the Length Adaptive Transformer (LAT) technique onto TinyBERT, achieving x3 speedup over BERT-base with minimal accuracy loss. In this work, we expand the Dynamic-TinyBERT approach to generate a much more highly efficient model. We use MiniLM distillation jointly with the LAT method, and we further enhance the efficiency by applying low-bit quantization. Our quantized length-adaptive MiniLM model (QuaLA-MiniLM) is trained only once, dynamically fits any inference scenario, and achieves an accuracy-efficiency trade-off superior to any other efficient approaches per any computational budget on the SQuAD1.1 dataset (up to x8.8 speedup with <1% accuracy loss). The code to reproduce this work will be publicly released on Github soon.
翻訳日:2022-11-01 17:08:10 公開日:2022-10-31
# 自然な注釈付き単語セグメンテーションデータとしての音声における単語境界の抽出

Mining Word Boundaries in Speech as Naturally Annotated Word Segmentation Data ( http://arxiv.org/abs/2210.17122v1 )

ライセンス: Link先を確認
Lei Zhang, Shilin Zhou, Chen Gong, Zhenghua Li, Zhefeng Wang, Baoxing Huai, Min Zhang(参考訳) 中国語の単語セグメンテーション(CWS)モデルは、トレーニングデータが十分でドメイン内において非常に高いパフォーマンスを実現している。 しかし、データスパース性の問題により、クロスドメインと低リソースのシナリオに移行すると、パフォーマンスは大幅に低下する。 本研究は,大規模手動注釈データの構築に時間と労力がかかることを考慮し,音声中のポーズから単語境界情報を抽出し,大規模CWS自然な注釈データを得る方法を提案する。 本稿では,cwsモデル学習における音声からの自然アノテーションを利用するための,単純かつ効果的な完全テントレイン手法を提案する。 クロスドメインおよび低リソースシナリオにおけるCWS性能は、音声から抽出した自然な注釈付きデータを活用することで著しく向上できることを示す。

Chinese word segmentation (CWS) models have achieved very high performance when the training data is sufficient and in-domain. However, the performance drops drastically when shifting to cross-domain and low-resource scenarios due to data sparseness issues. Considering that constructing large-scale manually annotated data is time-consuming and labor-intensive, in this work, we for the first time propose to mine word boundary information from pauses in speech to efficiently obtain large-scale CWS naturally annotated data. We present a simple yet effective complete-then-train method to utilize these natural annotations from speech for CWS model training. Extensive experiments demonstrate that the CWS performance in cross-domain and low-resource scenarios can be significantly improved by leveraging our naturally annotated data extracted from speech.
翻訳日:2022-11-01 17:07:41 公開日:2022-10-31
# 語彙意味変化を考慮した事前学習言語モデルの時間的一般化

Improving Temporal Generalization of Pre-trained Language Models with Lexical Semantic Change ( http://arxiv.org/abs/2210.17127v1 )

ライセンス: Link先を確認
Zhaochen Su, Zecheng Tang, Xinyan Guan, Juntao Li, Lijun Wu, Min Zhang(参考訳) 近年の研究では、大規模なニューラルネットワークモデルは時間的一般化能力の不足、すなわち過去数年間の静的データで事前訓練された言語モデルは、出現するデータに対して時間とともに悪化することが明らかになっている。 既存の方法は主に、このような不平を和らげるために継続的な訓練を行う。 ある程度有効ではあるが、言語モデリングとダウンストリームタスクの両方で対処されるには程遠い。 本稿では,自然言語における本質的な現象の一つである語彙的意味変化と時間的一般化が密接な関係にあることを実証的に観察する。 この観察に基づいて,収束した言語モデルの訓練後において,単純かつ効果的な語彙レベルのマスキング戦略を提案する。 2つの事前学習された言語モデル、異なる2つの分類タスク、および4つのベンチマークデータセットの実験は、既存の時間適応法、すなわち新しいデータによる継続的なトレーニングよりも、提案手法の有効性を実証する。 私たちのコードは \url{https://github.com/zhaochen0110/LMLM} で利用可能です。

Recent research has revealed that neural language models at scale suffer from poor temporal generalization capability, i.e., the language model pre-trained on static data from past years performs worse over time on emerging data. Existing methods mainly perform continual training to mitigate such a misalignment. While effective to some extent but is far from being addressed on both the language modeling and downstream tasks. In this paper, we empirically observe that temporal generalization is closely affiliated with lexical semantic change, which is one of the essential phenomena of natural languages. Based on this observation, we propose a simple yet effective lexical-level masking strategy to post-train a converged language model. Experiments on two pre-trained language models, two different classification tasks, and four benchmark datasets demonstrate the effectiveness of our proposed method over existing temporal adaptation methods, i.e., continual training with new data. Our code is available at \url{https://github.com/zhaochen0110/LMLM}.
翻訳日:2022-11-01 17:07:27 公開日:2022-10-31
# 政府における人工知能:概念、標準、統一された枠組み

Artificial intelligence in government: Concepts, standards, and a unified framework ( http://arxiv.org/abs/2210.17218v1 )

ライセンス: Link先を確認
Vincent J. Straub, Deborah Morgan, Jonathan Bright and Helen Margetts(参考訳) 人工知能(AI)と機械学習(ML)の最近の進歩は、政府の改善を約束している。 aiアプリケーションの高度な能力を考えると、これらは標準的な操作手順、明確な認識基準、社会の規範的な期待に沿って振る舞うことが重要である。 複数のドメインの学者はその後、AIシステムが持つさまざまなフォームを概念化し始め、潜在的なメリットと落とし穴の両方を強調した。 しかし、この文献は依然として断片化されており、公共行政や政治科学といった社会科学の分野の研究者、そしてAI、ML、ロボット工学の速い動きの分野は、いずれも相対的な分離の概念を発展させている。 政府におけるAIの新たな研究の形式化を求める声もあるが、公的なセクターにAIを組み込む結果を理解するために必要な理論的な視点の広さを捉えたバランスの取れた説明が欠けている。 本稿では,aiの多分野研究で使用される107の異なる用語を概念マッピングを用いて識別することにより,社会・技術分野間の取り組みを統一する。 我々はこれらを3つの異なる意味群に誘導的に分類し、それをラベル付けします。 a) 運用中 (b)認識論、及び (c)規範ドメイン。 そこで我々は,(1)運用適合性,(2)エピステミック完全性,(3)規範的サリエンスという,AIベースの政府向けシステム(AI-GOV)を総合的に研究するための,新たな3つの多面的概念を提案することにより,このマッピング演習の結果に基づいて構築する。 最後に、これらの概念をAI-GOVの概念的類型論の次元として使用し、それぞれを新たなAI技術測定標準と結びつけて、運用の促進、学際的対話の促進、AIによる公共行政の再構築を目指す人々の間での議論の激化を図った。

Recent advances in artificial intelligence (AI) and machine learning (ML) hold the promise of improving government. Given the advanced capabilities of AI applications, it is critical that these are embedded using standard operational procedures, clear epistemic criteria, and behave in alignment with the normative expectations of society. Scholars in multiple domains have subsequently begun to conceptualize the different forms that AI systems may take, highlighting both their potential benefits and pitfalls. However, the literature remains fragmented, with researchers in social science disciplines like public administration and political science, and the fast-moving fields of AI, ML, and robotics, all developing concepts in relative isolation. Although there are calls to formalize the emerging study of AI in government, a balanced account that captures the full breadth of theoretical perspectives needed to understand the consequences of embedding AI into a public sector context is lacking. Here, we unify efforts across social and technical disciplines by using concept mapping to identify 107 different terms used in the multidisciplinary study of AI. We inductively sort these into three distinct semantic groups, which we label the (a) operational, (b) epistemic, and (c) normative domains. We then build on the results of this mapping exercise by proposing three new multifaceted concepts to study AI-based systems for government (AI-GOV) in an integrated, forward-looking way, which we call (1) operational fitness, (2) epistemic completeness, and (3) normative salience. Finally, we put these concepts to work by using them as dimensions in a conceptual typology of AI-GOV and connecting each with emerging AI technical measurement standards to encourage operationalization, foster cross-disciplinary dialogue, and stimulate debate among those aiming to reshape public administration with AI.
翻訳日:2022-11-01 16:52:19 公開日:2022-10-31
# 多次元における完全かつ近似な共形推論

Exact and Approximate Conformal Inference in Multiple Dimensions ( http://arxiv.org/abs/2210.17405v1 )

ライセンス: Link先を確認
Chancellor Johnstone, Eugene Ndiaye(参考訳) 機械学習では、共変量情報から応答yを推定することが一般的である しかし、これらの予測だけでは、その予測に関連する不確実性は定量化されない。 この欠損を克服する1つの方法は、所定の確率で観測されていない応答 y を含む集合を構成する共形推論法である。 残念なことに、一次元の応答であっても、最近の奨励的な進歩にもかかわらず、共形推論は計算に高価である。 本稿では,回帰設定における多次元応答の場合を考察し,予測モデルが線形関数として記述できる場合の共形推論p値の正確な導出を導出する。 さらに,非線形予測器のコンフォメーション予測領域を近似する方法を,計算の利点を保ちながら異なる効率で提案する。 また、実世界のデータ例を用いて、これらのアプローチを実証的正当化する。

It is common in machine learning to estimate a response y given covariate information x. However, these predictions alone do not quantify any uncertainty associated with said predictions. One way to overcome this deficiency is with conformal inference methods, which construct a set containing the unobserved response y with a prescribed probability. Unfortunately, even with one-dimensional responses, conformal inference is computationally expensive despite recent encouraging advances. In this paper, we explore the multidimensional response case within a regression setting, delivering exact derivations of conformal inference p-values when the predictive model can be described as a linear function of y. Additionally, we propose different efficient ways of approximating the conformal prediction region for non-linear predictors while preserving computational advantages. We also provide empirical justification for these approaches using a real-world data example.
翻訳日:2022-11-01 16:51:46 公開日:2022-10-31
# 深部残差・畳み込みネットワークを用いたfMRIデータの感情脳状態分類

Emotional Brain State Classification on fMRI Data Using Deep Residual and Convolutional Networks ( http://arxiv.org/abs/2210.17015v1 )

ライセンス: Link先を確認
Maxime Tchibozo, Donggeun Kim, Zijing Wang, Xiaofu He(参考訳) 機能的MRI(fMRI)データに基づく感情脳状態分類の目的は、被験者が実験中に行う特定の感情タスクに関連する脳活動パターンを認識することである。 fmriデータを用いた感情的脳の状態と他の脳の状態の区別は、短時間のフレームで高速で正確な予測を生成することの困難さと、目に見えない被験者に一般化する感情的特徴を抽出することの難しさという2つの要因によって困難であることが証明されている。 これらの課題に対処するために、22名の被験者が、fMRIを用いて脳活動を測定しながら、負、中、休息の感情反応を刺激するための画像を見る実験を行った。 次に,前処理(スライシングタイミングと再認識)fmriボリュームの空間情報のみを用いて,感情的脳状態をデコードする2つの異なる畳み込み法を開発した。 最初のアプローチでは、1次元畳み込みネットワーク(84.9%の精度、チャンスレベル33%)を訓練し、3つの感情条件を1-way Analysis of Variance (ANOVA) voxel selection with hyperalignmentを用いて分類した。 第2のアプローチでは、3次元fMRIボリュームから直接2つの感情条件を分類するために、3D ResNet-50モデル(精度78.0%、確率レベル50%)を訓練した。 我々の畳み込みと残留の分類器は、グループレベルの感情特徴を学習し、fMRIボリュームからミリ秒で感情条件を復号することに成功した。 これらのアプローチは、脳コンピューターインタフェースやリアルタイムfMRIニューロフィードバック研究で使われる可能性がある。

The goal of emotional brain state classification on functional MRI (fMRI) data is to recognize brain activity patterns related to specific emotion tasks performed by subjects during an experiment. Distinguishing emotional brain states from other brain states using fMRI data has proven to be challenging due to two factors: a difficulty to generate fast yet accurate predictions in short time frames, and a difficulty to extract emotion features which generalize to unseen subjects. To address these challenges, we conducted an experiment in which 22 subjects viewed pictures designed to stimulate either negative, neutral or rest emotional responses while their brain activity was measured using fMRI. We then developed two distinct Convolution-based approaches to decode emotional brain states using only spatial information from single, minimally pre-processed (slice timing and realignment) fMRI volumes. In our first approach, we trained a 1D Convolutional Network (84.9% accuracy; chance level 33%) to classify 3 emotion conditions using One-way Analysis of Variance (ANOVA) voxel selection combined with hyperalignment. In our second approach, we trained a 3D ResNet-50 model (78.0% accuracy; chance level 50%) to classify 2 emotion conditions from single 3D fMRI volumes directly. Our Convolutional and Residual classifiers successfully learned group-level emotion features and could decode emotion conditions from fMRI volumes in milliseconds. These approaches could potentially be used in brain computer interfaces and real-time fMRI neurofeedback research.
翻訳日:2022-11-01 16:42:51 公開日:2022-10-31
# ディープニューラルネットワークを用いたスコリシス検出

Scoliosis Detection using Deep Neural Network ( http://arxiv.org/abs/2210.17269v1 )

ライセンス: Link先を確認
Yen Hoang Nguyen(参考訳) スコリシス(scoliosis)は、背骨の側面曲率であり、最もよく若い10代の若者の間で診断される。 生命の質に劇的に影響し、重篤な症例では心臓や肺の損傷による合併症を引き起こす可能性がある。 スコリオシスを検出・推定するための現在の金本位制は、手作業で脊椎前方x線像を調べることである。 このプロセスは時間消費であり、オブザーバに依存し、レート間変動性が高い。 その結果, 脊椎X線画像から自動的に側頭葉を推定することへの関心が高まり, 深層学習の進歩は, 自動脊椎曲率推定において驚くべき成果を示した。 この論文の主目的は、深層学習の基本概念を見直し、深層学習がどのようにして脊椎曲率を検出するかを分析し、実際に採用された深層学習に基づくモデルを探ることである。 スコリシス検出の精度を改善し、コブ角の自動予測に最も成功したものを実装することを目的としている。 キーワード:soliosis Detection, Spinal Curvature Estimation, Deep Learning。 私は

Scoliosis is a sideways curvature of the spine that most often is diagnosed among young teenagers. It dramatically affects the quality of life, which can cause complications from heart and lung injuries in severe cases. The current gold standard to detect and estimate scoliosis is to manually examine the spinal anterior-posterior X-ray images. This process is time-consuming, observer-dependent, and has high inter-rater variability. Consequently, there has been increasing interest in automatic scoliosis estimation from spinal X-ray images, and the development of deep learning has shown amazing achievements in automatic spinal curvature estimation. The main target of this thesis is to review the fundamental concepts of deep learning, analyze how deep learning is applied to detect spinal curvature, explore the practical deep learning-based models that have been employed. It aims to improve the accuracy of scoliosis detection and implement the most successful one for automated Cobb angle prediction. Keywords: Scoliosis Detection, Spinal Curvature Estimation, Deep Learning. i
翻訳日:2022-11-01 16:42:22 公開日:2022-10-31
# 補間法におけるプライベート最適化:高速なレートとハードネス結果

Private optimization in the interpolation regime: faster rates and hardness results ( http://arxiv.org/abs/2210.17070v1 )

ライセンス: Link先を確認
Hilal Asi, Karan Chadha, Gary Cheng, John Duchi(参考訳) 非私的確率的凸最適化では、確率的勾配法は補間問題(全てのサンプル損失を同時に最小化する解が存在する場合)に、非補間問題よりもはるかに早く収束する。 しかし、関数が最適値の周りに二次成長を示すと、プライベートサンプルの複雑性が(ほぼ)指数関数的に向上する。 特に、任意の固定された $\rho >0$ に対して$\frac{d}{\varepsilon \sqrt{\alpha}}$ から$\frac{1}{\alpha^\rho} + \frac{d}{\varepsilon} \log\left(\frac{1}{\alpha}\right)$ への期待誤差を達成するためにサンプル複雑性を改善する適応アルゴリズムを提案する。 次元依存項がタイトであることを示す下界を証明できる。 さらに,適応アルゴリズムの多項式項の必要性を示す超効率な結果を与える。補間問題に対する多対数的なサンプル複雑性を持つアルゴリズムは,非補間問題の族に対する最小最適速度を達成できない。

In non-private stochastic convex optimization, stochastic gradient methods converge much faster on interpolation problems -- problems where there exists a solution that simultaneously minimizes all of the sample losses -- than on non-interpolating ones; we show that generally similar improvements are impossible in the private setting. However, when the functions exhibit quadratic growth around the optimum, we show (near) exponential improvements in the private sample complexity. In particular, we propose an adaptive algorithm that improves the sample complexity to achieve expected error $\alpha$ from $\frac{d}{\varepsilon \sqrt{\alpha}}$ to $\frac{1}{\alpha^\rho} + \frac{d}{\varepsilon} \log\left(\frac{1}{\alpha}\right)$ for any fixed $\rho >0$, while retaining the standard minimax-optimal sample complexity for non-interpolation problems. We prove a lower bound that shows the dimension-dependent term is tight. Furthermore, we provide a superefficiency result which demonstrates the necessity of the polynomial term for adaptive algorithms: any algorithm that has a polylogarithmic sample complexity for interpolation problems cannot achieve the minimax-optimal rates for the family of non-interpolation problems.
翻訳日:2022-11-01 16:34:47 公開日:2022-10-31
# 潜在マルチモーダル機能的グラフィカルモデル推定

Latent Multimodal Functional Graphical Model Estimation ( http://arxiv.org/abs/2210.17237v1 )

ライセンス: Link先を確認
Katherine Tsai, Boxin Zhao, Oluwasanmi Koyejo, Mladen Kolar(参考訳) 統合多モード機能データ取得は、複数のモードから同時に測定される機能データを、神経学および生物学的科学における最近の工学的ブレークスルーによって実現された、エキサイティングな現代的なアプローチとして出現している。 このようなデータを取得するための顕著な動機の1つは、マルチモーダル信号を組み合わせることで基盤となる接続の新しい発見を可能にすることである。 科学的な関心にもかかわらず、マルチモーダル関数データに基づくグラフを推定する原理的な統計手法には差がある。 そこで本研究では,データ生成過程をモデル化し,観測空間から潜在空間への演算子マッピングを同定する新しい統合フレームワークを提案する。 次に変換演算子と潜在グラフを同時に推定する推定器を開発する。 この推定子は、多変量から関数的設定へ厳密に拡張する部分相関演算子に基づいている。 提案手法は, 統計的誤差を定量化して定常点に収束する推定器で有効である。 さらに,緩やかな条件下での潜伏グラフの回復を示す。 本研究は、脳の機能的接続を示すグラフを同時に取得したマルチモーダル脳イメージングデータを解析することに適用する。 共同推定の利点を支えるシミュレーションと実験結果を提案する。

Joint multimodal functional data acquisition, where functional data from multiple modes are measured simultaneously from the same subject, has emerged as an exciting modern approach enabled by recent engineering breakthroughs in the neurological and biological sciences. One prominent motivation to acquire such data is to enable new discoveries of the underlying connectivity by combining multimodal signals. Despite the scientific interest, there remains a gap in principled statistical methods for estimating the graph underlying multimodal functional data. To this end, we propose a new integrative framework that models the data generation process and identifies operators mapping from the observation space to the latent space. We then develop an estimator that simultaneously estimates the transformation operators and the latent graph. This estimator is based on the partial correlation operator, which we rigorously extend from the multivariate to the functional setting. Our procedure is provably efficient, with the estimator converging to a stationary point with quantifiable statistical error. Furthermore, we show recovery of the latent graph under mild conditions. Our work is applied to analyze simultaneously acquired multimodal brain imaging data where the graph indicates functional connectivity of the brain. We present simulation and empirical results that support the benefits of joint estimation.
翻訳日:2022-11-01 16:34:19 公開日:2022-10-31
# 逐次変化点検出のためのニューラルネットワークの訓練

Training Neural Networks for Sequential Change-point Detection ( http://arxiv.org/abs/2210.17312v1 )

ライセンス: Link先を確認
Junghwan Lee, Yao Xie, Xiuyuan Cheng(参考訳) 変化点検出(change-point detection)として知られるデータストリームの急激な分布シフトを検出することは、統計処理と信号処理の根本的な問題である。 本稿では,ニューラルネットワーク(NN)のトレーニングによるオンライン変化点検出のための新しい手法を提案する。 この考え方は、ロジスティック損失によるニューラルネットワークのトレーニングがログライクな機能につながる可能性があるという観察に基づいている。 NN-CUSUMの高次元データにおける変化点検出性能を,合成データと実世界データの両方を用いて実証した。

Detecting an abrupt distributional shift of the data stream, known as change-point detection, is a fundamental problem in statistics and signal processing. We present a new approach for online change-point detection by training neural networks (NN), and sequentially cumulating the detection statistics by evaluating the trained discriminating function on test samples by a CUSUM recursion. The idea is based on the observation that training neural networks through logistic loss may lead to the log-likelihood function. We demonstrated the good performance of NN-CUSUM on detecting change-point in high-dimensional data using both synthetic and real-world data.
翻訳日:2022-11-01 16:33:57 公開日:2022-10-31
# tiada:非凸ミニマックス最適化のための時間スケール適応アルゴリズム

TiAda: A Time-scale Adaptive Algorithm for Nonconvex Minimax Optimization ( http://arxiv.org/abs/2210.17478v1 )

ライセンス: Link先を確認
Xiang Li, Junchi Yang, Niao He(参考訳) アダプティブ・グラデーション(adaptive gradient)法は、パラメータに依存しない方法でステップを調節する能力を示し、最小化問題を解決するために経験的により高速な収束を達成する。 しかし、非凸極小最適化に関しては、勾配降下上昇(GDA)の電流収束解析と適応段階の組合せは、ハイパーパラメータの注意深いチューニングと問題依存パラメータの知識を必要とする。 このような矛盾は、ミニマックス問題の原始双対性と収束を達成する際に原始更新と二重更新の間の微妙な時間スケール分離の必要性から生じる。 本研究では,非凸最小値最適化のための単一ループ適応型GDAアルゴリズムTiAdaを提案する。 提案アルゴリズムはパラメータ非依存であり,非凸強凸最小値問題の決定的および確率的設定において,ほぼ最適複素量を実現することができる。 提案手法の有効性は、多数の機械学習アプリケーションに対して数値的に正当化される。

Adaptive gradient methods have shown their ability to adjust the stepsizes on the fly in a parameter-agnostic manner, and empirically achieve faster convergence for solving minimization problems. When it comes to nonconvex minimax optimization, however, current convergence analyses of gradient descent ascent (GDA) combined with adaptive stepsizes require careful tuning of hyper-parameters and the knowledge of problem-dependent parameters. Such a discrepancy arises from the primal-dual nature of minimax problems and the necessity of delicate time-scale separation between the primal and dual updates in attaining convergence. In this work, we propose a single-loop adaptive GDA algorithm called TiAda for nonconvex minimax optimization that automatically adapts to the time-scale separation. Our algorithm is fully parameter-agnostic and can achieve near-optimal complexities simultaneously in deterministic and stochastic settings of nonconvex-strongly-concave minimax problems. The effectiveness of the proposed method is further justified numerically for a number of machine learning applications.
翻訳日:2022-11-01 16:33:46 公開日:2022-10-31
# Nesterov : 確率的双線形結合最小値最適化のための速度最適化勾配法

Nesterov Meets Optimism: Rate-Optimal Optimistic-Gradient-Based Method for Stochastic Bilinearly-Coupled Minimax Optimization ( http://arxiv.org/abs/2210.17550v1 )

ライセンス: Link先を確認
Chris Junchi Li, Angela Yuan, Gauthier Gidel, Michael I. Jordan(参考訳) 強凸凸型ミニマックス最適化のための新しい一階最適化アルゴリズムであるacceleratedgradient optgradient (ag-og)を提案する。 このアルゴリズムの主な考え方は, ミニマックス問題の構造を活用し, 個々の部分に対するネステロフの加速度と, 目的のカップリング部分における楽観的勾配を操作することである。 我々は,その連続時間ダイナミクスが,楽観的勾配のダイナミクスとネステロフの加速度の有機的組み合わせに対応していることを示すことによって,本手法の動機付けを行う。 ダイナミクスを離散化することにより、多項式収束挙動を離散時間に結論付ける。 適切な再起動によるag-ogのさらなる強化により、結合と個々の部分のコンディショニングに関して、レート最適(定数まで)の収束率を達成することができ、その結果、双線型結合ミニマックス問題の下での確率的設定における決定論的設定とレート最適性が改善された最初のシングルコールアルゴリズムが得られる。

We provide a novel first-order optimization algorithm for bilinearly-coupled strongly-convex-concave minimax optimization called the AcceleratedGradient OptimisticGradient (AG-OG). The main idea of our algorithm is to leverage the structure of the considered minimax problem and operates Nesterov's acceleration on the individual part and optimistic gradient on the coupling part of the objective. We motivate our method by showing that its continuous-time dynamics corresponds to an organic combination of the dynamics of optimistic gradient and of Nesterov's acceleration. By discretizing the dynamics we conclude polynomial convergence behavior in discrete time. Further enhancement of AG-OG with proper restarting allows us to achieve rate-optimal (up to a constant) convergence rates with respect to the conditioning of the coupling and individual parts, which results in the first single-call algorithm achieving improved convergence in the deterministic setting and rate-optimality in the stochastic setting under bilinearly coupled minimax problem sets.
翻訳日:2022-11-01 16:33:31 公開日:2022-10-31
# オンライン量子化感度分析によるブロックワイズ動的精度ニューラルネットワークトレーニング高速化

Block-Wise Dynamic-Precision Neural Network Training Acceleration via Online Quantization Sensitivity Analytics ( http://arxiv.org/abs/2210.17047v1 )

ライセンス: Link先を確認
Ruoyang Liu, Chenhan Wei, Yixiong Yang, Wenxun Wang, Huazhong Yang, Yongpan Liu(参考訳) データ量子化は、ニューラルネットワークのトレーニングを加速し、消費電力を減らす効果的な方法である。 しかし、従来の等精度量子化は、高い精度の損失または限られたビット幅の削減をもたらすが、既存の混合精度法は高い圧縮ポテンシャルを提供するが、正確で効率的なビット幅割り当てを行なわなかった。 本研究では,ブロックワイドな動的精度ニューラルネットワークトレーニングフレームワークであるDYNASTYを提案する。 DYNASTYは、高速オンライン分析を通じて正確なデータ感度情報を提供し、適応ビット幅マップジェネレータによる安定したトレーニング収束を維持する。 CIFAR-100とImageNetデータセットのネットワークトレーニング実験が行われ、8ビット量子化ベースラインと比較して、DYNASTYは5.1\times$スピードアップと4.7\times$エネルギー消費削減を精度低下と無視可能なハードウェアオーバーヘッドなしで実現している。

Data quantization is an effective method to accelerate neural network training and reduce power consumption. However, it is challenging to perform low-bit quantized training: the conventional equal-precision quantization will lead to either high accuracy loss or limited bit-width reduction, while existing mixed-precision methods offer high compression potential but failed to perform accurate and efficient bit-width assignment. In this work, we propose DYNASTY, a block-wise dynamic-precision neural network training framework. DYNASTY provides accurate data sensitivity information through fast online analytics, and maintains stable training convergence with an adaptive bit-width map generator. Network training experiments on CIFAR-100 and ImageNet dataset are carried out, and compared to 8-bit quantization baseline, DYNASTY brings up to $5.1\times$ speedup and $4.7\times$ energy consumption reduction with no accuracy drop and negligible hardware overhead.
翻訳日:2022-11-01 16:24:01 公開日:2022-10-31
# Open MatSci ML Toolkit: 材料科学における機械学習のための柔軟なフレームワーク

The Open MatSci ML Toolkit: A Flexible Framework for Machine Learning in Materials Science ( http://arxiv.org/abs/2210.17484v1 )

ライセンス: Link先を確認
Santiago Miret, Kin Long Kelvin Lee, Carmelo Gonzales, Marcel Nassar, Matthew Spellings(参考訳) 物質科学とOpenCatalyst Datasetに特化して、ディープラーニングモデルと手法を科学データに適用するための、柔軟で自己完結型でスケーラブルなPythonベースのフレームワークであるOpen MatSci ML Toolkitを提示する。 私たちのツールキットは PyTorch Lightningを利用することで、さまざまな計算機能(ラップトップ、サーバ、クラスタ)とハードウェアプラットフォーム(CPU、GPU、XPU)をシームレスにスケーリングできる。 2. 高速グラフニューラルネットワークのプロトタイピングと開発のためのディープグラフライブラリ(dgl)のサポート このツールキットをオープンソースリリースを通じて研究コミュニティと公開し、共有することで、私たちは以下のことを望んでいます。 1. OpenCatalystデータセットを使い始めようとする新しい機械学習研究者や実践者の参入障壁を低くする。 2. クリーンエネルギー利用のための材料挙動のモデリング等、高度な機械学習ツールを科学的課題に適用することを可能とする。 複数のopencatalystタスクのための3つの新しい等価ニューラルネットワークモデルを可能にし、スケーリングとモデルパフォーマンスの計算に有望な結果に到達し、このフレームワークの能力を実証する。

We present the Open MatSci ML Toolkit: a flexible, self-contained, and scalable Python-based framework to apply deep learning models and methods on scientific data with a specific focus on materials science and the OpenCatalyst Dataset. Our toolkit provides: 1. A scalable machine learning workflow for materials science leveraging PyTorch Lightning, which enables seamless scaling across different computation capabilities (laptop, server, cluster) and hardware platforms (CPU, GPU, XPU). 2. Deep Graph Library (DGL) support for rapid graph neural network prototyping and development. By publishing and sharing this toolkit with the research community via open-source release, we hope to: 1. Lower the entry barrier for new machine learning researchers and practitioners that want to get started with the OpenCatalyst dataset, which presently comprises the largest computational materials science dataset. 2. Enable the scientific community to apply advanced machine learning tools to high-impact scientific challenges, such as modeling of materials behavior for clean energy applications. We demonstrate the capabilities of our framework by enabling three new equivariant neural network models for multiple OpenCatalyst tasks and arrive at promising results for compute scaling and model performance.
翻訳日:2022-11-01 16:23:22 公開日:2022-10-31
# borex:bayesian-optimization--画像およびビデオ分類モデルのための塩分マップの改良

BOREx: Bayesian-Optimization--Based Refinement of Saliency Map for Image- and Video-Classification Models ( http://arxiv.org/abs/2210.17130v1 )

ライセンス: Link先を確認
Atsushi Kikuchi, Kotaro Uchida, Masaki Waga, Kohei Suenaga(参考訳) 画像と映像の分類モデルによって生成された分類結果を説明することは、コンピュータビジョンにおいて重要だが挑戦的な問題の1つである。 この目的のために、モデルの内部情報(例えば、LRP、Grad-CAM、Grad-CAM++)を使用するホワイトボックスアプローチと、内部情報(例えば、LIME、SHAP、RISE)を使用しないブラックボックスアプローチに基づくものを含む、熱マップベースの説明を作成するための多くの方法が提案されている。 我々は,任意の手法で生成する熱マップを洗練するために,新しいブラックボックス法borex (bayesian optimization forfine of visual model description)を提案する。 我々は,ベイズ最適化に基づく説明法の先行として,ヒートマップに基づく説明を見ることができることを観察した。 この観測に基づいて、BORExはガウス過程回帰(GPR)を行い、別の説明法で生成された画像から、所定の画像中の各画素の塩分量を推定する。 我々の実験は,BORExによる改良により,画像と映像の分類結果の低品質な熱マップが改良されることを統計的に証明した。

Explaining a classification result produced by an image- and video-classification model is one of the important but challenging issues in computer vision. Many methods have been proposed for producing heat-map--based explanations for this purpose, including ones based on the white-box approach that uses the internal information of a model (e.g., LRP, Grad-CAM, and Grad-CAM++) and ones based on the black-box approach that does not use any internal information (e.g., LIME, SHAP, and RISE). We propose a new black-box method BOREx (Bayesian Optimization for Refinement of visual model Explanation) to refine a heat map produced by any method. Our observation is that a heat-map--based explanation can be seen as a prior for an explanation method based on Bayesian optimization. Based on this observation, BOREx conducts Gaussian process regression (GPR) to estimate the saliency of each pixel in a given image starting from the one produced by another explanation method. Our experiments statistically demonstrate that the refinement by BOREx improves low-quality heat maps for image- and video-classification results.
翻訳日:2022-11-01 16:17:13 公開日:2022-10-31
# LaTeXへのテーブル:科学表からの構造と内容抽出

Tables to LaTeX: structure and content extraction from scientific tables ( http://arxiv.org/abs/2210.17246v1 )

ライセンス: Link先を確認
Pratik Kayal, Mrinal Anand, Harsh Desai and Mayank Singh(参考訳) 科学文書には、簡潔な方法で重要な情報を一覧する表が含まれている。 pdf研究文書に埋め込まれたテーブルの構造とコンテンツ抽出は、スパンリングセルのような視覚的特徴や数学的記号や方程式のようなコンテンツ機能が存在するため、非常に難しい作業である。 既存の表構造同定手法のほとんどは、これらの学術的特徴を無視する傾向がある。 本稿では,科学テーブル構造とコンテンツ抽出のためのトランスフォーマーに基づく言語モデリングパラダイムを適用する。 特に,提案モデルでは,表形式の画像を対応するLaTeXソースコードに変換する。 全体として、現在最先端のベースラインより優れており、テーブル構造とコンテンツ抽出の精度は70.35と49.69%である。 さらに分析した結果,提案モデルでは行数,列数,アルファ数値文字数,LaTeXトークン数,シンボル数を効率的に識別できることがわかった。

Scientific documents contain tables that list important information in a concise fashion. Structure and content extraction from tables embedded within PDF research documents is a very challenging task due to the existence of visual features like spanning cells and content features like mathematical symbols and equations. Most existing table structure identification methods tend to ignore these academic writing features. In this paper, we adapt the transformer-based language modeling paradigm for scientific table structure and content extraction. Specifically, the proposed model converts a tabular image to its corresponding LaTeX source code. Overall, we outperform the current state-of-the-art baselines and achieve an exact match accuracy of 70.35 and 49.69% on table structure and content extraction, respectively. Further analysis demonstrates that the proposed models efficiently identify the number of rows and columns, the alphanumeric characters, the LaTeX tokens, and symbols.
翻訳日:2022-11-01 16:16:51 公開日:2022-10-31
# 発音改善のためのフローベース音声変換による言語間テキスト音声合成

Cross-lingual Text-To-Speech with Flow-based Voice Conversion for Improved Pronunciation ( http://arxiv.org/abs/2210.17264v1 )

ライセンス: Link先を確認
Nikolaos Ellinas, Georgios Vamvoukakis, Konstantinos Markopoulos, Georgia Maniati, Panos Kakoulidis, June Sig Sung, Inchul Hwang, Spyros Raptis, Aimilios Chalamandaris, Pirros Tsiakoulis(参考訳) 本稿では,従来の話者の言語によらず,対象言語の発音を維持することを目的とした,エンドツーエンドの言語間テキスト合成(TTS)手法を提案する。 使用するモデルは非接触型タコトロンアーキテクチャに基づいており、デコーダは話者識別に基づく正規化フローネットワークに置き換えられ、ttsと音声変換(vc)の両方が固有の言語内容と話者識別の不等角性のために同じモデルで実行できるようになった。 言語横断的な設定で使用する場合、まずターゲット言語のネイティブ話者を用いて音響的特徴が生成され、その後、これらの特徴を対象話者の音声に変換するために、同じモデルで音声変換が適用される。 主観的および主観的な評価を通じて,本手法がベースライン間言語合成よりも有効であることを示す。 平均7.5分間の講演者を含めることで、低リソースシナリオに対する肯定的な結果も提示する。

This paper presents a method for end-to-end cross-lingual text-to-speech (TTS) which aims to preserve the target language's pronunciation regardless of the original speaker's language. The model used is based on a non-attentive Tacotron architecture, where the decoder has been replaced with a normalizing flow network conditioned on the speaker identity, allowing both TTS and voice conversion (VC) to be performed by the same model due to the inherent linguistic content and speaker identity disentanglement. When used in a cross-lingual setting, acoustic features are initially produced with a native speaker of the target language and then voice conversion is applied by the same model in order to convert these features to the target speaker's voice. We verify through objective and subjective evaluations that our method can have benefits compared to baseline cross-lingual synthesis. By including speakers averaging 7.5 minutes of speech, we also present positive results on low-resource scenarios.
翻訳日:2022-11-01 16:15:57 公開日:2022-10-31
# 故障解析トリプレット生成のための事前学習モデルの活用

Leveraging Pre-trained Models for Failure Analysis Triplets Generation ( http://arxiv.org/abs/2210.17497v1 )

ライセンス: Link先を確認
Kenneth Ezukwoke, Anis Hoayek, Mireille Batton-Hubert, Xavier Boucher, Pascal Gounet and Jerome Adrian(参考訳) 事前訓練された言語モデルは最近、テキスト要約、生成、質問応答タスクのための自然言語処理(NLP)ドメインで注目を集めた。 これはトランスフォーマーモデルに導入されたイノベーションと、リカレントニューラルネットワークモデル(long short term memory (lstm))と比較して圧倒的なパフォーマンスに由来する。 本稿では,半導体産業における欠陥成分分析の一連のステップであるFAT(Failure Analysis Triplets)を生成する下流タスクに対して,Transformerモデルなどの事前学習した因果言語モデルの注意機構を利用する。 この生成タスクの異なる変換器モデルを比較し、生成事前学習変換器2(GPT2)が故障解析三重項生成(FATG)タスクの他の変換器モデルより優れていることを観察する。 特に, GPT2(1.5Bパラメータで学習)は, ROUGEにおいて, トレーニング済みBERT, BART, GPT3よりも高い性能を示した。 さらに,構造化脂肪データの評価にlebenshsteinシーケンシャル評価指標(lese)を導入し,既存の測定値と正確に人間の判断と比較した。

Pre-trained Language Models recently gained traction in the Natural Language Processing (NLP) domain for text summarization, generation and question-answering tasks. This stems from the innovation introduced in Transformer models and their overwhelming performance compared with Recurrent Neural Network Models (Long Short Term Memory (LSTM)). In this paper, we leverage the attention mechanism of pre-trained causal language models such as Transformer model for the downstream task of generating Failure Analysis Triplets (FATs) - a sequence of steps for analyzing defected components in the semiconductor industry. We compare different transformer models for this generative task and observe that Generative Pre-trained Transformer 2 (GPT2) outperformed other transformer model for the failure analysis triplet generation (FATG) task. In particular, we observe that GPT2 (trained on 1.5B parameters) outperforms pre-trained BERT, BART and GPT3 by a large margin on ROUGE. Furthermore, we introduce Levenshstein Sequential Evaluation metric (LESE) for better evaluation of the structured FAT data and show that it compares exactly with human judgment than existing metrics.
翻訳日:2022-11-01 16:15:34 公開日:2022-10-31
# 不確定資源制約ジョブスケジューリングのための適応人口ベースシミュレートアニーリング

Adaptive Population-based Simulated Annealing for Uncertain Resource Constrained Job Scheduling ( http://arxiv.org/abs/2210.17036v1 )

ライセンス: Link先を確認
Dhananjay Thiruvady, Su Nguyen, Yuan Sun, Fatemeh Shiri, Nayyar Zaidi, Xiaodong Li(参考訳) 鉱山から港への鉱石輸送は、鉱業サプライチェーンに大きな関心がある。 これらの事業は一般的にコストの増大と資源不足と結びついている。 大規模鉱業会社は、運用コストを削減するために資源を最適に割り当てることに関心を持っている。 この問題は、リソース制約付きジョブスケジューリング(RCJS)として文献でこれまで研究されてきた。 決定論的問題に対処するための最適化手法がいくつか提案されているが、鉱業における必然的課題である資源の可用性に関する不確実性は、あまり注目されていない。 不確実性のあるRCJSは、既存の最適化手法では効率的に解決できない難しい組合せ最適化問題である。 本研究では,早期収束,過度なパラメータ数,不確実性レベルへの対処における非効率性などの不確実性を伴うRCJSの既存手法の限界を克服する適応型人口推定アニールアルゴリズムを提案する。 このアルゴリズムは、人口を用いて、メトロポリス・ハスティングスアルゴリズムの冷却スケジュールを変更し、摂動演算子を選択するための適応機構を用いて、効率的に探索と利用のバランスをとるように設計されている。 その結果,提案アルゴリズムはRCJSインスタンスと不確実性レベルの範囲で既存手法よりも優れていた。 さらに、すべての不確実性レベルにまたがる1つの問題インスタンスを除いて、新しい最もよく知られたソリューションが発見される。

Transporting ore from mines to ports is of significant interest in mining supply chains. These operations are commonly associated with growing costs and a lack of resources. Large mining companies are interested in optimally allocating their resources to reduce operational costs. This problem has been previously investigated in the literature as resource constrained job scheduling (RCJS). While a number of optimisation methods have been proposed to tackle the deterministic problem, the uncertainty associated with resource availability, an inevitable challenge in mining operations, has received less attention. RCJS with uncertainty is a hard combinatorial optimisation problem that cannot be solved efficiently with existing optimisation methods. This study proposes an adaptive population-based simulated annealing algorithm that can overcome the limitations of existing methods for RCJS with uncertainty including the premature convergence, the excessive number of hyper-parameters, and the inefficiency in coping with different uncertainty levels. This new algorithm is designed to effectively balance exploration and exploitation, by using a population, modifying the cooling schedule in the Metropolis-Hastings algorithm, and using an adaptive mechanism to select perturbation operators. The results show that the proposed algorithm outperforms existing methods across a wide range of benchmark RCJS instances and uncertainty levels. Moreover, new best known solutions are discovered for all but one problem instance across all uncertainty levels.
翻訳日:2022-11-01 16:15:19 公開日:2022-10-31
# stn:脳活動パターンから刺激カテゴリーを識別する新しいテンソルネットワーク法

STN: a new tensor network method to identify stimulus category from brain activity pattern ( http://arxiv.org/abs/2210.16993v1 )

ライセンス: Link先を確認
Chunyu Liu and Jiacai Zhang(参考訳) \begin{abstract} ニューラルデコードはまだ神経計算科学の課題でありホットなトピックである。 近年,外的刺激下での脳の活性化情報を表す空間的・時間的構造情報を含む脳ネットワークパターンが研究されている。 以上より,脳ネットワークからの刺激の復号化に関する研究が注目された。 従来の方法は、一般的な機械学習方法から直接脳ネットワークの特徴を抽出し、これらの特徴を分類器に入れ、外部刺激のデコードを実現する。 しかし,本手法では脳ネットワークに隠された多次元構造情報を効果的に抽出することはできない。 テンソル解析により, テンソル分解モデルにより, 多次元構造データ中の一意な時空間構造特性を抽出できることが示唆された。 本研究では,テンソル分解概念と刺激カテゴリー制約情報を含む刺激制約テンソル脳モデル(stn)を提案した。 このモデルは、実際の神経画像データセット(megおよびfmri)で検証された。 実験の結果、STNモデルは2つのモーダルデータセット上の他の手法と比較して11.06\%$と18.46\%$を達成できた。 これらの結果から,STNモデルの識別特性,特に意味情報を用いた物体刺激の復号化に優位性が示唆された。 \end{abstract}

\begin{abstract} Neural decoding is still a challenge and hot topic in neurocomputing science. Recently, many studies have shown that brain network pattern containing rich spatial and temporal structure information, which represented the activation information of brain under external stimuli. %Therefore, the research of decoding stimuli from brain network received extensive more attention. The traditional method is to extract brain network features directly from the common machine learning method, then put these features into the classifier, and realize to decode external stimuli. However, this method cannot effectively extract the multi-dimensional structural information, which is hidden in the brain network. The tensor researchers show that the tensor decomposition model can fully mine unique spatio-temporal structure characteristics in multi-dimensional structure data. This research proposed a stimulus constrain tensor brain model(STN), which involved the tensor decomposition idea and stimulus category constraint information. The model was verified on the real neuroimaging data sets (MEG and fMRI). The experimental results show that the STN model achieved more $11.06\%$ and $18.46\%$ compared with others methods on two modal data sets. These results imply the superiority of extracting discriminative characteristics about STN model, especially for decoding object stimuli with semantic information. \end{abstract}
翻訳日:2022-11-01 16:04:59 公開日:2022-10-31
# 大マルジンソフトマックスにおける確率依存性勾配減衰

Probability-Dependent Gradient Decay in Large Margin Softmax ( http://arxiv.org/abs/2210.17145v1 )

ライセンス: Link先を確認
Siyuan Zhang and Linbo Xie and Ying Chen(参考訳) ここ数年、Softmaxはニューラルネットワークフレームワークの共通コンポーネントになっている。 本稿では,ソフトマックスに勾配減衰ハイパーパラメータを導入し,トレーニング中の確率依存性の勾配減衰率を制御する。 MNIST, CIFAR-10/100, SVHNで訓練された各種モデルアーキテクチャの理論的解析と実証結果に従えば, 信頼確率が上昇するにつれて, 一般化性能は勾配減衰率に大きく依存することがわかった。 また,小さな勾配減衰による最適化は,簡単なサンプルを十分に信頼した後にのみ,ハードサンプルがスポットライトに晒されるような,類似したカリキュラム学習シーケンスを示し,高度に分離されたサンプルはクラス間距離を減らすために高い勾配を得る。 解析結果から,確率依存性の勾配減衰率を調節することにより,ソフトマックスが損失関数の局所リプシッツ制約に影響を及ぼすことを示すことができる。 本稿では,大縁ソフトマックス,局所リプシッツ制約,カリキュラム学習の概念間の,勾配減衰率の分析による新しい視点と理解について述べる。 さらに, トレーニングにおけるソフトマックス損失を動的に調整するウォームアップ戦略を提案し, 勾配減衰率を過小値から増加させ, 収束速度を高速化する。

In the past few years, Softmax has become a common component in neural network frameworks. In this paper, a gradient decay hyperparameter is introduced in Softmax to control the probability-dependent gradient decay rate during training. By following the theoretical analysis and empirical results of a variety of model architectures trained on MNIST, CIFAR-10/100 and SVHN, we find that the generalization performance depends significantly on the gradient decay rate as the confidence probability rises, i.e., the gradient decreases convexly or concavely as the sample probability increases. Moreover, optimization with the small gradient decay shows a similar curriculum learning sequence where hard samples are in the spotlight only after easy samples are convinced sufficiently, and well-separated samples gain a higher gradient to reduce intra-class distance. Based on the analysis results, we can provide evidence that the large margin Softmax will affect the local Lipschitz constraint of the loss function by regulating the probability-dependent gradient decay rate. This paper provides a new perspective and understanding of the relationship among concepts of large margin Softmax, local Lipschitz constraint and curriculum learning by analyzing the gradient decay rate. Besides, we propose a warm-up strategy to dynamically adjust Softmax loss in training, where the gradient decay rate increases from over-small to speed up the convergence rate.
翻訳日:2022-11-01 15:57:34 公開日:2022-10-31
# リプシッツ正規化勾配流と潜在生成粒子

Lipschitz regularized gradient flows and latent generative particles ( http://arxiv.org/abs/2210.17230v1 )

ライセンス: Link先を確認
Hyemin Gu, Panagiota Birmpa, Yiannis Pantazis, Luc Rey-Bellet, Markos A. Katsoulakis(参考訳) リプシッツ正規化f-divergencesは、変分表現における判別器のリプシッツ定数に束縛して構成される。 それらはワッサーシュタイン計量とf-分岐の間を補間し、おそらく重い尾を持つ非絶対連続(例えば経験的)分布に対するフレキシブルな損失関数の族を与える。 これらの発散に基づく確率測度空間上のリプシッツ正規化勾配流を構成する。 このような勾配流の例として、リプシッツ正則化フォッカー・プランクや、クルバック・リーバーとアルファ・ディバージェンスの多孔質媒質偏微分方程式(PDE)がある。 正規化は、Courant-Friedrichs-Lewy数値安定性条件をPDEに課すことに対応する。 実験的な測定では、勾配流上のリプシッツ正則化は数値的に安定なトランスポーター/判別器粒子アルゴリズムを誘導し、生成粒子は判別器の勾配に沿って輸送される。 勾配構造は、アルゴリズムの収束を追跡するために使われる正規化フィッシャー情報(粒子運動エネルギー)につながる。 リプシッツ正規化判別器はニューラルネットワークのスペクトル正規化によって実装でき、粒子アルゴリズムはデータからのみ知られる高次元分布から近似サンプルを生成する。 特に粒子アルゴリズムはサンプルサイズが小さくても合成データを生成することができる。 正規化分散のための新しいデータ処理の不等式により、粒子アルゴリズムと表現学習、例えばオートエンコーダアーキテクチャを組み合わせることができる。 得られたアルゴリズムは, 合成試料の効率および品質の観点から, 生成特性を著しく向上させる。 統計力学の観点からは、符号化は生成粒子のより良い移動性を学ぶものとして動的に解釈できる。

Lipschitz regularized f-divergences are constructed by imposing a bound on the Lipschitz constant of the discriminator in the variational representation. They interpolate between the Wasserstein metric and f-divergences and provide a flexible family of loss functions for non-absolutely continuous (e.g. empirical) distributions, possibly with heavy tails. We construct Lipschitz regularized gradient flows on the space of probability measures based on these divergences. Examples of such gradient flows are Lipschitz regularized Fokker-Planck and porous medium partial differential equations (PDEs) for the Kullback-Leibler and alpha-divergences, respectively. The regularization corresponds to imposing a Courant-Friedrichs-Lewy numerical stability condition on the PDEs. For empirical measures, the Lipschitz regularization on gradient flows induces a numerically stable transporter/discriminator particle algorithm, where the generative particles are transported along the gradient of the discriminator. The gradient structure leads to a regularized Fisher information (particle kinetic energy) used to track the convergence of the algorithm. The Lipschitz regularized discriminator can be implemented via neural network spectral normalization and the particle algorithm generates approximate samples from possibly high-dimensional distributions known only from data. Notably, our particle algorithm can generate synthetic data even in small sample size regimes. A new data processing inequality for the regularized divergence allows us to combine our particle algorithm with representation learning, e.g. autoencoder architectures. The resulting algorithm yields markedly improved generative properties in terms of efficiency and quality of the synthetic samples. From a statistical mechanics perspective the encoding can be interpreted dynamically as learning a better mobility for the generative particles.
翻訳日:2022-11-01 15:57:10 公開日:2022-10-31
# 離散決定点過程のための高速サンプリング器

A Faster Sampler for Discrete Determinantal Point Processes ( http://arxiv.org/abs/2210.17358v1 )

ライセンス: Link先を確認
Simon Barthelm\'e, Nicolas Tremblay and Pierre-Olivier Amblard(参考訳) Discrete Determinantal Point Processs (DPP) は、データセットのサブサンプル化に幅広い可能性を持つ。 しかし、サンプリングのコストが高い場合もあります。 最悪の場合、サンプリングコストは$O(n^3)$とスケールする。 この禁止コストに対する一般的な回避策は、低ランクカーネルによって定義されたDPPをサンプリングすることである。 そのような場合、標準的なサンプリングアルゴリズムのコストは$O(np^2 + nm^2)$で、ここで m は DPP (通常 $m \ll n$) のサンプルの(平均)数であり、p (m \leq p \leq n$) は DPP を定義するのに使用されるカーネルのランクである。 第一項の$O(np^2)$はSVDのようなステップに由来する。 ここでは、このコストの第二項である$O(nm^2)$に着目し、サンプリングの精度を損なうことなく$O(nm + m^3 log m)$にすることができることを示す。 実際、我々は古典的アルゴリズムと比較して、$n > 1, 000$ の速さで非常に大きなスピードアップを観測する。 ここで述べるアルゴリズムは、連続dppをサンプリングするための標準アルゴリズムの近縁な変種であり、拒絶サンプリングを使用する。 射影dppsの特定の場合、追加のサンプルは時間$o(m^3 log m)$で描画可能であることも示します。 最後に、分析の興味深い副産物は、DPP からの実現は通常、レバレッジスコア i.d. サンプリングを用いて形成される$O(m log m)$ のサブセットに含まれることである。

Discrete Determinantal Point Processes (DPPs) have a wide array of potential applications for subsampling datasets. They are however held back in some cases by the high cost of sampling. In the worst-case scenario, the sampling cost scales as $O(n^3)$ where n is the number of elements of the ground set. A popular workaround to this prohibitive cost is to sample DPPs defined by low-rank kernels. In such cases, the cost of standard sampling algorithms scales as $O(np^2 + nm^2)$ where m is the (average) number of samples of the DPP (usually $m \ll n$) and p ($m \leq p \leq n$) the rank of the kernel used to define the DPP. The first term, $O(np^2)$, comes from a SVD-like step. We focus here on the second term of this cost, $O(nm^2)$, and show that it can be brought down to $O(nm + m^3 log m)$ without loss on the sampling's exactness. In practice, we observe extremely substantial speedups compared to the classical algorithm as soon as $n > 1, 000$. The algorithm described here is a close variant of the standard algorithm for sampling continuous DPPs, and uses rejection sampling. In the specific case of projection DPPs, we also show that any additional sample can be drawn in time $O(m^3 log m)$. Finally, an interesting by-product of the analysis is that a realisation from a DPP is typically contained in a subset of size $O(m log m)$ formed using leverage score i.i.d. sampling.
翻訳日:2022-11-01 15:56:41 公開日:2022-10-31
# 表データにおける値の欠落に関する拡散モデル

Diffusion models for missing value imputation in tabular data ( http://arxiv.org/abs/2210.17128v1 )

ライセンス: Link先を確認
Shuhan Zheng, Nontawat Charoenphakdee(参考訳) 機械学習における値計算の欠落は、利用可能な情報を用いてデータセットの欠落値を正確に推定するタスクである。 この課題では、いくつかの深層生成モデリング手法が提案され、その有用性を実証している。 近年,画像やテキスト,音声などにおける生成的モデリングタスクの有効性から,拡散モデルの人気が高まっている。 表データにおける値インプテーションの欠落に対する拡散モデルの有効性について,我々の知る限り,あまり注目されていない。 近年の時系列データインプテーションのための拡散モデルの開発に基づいて,「表データのための条件スコアに基づく拡散モデル」(csdi_t) と呼ばれる拡散モデル手法を提案する。 分類変数と数値変数を同時に扱うために, 1ホットエンコーディング, アナログビットエンコーディング, 特徴トークン化という3つの手法を検討した。 ベンチマーク実験の結果,CSDI_Tの有効性は既知の手法と比較して実証され,分類的埋め込み技術の重要性も強調された。

Missing value imputation in machine learning is the task of estimating the missing values in the dataset accurately using available information. In this task, several deep generative modeling methods have been proposed and demonstrated their usefulness, e.g., generative adversarial imputation networks. Recently, diffusion models have gained popularity because of their effectiveness in the generative modeling task in images, texts, audio, etc. To our knowledge, less attention has been paid to the investigation of the effectiveness of diffusion models for missing value imputation in tabular data. Based on recent development of diffusion models for time-series data imputation, we propose a diffusion model approach called "Conditional Score-based Diffusion Models for Tabular data" (CSDI_T). To effectively handle categorical variables and numerical variables simultaneously, we investigate three techniques: one-hot encoding, analog bits encoding, and feature tokenization. Experimental results on benchmark datasets demonstrated the effectiveness of CSDI_T compared with well-known existing methods, and also emphasized the importance of the categorical embedding techniques.
翻訳日:2022-11-01 15:49:53 公開日:2022-10-31
# 逆ロバスト性のためのブラックボックスモデル

Scoring Black-Box Models for Adversarial Robustness ( http://arxiv.org/abs/2210.17140v1 )

ライセンス: Link先を確認
Jian Vora, Pranay Reddy Samala(参考訳) ディープニューラルネットワークは敵の入力に影響を受けやすく、異なる摂動モデルの下での敵の攻撃からこれらのモデルを守る様々な方法が提案されている。 逆攻撃に対するモデルの堅牢性は、まずモデルに対する逆入力を構築し、次に構築された逆入力上でモデル性能をテストすることによって分析された。 これらの攻撃のほとんどは、モデルにホワイトボックスが必要であり、データラベルへのアクセスが必要であり、逆入力を見つけるのに計算コストがかかる。 逆入力に対する頑健性を示すブラックボックスモデルに対する簡易なスコアリング手法を提案する。 より頑健なモデルは、より小さなl_1$ノルムのライムウェイトとよりシャープな説明を持つ。

Deep neural networks are susceptible to adversarial inputs and various methods have been proposed to defend these models against adversarial attacks under different perturbation models. The robustness of models to adversarial attacks has been analyzed by first constructing adversarial inputs for the model, and then testing the model performance on the constructed adversarial inputs. Most of these attacks require the model to be white-box, need access to data labels, and finding adversarial inputs can be computationally expensive. We propose a simple scoring method for black-box models which indicates their robustness to adversarial input. We show that adversarially more robust models have a smaller $l_1$-norm of LIME weights and sharper explanations.
翻訳日:2022-11-01 15:49:36 公開日:2022-10-31
# 不均一グラフ学習ネットワークにおける関係中心型ポーリングと畳み込み

Towards Relation-centered Pooling and Convolution for Heterogeneous Graph Learning Networks ( http://arxiv.org/abs/2210.17142v1 )

ライセンス: Link先を確認
Tiehua Zhang, Yuze Liu, Yao Yao, Youhua Xia, Xin Chen, Xiaowei Huang, Jiong Jin(参考訳) ヘテロジニアスグラフニューラルネットワークは、グラフ表現学習における大きな可能性を解き放ち、ノード分類やクラスタリングといった下流タスクにおいて優れたパフォーマンスを示している。 既存の異種グラフ学習ネットワークは主に、定義済みのメタパスに依存するか、異なるノード/エッジ上でタイプ固有の注意メッセージの伝搬に注意メカニズムを使用するよう設計されており、多くのカスタマイズ作業と計算コストが発生する。 この目的のために,PC-HGN を用いた関係中心型多元グラフ学習ネットワークを設計し,関係固有サンプリングと相互関係の畳み込みを実現し,グラフの構造的不均一性を適応学習プロセスを通じて埋め込み空間によりよくエンコードできることを示した。 提案モデルの性能を3つの実世界のデータセットで比較することにより評価し,PC-HGNが一貫してベースラインを上回り,最大で17.8%向上したことを示す。

Heterogeneous graph neural network has unleashed great potential on graph representation learning and shown superior performance on downstream tasks such as node classification and clustering. Existing heterogeneous graph learning networks are primarily designed to either rely on pre-defined meta-paths or use attention mechanisms for type-specific attentive message propagation on different nodes/edges, incurring many customization efforts and computational costs. To this end, we design a relation-centered Pooling and Convolution for Heterogeneous Graph learning Network, namely PC-HGN, to enable relation-specific sampling and cross-relation convolutions, from which the structural heterogeneity of the graph can be better encoded into the embedding space through the adaptive training process. We evaluate the performance of the proposed model by comparing with state-of-the-art graph learning models on three different real-world datasets, and the results show that PC-HGN consistently outperforms all the baseline and improves the performance maximumly up by 17.8%.
翻訳日:2022-11-01 15:49:25 公開日:2022-10-31
# 教員学生による強化学習のためのカリキュラム学習

Teacher-student curriculum learning for reinforcement learning ( http://arxiv.org/abs/2210.17368v1 )

ライセンス: Link先を確認
Yanick Schraner(参考訳) 強化学習(rl)は、逐次的意思決定問題の一般的なパラダイムである。 過去10年間のrlの進歩は、ビデオゲーム、ボードゲーム、ロボティクス、チップデザインなど、多くの挑戦的な領域でブレークスルーをもたらした。 実世界問題にrlを適用する場合,深層強化学習法のサンプル非効率性は大きな障害となる。 転向学習は1つのタスクで得た知識を新しいタスクでトレーニングする際に適用できるように強化学習に適用されている。 カリキュラム学習は、タスクやデータサンプルのシークエンシングに関係しており、知識をそれらのタスク間で転送して、解決が難しいターゲットタスクを学ぶことができる。 サンプル効率を改善するカリキュラムを設計するのは複雑な問題です。 そこで本論文では,生徒が選択した課題の解き方を学ぶ間,生徒のタスクを選択できる教師を同時に訓練する教師教育カリキュラム学習環境を提案する。 本手法は,人間のドメイン知識と手作業によるカリキュラム設計とは無関係である。 提案手法をグリッドワールドとGoogle Football環境の2つの強化学習ベンチマークで評価した。 提案手法では,タブラ・ラサ強化学習と比較して,学生のサンプル効率と汎用性が向上する。

Reinforcement learning (rl) is a popular paradigm for sequential decision making problems. The past decade's advances in rl have led to breakthroughs in many challenging domains such as video games, board games, robotics, and chip design. The sample inefficiency of deep reinforcement learning methods is a significant obstacle when applying rl to real-world problems. Transfer learning has been applied to reinforcement learning such that the knowledge gained in one task can be applied when training in a new task. Curriculum learning is concerned with sequencing tasks or data samples such that knowledge can be transferred between those tasks to learn a target task that would otherwise be too difficult to solve. Designing a curriculum that improves sample efficiency is a complex problem. In this thesis, we propose a teacher-student curriculum learning setting where we simultaneously train a teacher that selects tasks for the student while the student learns how to solve the selected task. Our method is independent of human domain knowledge and manual curriculum design. We evaluated our methods on two reinforcement learning benchmarks: grid world and the challenging Google Football environment. With our method, we can improve the sample efficiency and generality of the student compared to tabula-rasa reinforcement learning.
翻訳日:2022-11-01 15:48:08 公開日:2022-10-31
# DUEL:自己指導型学習における作業記憶の適応的重複排除

DUEL: Adaptive Duplicate Elimination on Working Memory for Self-Supervised Learning ( http://arxiv.org/abs/2210.17052v1 )

ライセンス: Link先を確認
Won-Seok Choi, Dong-Sig Han, Hyundo Lee, Junseok Park and Byoung-Tak Zhang(参考訳) 自己監視学習(SSL)では、ターゲットデータとその負のサンプルが同じクラスを共有する衝突の頻繁な発生が性能を低下させることが知られている。 特にクロールデータやロボット収集観測のような現実世界のデータでは、データの重複により衝突が頻繁に起こることがある。 この問題に対処するために,メモリ内の適応的偏り分布から負のサンプルをサンプリングすることで,偏りのあるデータセットから直接サンプリングするよりもモデルが安定すると主張している。 本稿では,人間の作業メモリにインスパイアされた適応Duplicate Elimination(DUEL)を用いた新しいSSLフレームワークを提案する。 提案するフレームワークは,劇的なクラス間不均衡によるダウンストリームタスク性能の劣化を防止する。

In Self-Supervised Learning (SSL), it is known that frequent occurrences of the collision in which target data and its negative samples share the same class can decrease performance. Especially in real-world data such as crawled data or robot-gathered observations, collisions may occur more often due to the duplicates in the data. To deal with this problem, we claim that sampling negative samples from the adaptively debiased distribution in the memory makes the model more stable than sampling from a biased dataset directly. In this paper, we introduce a novel SSL framework with adaptive Duplicate Elimination (DUEL) inspired by the human working memory. The proposed framework successfully prevents the downstream task performance from degradation due to a dramatic inter-class imbalance.
翻訳日:2022-11-01 15:39:00 公開日:2022-10-31
# DanZero: 強化学習によるGuanDanゲームのマスタリング

DanZero: Mastering GuanDan Game with Reinforcement Learning ( http://arxiv.org/abs/2210.17087v1 )

ライセンス: Link先を確認
Yudong Lu, Jian Zhao, Youpeng Zhao, Wengang Zhou, Houqiang Li(参考訳) カードゲームAIは、人工知能の研究において常にホットな話題となっている。 近年、Mahjong、DouDizhu、Texas Hold'emといった複雑なカードゲームが解決され、対応するAIプログラムは人間の専門家のレベルに達している。 本稿では、より複雑なカードゲーム、guandanのためのaiプログラムの開発に取り組んでおり、ルールはdoudizhuと似ているが、はるかに複雑である。 具体的に言うと、大きな状態とアクション空間の特性、ひとつのエピソードの長さ、GuanDanのプレイヤの数の不確実さは、AIプログラムの開発に大きな課題をもたらします。 これらの課題に対処するために,強化学習技術を用いたGuanDanのためのAIプログラムDanZeroを提案する。 具体的には、分散フレームワークを使用してAIシステムをトレーニングします。 アクタープロセスでは、状態特徴を慎重に設計し、エージェントはセルフプレイでサンプルを生成する。 学習プロセスでは、モデルをDeep Monte-Carlo Methodによって更新する。 160cpuと1gpuを使って30日間トレーニングした後、danzeroボットを取得しました。 我々は、ヒューリスティックなルールに基づく8つのベースラインAIプログラムと比較し、DanZeroの優れたパフォーマンスを明らかにした。 また、DanZeroを人間プレイヤーでテストし、人間レベルのパフォーマンスを示す。

Card game AI has always been a hot topic in the research of artificial intelligence. In recent years, complex card games such as Mahjong, DouDizhu and Texas Hold'em have been solved and the corresponding AI programs have reached the level of human experts. In this paper, we are devoted to developing an AI program for a more complex card game, GuanDan, whose rules are similar to DouDizhu but much more complicated. To be specific, the characteristics of large state and action space, long length of one episode and the unsure number of players in the GuanDan pose great challenges for the development of the AI program. To address these issues, we propose the first AI program DanZero for GuanDan using reinforcement learning technique. Specifically, we utilize a distributed framework to train our AI system. In the actor processes, we carefully design the state features and agents generate samples by self-play. In the learner process, the model is updated by Deep Monte-Carlo Method. After training for 30 days using 160 CPUs and 1 GPU, we get our DanZero bot. We compare it with 8 baseline AI programs which are based on heuristic rules and the results reveal the outstanding performance of DanZero. We also test DanZero with human players and demonstrate its human-level performance.
翻訳日:2022-11-01 15:38:48 公開日:2022-10-31
# 信頼ネットワーク: 小さなデータセット上の回帰ニューラルネットワークの予測間隔の改善に向けて

Confidence-Nets: A Step Towards better Prediction Intervals for regression Neural Networks on small datasets ( http://arxiv.org/abs/2210.17092v1 )

ライセンス: Link先を確認
Mohamedelmujtaba Altayeb, Abdelrahman M. Elamin, Hozaifa Ahmed, Eithar Elfatih Elfadil Ibrahim, Omer Haydar, Saba Abdulaziz, Najlaa H. M. Mohamed(参考訳) 最近の10年で、ディープラーニングとニューラルネットワークの人気が大幅に上昇した。 これらのアルゴリズムは多くの過去の記録を破り、驚くべき結果を得た。 彼らの卓越したパフォーマンスはaiの進歩を大幅に加速させ、これまでのところ様々なマイルストーンが予想よりも早く達成されている。 しかし、比較的小さなデータセットの場合、Deep Neural Networks(DNN)の性能は他の機械学習モデルと比較して精度が低下する可能性がある。 さらに、回帰タスクを扱う場合、予測間隔を構築したり、予測の不確実性を評価することは困難である。 本稿では,予測の不確かさを推定し,その精度を高め,予測変動の間隔を与えるアンサンブル手法を提案する。 予測のみを提供する従来のDNNと比較して,提案手法は,DNN,極勾配向上(XGBoost),異性性計算技術を組み合わせて予測区間を出力することができる。 単純な設計であるにもかかわらず、このアプローチは小さなデータセットの精度を大幅に向上し、ニューラルネットワークのアーキテクチャに多くの複雑さをもたらすことはない。 提案手法は,様々なデータセット上でテストされ,ニューラルネットワークモデルの性能が大幅に向上した。 このモデルの予測間隔は、それぞれ90%と55%のトレーニングサイズにおいて、平均速度71%と78%の基底真理値を含むことができる。 最後に,実験誤差推定におけるアプローチの他の側面と応用,および転送学習の適用について述べる。

The recent decade has seen an enormous rise in the popularity of deep learning and neural networks. These algorithms have broken many previous records and achieved remarkable results. Their outstanding performance has significantly sped up the progress of AI, and so far various milestones have been achieved earlier than expected. However, in the case of relatively small datasets, the performance of Deep Neural Networks (DNN) may suffer from reduced accuracy compared to other Machine Learning models. Furthermore, it is difficult to construct prediction intervals or evaluate the uncertainty of predictions when dealing with regression tasks. In this paper, we propose an ensemble method that attempts to estimate the uncertainty of predictions, increase their accuracy and provide an interval for the expected variation. Compared with traditional DNNs that only provide a prediction, our proposed method can output a prediction interval by combining DNNs, extreme gradient boosting (XGBoost) and dissimilarity computation techniques. Albeit the simple design, this approach significantly increases accuracy on small datasets and does not introduce much complexity to the architecture of the neural network. The proposed method is tested on various datasets, and a significant improvement in the performance of the neural network model is seen. The model's prediction interval can include the ground truth value at an average rate of 71% and 78% across training sizes of 90% and 55%, respectively. Finally, we highlight other aspects and applications of the approach in experimental error estimation, and the application of transfer learning.
翻訳日:2022-11-01 15:38:27 公開日:2022-10-31
# SSD-LM:テキスト生成とモジュール制御のための半自己回帰型Simplexベース拡散言語モデル

SSD-LM: Semi-autoregressive Simplex-based Diffusion Language Model for Text Generation and Modular Control ( http://arxiv.org/abs/2210.17432v1 )

ライセンス: Link先を確認
Xiaochuang Han, Sachin Kumar, Yulia Tsvetkov(参考訳) 連続値領域(例えば画像)における拡散モデルの成功にもかかわらず、離散テキスト上の拡散ベースの言語モデルは、テキスト生成ベンチマーク上の自己回帰言語モデルとはまだ一致していない。 本稿では,2つの重要な設計選択肢を持つ拡散言語モデルであるSSD-LMを提案する。 まず、SSD-LMは半自己回帰的で、反復的にテキストのブロックを生成し、復号時にフレキシブルな出力長を実現し、局所的な双方向コンテキスト更新を可能にする。 第二に、これは単純で、学習された潜在空間ではなく自然語彙空間上で拡散し、既成の分類器の適応なしに分類器誘導とモジュラー制御を組み込むことができる。 制御されたテキスト生成ベンチマークと同様に、制約のないSSD-LMの評価を行い、標準品質と多様性の指標で強い自己回帰性GPT-2ベースラインに適合または優れることを示す。

Despite the growing success of diffusion models in continuous-valued domains (e.g., images), diffusion-based language models on discrete text have yet to match autoregressive language models on text generation benchmarks. In this work, we present SSD-LM -- a diffusion language model with two key design choices. First, SSD-LM is semi-autoregressive, iteratively generating blocks of text, allowing for flexible output length at decoding time while enabling local bidirectional context updates. Second, it is simplex-based, performing diffusion on the natural vocabulary space rather than a learned latent space, allowing us to incorporate classifier guidance and modular control without any adaptation of off-the-shelf classifiers. We evaluate SSD-LM on unconstrained as well as controlled text generation benchmarks, and show that it matches or outperforms strong autoregressive GPT-2 baselines across standard quality and diversity metrics.
翻訳日:2022-11-01 15:32:18 公開日:2022-10-31
# ソフトラベルプロトタイプを用いた事例から新しい課題を学ぶ

Learning New Tasks from a Few Examples with Soft-Label Prototypes ( http://arxiv.org/abs/2210.17437v1 )

ライセンス: Link先を確認
Avyav Kumar Singh, Ekaterina Shutova and Helen Yannakoudakis(参考訳) 実験によって、人間が全く見ていないカテゴリーを予測できる方法で学習できることが実証された(Malaviya et al., 2022)。 sucholutsky氏とSchonlau氏(2020年)は先頃、同じことを目指すマシンラーニングアプローチを発表した。 彼らは合成されたデータを活用し、サブ線形スケーリングを実現し、M が N よりも少ない M トレーニングサンプルから N クラスの認識を学習できるモデルを開発することができることを示した。 しかし、その方法は単変量あるいは単純多変量データに対して定義された(Sucholutsky et al., 2021)。 大規模で高次元で現実世界のデータセットで作業できるように拡張し、この新しい挑戦的な環境で実証的に検証します。 本手法を,ごく少数の例 (4, 8, 16) から未確認のNLPタスクの学習に適用する。 まず、訓練データに適合するソフトラベルのプロトタイプと呼ばれるコンパクトで洗練された1対1のショット表現を生成し、入力領域空間の異なるクラスの分布をキャプチャする。 そして、修正されたk-nearest近傍の分類器を使って、ソフトラベルのプロトタイプが競争的にデータを分類できることを証明します。

It has been experimentally demonstrated that humans are able to learn in a manner that allows them to make predictions on categories for which they have not seen any examples (Malaviya et al., 2022). Sucholutsky and Schonlau (2020) have recently presented a machine learning approach that aims to do the same. They utilise synthetically generated data and demonstrate that it is possible to achieve sub-linear scaling and develop models that can learn to recognise N classes from M training samples where M is less than N - aka less-than-one shot learning. Their method was, however, defined for univariate or simple multivariate data (Sucholutsky et al., 2021). We extend it to work on large, high-dimensional and real-world datasets and empirically validate it in this new and challenging setting. We apply this method to learn previously unseen NLP tasks from very few examples (4, 8 or 16). We first generate compact, sophisticated less-than-one shot representations called soft-label prototypes which are fitted on training data, capturing the distribution of different classes across the input domain space. We then use a modified k-Nearest Neighbours classifier to demonstrate that soft-label prototypes can classify data competitively, even outperforming much more computationally complex few-shot learning methods.
翻訳日:2022-11-01 15:32:00 公開日:2022-10-31
# LSTMに基づくソーシャルメディアレビューにおける中国語感性分析の事例研究

A Case Study of Chinese Sentiment Analysis on Social Media Reviews Based on LSTM ( http://arxiv.org/abs/2210.17452v1 )

ライセンス: Link先を確認
Lukai Wang, Lei Wang(参考訳) ネットワークの世論分析は自然言語処理(NLP)と世論監督の組み合わせによって行われ、世論のムードや傾向の監視に不可欠である。 したがって、ネットワーク世論分析は潜在的な社会的問題を識別し、解決することができる。 本研究では,長期記憶ネットワーク(LSTM)モデルを用いて,ソーシャルメディアレビューにおける中国の感情の分析を実現することを目的とする。 データセットはWebクローラーを使用してSina Weiboから取得され、Pandasでクリーニングされた。 まず、唐山攻撃と江華事件の法的判決に関する中国の意見が分断され、ベクトル化された。 次に、バイナリLSTMモデルをトレーニングし、テストした。 最後に、LSTMモデルを用いてコメントを分析し、感情分析結果を得た。 提案モデルの精度は約92%に達している。

Network public opinion analysis is obtained by a combination of natural language processing (NLP) and public opinion supervision, and is crucial for monitoring public mood and trends. Therefore, network public opinion analysis can identify and solve potential and budding social problems. This study aims to realize an analysis of Chinese sentiment in social media reviews using a long short-term memory network (LSTM) model. The dataset was obtained from Sina Weibo using a web crawler and was cleaned with Pandas. First, Chinese comments regarding the legal sentencing in of Tangshan attack and Jiang Ge Case were segmented and vectorized. Then, a binary LSTM model was trained and tested. Finally, sentiment analysis results were obtained by analyzing the comments with the LSTM model. The accuracy of the proposed model has reached approximately 92%.
翻訳日:2022-11-01 15:31:38 公開日:2022-10-31
# 自己学習によるゼロショットテキスト分類

Zero-Shot Text Classification with Self-Training ( http://arxiv.org/abs/2210.17541v1 )

ライセンス: Link先を確認
Ariel Gera, Alon Halfon, Eyal Shnarch, Yotam Perlitz, Liat Ein-Dor, Noam Slonim(参考訳) 大規模事前訓練言語モデルの最近の進歩は、ゼロショットテキスト分類に注意を向けている。 特に、自然言語推論データセットに微調整されたモデルは、将来性のある結果と既製の可用性のため、ゼロショット分類器として広く採用されている。 しかし、そのようなモデルが対象のタスクに不慣れであるという事実は、不安定性とパフォーマンスの問題を引き起こす可能性がある。 本稿では,このギャップを単純な自己学習アプローチで埋めるプラグイン・アンド・プレイ方式を提案し,クラス名とラベルのないデータセットを同時に必要とし,ドメインの専門知識や試行錯誤を必要とせず,クラス名のみを必要とする。 最確実な予測に基づいてゼロショット分類器を微調整することで、広範囲のテキスト分類タスクにおいて大幅な性能向上がもたらされることを示す。

Recent advances in large pretrained language models have increased attention to zero-shot text classification. In particular, models finetuned on natural language inference datasets have been widely adopted as zero-shot classifiers due to their promising results and off-the-shelf availability. However, the fact that such models are unfamiliar with the target task can lead to instability and performance issues. We propose a plug-and-play method to bridge this gap using a simple self-training approach, requiring only the class names along with an unlabeled dataset, and without the need for domain expertise or trial and error. We show that fine-tuning the zero-shot classifier on its most confident predictions leads to significant performance gains across a wide range of text classification tasks, presumably since self-training adapts the zero-shot model to the task at hand.
翻訳日:2022-11-01 15:31:20 公開日:2022-10-31
# 言語モデルにおける口頭暗記の防止はプライバシーの誤った感覚をもたらす

Preventing Verbatim Memorization in Language Models Gives a False Sense of Privacy ( http://arxiv.org/abs/2210.17546v1 )

ライセンス: Link先を確認
Daphne Ippolito, Florian Tram\`er, Milad Nasr, Chiyuan Zhang, Matthew Jagielski, Katherine Lee, Christopher A. Choquette-Choo, Nicholas Carlini(参考訳) ニューラルネットワークモデルにおけるデータ記憶の研究は、トレーニングデータを取得するモデルに関連するリスク(プライバシーや著作権など)を理解し、潜在的な対策の評価を支援する。 トレーニングセットのサブストリングと正確に一致するモデル生成として定義される、多くの先行作業と最近展開されたディフェンスは、"verbatim memorization"にフォーカスしている。 我々は、動詞の暗記定義があまりに制限的であり、より微妙な暗記形式を捉えることができないと主張している。 具体的には、ブルームフィルタに基づく効率的な防御を設計・実装し、すべての暗記を完璧に防止する。 しかし,この「完璧な」フィルタは,トレーニングデータの漏洩を防止できないことを示す。 実際、それはプラウシブルで最小限に修正された「スタイル・トランスファー」プロンプトによって容易に回避され、場合によっては修正されていないオリジナルのプロンプトでさえも記憶された情報を抽出する。 例えば、all-CAPITALテキストを出力するようにモデルに指示すると、冗長マッチングに基づいて暗記チェックをバイパスする。 最後に、潜在的な代替定義と記憶の定義が、ニューラルネットワークモデルにとって難しいが決定的なオープン問題である理由について論じる。

Studying data memorization in neural language models helps us understand the risks (e.g., to privacy or copyright) associated with models regurgitating training data, and aids in the evaluation of potential countermeasures. Many prior works -- and some recently deployed defenses -- focus on "verbatim memorization", defined as a model generation that exactly matches a substring from the training set. We argue that verbatim memorization definitions are too restrictive and fail to capture more subtle forms of memorization. Specifically, we design and implement an efficient defense based on Bloom filters that perfectly prevents all verbatim memorization. And yet, we demonstrate that this "perfect" filter does not prevent the leakage of training data. Indeed, it is easily circumvented by plausible and minimally modified "style-transfer" prompts -- and in some cases even the non-modified original prompts -- to extract memorized information. For example, instructing the model to output ALL-CAPITAL texts bypasses memorization checks based on verbatim matching. We conclude by discussing potential alternative definitions and why defining memorization is a difficult yet crucial open question for neural language models.
翻訳日:2022-11-01 15:31:07 公開日:2022-10-31
# 全スライド画像における弱教師付き学習のための埋め込み空間拡張

Embedding Space Augmentation for Weakly Supervised Learning in Whole-Slide Images ( http://arxiv.org/abs/2210.17013v1 )

ライセンス: Link先を確認
Imaad Zaffar, Guillaume Jaume, Nasir Rajpoot, Faisal Mahmood(参考訳) 多重インスタンス学習(MIL)は、WSIレベルのアノテーションからギガピクセル全体スライディングイメージ(WSI)を学習するための広く使われているフレームワークである。 ほとんどのMILベースのWSIレベルの分析パイプラインでは、WSIはトレーニング前にパッチとパッチの深い特徴(すなわちパッチの埋め込み)に分割され、全体的な計算コストを削減し、GPUの限られたRAMに対処する。 この制限を克服するために、EmbAugmenter(DA-GAN)という、画素空間ではなく埋め込み空間でデータ拡張を合成し、計算要求を大幅に削減できるデータ拡張生成逆数ネットワーク(DA-GAN)を提案する。 SICAPv2データセットの実験では、我々のアプローチは拡張なしでMILより優れており、MILトレーニングのための従来のパッチレベル拡張と同程度である。

Multiple Instance Learning (MIL) is a widely employed framework for learning on gigapixel whole-slide images (WSIs) from WSI-level annotations. In most MIL based analytical pipelines for WSI-level analysis, the WSIs are often divided into patches and deep features for patches (i.e., patch embeddings) are extracted prior to training to reduce the overall computational cost and cope with the GPUs' limited RAM. To overcome this limitation, we present EmbAugmenter, a data augmentation generative adversarial network (DA-GAN) that can synthesize data augmentations in the embedding space rather than in the pixel space, thereby significantly reducing the computational requirements. Experiments on the SICAPv2 dataset show that our approach outperforms MIL without augmentation and is on par with traditional patch-level augmentation for MIL training while being substantially faster.
翻訳日:2022-11-01 15:22:36 公開日:2022-10-31
# 言語解剖報告による死亡原因分類の改善

Improving Cause-of-Death Classification from Verbal Autopsy Reports ( http://arxiv.org/abs/2210.17161v1 )

ライセンス: Link先を確認
Thokozile Manaka, Terence van Zyl, Deepak Kar(参考訳) 南アフリカを含む多くの低所得国では、患者のプライバシーと機密ポリシーのために医療施設のデータアクセスが制限されている。 さらに、臨床データは個々の機関や研究室に特有のものであるため、データアノテーション基準や規約が不十分である。 テキストデータの不足により、自然言語処理(NLP)技術は、医療分野では不十分に進んでいる。 死因(COD)は、信頼できる死亡登録システムを持たない場所での口頭解剖(VA)報告によって決定されることが多い。 非クリニックのフィールドワーカーは、CODの症状を明らかにするためのガイドとして標準化された質問セットを使用してVAレポートを行う。 本分析は,健康領域におけるNLP技術導入の課題を解決するための事例研究として,VAレポートのテキスト部分に焦点を当てた。 単言語学習とマルチソースドメイン適応の2つの移行学習パラダイムを利用して,COD分類の対象課題に対するVAナラティブを改善するシステムを提案する。 我々は、トランスフォーマー(bert)からの双方向エンコーダ表現と、一般英語および健康ドメインで事前学習された言語モデル(elmo)モデルからの埋め込みを使用して、vaナラティブから特徴を抽出する。 その結果,この伝達学習システムはCOD分類作業を改善し,物語テキストにはCODの同定に有用な情報が含まれていることが示唆された。 さらに,本フレームワークを用いて学習したバイナリVA特徴と物語テキスト特徴を組み合わせることで,CODの分類作業が促進されることを示す。

In many lower-and-middle income countries including South Africa, data access in health facilities is restricted due to patient privacy and confidentiality policies. Further, since clinical data is unique to individual institutions and laboratories, there are insufficient data annotation standards and conventions. As a result of the scarcity of textual data, natural language processing (NLP) techniques have fared poorly in the health sector. A cause of death (COD) is often determined by a verbal autopsy (VA) report in places without reliable death registration systems. A non-clinician field worker does a VA report using a set of standardized questions as a guide to uncover symptoms of a COD. This analysis focuses on the textual part of the VA report as a case study to address the challenge of adapting NLP techniques in the health domain. We present a system that relies on two transfer learning paradigms of monolingual learning and multi-source domain adaptation to improve VA narratives for the target task of the COD classification. We use the Bidirectional Encoder Representations from Transformers (BERT) and Embeddings from Language Models (ELMo) models pre-trained on the general English and health domains to extract features from the VA narratives. Our findings suggest that this transfer learning system improves the COD classification tasks and that the narrative text contains valuable information for figuring out a COD. Our results further show that combining binary VA features and narrative text features learned via this framework boosts the classification task of COD.
翻訳日:2022-11-01 15:21:09 公開日:2022-10-31
# IITD at the WANLP 2022 Shared Task: Multilingual Multi-Granularity Network for Propaganda Detection

IITD at the WANLP 2022 Shared Task: Multilingual Multi-Granularity Network for Propaganda Detection ( http://arxiv.org/abs/2210.17190v1 )

ライセンス: Link先を確認
Shubham Mittal and Preslav Nakov(参考訳) WANLP'2022の一部として、アラビア語のプロパガンダ検出における共有タスクの2つのサブタスクについて提案する。 subtask 1は、あるツイートで使用されるプロパガンダ技術を見つけるためのマルチラベル分類問題である。 このタスクのシステムは、XLM-Rを用いてターゲットツイートの確率を予測し、それぞれのテクニックを使用する。 テクニックの発見に加えて、subtask 2では、ツイートに含まれる各テクニックのインスタンス毎のテキストスパンの識別も要求している。 Subtask 2 では mBERT エンコーダを用いた多重粒度ネットワークを用いる。 全体として、我々のシステムは両方のサブタスク(それぞれ14名と3名)で第2位にランクされている。 経験的分析の結果, 英語やアラビア語への翻訳後に使用されるかに関わらず, プロパガンダ技術でアノテートされたより大きな英語コーパスを使用するのに役に立たないことがわかった。

We present our system for the two subtasks of the shared task on propaganda detection in Arabic, part of WANLP'2022. Subtask 1 is a multi-label classification problem to find the propaganda techniques used in a given tweet. Our system for this task uses XLM-R to predict probabilities for the target tweet to use each of the techniques. In addition to finding the techniques, Subtask 2 further asks to identify the textual span for each instance of each technique that is present in the tweet; the task can be modeled as a sequence tagging problem. We use a multi-granularity network with mBERT encoder for Subtask 2. Overall, our system ranks second for both subtasks (out of 14 and 3 participants, respectively). Our empirical analysis show that it does not help to use a much larger English corpus annotated with propaganda techniques, regardless of whether used in English or after translation to Arabic.
翻訳日:2022-11-01 15:20:45 公開日:2022-10-31
# ニューラルネットワークの創発的言語構造は脆弱である

Emergent Linguistic Structures in Neural Networks are Fragile ( http://arxiv.org/abs/2210.17406v1 )

ライセンス: Link先を確認
Emanuele La Malfa and Matthew Wicker and Marta Kiatkowska(参考訳) 大規模言語モデル (LLM) は自然言語処理タスクにおいて高い性能を示すことが報告されている。 しかし、精度などのパフォーマンス指標は、複雑な言語構造を頑健に表現する能力の観点から、モデルの品質を測るものではない。 さらに, LLM の重大化により, 標準的なロバスト性評価手法による解析が困難になる。 本研究では,探索課題を用いた言語表現の堅牢性を評価する枠組みを提案する。 我々は、ロバスト言語モデルは、データ分布の根底にある複雑な構文構造を堅牢かつ効率的に表現できるものであり、適切なロバスト性対策を提案する。 llmsから創発的な言語構造を抽出し,構文保存摂動を用いてこれらの構成物の安定性を検証し,llmで学習した表現をよりよく理解する。 実験では,提案するロバスト性尺度における6種類のコーパスにおける4つのllmの性能について検討した。 文脈に依存しない表現(GloVEなど)は、現代LLM(例えばBERT)の文脈依存表現と競合する場合もあるが、構文保存操作と同等に脆弱であることを示す。 ニューラルネットワークにおける創発的構文表現は不安定であり,このような構造を言語学において長く議論されてきたものと比較するリスクに注目する。

Large language models (LLMs) have been reported to have strong performance on natural language processing tasks. However, performance metrics such as accuracy do not measure the quality of the model in terms of its ability to robustly represent complex linguistic structure. Further, the sheer size of LLMs makes it difficult to analyse them using standard robustness evaluation methods. In this work, we propose a framework to evaluate the robustness of linguistic representations using probing tasks. We argue that a robust linguistic model is one that is able to robustly and efficiently represent complex syntactic structure underlying the data distribution and propose appropriate robustness measures. We leverage recent advances in extracting emergent linguistic constructs from LLMs and apply syntax-preserving perturbations to test the stability of these constructs in order to better understand the representations learned by LLMs. Empirically, we study the performance of four LLMs across six different corpora on the proposed robustness measures. We provide evidence that context-free representation (e.g., GloVE) are in some cases competitive with context-dependent representations from modern LLMs (e.g., BERT), yet equally brittle to syntax-preserving manipulations. Emergent syntactic representations in neural networks are brittle, thus our work poses the attention on the risk of comparing such structures to those that are object of a long lasting debate in linguistics.
翻訳日:2022-11-01 15:20:27 公開日:2022-10-31
# 文法誤り訂正のための大規模合成データの評価

Evaluation of large-scale synthetic data for Grammar Error Correction ( http://arxiv.org/abs/2210.17035v1 )

ライセンス: Link先を確認
Vanya Bannihatti Kumar(参考訳) Grammar Error Correction (GEC) は主に文法的に正しい文対と誤文対の大量の合成並列データの高品質化に依拠している。 合成データの品質は、GECシステムを用いて事前学習した際の性能に基づいて評価される。 しかし、これらのデータの品質を定義するために必要な要素についてはあまり洞察を提供していません。 そこで本研究では,GECタスクで生成された大規模合成データの品質について,信頼性,多様性,分布マッチングの3つの指標を導入し,それらを自動評価する。 これら3つのメトリクスを自動的に評価することは、データ生成システムにフィードバックを提供し、動的に生成された合成データの品質を向上させるのにも役立ちます。

Grammar Error Correction(GEC) mainly relies on the availability of high quality of large amount of synthetic parallel data of grammatically correct and erroneous sentence pairs. The quality of the synthetic data is evaluated on how well the GEC system performs when pre-trained using it. But this does not provide much insight into what are the necessary factors which define the quality of these data. So this work aims to introduce 3 metrics - reliability, diversity and distribution match to provide more insight into the quality of large-scale synthetic data generated for the GEC task, as well as automatically evaluate them. Evaluating these three metrics automatically can also help in providing feedback to the data generation systems and thereby improve the quality of the synthetic data generated dynamically
翻訳日:2022-11-01 15:12:36 公開日:2022-10-31
# SDCL:中国語スペルチェックのための自己拡張コントラスト学習

SDCL: Self-Distillation Contrastive Learning for Chinese Spell Checking ( http://arxiv.org/abs/2210.17168v1 )

ライセンス: Link先を確認
Xiaotian Zhang, Hang Yan, Sun Yu, Xipeng Qiu(参考訳) ホモホンの曖昧さのため、中国語のスペルチェック(csc)は広く応用されている。 既存のシステムは、通常、テキストエンコーディングにBERTを使用する。 しかし、CSCは音声情報とグラフ情報の両方を考慮する必要がある。 CSCタスクにBERTを適用するために,トークンレベルの自己蒸留コントラスト学習手法を提案する。 不正な文と対応する正しい文の両方を bert でエンコードする。 そして、比較学習損失を用いて、不正なトークンの隠れ状態が正しい文のそれに近いように規則化する。 3つのCSCデータセットに対して,本手法がベースラインよりも大幅に改善できることを確認した。

Due to the ambiguity of homophones, Chinese Spell Checking (CSC) has widespread applications. Existing systems typically utilize BERT for text encoding. However, CSC requires the model to account for both phonetic and graphemic information. To adapt BERT to the CSC task, we propose a token-level self-distillation contrastive learning method. We employ BERT to encode both the corrupted and corresponding correct sentence. Then, we use contrastive learning loss to regularize corrupted tokens' hidden states to be closer to counterparts in the correct sentence. On three CSC datasets, we confirmed our method provides a significant improvement above baselines.
翻訳日:2022-11-01 15:12:23 公開日:2022-10-31
# クッキーを焼く50の方法: 手続きテキストのランドスケープをマッピングする

50 Ways to Bake a Cookie: Mapping the Landscape of Procedural Texts ( http://arxiv.org/abs/2210.17235v1 )

ライセンス: Link先を確認
Moran Mizrahi, Dafna Shahaf(参考訳) ウェブには、車のオイル交換からアップルパイを焼くことまで、さまざまなタスクについてのガイダンスが満載です。 しかし、コンテンツは独立して作成されるため、単一のタスクは何千もの手続きテキストを持つことができる。 これにより、ユーザーは大きな図を見て、そのタスクが達成できる複数の方法を理解するのが難しくなる。 本研究では,複数の手続きテキストを直感的なグラフ表現に要約する教師なし学習手法を提案する。 手順テキストの顕著な例であるレシピに対する我々のアプローチを実証する。 ユーザスタディによると、私たちの表現は直感的で一貫性があり、初心者の料理人のためのレシピの適応や、料理をスパイスする創造的な方法の発見など、いくつかの意味のあるタスクをユーザを助ける可能性がある。

The web is full of guidance on a wide variety of tasks, from changing the oil in your car to baking an apple pie. However, as content is created independently, a single task could have thousands of corresponding procedural texts. This makes it difficult for users to view the bigger picture and understand the multiple ways the task could be accomplished. In this work we propose an unsupervised learning approach for summarizing multiple procedural texts into an intuitive graph representation, allowing users to easily explore commonalities and differences. We demonstrate our approach on recipes, a prominent example of procedural texts. User studies show that our representation is intuitive and coherent and that it has the potential to help users with several sensemaking tasks, including adapting recipes for a novice cook and finding creative ways to spice up a dish.
翻訳日:2022-11-01 15:12:14 公開日:2022-10-31
# Lila: 数学的推論のための統一ベンチマーク

Lila: A Unified Benchmark for Mathematical Reasoning ( http://arxiv.org/abs/2210.17517v1 )

ライセンス: Link先を確認
Swaroop Mishra, Matthew Finlayson, Pan Lu, Leonard Tang, Sean Welleck, Chitta Baral, Tanmay Rajpurohit, Oyvind Tafjord, Ashish Sabharwal, Peter Clark, Ashwin Kalyan(参考訳) 食料品の買い物から気候モデリングまで,汎用知能システムにとって数学的推論技術は不可欠である。 この領域におけるAIシステムの評価と改善に向けて、23の多様なタスクと4次元からなる統一数学的推論ベンチマークであるLILAを提案する。 (i)算術,算術,算数などの数学能力 (ii)質問処理、記入用ブランク等の言語形式 (iii)言語多様性、例えば、言語なし、単純言語 (4)外部知識(例:常識、物理学) 我々は、pythonプログラムの形式でタスク命令とソリューションを収集し、20のデータセットベンチマークを拡張してベンチマークを構築し、正しい答えに加えて説明可能なソリューションを得る。 さらに,言語摂動に対する分布外性能と頑健性を測定するための2つの評価データセットも導入する。 最後に、LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。 重要なことに、マルチタスクは大幅な改善(平均21.83%のf1スコアとシングルタスクモデルとの相対的な改善)をもたらすが、最高のパフォーマンスモデルは60.40%しか得られず、一般的な数学的推論と理解の改善の余地が示される。

Mathematical reasoning skills are essential for general-purpose intelligent systems to perform tasks from grocery shopping to climate modeling. Towards evaluating and improving AI systems in this domain, we propose LILA, a unified mathematical reasoning benchmark consisting of 23 diverse tasks along four dimensions: (i) mathematical abilities e.g., arithmetic, calculus (ii) language format e.g., question-answering, fill-in-the-blanks (iii) language diversity e.g., no language, simple language (iv) external knowledge e.g., commonsense, physics. We construct our benchmark by extending 20 datasets benchmark by collecting task instructions and solutions in the form of Python programs, thereby obtaining explainable solutions in addition to the correct answer. We additionally introduce two evaluation datasets to measure out-of-distribution performance and robustness to language perturbation. Finally, we introduce BHASKARA, a general-purpose mathematical reasoning model trained on LILA. Importantly, we find that multi-tasking leads to significant improvements (average relative improvement of 21.83% F1 score vs. single-task models), while the best performing model only obtains 60.40%, indicating the room for improvement in general mathematical reasoning and understanding.
翻訳日:2022-11-01 15:12:01 公開日:2022-10-31
# データ幻覚による反復指導

Iterative Teaching by Data Hallucination ( http://arxiv.org/abs/2210.17467v1 )

ライセンス: Link先を確認
Zeju Qiu, Weiyang Liu, Tim Z. Xiao, Zhen Liu, Umang Bhatt, Yucen Luo, Adrian Weller, Bernhard Sch\"olkopf(参考訳) 本稿では,教師が個別の入力空間(すなわち有限サンプルのプール)における学習者の状況に基づく事例を逐次提供し,教師の能力を大幅に制限する反復型機械指導の課題について考察する。 この問題に対処するため,我々は,最適化問題を解くことによって入力例(画像)を生成するか,あるいは連続分布から直接描画できる連続入力空間下で反復学習を行う。 具体的には,教師がラベルや学習者の状況,対象概念に基づいて知的に入力データを生成できるデータ幻覚教育(DHT)を提案する。 本研究は,多くの難易度の高い学習環境(例えば,全知的およびブラックボックス設定におけるリニア/ニューラル学習者)について検討する。 大規模な実験によりDHTの有効性が検証された。

We consider the problem of iterative machine teaching, where a teacher sequentially provides examples based on the status of a learner under a discrete input space (i.e., a pool of finite samples), which greatly limits the teacher's capability. To address this issue, we study iterative teaching under a continuous input space where the input example (i.e., image) can be either generated by solving an optimization problem or drawn directly from a continuous distribution. Specifically, we propose data hallucination teaching (DHT) where the teacher can generate input data intelligently based on labels, the learner's status and the target concept. We study a number of challenging teaching setups (e.g., linear/neural learners in omniscient and black-box settings). Extensive empirical results verify the effectiveness of DHT.
翻訳日:2022-11-01 15:04:58 公開日:2022-10-31
# モジュラーハイブリッド自己回帰トランスデューサ

Modular Hybrid Autoregressive Transducer ( http://arxiv.org/abs/2210.17049v1 )

ライセンス: Link先を確認
Zhong Meng, Tongzhou Chen, Rohit Prabhavalkar, Yu Zhang, Gary Wang, Kartik Audhkhasi, Jesse Emond, Trevor Strohman, Bhuvana Ramabhadran, W. Ronny Huang, Ehsan Variani, Yinghui Huang, Pedro J. Moreno(参考訳) トランスデューサは明瞭に分離された音響モデル(am)、言語モデル(lm)、ブランクモデルを持たないため、トランスデューサモデルのテキストのみの適応は、エンドツーエンド音声認識において依然として困難である。 本研究では,共用音響エンコーダと共に,ラベルとブランクの分布をそれぞれ予測するために,ラベルとブランクデコーダを構造的に分離したモジュラーハイブリッド自己回帰トランスデューサ(mhat)を提案する。 エンコーダおよびラベルデコーダ出力は、amおよび内部lmスコアに直接投影され、後段のラベル計算に付加される。 我々は、内部のLM損失とHAT損失でMHATを訓練し、内部のLMがテキストに効果的に適用可能なスタンドアロンのニューラルなLMになることを保証する。 さらに、MHATのテキスト適応は、内部のLM減算法よりもはるかに優れたLM融合を促進する。 Googleの大規模生産データでは、100B文に適合したマルチドメインのMHATが、LM融合なしでWERを最大12.4%削減し、400K時間訓練されたHATからのLM融合で21.5%を達成する。

Text-only adaptation of a transducer model remains challenging for end-to-end speech recognition since the transducer has no clearly separated acoustic model (AM), language model (LM) or blank model. In this work, we propose a modular hybrid autoregressive transducer (MHAT) that has structurally separated label and blank decoders to predict label and blank distributions, respectively, along with a shared acoustic encoder. The encoder and label decoder outputs are directly projected to AM and internal LM scores and then added to compute label posteriors. We train MHAT with an internal LM loss and a HAT loss to ensure that its internal LM becomes a standalone neural LM that can be effectively adapted to text. Moreover, text adaptation of MHAT fosters a much better LM fusion than internal LM subtraction-based methods. On Google's large-scale production data, a multi-domain MHAT adapted with 100B sentences achieves relative WER reductions of up to 12.4% without LM fusion and 21.5% with LM fusion from 400K-hour trained HAT.
翻訳日:2022-11-01 15:04:11 公開日:2022-10-31
# 代理支援進化アルゴリズムのバッチ処理問題に対する有効性の検討

Exploring the effectiveness of surrogate-assisted evolutionary algorithms on the batch processing problem ( http://arxiv.org/abs/2210.17149v1 )

ライセンス: Link先を確認
Mohamed Z. Variawa, Terence L. Van Zyl and Matthew Woolway(参考訳) 実世界の最適化問題は通常、解析的に表現できない客観的関数を持つ。 これらの最適化問題は、高価な物理実験やシミュレーションによって評価される。 目的関数のチープ近似は、これらの高価な最適化問題を解決するための計算要求を減らすことができる。 これらの安価な近似は機械学習や統計モデルであり、代理モデルとして知られている。 本稿では,文献中でよく知られたバッチ処理問題のシミュレーションを紹介する。 遺伝的アルゴリズム(ga)や微分進化(de)といった進化的アルゴリズムは、シミュレーションの最適なスケジュールを見つけるために用いられる。 次に,サロゲート支援型アルゴリズムで得られた解の質をベースラインアルゴリズムと比較する。 代理支援はProbablistic Surrogate-Assisted Framework (PSAF)を通じて行われる。 この結果は、サロゲートによるベースライン進化アルゴリズムの改善の可能性を強調している。 異なる時間軸に対して、解はいくつかの品質指標に対して評価される。 また,PSAF補助GA (PSAF-GA) とPSAF補助DE (PSAF-DE) が一定の時間帯で改善した。 他の例では、彼らはソリューションを維持するか、多少の劣化を見せた。 結果はまた、サーロゲートがベースラインアルゴリズムよりも若干の劣化を示すため、サーロゲート支援フレームワークが使用するハイパーパラメータのチューニングの必要性も強調している。

Real-world optimisation problems typically have objective functions which cannot be expressed analytically. These optimisation problems are evaluated through expensive physical experiments or simulations. Cheap approximations of the objective function can reduce the computational requirements for solving these expensive optimisation problems. These cheap approximations may be machine learning or statistical models and are known as surrogate models. This paper introduces a simulation of a well-known batch processing problem in the literature. Evolutionary algorithms such as Genetic Algorithm (GA), Differential Evolution (DE) are used to find the optimal schedule for the simulation. We then compare the quality of solutions obtained by the surrogate-assisted versions of the algorithms against the baseline algorithms. Surrogate-assistance is achieved through Probablistic Surrogate-Assisted Framework (PSAF). The results highlight the potential for improving baseline evolutionary algorithms through surrogates. For different time horizons, the solutions are evaluated with respect to several quality indicators. It is shown that the PSAF assisted GA (PSAF-GA) and PSAF-assisted DE (PSAF-DE) provided improvement in some time horizons. In others, they either maintained the solutions or showed some deterioration. The results also highlight the need to tune the hyper-parameters used by the surrogate-assisted framework, as the surrogate, in some instances, shows some deterioration over the baseline algorithm.
翻訳日:2022-11-01 15:02:57 公開日:2022-10-31
# グラフ型模倣学習による置換フローショップスケジューリングの最適化

Learning to Optimize Permutation Flow Shop Scheduling via Graph-based Imitation Learning ( http://arxiv.org/abs/2210.17178v1 )

ライセンス: Link先を確認
Longkang Li, Siyuan Liang, Zihao Zhu, Xiaochun Cao, Chris Ding, Hongyuan Zha, Baoyuan Wu(参考訳) ジョブの最適な置換を見つけることを目的としたpfss(permutation flow shop scheduling)は、製造システムで広く使われている。 大規模なPFSS問題を解決する際、ヒューリスティックスのような従来の最適化アルゴリズムは解の精度と計算効率の両方の要求を満たすことはほとんどできなかった。 このように学習に基づく手法が近年注目を集めている。 いくつかの研究は、訓練中に収束の遅い問題に悩まされ、まだ解に関して十分な正確性を持っていない強化学習法によって問題を解決しようとする。 そのために、専門家主導の模倣学習を用いてモデルを訓練し、より安定かつ正確に収束を加速する。 さらに,入力ジョブのより優れた特徴表現を抽出するために,グラフ構造をエンコーダとして組み込む。 広範な実験により,提案モデルが有意な推進力を得て,最大1000ジョブの大規模問題において優れた一般化性を示すことが明らかとなった。 最新の強化学習法と比較して,モデルのネットワークパラメータは37\%に減少し,エキスパートソリューションに対するモデルの解ギャップは平均で6.8\%から1.3\%に低下した。

The permutation flow shop scheduling (PFSS), aiming at finding the optimal permutation of jobs, is widely used in manufacturing systems. When solving the large-scale PFSS problems, traditional optimization algorithms such as heuristics could hardly meet the demands of both solution accuracy and computational efficiency. Thus learning-based methods have recently garnered more attention. Some work attempts to solve the problems by reinforcement learning methods, which suffer from slow convergence issues during training and are still not accurate enough regarding the solutions. To that end, we train the model via expert-driven imitation learning, which accelerates the convergence more stably and accurately. Moreover, in order to extract better feature representations of input jobs, we incorporate the graph structure as the encoder. The extensive experiments reveal that our proposed model obtains significant promotion and presents excellent generalizability in large-scale problems with up to 1000 jobs. Compared to the state-of-the-art reinforcement learning method, our model's network parameters are reduced to only 37\% of theirs, and the solution gap of our model towards the expert solutions decreases from 6.8\% to 1.3\% on average.
翻訳日:2022-11-01 15:02:41 公開日:2022-10-31
# 制御可能な交通シミュレーションのための誘導条件拡散

Guided Conditional Diffusion for Controllable Traffic Simulation ( http://arxiv.org/abs/2210.17366v1 )

ライセンス: Link先を確認
Ziyuan Zhong, Davis Rempe, Danfei Xu, Yuxiao Chen, Sushant Veer, Tong Che, Baishakhi Ray, Marco Pavone(参考訳) 制御可能で現実的な交通シミュレーションは、自動運転車の開発と検証に不可欠である。 典型的なヒューリスティックベースの交通モデルは、車両が特定の軌跡や交通規則に従うように柔軟な制御を提供する。 一方、データ駆動アプローチは現実的で人間的な振る舞いを生成し、シミュレーションから現実のトラフィックへの移行を改善する。 しかしながら、私たちの知る限りでは、制御性とリアリズムの両方を提供する交通モデルはありません。 本研究では,制御可能なトラヒック生成(ctg)のための条件拡散モデルを開発し,実験時の軌道の所望特性(目標到達や速度制限に従うなど)を,強制ダイナミクスによる現実性と物理的実現可能性を維持しながら制御できる。 鍵となる技術的アイデアは、拡散モデリングと微分可能論理の最近の進歩を活用して、信号時間論理(STL)を用いて定義された規則を満たすために生成された軌道を導くことである。 さらに,マルチエージェント設定へのガイダンスを拡張し,衝突回避などのインタラクションベースのルールを有効にする。 CTGはnuScenesデータセット上で多種多様かつ複合的なルールに対して広範囲に評価され、制御性-現実性トレードオフの観点から、強いベースラインよりも改善されたことを示す。

Controllable and realistic traffic simulation is critical for developing and verifying autonomous vehicles. Typical heuristic-based traffic models offer flexible control to make vehicles follow specific trajectories and traffic rules. On the other hand, data-driven approaches generate realistic and human-like behaviors, improving transfer from simulated to real-world traffic. However, to the best of our knowledge, no traffic model offers both controllability and realism. In this work, we develop a conditional diffusion model for controllable traffic generation (CTG) that allows users to control desired properties of trajectories at test time (e.g., reach a goal or follow a speed limit) while maintaining realism and physical feasibility through enforced dynamics. The key technical idea is to leverage recent advances from diffusion modeling and differentiable logic to guide generated trajectories to meet rules defined using signal temporal logic (STL). We further extend guidance to multi-agent settings and enable interaction-based rules like collision avoidance. CTG is extensively evaluated on the nuScenes dataset for diverse and composite rules, demonstrating improvement over strong baselines in terms of the controllability-realism tradeoff.
翻訳日:2022-11-01 14:56:12 公開日:2022-10-31
# フーリエ解析による一貫性と真理解釈

Consistent and Truthful Interpretation with Fourier Analysis ( http://arxiv.org/abs/2210.17426v1 )

ライセンス: Link先を確認
Yifan Zhang, Haowei He, Yang Yuan(参考訳) 多くの学際的分野において、mlの解釈は、現在のケース、すなわち1つの要因が変化した場合、モデルがどのように反応するかに関するシナリオと一致する必要がある。 帰属法はエレガントな公理系によってサポートされているが、それらは主に個々の入力に焦点を当て、一般に一貫性がない。 そこで我々は,真理解釈という新たな概念を導入し,ブール関数のフーリエ解析を適用して厳密な保証を得る。 実験の結果,様々な半径を持つ地区では,他の手法に比べて2倍から50倍低い解釈誤差が得られた。

For many interdisciplinary fields, ML interpretations need to be consistent with what-if scenarios related to the current case, i.e., if one factor changes, how does the model react? Although the attribution methods are supported by the elegant axiomatic systems, they mainly focus on individual inputs, and are generally inconsistent. To support what-if scenarios, we introduce a new notion called truthful interpretation, and apply Fourier analysis of Boolean functions to get rigorous guarantees. Experimental results show that for neighborhoods with various radii, our method achieves 2x - 50x lower interpretation error compared with the other methods.
翻訳日:2022-11-01 14:55:51 公開日:2022-10-31
# PAGE: グラフニューラルネットワークのためのプロトタイプベースモデルレベル記述

PAGE: Prototype-Based Model-Level Explanations for Graph Neural Networks ( http://arxiv.org/abs/2210.17159v1 )

ライセンス: Link先を確認
Yong-Min Shin, Sun-Woo Kim, Won-Yong Shin(参考訳) グラフ表現学習に革命をもたらす強力なフレームワークとして注目されるグラフニューラルネットワーク(gnns)は別として、gnnモデルを説明する需要が高まっている。 gnnの様々な説明法が開発されているが、ほとんどの研究は与えられたグラフインスタンスに合わせた説明を生成するインスタンスレベルの説明に焦点を当てている。 本研究では,人間の解釈可能なプロトタイプグラフを探索することにより,GNNモデルがグラフ分類において何を学んだかを説明する新しいモデルレベルのGNN説明手法であるPAGEを提案する。 提案手法は,あるクラスに対して,インスタンスレベルの説明よりも簡潔で包括的な説明を提供することができる。 まず、PAGEはクラスタ化後にグラフレベルの埋め込み空間上のクラス識別入力グラフの埋め込みを選択する。 次に、プロトタイプスコアリング関数を介してノードレベルの埋め込みを用いて、高いマッチングノードタプルを反復的に探索することで、共通のサブグラフパターンを発見し、プロトタイプグラフを説明として提供する。 5つのグラフ分類データセットを用いて、PAGEが最先端のモデルレベルの説明法よりも質的に定量的に優れていることを示す。 また、PAGEとインスタンスレベルの説明手法の関係、入力データ不足環境に対するPAGEの堅牢性、提案したPAGEのプロトタイプスコアリング関数の計算効率について、実験的な研究を体系的に実施する。

Aside from graph neural networks (GNNs) catching significant attention as a powerful framework revolutionizing graph representation learning, there has been an increasing demand for explaining GNN models. Although various explanation methods for GNNs have been developed, most studies have focused on instance-level explanations, which produce explanations tailored to a given graph instance. In our study, we propose Prototype-bAsed GNN-Explainer (PAGE), a novel model-level GNN explanation method that explains what the underlying GNN model has learned for graph classification by discovering human-interpretable prototype graphs. Our method produces explanations for a given class, thus being capable of offering more concise and comprehensive explanations than those of instance-level explanations. First, PAGE selects embeddings of class-discriminative input graphs on the graph-level embedding space after clustering them. Then, PAGE discovers a common subgraph pattern by iteratively searching for high matching node tuples using node-level embeddings via a prototype scoring function, thereby yielding a prototype graph as our explanation. Using five graph classification datasets, we demonstrate that PAGE qualitatively and quantitatively outperforms the state-of-the-art model-level explanation method. We also carry out experimental studies systematically by showing the relationship between PAGE and instance-level explanation methods, the robustness of PAGE to input data scarce environments, and the computational efficiency of the proposed prototype scoring function in PAGE.
翻訳日:2022-11-01 14:55:41 公開日:2022-10-31
# ディープラーニングにおけるデータ分離の法則

A Law of Data Separation in Deep Learning ( http://arxiv.org/abs/2210.17020v1 )

ライセンス: Link先を確認
Hangfeng He and Weijie J. Su(参考訳) 多層ニューラルネットワークは多くの人工知能アプリケーションで超人的性能を達成した。 しかしながら、そのブラックボックスの性質は、入力データをすべての層にまたがるラベルに変換するメカニズムを曖昧にし、新しいタスクのためのアーキテクチャ設計や高い意思決定のための解釈を妨げる。 分類問題において,実世界のディープニューラルネットワークが下位層から上位層へのクラスメンバシップに応じてデータを分離する方法を規定する厳密な法則を導入することで,この問題に対処した。 この法則は、各層が大まかにデータ分離の尺度を \textit{equal} 乗法因子によって改善することを示している。 この法則は、トレーニングの後期にAlexNet、VGGNet、ResNetといったモダンなアーキテクチャに現れる。 この法則は、データ分離の観点からも、ネットワークアーキテクチャの設計、モデルの堅牢性の向上、トレーニング中のアウトオブサンプルのパフォーマンス向上、ディープラーニング予測の解釈のための実践的なガイドラインを提供する。

Multilayer neural networks have achieved superhuman performance in many artificial intelligence applications. However, their black-box nature obscures the underlying mechanism for transforming input data into labels throughout all layers, thus hindering architecture design for new tasks and interpretation for high-stakes decision makings. We addressed this problem by introducing a precise law that governs how real-world deep neural networks separate data according to their class membership from the bottom layers to the top layers in classification problems. This law shows that each layer roughly improves a certain measure of data separation by an \textit{equal} multiplicative factor. This law manifests in modern architectures such as AlexNet, VGGNet, and ResNet in the late phase of training. This law together with the perspective of data separation offers practical guidelines for designing network architectures, improving model robustness and out-of-sample performance during training, as well as interpreting deep learning predictions.
翻訳日:2022-11-01 14:47:46 公開日:2022-10-31
# ノイズチャネルモデルを用いた文書群対話システムにおける可制御性

Controllable Factuality in Document-Grounded Dialog Systems Using a Noisy Channel Model ( http://arxiv.org/abs/2210.17418v1 )

ライセンス: Link先を確認
Nico Daheim, David Thulke, Christian Dugast, Hermann Ney(参考訳) 本稿では,ベイズ定理に従って2成分に分解されたダイアログにおける文書基底応答生成モデルを提案する。 1つのコンポーネントは、従来のアングラウンド応答生成モデルであり、もう1つのコンポーネントは、ダイアログコンテキストと生成されたレスポンスに基づいて、グラウンドドキュメントの再構築をモデル化する。 我々は,複数のオープンドメインおよびタスク指向文書グラウンドド・ダイアログ・データセットに対する近似デコーディング手法を提案し,そのアプローチを評価する。 実験の結果,本モデルがベースラインモデルよりも実測値の精度が高いことがわかった。 さらに,各コンポーネント間のスケーリングファクタの導入によって,モデル出力の事実性と流動性のトレードオフを制御できる点について概説する。 最後に,最近提案した接地ダイアログCTRL(arXiv:2107.06963)の事実性制御手法と比較し,両手法が組み合わされ,さらなる改善が期待できることを示す。

In this work, we present a model for document-grounded response generation in dialog that is decomposed into two components according to Bayes theorem. One component is a traditional ungrounded response generation model and the other component models the reconstruction of the grounding document based on the dialog context and generated response. We propose different approximate decoding schemes and evaluate our approach on multiple open-domain and task-oriented document-grounded dialog datasets. Our experiments show that the model is more factual in terms of automatic factuality metrics than the baseline model. Furthermore, we outline how introducing scaling factors between the components allows for controlling the tradeoff between factuality and fluency in the model output. Finally, we compare our approach to a recently proposed method to control factuality in grounded dialog, CTRL (arXiv:2107.06963), and show that both approaches can be combined to achieve additional improvements.
翻訳日:2022-11-01 14:45:16 公開日:2022-10-31
# AdaMix:パラメータ効率モデルチューニングのための混合適応

AdaMix: Mixture-of-Adaptations for Parameter-efficient Model Tuning ( http://arxiv.org/abs/2210.17451v1 )

ライセンス: Link先を確認
Yaqing Wang, Sahaj Agarwal, Subhabrata Mukherjee, Xiaodong Liu, Jing Gao, Ahmed Hassan Awadallah, Jianfeng Gao(参考訳) ダウンストリームタスクのための大規模事前学習言語モデル(plm)の標準的な微調整には、数億から数十億のパラメータを更新し、各タスクのplm重みの大規模なコピーを格納する必要がある。 これを解決するために, PLMに小さなトレーニング可能なコンポーネントを注入し, 微調整中に更新する, パラメータ効率のよい微調整(PEFT)技術を導入した。 本稿では,PLMの重みの大半を凍結させながらトランスフォーマー層に導入した,適応モジュールの混合を調整した一般PEFT法としてAdaMixを提案する。 例えば、AdaMixはHoulsbyのようなアダプタの混合やLoRAのような低階分解行列の混合を利用して、完全に教師されたNLUやNLGタスクに対応するPEFTメソッドよりもダウンストリームタスクのパフォーマンスを向上させることができる。 さらに,AdaMixを設計し,基礎となるPEFT法と同じ計算コストと可変パラメータ数とを一致させる。 PLMパラメータの0.1-0.2%だけをチューニングすることにより、AdaMix は NLU および NLG のタスクに対して SOTA パラメータ効率の良い微調整およびフルモデル微調整より優れていることを示す。

Standard fine-tuning of large pre-trained language models (PLMs) for downstream tasks requires updating hundreds of millions to billions of parameters, and storing a large copy of the PLM weights for every task resulting in increased cost for storing, sharing and serving the models. To address this, parameter-efficient fine-tuning (PEFT) techniques were introduced where small trainable components are injected in the PLM and updated during fine-tuning. We propose AdaMix as a general PEFT method that tunes a mixture of adaptation modules -- given the underlying PEFT method of choice -- introduced in each Transformer layer while keeping most of the PLM weights frozen. For instance, AdaMix can leverage a mixture of adapters like Houlsby or a mixture of low rank decomposition matrices like LoRA to improve downstream task performance over the corresponding PEFT methods for fully supervised and few-shot NLU and NLG tasks. Further, we design AdaMix such that it matches the same computational cost and the number of tunable parameters as the underlying PEFT method. By only tuning 0.1-0.2% of PLM parameters, we show that AdaMix outperforms SOTA parameter-efficient fine-tuning and full model fine-tuning for both NLU and NLG tasks.
翻訳日:2022-11-01 14:44:57 公開日:2022-10-31
# 言語駆動型科学AIを目指して

Towards Language-driven Scientific AI ( http://arxiv.org/abs/2210.15327v2 )

ライセンス: Link先を確認
Jos\'e Manuel G\'omez-P\'erez(参考訳) AIの最近の革命的発展、特に言語理解と生成にインスパイアされた私たちは、人間の能力に挑戦して新しい発見を行う複雑な科学的タスクに対処できるAIシステムを設計することにしました。 私たちのアプローチの中心は、自然言語を科学AIと人間科学者のコア表現、推論、交換フォーマットとして捉えています。 本稿では,このようなビジョンを実現するための主な研究課題を整理し,議論する。

Inspired by recent and revolutionary developments in AI, particularly in language understanding and generation, we set about designing AI systems that are able to address complex scientific tasks that challenge human capabilities to make new discoveries. Central to our approach is the notion of natural language as core representation, reasoning, and exchange format between scientific AI and human scientists. In this paper, we identify and discuss some of the main research challenges to accomplish such vision.
翻訳日:2022-11-01 12:31:39 公開日:2022-10-31
# UPainting: クロスモーダル誘導による統一テキスト・画像拡散生成

UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal Guidance ( http://arxiv.org/abs/2210.16031v2 )

ライセンス: Link先を確認
Wei Li, Xue Xu, Xinyan Xiao, Jiachen Liu, Hu Yang, Guohao Li, Zhanpeng Wang, Zhifan Feng, Qiaoqiao She, Yajuan Lyu, Hua Wu(参考訳) 拡散生成モデルは最近、テキスト条件付き画像生成のパワーを大幅に改善している。 既存の画像生成モデルは主にテキスト条件付き拡散モデルとクロスモーダル誘導拡散モデルを含み、それぞれ小さなシーン画像生成と複雑なシーン画像生成に適している。 本研究では、図1に示すように、シンプルで複雑なシーン画像生成を統一する、単純で効果的なアプローチであるUPaintingを提案する。 UPaintingは、アーキテクチャの改善と多様なガイダンススケジュールに基づいて、事前訓練された画像テキストマッチングモデルからのクロスモーダルガイダンスを、事前訓練されたトランスフォーマー言語モデルをテキストエンコーダとして利用するテキスト条件拡散モデルに統合する。 我々の重要な発見は、言語理解における大規模トランスフォーマー言語モデルと、クロスモーダルなセマンティクスとスタイルをキャプチャする画像テキストマッチングモデルを組み合わせることで、画像生成のサンプル忠実度と画像テキストアライメントを改善することができることである。 このように、upaintingはより一般的な画像生成機能を持ち、シンプルで複雑なシーンのイメージをより効果的に生成できる。 テキストと画像のモデルを包括的に比較するため、より一般的なベンチマークであるUniBenchを、簡素かつ複雑な場面で中国語と英語のプロンプトで作成する。 UPaintingを最近のモデルと比較すると、UPaintingは他のモデルよりもキャプションの類似性や画像の忠実度において、シンプルかつ複雑なシーンで大幅に優れています。

Diffusion generative models have recently greatly improved the power of text-conditioned image generation. Existing image generation models mainly include text conditional diffusion model and cross-modal guided diffusion model, which are good at small scene image generation and complex scene image generation respectively. In this work, we propose a simple yet effective approach, namely UPainting, to unify simple and complex scene image generation, as shown in Figure 1. Based on architecture improvements and diverse guidance schedules, UPainting effectively integrates cross-modal guidance from a pretrained image-text matching model into a text conditional diffusion model that utilizes a pretrained Transformer language model as the text encoder. Our key findings is that combining the power of large-scale Transformer language model in understanding language and image-text matching model in capturing cross-modal semantics and style, is effective to improve sample fidelity and image-text alignment of image generation. In this way, UPainting has a more general image generation capability, which can generate images of both simple and complex scenes more effectively. To comprehensively compare text-to-image models, we further create a more general benchmark, UniBench, with well-written Chinese and English prompts in both simple and complex scenes. We compare UPainting with recent models and find that UPainting greatly outperforms other models in terms of caption similarity and image fidelity in both simple and complex scenes.
翻訳日:2022-11-01 12:31:33 公開日:2022-10-31
# ソースフィルタHiFi-GAN:高速かつピッチ制御可能な高忠実性ニューラルボコーダ

Source-Filter HiFi-GAN: Fast and Pitch Controllable High-Fidelity Neural Vocoder ( http://arxiv.org/abs/2210.15533v2 )

ライセンス: Link先を確認
Reo Yoneyama, Yi-Chiao Wu, and Tomoki Toda(参考訳) 先行研究であるunified source-filter gan (usfgan) vocoderでは,音源フィルタ理論に基づく新しいアーキテクチャを並列波形生成逆ネットワークに導入し,高い音声品質とピッチ制御性を実現している。 しかし、時間分解能の高い入力は高い計算コストをもたらす。 HiFi-GANボコーダは、効率的なアップサンプリングベースジェネレータアーキテクチャにより高速な高忠実度音声生成を実現するが、ピッチ制御性は著しく制限されている。 高速かつピッチ制御可能な高忠実性ニューラルボコーダを実現するために,共振フィルタリングネットワークを適切に推定されたソース励磁情報に階層的に条件付けすることで,HiFi-GANにソースフィルタ理論を導入する。 実験結果から,提案手法は1CPUにおける歌声品質と合成速度において,HiFi-GANとuSFGANよりも優れていた。 さらに, uSFGAN vocoder とは異なり,提案手法はリアルタイムアプリケーションやエンドツーエンドシステムに容易に適用・統合できる。

Our previous work, the unified source-filter GAN (uSFGAN) vocoder, introduced a novel architecture based on the source-filter theory into the parallel waveform generative adversarial network to achieve high voice quality and pitch controllability. However, the high temporal resolution inputs result in high computation costs. Although the HiFi-GAN vocoder achieves fast high-fidelity voice generation thanks to the efficient upsampling-based generator architecture, the pitch controllability is severely limited. To realize a fast and pitch-controllable high-fidelity neural vocoder, we introduce the source-filter theory into HiFi-GAN by hierarchically conditioning the resonance filtering network on a well-estimated source excitation information. According to the experimental results, our proposed method outperforms HiFi-GAN and uSFGAN on a singing voice generation in voice quality and synthesis speed on a single CPU. Furthermore, unlike the uSFGAN vocoder, the proposed method can be easily adopted/integrated in real-time applications and end-to-end systems.
翻訳日:2022-11-01 12:30:30 公開日:2022-10-31