このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240801となっている論文です。

PDF登録状況(公開日: 20240801)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子力学入門-基本原理

A Short Guide to Quantum Mechanics -- Some Basic Principles ( http://arxiv.org/abs/2408.08324v1 )

ライセンス: Link先を確認
Joachim Stolze, (参考訳) この量子力学の基礎に関する序文は、量子世界の旅行ガイドとして機能することを意図している。 量子物理学が重要か、奇妙か、あるいは理解できないかを問うことから始まります。 粒子がなぜ波のように振る舞うのか、不確実性やランダム性が物理学にどのように入り込むのかを説明し、歴史的に重要な実験をいくつか説明する。 磁気共鳴イメージング(MRI)や量子コンピューティングといった最近の話題も取り上げられている。 不確実性原理のような基本的な概念は、わずかに増大した数学の量を用いて、深く分析される。 これは、TUドルトムント大学の研究所である"Treffpunkt Quantenmechanik"(点量子力学)の伴奏として意図されたマニュアルの最初の部分の英語版で、高校生が量子物理学の素晴らしい世界を知ることができる。 マニュアルの後半には、実験室で利用可能な個々の実験に関する詳細な説明が含まれており、インターネット上では利用できない。

This introductory text on the basics of quantum mechanics is intended to serve as a kind of travel guide through the quantum world. It starts by asking whether quantum physics is important, or weird, or incomprehensible. It explains why particles sometimes behave like waves, and how uncertainty and randomness enter physics, before explaining a number of historically important experiments. Modern topics, like magnetic resonance imaging (MRI) and quantum computing are also covered. Essential concepts, such as the uncertainty principle, are analyzed in depth, employing a slightly increased dose of mathematics. This is the English version of the first part of a manual intended as a companion to the "Treffpunkt Quantenmechanik" (meeting point quantum mechanics), a laboratory at TU Dortmund University, where high-school students can get acquainted with the wonderful world of quantum physics. The second part of the manual contains detailed instructions for the individual experiments available in the lab and is not available on the Internet.
翻訳日:2024-08-25 14:30:57 公開日:2024-08-01
# アドホックなスケーラビリティを実現するシステムアーキテクチャの自己適応システム:無人車両艦隊-ミッションコントロールセンター事例研究

A self-adaptive system of systems architecture to enable its ad-hoc scalability: Unmanned Vehicle Fleet -- Mission Control Center Case study ( http://arxiv.org/abs/2408.03963v1 )

ライセンス: Link先を確認
Ahmed R. Sadik, Bram Bolder, Pero Subasic, (参考訳) システム・オブ・システム(SoS)はコンスティチュート・システム(CS)から構成され、単一のCSを超えるユニークな能力を提供する。 SoSの主な課題はアドホックなスケーラビリティであり、CSの追加や削除によって運用中のシステムサイズが変化することを意味する。 本研究は、ミッション変更、レンジ拡張、UV故障などの不確実性に対処するため、実用的なSoSの例として無人車両艦隊(UVF)に焦点を当てる。 提案手法は,UVFアーキテクチャを動的に調整する自己適応型システムで,性能基準や操作者による手動による決定に基づいて,ミッション制御センター(MCC)がUVFサイズを自動的にスケールできるようにする。 マルチエージェント環境とルール管理エンジンは、このアプローチをシミュレートし、検証するために実装された。

A System of Systems (SoS) comprises Constituent Systems (CSs) that interact to provide unique capabilities beyond any single CS. A key challenge in SoS is ad-hoc scalability, meaning the system size changes during operation by adding or removing CSs. This research focuses on an Unmanned Vehicle Fleet (UVF) as a practical SoS example, addressing uncertainties like mission changes, range extensions, and UV failures. The proposed solution involves a self-adaptive system that dynamically adjusts UVF architecture, allowing the Mission Control Center (MCC) to scale UVF size automatically based on performance criteria or manually by operator decision. A multi-agent environment and rule management engine were implemented to simulate and verify this approach.
翻訳日:2024-08-19 04:27:34 公開日:2024-08-01
# 大規模言語モデル(LLM)の広範展開のリスク・原因・緩和に関する調査

Risks, Causes, and Mitigations of Widespread Deployments of Large Language Models (LLMs): A Survey ( http://arxiv.org/abs/2408.04643v1 )

ライセンス: Link先を確認
Md Nazmus Sakib, Md Athikul Islam, Royal Pathak, Md Mashrur Arifin, (参考訳) ChatGPTやLLaMAといった大規模言語モデル(LLM)の最近の進歩は、テキスト生成、要約、分類において優れた能力を持つ自然言語処理(NLP)を著しく変化させてきた。 それにもかかわらず、彼らの普及は、学術的完全性、著作権、環境への影響、データバイアス、公正性、プライバシーなどの倫理的考察など、多くの課題をもたらす。 LLMの急速な進化は、それらの評価の信頼性と一般化性に関する懸念も引き起こす。 本稿は、Google Scholarから体系的に収集・合成されたこれらの主題に関する文献に関する総合的な調査である。 本研究は,特定のLSMに関連するリスクを詳細に分析し,サブリスク,その原因,潜在的な解決策を同定する。 さらに, LLM に関する幅広い課題について検討し, その原因を詳述し, 緩和戦略を提案する。 この文献分析を通じて、これらの強力なモデルを取り巻く意味や複雑さの理解を深めることを目的としている。

Recent advancements in Large Language Models (LLMs), such as ChatGPT and LLaMA, have significantly transformed Natural Language Processing (NLP) with their outstanding abilities in text generation, summarization, and classification. Nevertheless, their widespread adoption introduces numerous challenges, including issues related to academic integrity, copyright, environmental impacts, and ethical considerations such as data bias, fairness, and privacy. The rapid evolution of LLMs also raises concerns regarding the reliability and generalizability of their evaluations. This paper offers a comprehensive survey of the literature on these subjects, systematically gathered and synthesized from Google Scholar. Our study provides an in-depth analysis of the risks associated with specific LLMs, identifying sub-risks, their causes, and potential solutions. Furthermore, we explore the broader challenges related to LLMs, detailing their causes and proposing mitigation strategies. Through this literature analysis, our survey aims to deepen the understanding of the implications and complexities surrounding these powerful models.
翻訳日:2024-08-19 04:27:34 公開日:2024-08-01
# 産業システムの予測保守ソリューション-ログ周期的電力法に基づく教師なしアプローチ

Predictive maintenance solution for industrial systems -- an unsupervised approach based on log periodic power law ( http://arxiv.org/abs/2408.05231v1 )

ライセンス: Link先を確認
Bogdan Łobodziński, (参考訳) 複雑なシステムにおける臨界挙動を発見するために用いられる再正規化グループアプローチに基づく新しい教師なし予測保守分析法が提案されている。 このアルゴリズムは単変量時系列を解析し,Log Periodic Power Law関数が適合する臨界点を同定する定理に基づいて臨界点を検出する。 往復圧縮機システムから収集した産業データの予測保守解析への新しいアルゴリズムの適用について述べる。 解析された圧縮機の力学の知識に基づいて, 提案アルゴリズムは, バルブおよびピストンロッドシールの故障を事前に予測する。

A new unsupervised predictive maintenance analysis method based on the renormalization group approach used to discover critical behavior in complex systems has been proposed. The algorithm analyzes univariate time series and detects critical points based on a newly proposed theorem that identifies critical points using a Log Periodic Power Law function fits. Application of a new algorithm for predictive maintenance analysis of industrial data collected from reciprocating compressor systems is presented. Based on the knowledge of the dynamics of the analyzed compressor system, the proposed algorithm predicts valve and piston rod seal failures well in advance.
翻訳日:2024-08-19 04:16:58 公開日:2024-08-01
# 子どもの顔認識の縦断的評価と年齢の影響

Longitudinal Evaluation of Child Face Recognition and the Impact of Underlying Age ( http://arxiv.org/abs/2408.07225v1 )

ライセンス: Link先を確認
Surendra Singh, Keivan Bahmani, Stephanie Schuckers, (参考訳) 様々な新興アプリケーションにおける子供の信頼できる識別の必要性が、子供の顔認証技術を活用したいという関心を喚起している。 本研究は,クラークソン大学CITeR研究グループによって収集されたYFAデータベースを6ヶ月間隔で収集した。

The need for reliable identification of children in various emerging applications has sparked interest in leveraging child face recognition technology. This study introduces a longitudinal approach to enrollment and verification accuracy for child face recognition, focusing on the YFA database collected by Clarkson University CITeR research group over an 8 year period, at 6 month intervals.
翻訳日:2024-08-19 03:47:26 公開日:2024-08-01
# パラ一貫性フレームワークにおける帰納的推論

Abductive Reasoning in a Paraconsistent Framework ( http://arxiv.org/abs/2408.07287v1 )

ライセンス: Link先を確認
Meghyn Bienvenu, Katsumi Inoue, Daniil Kozhemiachenko, (参考訳) パラ一貫性フレームワークを採用することにより、古典的に一貫性のない理論から始まる観察を説明する問題について検討する。 有名なBelnap--Dunnパラ一貫性の4値論理である $\mathsf{BD}$: $\mathsf{BD}_\circ$ は $\circ\phi$ ($\phi$に関する情報は信頼できる) の式を導入し、$\mathsf{BD}_\triangle$ は $\triangle\phi$'s で言語を増強する($\phi$ が真であるという情報もある)。 我々は、$\mathsf{BD}_\circ$ と $\mathsf{BD}_\triangle$ において、誘拐問題の概念と説明を定義し、それらが互いに再現できないことを示す。 我々は、両方の論理学において、標準的な帰納的推論タスク(解法認識、解法存在、仮説の関連性/必要性)の複雑さを分析する。 最後に、古典命題論理におけるアブダクションを$\mathsf{BD}_\circ$と$\mathsf{BD}_\triangle$で減算する方法を示し、既存の帰納的推論手順の再利用を可能にする。

We explore the problem of explaining observations starting from a classically inconsistent theory by adopting a paraconsistent framework. We consider two expansions of the well-known Belnap--Dunn paraconsistent four-valued logic $\mathsf{BD}$: $\mathsf{BD}_\circ$ introduces formulas of the form $\circ\phi$ (the information on $\phi$ is reliable), while $\mathsf{BD}_\triangle$ augments the language with $\triangle\phi$'s (there is information that $\phi$ is true). We define and motivate the notions of abduction problems and explanations in $\mathsf{BD}_\circ$ and $\mathsf{BD}_\triangle$ and show that they are not reducible to one another. We analyse the complexity of standard abductive reasoning tasks (solution recognition, solution existence, and relevance / necessity of hypotheses) in both logics. Finally, we show how to reduce abduction in $\mathsf{BD}_\circ$ and $\mathsf{BD}_\triangle$ to abduction in classical propositional logic, thereby enabling the reuse of existing abductive reasoning procedures.
翻訳日:2024-08-19 03:47:26 公開日:2024-08-01
# 注意と睡眠を計測・支援するためのLCM、脳波、行動データの探索

Exploration of LLMs, EEG, and behavioral data to measure and support attention and sleep ( http://arxiv.org/abs/2408.07822v1 )

ライセンス: Link先を確認
Akane Sano, Judith Amores, Mary Czerwinski, (参考訳) 大規模言語モデル(LLM)の大規模テキストデータを用いた事前学習モデルの適用について検討した。 脳波(EEG)と身体活動データ(例えば、波形、パワースペクトログラム画像、数値的特徴)に基づいて、注意状態、睡眠ステージ、睡眠品質を推定し、睡眠改善の提案と適応誘導画像スクリプトを生成する。 以上の結果から,LLMは人間のテキストによる行動特徴に基づいて睡眠の質を推定し,個別の睡眠改善提案やガイド画像のスクリプトを提供するが,脳波や活動データに基づく注意・睡眠ステージ・睡眠の質の検出には,さらなるトレーニングデータとドメイン固有の知識が必要であることが示唆された。

We explore the application of large language models (LLMs), pre-trained models with massive textual data for detecting and improving these altered states. We investigate the use of LLMs to estimate attention states, sleep stages, and sleep quality and generate sleep improvement suggestions and adaptive guided imagery scripts based on electroencephalogram (EEG) and physical activity data (e.g. waveforms, power spectrogram images, numerical features). Our results show that LLMs can estimate sleep quality based on human textual behavioral features and provide personalized sleep improvement suggestions and guided imagery scripts; however detecting attention, sleep stages, and sleep quality based on EEG and activity data requires further training data and domain-specific knowledge.
翻訳日:2024-08-19 03:35:49 公開日:2024-08-01
# 人工知能と固有の数学的難しさ

Artifical intelligence and inherent mathematical difficulty ( http://arxiv.org/abs/2408.03345v1 )

ライセンス: Link先を確認
Walter Dean, Alberto Naibo, (参考訳) 本稿では,人工知能と数学における解答課題との関係について考察する。 まず、計算可能性と複雑性理論による制限的な結果が証明発見が本質的に難しい問題であることを示す従来の議論の更新版を提示する。 次に、人工知能にインスパイアされた手法の最近のいくつかの応用 -- それぞれ自動定理証明、SAT解法、および大規模言語モデル -- が、数学的な証明の性質に関する新しい疑問を実際に提起する方法について説明する。 また、このような手法によって得られた結果は、我々の基本的な議論に反するものではないと論じる。 これは、これらがブルート力探索の具現化であり、したがって論理的複雑性の低い文のみを決定することができるためである。

This paper explores the relationship of artificial intelligence to the task of resolving open questions in mathematics. We first present an updated version of a traditional argument that limitative results from computability and complexity theory show that proof discovery is an inherently difficult problem. We then illustrate how several recent applications of artificial intelligence-inspired methods -- respectively involving automated theorem proving, SAT-solvers, and large language models -- do indeed raise novel questions about the nature of mathematical proof. We also argue that the results obtained by such techniques do not tell against our basic argument. This is so because they are embodiments of brute force search and are thus capable of deciding only statements of low logical complexity.
翻訳日:2024-08-08 12:25:11 公開日:2024-08-01
# 心拍変動を用いた機械学習に基づくセプシス診断の改善

Improving Machine Learning Based Sepsis Diagnosis Using Heart Rate Variability ( http://arxiv.org/abs/2408.02683v1 )

ライセンス: Link先を確認
Sai Balaji, Christopher Sun, Anaiy Somalwar, (参考訳) 敗血症の早期かつ正確な診断は、患者の予後を高めるために重要である。 本研究の目的は、心拍変動(HRV)機能を用いて、敗血症検出のための効果的な予測モデルを開発することである。 統計ブートストラッピングやボルタアルゴリズムなどの特徴工学的手法によって重要なHRVの特徴を識別し、その後XGBoostとランダムフォレスト分類器を差分パラメータ設定で訓練する。 さらに,ハイリコールおよび高精度分類器の予測確率をプールし,モデル性能を向上させるためにアンサンブルモデルを構築した。 最後に、ニューラルネットワークモデルがHRVの特徴に基づいてトレーニングされ、F1スコアが0.805、精度が0.851、リコールが0.763となる。 最適性能の機械学習モデルは、解釈可能性分析によってこのニューラルネットワークと比較され、そこでは、特定の特徴に対する数値範囲としきい値に基づいて意思決定基準を決定するために、局所解釈可能なモデルに依存しない説明が実装される。 本研究は, 自動敗血症診断におけるHRVの有効性だけでなく, ブラックボックス出力の透明性を高め, 臨床応用性を最大化するものである。

The early and accurate diagnosis of sepsis is critical for enhancing patient outcomes. This study aims to use heart rate variability (HRV) features to develop an effective predictive model for sepsis detection. Critical HRV features are identified through feature engineering methods, including statistical bootstrapping and the Boruta algorithm, after which XGBoost and Random Forest classifiers are trained with differential hyperparameter settings. In addition, ensemble models are constructed to pool the prediction probabilities of high-recall and high-precision classifiers and improve model performance. Finally, a neural network model is trained on the HRV features, achieving an F1 score of 0.805, a precision of 0.851, and a recall of 0.763. The best-performing machine learning model is compared to this neural network through an interpretability analysis, where Local Interpretable Model-agnostic Explanations are implemented to determine decision-making criterion based on numerical ranges and thresholds for specific features. This study not only highlights the efficacy of HRV in automated sepsis diagnosis but also increases the transparency of black box outputs, maximizing clinical applicability.
翻訳日:2024-08-07 16:17:55 公開日:2024-08-01
# ランダム森林の開集合認識

Open Set Recognition for Random Forest ( http://arxiv.org/abs/2408.02684v1 )

ライセンス: Link先を確認
Guanchao Feng, Dhruv Desai, Stefano Pasquali, Dhagash Mehta, (参考訳) 多くの現実世界の分類や認識タスクでは、トレーニング中の不完全な知識や常に変化する体制のために、あらゆる可能なクラスを消費する訓練例を集めることはしばしば困難である。 したがって、未知の/ノーベルクラスのサンプルは、テスト/デプロイで遭遇する可能性がある。 そのようなシナリオでは、分類器は可能でなければならない 一 既知の授業の分類を同時に行うこと。 二 未知のクラスのサンプルを識別すること。 これはオープンセット認識として知られている。 ランダムフォレストは汎用的な分類(および回帰)手法として非常に成功したフレームワークであるが、実際にはクローズドセットの仮定の下で動作し、ボックスがなくなると新しいクラスからのサンプルを特定できない。 本研究では,距離メトリック学習と距離ベースオープンセット認識を組み込んだランダム森林分類器のオープンセット認識機能を実現するための新しい手法を提案する。 提案手法は,合成データセットと実世界のデータセットの両方で検証される。 実験の結果,提案手法は最先端距離に基づくオープンセット認識法よりも優れていた。

In many real-world classification or recognition tasks, it is often difficult to collect training examples that exhaust all possible classes due to, for example, incomplete knowledge during training or ever changing regimes. Therefore, samples from unknown/novel classes may be encountered in testing/deployment. In such scenarios, the classifiers should be able to i) perform classification on known classes, and at the same time, ii) identify samples from unknown classes. This is known as open-set recognition. Although random forest has been an extremely successful framework as a general-purpose classification (and regression) method, in practice, it usually operates under the closed-set assumption and is not able to identify samples from new classes when run out of the box. In this work, we propose a novel approach to enabling open-set recognition capability for random forest classifiers by incorporating distance metric learning and distance-based open-set recognition. The proposed method is validated on both synthetic and real-world datasets. The experimental results indicate that the proposed approach outperforms state-of-the-art distance-based open-set recognition methods.
翻訳日:2024-08-07 16:17:55 公開日:2024-08-01
# 標準定義マップによるオンライン道路網の知覚と推論の促進

Enhancing Online Road Network Perception and Reasoning with Standard Definition Maps ( http://arxiv.org/abs/2408.01471v1 )

ライセンス: Link先を確認
Hengyuan Zhang, David Paz, Yuliang Guo, Arun Das, Xinyu Huang, Karsten Haug, Henrik I. Christensen, Liu Ren, (参考訳) 都市部や高速道路での自動運転には、ナビゲーション計画を作成するために高定義(HD)マップが必要となることが多い。 それでも、HDマップを大規模に作成・維持する際には、様々な課題が生じる。 最近のオンラインマッピング手法が登場し始めているが、特に長い範囲における性能は、動的環境における重閉塞によって制限されている。 これらのことを念頭に置いて、我々の研究は、オンラインベクトル化HDマップ表現の開発において、軽量でスケーラブルな事前規格定義(SD)マップを活用することに焦点を当てている。 まず,プロトタイプ型ラスタ化SDマップ表現の様々なオンラインマッピングアーキテクチャへの統合について検討する。 さらに、軽量な戦略を特定するため、OpenLane-V2データセットをOpenStreetMapsで拡張し、グラフィカルSDマップ表現の利点を評価する。 SDマップ統合コンポーネントの設計から得られる重要な発見は、SDマップエンコーダがモデル非依存であり、鳥の目視(BEV)エンコーダを利用する新しいアーキテクチャに迅速に適応できることである。 以上の結果から,オンライン地図作成タスクの先行作業としてSDマップを利用する場合,コンバージェンスを著しく向上させ,オンラインセンターライン認識タスクの性能を30%向上させる可能性が示唆された。 さらに、SDマップの導入により、全体的な性能を改善しつつ、SDマップグラフを活用することにより、知覚・推論タスクにおけるパラメータ数の削減につながることを示す。 プロジェクトページ: https://henryzhangzhy.github.io/sdhdmap/。

Autonomous driving for urban and highway driving applications often requires High Definition (HD) maps to generate a navigation plan. Nevertheless, various challenges arise when generating and maintaining HD maps at scale. While recent online mapping methods have started to emerge, their performance especially for longer ranges is limited by heavy occlusion in dynamic environments. With these considerations in mind, our work focuses on leveraging lightweight and scalable priors-Standard Definition (SD) maps-in the development of online vectorized HD map representations. We first examine the integration of prototypical rasterized SD map representations into various online mapping architectures. Furthermore, to identify lightweight strategies, we extend the OpenLane-V2 dataset with OpenStreetMaps and evaluate the benefits of graphical SD map representations. A key finding from designing SD map integration components is that SD map encoders are model agnostic and can be quickly adapted to new architectures that utilize bird's eye view (BEV) encoders. Our results show that making use of SD maps as priors for the online mapping task can significantly speed up convergence and boost the performance of the online centerline perception task by 30% (mAP). Furthermore, we show that the introduction of the SD maps leads to a reduction of the number of parameters in the perception and reasoning task by leveraging SD map graphs while improving the overall performance. Project Page: https://henryzhangzhy.github.io/sdhdmap/.
翻訳日:2024-08-06 19:49:47 公開日:2024-08-01
# Few-Body Dipole-Dipole相互作用における量子多体スカー

Quantum Many-Body Scars in Few-Body Dipole-Dipole Interactions ( http://arxiv.org/abs/2208.02909v5 )

ライセンス: Link先を確認
Sarah E. Spielman, Alicia Handian, Nina P. Inman, Thomas J. Carroll, Michael W. Noel, (参考訳) 一次元アレイにおける2-,3-,4-体双極子-双極子相互作用を通じてエネルギーを共鳴的に交換するRydberg原子のダイナミクスをシミュレートする。 現実的な実験システムの簡易モデルを用いて, 初期状態生存確率, 平均レベル間隔, 絡み合いの広がり, エネルギー固有状態の性質について検討した。 様々な障害や相互作用の強さを探索することで、3体と4体のダイナミクスが熱化に失敗したり、遅くなったりするパラメータ空間の領域を見つけることができる。 強いホッピングと弱いフィールドチューニング相互作用の間の相互作用は、量子多体散乱状態を引き起こし、3体と4体の相互作用のダイナミクスを減速させる重要な役割を担っている。

We simulate the dynamics of Rydberg atoms resonantly exchanging energy via two-, three-, and four-body dipole-dipole interactions in a one-dimensional array. Using simplified models of a realistic experimental system, we study the initial state survival probability, mean level spacing, spread of entanglement, and properties of the energy eigenstates. By exploring a range of disorders and interaction strengths, we find regions in parameter space where the three- and four-body dynamics either fail to thermalize or do so slowly. The interplay between the stronger hopping and weaker field-tuned interactions gives rise to quantum many-body scar states, which play a critical role in slowing the dynamics of the three- and four-body interactions.
翻訳日:2024-08-05 19:02:21 公開日:2024-08-01
# 行動認識のための合成領域適応法:データセットとベースライン性能

Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and Baseline Performances ( http://arxiv.org/abs/2303.10280v2 )

ライセンス: Link先を確認
Arun V. Reddy, Ketul Shah, William Paul, Rohita Mocharla, Judy Hoffman, Kapil D. Katyal, Dinesh Manocha, Celso M. de Melo, Rama Chellappa, (参考訳) 人間の行動認識は、特に主観的外見、背景、視点などの要因に高いばらつきがある場合、難しい問題である。 ディープニューラルネットワーク(DNN)は、アクション認識タスクでうまく機能することが示されているが、様々な条件で堅牢なパフォーマンスを達成するためには、通常、大量の高品質なラベル付きデータを必要とする。 合成データは、現実世界で膨大な量のデータを収集しラベル付けすることに関連する、実質的なコストと潜在的な倫理的懸念を避ける方法として、約束を示す。 しかし、合成データは、重要な方法で実際のデータと異なるかもしれない。 この現象は「textit{ domain shift}」と呼ばれ、ロボティクス応用における合成データの実用性を制限することができる。 ドメインシフトの影響を軽減するため、ドメイン適応(DA)技術の開発に多大な努力が注がれている。 しかし、これらの技術をどのように開発するかについては、まだよく分かっていない。 本稿では,ロボット制御ジェスチャー (RoCoG-v2) と呼ばれる新しいデータセットを提案する。 このデータセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されており、ビデオに基づく行動認識のための合成ドメインシフトの研究を支援することを目的としている。 我々の研究は、人間とロボットのペアリングのためのジェスチャーにアクションクラスを集中させることで既存のデータセットを拡張し、地上と空中の両方でドメインシフトの調査を可能にする。 現状のアクション認識とドメイン適応アルゴリズムを用いてベースライン結果を示し、合成から現実、地上へのドメインシフトに対処するための最初の洞察を提供する。

Human action recognition is a challenging problem, particularly when there is high variability in factors such as subject appearance, backgrounds and viewpoint. While deep neural networks (DNNs) have been shown to perform well on action recognition tasks, they typically require large amounts of high-quality labeled data to achieve robust performance across a variety of conditions. Synthetic data has shown promise as a way to avoid the substantial costs and potential ethical concerns associated with collecting and labeling enormous amounts of data in the real-world. However, synthetic data may differ from real data in important ways. This phenomenon, known as \textit{domain shift}, can limit the utility of synthetic data in robotics applications. To mitigate the effects of domain shift, substantial effort is being dedicated to the development of domain adaptation (DA) techniques. Yet, much remains to be understood about how best to develop these techniques. In this paper, we introduce a new dataset called Robot Control Gestures (RoCoG-v2). The dataset is composed of both real and synthetic videos from seven gesture classes, and is intended to support the study of synthetic-to-real domain shift for video-based action recognition. Our work expands upon existing datasets by focusing the action classes on gestures for human-robot teaming, as well as by enabling investigation of domain shift in both ground and aerial views. We present baseline results using state-of-the-art action recognition and domain adaptation algorithms and offer initial insight on tackling the synthetic-to-real and ground-to-air domain shifts.
翻訳日:2024-08-05 19:02:21 公開日:2024-08-01
# 人工知能とガス分析による変圧器断層診断技術の現状:文献的考察

The State of the Art in transformer fault diagnosis with artificial intelligence and Dissolved Gas Analysis: A Review of the Literature ( http://arxiv.org/abs/2304.11880v2 )

ライセンス: Link先を確認
Yuyan Li, (参考訳) 変圧器故障診断(TFD)は、電力系統の保守と管理において重要な側面である。 本稿では,人工知能(AI)と溶存ガス分析(DGA)を用いたTFDの現状を概観する。 本稿では、ディープラーニングアルゴリズムと高度なデータ分析技術の利用、そしてTFDと電力産業全体に対する潜在的な影響など、この分野における最近の進歩について分析する。 レビューではまた、ルールベースのシステム、エキスパートシステム、ニューラルネットワーク、マシンラーニングアルゴリズムなど、さまざまなアプローチによる障害診断のメリットと制限を強調している。 本総説は,電力系統の信頼性確保におけるTFDの重要性とAIの役割に関する貴重な知見を提供することを目的としている。

Transformer fault diagnosis (TFD) is a critical aspect of power system maintenance and management. This review paper provides a comprehensive overview of the current state of the art in TFD using artificial intelligence (AI) and dissolved gas analysis (DGA). The paper presents an analysis of recent advancements in this field, including the use of deep learning algorithms and advanced data analytics techniques, and their potential impact on TFD and the power industry as a whole. The review also highlights the benefits and limitations of different approaches to transformer fault diagnosis, including rule-based systems, expert systems, neural networks, and machine learning algorithms. Overall, this review aims to provide valuable insights into the importance of TFD and the role of AI in ensuring the reliable operation of power systems.
翻訳日:2024-08-05 19:02:21 公開日:2024-08-01
# SARN:時空間分散のための構造対応リカレントネットワーク

SARN: Structurally-Aware Recurrent Network for Spatio-Temporal Disaggregation ( http://arxiv.org/abs/2306.07292v4 )

ライセンス: Link先を確認
Bin Han, Bill Howe, (参考訳) オープンデータは、通常プライバシーポリシーに従うために、空間的に集約されることが多い。 しかし、粗大で異質な集約は、下流のAI/MLシステムの学習と統合を複雑にします。 本研究では,低分解能で不規則なパーティション(例:国勢調査トラクション)から高分解能で不規則なパーティション(例:都市ブロック)へ時空間データを分解するモデルを考察する。 本稿では,構造的空間的注意(SASA)層をGRU(Gated Recurrent Unit)モデルに統合するSARN(Structurely-Aware Recurrent Network)というモデルを提案する。 空間的注意層は領域間の空間的相互作用を捉え、ゲートリカレントモジュールは時間的依存関係をキャプチャする。 グローバルアテンションは異なる地理的レベル間の包括的な相互作用を促進する一方、構造アテンションは異なる地理的レベル間の包摂関係(例えば、都市ブロックは国勢調査区域内に完全に含まれている)を活用し、一貫性と一貫性のある結果を保証する。 履歴学習データに制限のあるシナリオに対しては,移動学習を探求し,ある都市変数に事前学習したモデルを,数百のサンプルのみを用いて,他の都市変数に対して微調整できることを示す。 2つのモビリティデータセットでこれらの技術を評価することで、SARNは他のニューラルネットワーク(5%と1%)と典型的なヒューリスティックな手法(40%と14%)を著しく上回り、下流アプリケーションのための現実的で高品質な微粒なデータを生成することができることがわかった。

Open data is frequently released spatially aggregated, usually to comply with privacy policies. But coarse, heterogeneous aggregations complicate learning and integration for downstream AI/ML systems. In this work, we consider models to disaggregate spatio-temporal data from a low-resolution, irregular partition (e.g., census tract) to a high-resolution, irregular partition (e.g., city block). We propose an overarching model named the Structurally-Aware Recurrent Network (SARN), which integrates structurally-aware spatial attention (SASA) layers into the Gated Recurrent Unit (GRU) model. The spatial attention layers capture spatial interactions among regions, while the gated recurrent module captures the temporal dependencies. Each SASA layer calculates both global and structural attention -- global attention facilitates comprehensive interactions between different geographic levels, while structural attention leverages the containment relationship between different geographic levels (e.g., a city block being wholly contained within a census tract) to ensure coherent and consistent results. For scenarios with limited historical training data, we explore transfer learning and show that a model pre-trained on one city variable can be fine-tuned for another city variable using only a few hundred samples. Evaluating these techniques on two mobility datasets, we find that on both datasets, SARN significantly outperforms other neural models (5% and 1%) and typical heuristic methods (40% and 14%), enabling us to generate realistic, high-quality fine-grained data for downstream applications.
翻訳日:2024-08-05 18:53:04 公開日:2024-08-01
# PCNN:AIと人間のための細粒度画像分類の精度を向上する予測可能なクラスNearest-Neighbor説明

PCNN: Probable-Class Nearest-Neighbor Explanations Improve Fine-Grained Image Classification Accuracy for AIs and Humans ( http://arxiv.org/abs/2308.13651v4 )

ライセンス: Link先を確認
Giang Nguyen, Valerie Chen, Mohammad Reza Taesiri, Anh Totti Nguyen, (参考訳) 最寄りの隣人(NN)は、伝統的にSupport Vector Machinesやk-NNの分類器で最終決定を計算したり、モデルの判断を説明するために使用される。 本稿では,CUB-200,Cars-196,Dogs-120の詳細な画像分類精度を常に向上させ,(1)入力画像をトップKのNN画像と比較する画像コンパレータSを活用し,(2)出力スコアを用いてCの信頼性スコアを重み付けする手法を提案する。 また、人間による研究では、有望なクラスに近い隣人(PCNN)を示すことによって、AIへの過度な依存が軽減され、トップ1クラスの例のみを示す以前の作業よりも、意思決定精度が向上することがわかった。

Nearest neighbors (NN) are traditionally used to compute final decisions, e.g., in Support Vector Machines or k-NN classifiers, and to provide users with explanations for the model's decision. In this paper, we show a novel utility of nearest neighbors: To improve predictions of a frozen, pretrained classifier C. We leverage an image comparator S that (1) compares the input image with NN images from the top-K most probable classes; and (2) uses S' output scores to weight the confidence scores of C. Our method consistently improves fine-grained image classification accuracy on CUB-200, Cars-196, and Dogs-120. Also, a human study finds that showing lay users our probable-class nearest neighbors (PCNN) reduces over-reliance on AI, thus improving their decision accuracy over prior work which only shows only the top-1 class examples.
翻訳日:2024-08-05 18:53:04 公開日:2024-08-01
# SynthoGestures: 運転シナリオのための新しい動的ハンドジェスチャ生成フレームワーク

SynthoGestures: A Novel Framework for Synthetic Dynamic Hand Gesture Generation for Driving Scenarios ( http://arxiv.org/abs/2309.04421v2 )

ライセンス: Link先を確認
Amr Gomaa, Robin Zitt, Guillermo Reyes, Antonio Krüger, (参考訳) 自動車分野における動的ヒューマン・マシン・インタフェースのための多種多様な手ジェスチャーのデータセットを作成することは、困難かつ時間を要する。 この課題を克服するために,仮想3次元モデルによって生成される合成ジェスチャーデータセットを提案する。 我々のフレームワークはUnreal Engineを使ってリアルな手ジェスチャーを合成し、カスタマイズオプションを提供し、オーバーフィッティングのリスクを低減する。 ジェスチャ速度、パフォーマンス、手形状を含む複数の変種が生成され、一般化性が向上する。 さらに、RGB、赤外線、深度カメラなどの様々なカメラの位置やタイプを、これらのカメラを得るための追加の時間とコストを発生させることなくシミュレートする。 実験の結果,提案フレームワークであるSynthoGestures (https://github.com/amrgomaaelhady/SynthoGestures) がジェスチャー認識の精度を向上し,リアルタイムデータセットの置き換えや拡張が可能であった。 データセット作成に要する時間と労力を節約することにより、当社のツールは、自動車アプリケーションのためのジェスチャー認識システムの開発を加速する。

Creating a diverse and comprehensive dataset of hand gestures for dynamic human-machine interfaces in the automotive domain can be challenging and time-consuming. To overcome this challenge, we propose using synthetic gesture datasets generated by virtual 3D models. Our framework utilizes Unreal Engine to synthesize realistic hand gestures, offering customization options and reducing the risk of overfitting. Multiple variants, including gesture speed, performance, and hand shape, are generated to improve generalizability. In addition, we simulate different camera locations and types, such as RGB, infrared, and depth cameras, without incurring additional time and cost to obtain these cameras. Experimental results demonstrate that our proposed framework, SynthoGestures (https://github.com/amrgomaaelhady/SynthoGestures), improves gesture recognition accuracy and can replace or augment real-hand datasets. By saving time and effort in the creation of the data set, our tool accelerates the development of gesture recognition systems for automotive applications.
翻訳日:2024-08-05 18:53:04 公開日:2024-08-01
# 差分プライバシーにおける未知領域アルゴリズムの統一型プライバシ分析フレームワーク

A Unifying Privacy Analysis Framework for Unknown Domain Algorithms in Differential Privacy ( http://arxiv.org/abs/2309.09170v2 )

ライセンス: Link先を確認
Ryan Rogers, (参考訳) ヒストグラムをリリースするための多くの既存の微分プライベートアルゴリズム、すなわち対応するラベルのカウントを様々な設定でリリースしている。 この調査の焦点は、未知のドメイン上でヒストグラムを公開するための既存の微分プライベートアルゴリズムのいくつかを再検討することである。 未知の領域でヒストグラムを解放する主な実用上の利点は、アルゴリズムが元のヒストグラムには存在しないが、仮説的近傍データセットにはヒストグラムに現れるため、欠落したラベルを埋める必要がないことである。 しかし、未知のドメイン上でヒストグラムをリリースするための微分プライベートアルゴリズムを設計する上での課題は、どの入力が使われたかを明確に示す結果が、明らかにプライバシーを侵害していることである。 目的は、差別化の結果が非常に低い確率で起こることを示すことである。 いくつかの既存アルゴリズムのプライバシー分析のための統一的なフレームワークを提案する。 さらに、我々の分析では、Bun と Steinke'16 の近似微分プライバシーを用いており、特に多くのアルゴリズムを総合システムに組み込む場合、差分プライバシーを直接使用するのではなく、プライバシー損失パラメータを改善することができる。

There are many existing differentially private algorithms for releasing histograms, i.e. counts with corresponding labels, in various settings. Our focus in this survey is to revisit some of the existing differentially private algorithms for releasing histograms over unknown domains, i.e. the labels of the counts that are to be released are not known beforehand. The main practical advantage of releasing histograms over an unknown domain is that the algorithm does not need to fill in missing labels because they are not present in the original histogram but in a hypothetical neighboring dataset could appear in the histogram. However, the challenge in designing differentially private algorithms for releasing histograms over an unknown domain is that some outcomes can clearly show which input was used, clearly violating privacy. The goal then is to show that the differentiating outcomes occur with very low probability. We present a unified framework for the privacy analyses of several existing algorithms. Furthermore, our analysis uses approximate concentrated differential privacy from Bun and Steinke'16, which can improve the privacy loss parameters rather than using differential privacy directly, especially when composing many of these algorithms together in an overall system.
翻訳日:2024-08-05 18:53:04 公開日:2024-08-01
# 恥ずかしいほど単純な置換で(ビジョンと)言語モデルを偽造する

Fool Your (Vision and) Language Model With Embarrassingly Simple Permutations ( http://arxiv.org/abs/2310.01651v3 )

ライセンス: Link先を確認
Yongshuo Zong, Tingyang Yu, Ruchika Chavhan, Bingchen Zhao, Timothy Hospedales, (参考訳) 大規模言語と視覚言語モデルは、命令追従やコンテキスト内学習などにおける印象的な能力のおかげで、急速にデプロイされている。 このことは、ステークホルダーが特定のアプリケーションに頼るだけの信頼に値するモデルがあるかどうかを理解できるように、彼らの堅牢さを慎重に分析する緊急の要求を提起する。 本稿では,多選択質問応答(MCQA)における置換感度という,一般的なモデルにおける特定の脆弱性を強調した。 具体的には、一般のモデルが、複数の選択のプロンプトに対する応答セットにおいて、逆順順列に弱いことを実証的に示しており、モデルが理想的には、人間がそうであるように、不変であるべきであることは驚きである。 これらの脆弱性は、様々なモデルサイズにまたがって持続し、非常に最近の言語とビジョン言語モデルに存在する。 コードはhttps://github.com/ys-zong/FoolyourVLLMsで入手できる。

Large language and vision-language models are rapidly being deployed in practice thanks to their impressive capabilities in instruction following, in-context learning, and so on. This raises an urgent need to carefully analyse their robustness so that stakeholders can understand if and when such models are trustworthy enough to be relied upon in any given application. In this paper, we highlight a specific vulnerability in popular models, namely permutation sensitivity in multiple-choice question answering (MCQA). Specifically, we show empirically that popular models are vulnerable to adversarial permutation in answer sets for multiple-choice prompting, which is surprising as models should ideally be as invariant to prompt permutation as humans are. These vulnerabilities persist across various model sizes, and exist in very recent language and vision-language models. Code is available at https://github.com/ys-zong/FoolyourVLLMs.
翻訳日:2024-08-05 18:43:16 公開日:2024-08-01
# グラフ変換システムを用いたBPMNの形式化と分析のための高次変換手法

A higher-order transformation approach to the formalization and analysis of BPMN using graph transformation systems ( http://arxiv.org/abs/2311.05243v5 )

ライセンス: Link先を確認
Tim Kräuter, Adrian Rutle, Harald König, Yngve Lamo, (参考訳) ビジネスプロセスモデリング表記法(BPMN、Business Process Modeling Notation)は、組織内および組織間ワークフローを定義するための広く使われている標準表記法である。 しかし、BPMN実行セマンティクスの非公式な記述は、BPMN要素の異なる解釈と振る舞い特性のチェックの難しさをもたらします。 本稿では、BPMNの実行セマンティクスの形式化を提案し、既存のアプローチと比較して、より多くのBPMN要素をカバーし、プロパティチェックを容易にする。 私たちのアプローチは、BPMNモデルからグラフ変換システムへの高次の変換に基づいています。 このアプローチの能力を示すため、オープンソースのWebベースツールとして実装しました。

The Business Process Modeling Notation (BPMN) is a widely used standard notation for defining intra- and inter-organizational workflows. However, the informal description of the BPMN execution semantics leads to different interpretations of BPMN elements and difficulties in checking behavioral properties. In this article, we propose a formalization of the execution semantics of BPMN that, compared to existing approaches, covers more BPMN elements while also facilitating property checking. Our approach is based on a higher-order transformation from BPMN models to graph transformation systems. To show the capabilities of our approach, we implemented it as an open-source web-based tool.
翻訳日:2024-08-05 18:43:16 公開日:2024-08-01
# 粗粒度アドバイザリーオートノミーを用いた交通最適化のための時間伝達学習

Temporal Transfer Learning for Traffic Optimization with Coarse-grained Advisory Autonomy ( http://arxiv.org/abs/2312.09436v2 )

ライセンス: Link先を確認
Jung-Hoon Cho, Sirui Li, Jeongyun Kim, Cathy Wu, (参考訳) 近年のコネクテッド・アンド・オートマチック・ビークル(CAV)技術の発展により、高密度都市交通を最適化して車両の速度とスループットを最大化するための調査が進められている。 本稿では,人間ドライバーに対してリアルタイム運転アドバイザリを発行するアドバイザリ自律性について検討し,自動車の短期的な性能を実現する。 交通システムの複雑さのため、最近のCAVのコーディネート研究は、深層強化学習(RL)を活用している。 粗粒度のアドバイザリはゼロオーダーホールドとして形式化され、保持期間の幅は0.1秒から40秒である。 しかし、CAV上の高頻度タスクの類似性にもかかわらず、ディープRLの直接適用はアドバイザリー自律タスクに一般化されない。 これを解決するために、ゼロショット転送、特定の保持期間を持つ特定のトラフィックシナリオのソースタスクに対するトレーニングポリシーを利用し、異なるターゲットタスクに対するこれらのポリシーの有効性を評価する。 時間的移動学習(TTL)アルゴリズムを導入し、ゼロショット転送のためのソースタスクを選択し、時間的構造を体系的に活用してタスクの全範囲を解決する。 TTLは、タスク範囲のパフォーマンスを最大化するために最も適したソースタスクを選択する。 我々は,TTLがベースラインよりもタスクをより確実に解くことを実証し,多種多様な混合交通シナリオに対するアルゴリズムの有効性を検証した。 本稿では,交通流最適化におけるTTLによる粗粒度アドバイザリ自律性の可能性を明らかにする。

The recent development of connected and automated vehicle (CAV) technologies has spurred investigations to optimize dense urban traffic to maximize vehicle speed and throughput. This paper explores advisory autonomy, in which real-time driving advisories are issued to the human drivers, thus achieving near-term performance of automated vehicles. Due to the complexity of traffic systems, recent studies of coordinating CAVs have resorted to leveraging deep reinforcement learning (RL). Coarse-grained advisory is formalized as zero-order holds, and we consider a range of hold duration from 0.1 to 40 seconds. However, despite the similarity of the higher frequency tasks on CAVs, a direct application of deep RL fails to be generalized to advisory autonomy tasks. To overcome this, we utilize zero-shot transfer, training policies on a set of source tasks--specific traffic scenarios with designated hold durations--and then evaluating the efficacy of these policies on different target tasks. We introduce Temporal Transfer Learning (TTL) algorithms to select source tasks for zero-shot transfer, systematically leveraging the temporal structure to solve the full range of tasks. TTL selects the most suitable source tasks to maximize the performance of the range of tasks. We validate our algorithms on diverse mixed-traffic scenarios, demonstrating that TTL more reliably solves the tasks than baselines. This paper underscores the potential of coarse-grained advisory autonomy with TTL in traffic flow optimization.
翻訳日:2024-08-05 18:33:20 公開日:2024-08-01
# 非パラメトリック戦略試験

Nonparametric Strategy Test ( http://arxiv.org/abs/2312.10695v4 )

ライセンス: Link先を確認
Sam Ganzfried, (参考訳) 本稿では,エージェントが与えられた混合戦略に従っているかどうかを,エージェントのプレイのサンプルを与えられた繰り返し戦略形式ゲームで判定するための非パラメトリック統計的テストを提案する。 これには、エージェントの純粋な戦略の周波数がターゲットの周波数に十分近いかどうかを判定し、選択された純粋な戦略が異なるゲームイテレーション間で独立であるかどうかを決定する2つのコンポーネントが含まれる。 統合テストでは、第1成分に対して2乗の適合性を適用し、第2成分に対して一般化されたWald-Wolfowitzがテストを実行する。 両テストの結果は、ボンフェロニ補正を用いて、与えられた意味レベル$\alphaの完全なテストを生成する。 このテストは、人間のロックペーパー・シッセラー・プレイの公開データに適用しました。 データは500人の人間プレイヤーのための50回のプレイで構成されている。 我々は,各ゲーム繰り返しにおいて,プレイヤーが一様ランダム戦略に従っているという無効仮説を検証した。 重要度を$\alpha = 0.05$とすると、被験者の305人(61%)が目標戦略に従っていると結論付ける。

We present a nonparametric statistical test for determining whether an agent is following a given mixed strategy in a repeated strategic-form game given samples of the agent's play. This involves two components: determining whether the agent's frequencies of pure strategies are sufficiently close to the target frequencies, and determining whether the pure strategies selected are independent between different game iterations. Our integrated test involves applying a chi-squared goodness of fit test for the first component and a generalized Wald-Wolfowitz runs test for the second component. The results from both tests are combined using Bonferroni correction to produce a complete test for a given significance level $\alpha.$ We applied the test to publicly available data of human rock-paper-scissors play. The data consists of 50 iterations of play for 500 human players. We test with a null hypothesis that the players are following a uniform random strategy independently at each game iteration. Using a significance level of $\alpha = 0.05$, we conclude that 305 (61%) of the subjects are following the target strategy.
翻訳日:2024-08-05 18:33:20 公開日:2024-08-01
# 熱環境下での単一分子イオンの量子状態追跡と制御

Quantum state tracking and control of a single molecular ion in a thermal environment ( http://arxiv.org/abs/2312.17104v2 )

ライセンス: Link先を確認
Yu Liu, Julian Schmidt, Zhimin Liu, David R. Leibrandt, Dietrich Leibfried, Chin-wen Chou, (参考訳) 分子状態の進化を理解することは、分子動力学、精密測定、分子ベースの量子技術など、多くの分野の中心である。 進化の詳細は、分子の統計的アンサンブルを観察する際には明らかでない。 ここでは、単一分子の個々の状態(ジャンプ)間の熱放射誘起遷移のリアルタイム観測を報告した。 これらの「ジャンプ」はマイクロ波駆動の遷移によって逆転し、分子が選択された状態に居住する時間に20倍の改善がもたらされた。 測定された遷移速度は, 熱環境における異方性を示し, 周囲磁場の強度に対するその場プローブとして単一分子を用いる可能性を示した。 状態検出と操作に対する我々のアプローチは、量子科学、分子物理学、イオンニュートラル化学などの分野での利用を促進するために、幅広い種に適用することができる。

Understanding molecular state evolution is central to many disciplines, including molecular dynamics, precision measurement, and molecule-based quantum technology. Details of the evolution are obscured when observing a statistical ensemble of molecules. Here, we reported real-time observations of thermal radiation-driven transitions between individual states ("jumps") of a single molecule. We reversed these "jumps" through microwave-driven transitions, resulting in a twentyfold improvement in the time the molecule dwells in a chosen state. The measured transition rates showed anisotropy in the thermal environment, pointing to the possibility of using single molecules as in-situ probes for the strengths of ambient fields. Our approaches for state detection and manipulation could apply to a wide range of species, facilitating their uses in fields including quantum science, molecular physics, and ion-neutral chemistry.
翻訳日:2024-08-05 18:33:20 公開日:2024-08-01
# 量子回路応用のための低損失ハイブリッドNb/Au超伝導共振器

Low loss hybrid Nb/Au superconducting resonators for quantum circuit applications ( http://arxiv.org/abs/2401.14764v2 )

ライセンス: Link先を確認
Marina C. de Ory, David Rodriguez, Maria T. Magaz, Daniel Granados, Victor Rollano, Alicia Gomez, (参考訳) Supe Superconducting Resonatorは、量子コンピューティングや高性能検出器などの今後の量子技術開発において重要な役割を果たしている。 しかし、ノイズと感度に関する主な制限の1つは、デバイス内の酸化物層に存在する2レベルシステムとの相互作用である。 この問題の緩和に焦点をあて,ニオブ回路と10nmの金カッピング層を組み合わせた超伝導デバイスについて検討した。 以上の結果から,Au層の追加は2レベルのシステム欠陥の密度を低減し,高い品質の要因を保ちながら,幅広い温度と駆動能力について検討した。 また,非線形応答の増加も観察された。 この結果から,Nb/Au積層素子共振器が超伝導量子技術の進歩に有効である可能性が示唆された。 中でも金の存在は、アルキルチオール基を固定して自己集合単分子膜を形成することを可能にし、ハイブリッド量子プロセッサの開発のための分子スピン量子ビットとの統合を改善した。

SupeSuperconducting resonators play a crucial role in developing forthcoming quantum technologies such as quantum computing or high performance detectors. Yet, one of their main limitations regarding to noise and sensitivity is the interaction with two-level systems present in oxide layers in the device. Focused on mitigating this problem, we study a superconducting device combining a niobium circuit with a 10 nm gold capping layer. Our investigation covers a wide range of temperatures and driving powers, revealing that adding the Au layer reduces the density of two-level system defects while maintaining a very high quality factor. Moreover, an increase in the non-linearity response is also observed. Our findings suggest the potential of Nb/Au lumped element resonators as versatile and promising tools for advancing superconducting quantum technologies. Among others, the presence of gold allows anchoring alkyl thiol groups to form self-assembled monolayers, improving the integration with molecular spin qubits for the development of hybrid quantum processors.
翻訳日:2024-08-05 18:23:26 公開日:2024-08-01
# AFreeCA: annotation-free Counting for all

AFreeCA: Annotation-Free Counting for All ( http://arxiv.org/abs/2403.04943v2 )

ライセンス: Link先を確認
Adriano D'Alessandro, Ali Mahdavi-Amiri, Ghassan Hamarneh, (参考訳) オブジェクトカウントメソッドは通常、手動でアノテートされたデータセットに依存します。 このようなデータセットを作成するコストは、特定のクラス(人間やペンギンなど)からオブジェクトをカウントするネットワークの汎用性を制限しており、さまざまなカテゴリからオブジェクトをカウントすることは依然として困難である。 堅牢なテキスト・ツー・イメージ遅延拡散モデル(LDM)が利用可能になったことで、これらのモデルがカウントデータセットの生成に利用できるかどうかという疑問が持ち上がった。 しかし、LCMはテキストプロンプトのみに基づいて、正確な数のオブジェクトを持つイメージを作成するのに苦労するが、イメージ内のオブジェクトの追加や削除によって、信頼性の高い \textit{sorting} シグナルを提供するために使用できる。 このデータを活用することで、最初はオブジェクト関連の特徴を学習するための教師なしのソート手法を導入し、その後、LCDによって生成されたカウントデータを用いて、カウントのために洗練され、アンロックされる。 さらに,画像を確実にカウント可能な被写体を含むパッチに分割する密度分類器誘導方式を提案する。 その結果、任意の種類のオブジェクトのカウントデータを生成し、教師なしの方法でカウントすることができる。 我々のアプローチは、他の教師なしおよび少数ショットの代替よりも優れており、データをカウントできる特定のオブジェクトクラスに限定されていません。 承認された時にリリースされるコード。

Object counting methods typically rely on manually annotated datasets. The cost of creating such datasets has restricted the versatility of these networks to count objects from specific classes (such as humans or penguins), and counting objects from diverse categories remains a challenge. The availability of robust text-to-image latent diffusion models (LDMs) raises the question of whether these models can be utilized to generate counting datasets. However, LDMs struggle to create images with an exact number of objects based solely on text prompts but they can be used to offer a dependable \textit{sorting} signal by adding and removing objects within an image. Leveraging this data, we initially introduce an unsupervised sorting methodology to learn object-related features that are subsequently refined and anchored for counting purposes using counting data generated by LDMs. Further, we present a density classifier-guided method for dividing an image into patches containing objects that can be reliably counted. Consequently, we can generate counting data for any type of object and count them in an unsupervised manner. Our approach outperforms other unsupervised and few-shot alternatives and is not restricted to specific object classes for which counting data is available. Code to be released upon acceptance.
翻訳日:2024-08-05 18:23:26 公開日:2024-08-01
# 浸透症:水中画像復元に先立つRGBD拡散

Osmosis: RGBD Diffusion Prior for Underwater Image Restoration ( http://arxiv.org/abs/2403.14837v2 )

ライセンス: Link先を確認
Opher Bar Nathan, Deborah Levy, Tali Treibitz, Dan Rosenbaum, (参考訳) 水中画像の復元は、水の影響が遠くで劇的に増加するため、困難な作業である。 これは、水のないきれいな風景の真実データがないために悪化する。 拡散の前兆は、強いイメージ復元の前兆として現れている。 しかし、それらはしばしば、望まれる復元された出力のデータセットで訓練される。 また,色データのみを用いることは不十分であり,深度チャネルによる事前処理が可能であることも確認した。 大気中の自然の屋外シーンの標準RGBDデータセットを用いて、色と深さの結合空間に先立って無条件拡散モデルを訓練する。 水中画像形成モデルに基づく新しいガイダンス手法と組み合わせて, クリーン画像の後部サンプルを生成し, 水の影響を除去する。 トレーニング中に水中画像は見つからなかったが、我々の手法は、非常に困難な場面で画像復元のための最先端のベースラインを上回った。 私たちのコード、モデル、データはプロジェクトのウェブサイトで利用可能です。

Underwater image restoration is a challenging task because of water effects that increase dramatically with distance. This is worsened by lack of ground truth data of clean scenes without water. Diffusion priors have emerged as strong image restoration priors. However, they are often trained with a dataset of the desired restored output, which is not available in our case. We also observe that using only color data is insufficient, and therefore augment the prior with a depth channel. We train an unconditional diffusion model prior on the joint space of color and depth, using standard RGBD datasets of natural outdoor scenes in air. Using this prior together with a novel guidance method based on the underwater image formation model, we generate posterior samples of clean images, removing the water effects. Even though our prior did not see any underwater images during training, our method outperforms state-of-the-art baselines for image restoration on very challenging scenes. Our code, models and data are available on the project website.
翻訳日:2024-08-05 18:13:29 公開日:2024-08-01
# 言語モデルは将来のトークンを計画していますか?

Do language models plan ahead for future tokens? ( http://arxiv.org/abs/2404.00859v2 )

ライセンス: Link先を確認
Wilson Wu, John X. Morris, Lionel Levine, (参考訳) トランスフォーマーは、特定の位置での推論中に“前方”を考えるか? トランスフォーマーは、フォワードパスの隠された状態の情報をステップ$t$で作成し、将来のフォワードパス$t+\tau$で使用される。 トレーニング中に発生する非対角勾配項は、現在の推論タスクとは無関係に$t$のモデル計算機能をもたらすが、将来に役立つ。 我々はこれらの仮説を過去の時間ステップに勾配を伝播させることなく言語モデルを訓練することで検証する。 構築された合成データ設定では、プリキャッシュの明確な証拠が見つかる。 自己回帰言語モデリング設定では、モデルスケールで事前キャッシュが増加するが、我々の実験はパンクラムス仮説をより示唆している。

Do transformers "think ahead" during inference at a given position? It is known transformers prepare information in the hidden states of the forward pass at time step $t$ that is then used in future forward passes $t+\tau$. We posit two explanations for this phenomenon: pre-caching, in which off-diagonal gradient terms present during training result in the model computing features at $t$ irrelevant to the present inference task but useful for the future, and breadcrumbs, in which features most relevant to time step $t$ are already the same as those that would most benefit inference at time $t+\tau$. We test these hypotheses by training language models without propagating gradients to past timesteps, a scheme we formalize as myopic training. In a constructed synthetic data setting, we find clear evidence for pre-caching. In the autoregressive language modeling setting, our experiments are more suggestive of the breadcrumbs hypothesis, though pre-caching increases with model scale.
翻訳日:2024-08-05 18:13:29 公開日:2024-08-01
# 粒子検出器読み出しにおける機械学習のための130nmおよび28nmCMOSの組み込みFPGA開発

Embedded FPGA Developments in 130nm and 28nm CMOS for Machine Learning in Particle Detector Readout ( http://arxiv.org/abs/2404.17701v4 )

ライセンス: Link先を確認
Julia Gonski, Aseem Gupta, Haoyi Jia, Hyunjoon Kim, Lorenzo Rota, Larry Ruckman, Angelo Dragone, Ryan Herbst, (参考訳) 組み込みフィールドプログラマブルゲートアレイ(eFPGA)技術は、アプリケーション固有の集積回路(ASIC)の設計において再構成可能なロジックの実装を可能にする。 このアプローチはASICの低消費電力と効率、FPGA構成の容易さ、特に次世代コライダー実験のデータパイプラインにおける機械学習のユースケースに有益である。 FABulous"と呼ばれるオープンソースのフレームワークは130nmと28nmのCMOS技術ノードを使ってeFPGAを設計するために使われ、その後、テストによって製造され検証された。 シリコン画素センサを通した高エネルギー粒子のシミュレーションを用いて,eFPGAをフロントエンドの読み出しチップとして機能させる能力を評価した。 ソースにおけるセンサデータの削減のために設計された機械学習ベースの分類器を合成し、eFPGA上に構成した。 完全な精度でeFPGA上で予測されたアルゴリズムを再現し,概念実証に成功した。 eFPGA技術のさらなる発展とコライダー検出器の読み出しへの応用について論じる。

Embedded field programmable gate array (eFPGA) technology allows the implementation of reconfigurable logic within the design of an application-specific integrated circuit (ASIC). This approach offers the low power and efficiency of an ASIC along with the ease of FPGA configuration, particularly beneficial for the use case of machine learning in the data pipeline of next-generation collider experiments. An open-source framework called "FABulous" was used to design eFPGAs using 130 nm and 28 nm CMOS technology nodes, which were subsequently fabricated and verified through testing. The capability of an eFPGA to act as a front-end readout chip was assessed using simulation of high energy particles passing through a silicon pixel sensor. A machine learning-based classifier, designed for reduction of sensor data at the source, was synthesized and configured onto the eFPGA. A successful proof-of-concept was demonstrated through reproduction of the expected algorithm result on the eFPGA with perfect accuracy. Further development of the eFPGA technology and its application to collider detector readout is discussed.
翻訳日:2024-08-05 18:03:40 公開日:2024-08-01
# 孤立量子系における熱力学第二法則の創発

Emergence of a second law of thermodynamics in isolated quantum systems ( http://arxiv.org/abs/2406.01677v2 )

ライセンス: Link先を確認
Florian Meier, Tom Rivlin, Tiago Debarba, Jake Xuereb, Marcus Huber, Maximilian P. E. Lock, (参考訳) 熱力学の第2法則は、孤立系のエントロピーは時間とともにしか増加しないと述べている。 これは、フォン・ノイマンのエントロピーを保存するシュリンガー方程式の下で孤立量子系の可逆的進化と矛盾しているように見える。 それでも、多くの観測可能な値に対して期待値は、その平衡値である固定値に近づくことが分かる。 どのようにして、孤立量子系のエントロピーは時間とともに増加するのだろうか? 古典系では、物理系の微妙な詳細についての無知の概念とともに、低エントロピー初期状態の仮定を導入し、第二法則の統計的解釈をもたらす。 量子系を探索する観測可能量を考えると、これらの仮定はどちらも組み込まれ、観測可能量の平均の平衡に関する最近の研究に基づいている。 観測可能な期待値の統計的挙動は良好に確立されているが、エントロピーへの定量的な関係は今のところ欠落している。 可観測物の平衡に関する新しい境界を導出し、可観測物に対する系のエントロピーを考えると、与えられた可観測物に対するエントロピーは系のユニタリ進化の過程でその平衡値に傾くという第二法則の変則を回復する。 これらの結果は、量子系における平衡の非可積分性の必要性を疑問視する最近の知見を支持している。 さらに、スピンの連鎖上の量子イジングモデルのパラダイム的な例から得られる数値的な結果を用いて、我々の境界をさらに説明します。 そこでは、平衡値まで増加するエントロピーと、導出された境界に従って、基礎となる可逆的進化を明らかにする揺らぎを観察する。

The second law of thermodynamics states that the entropy of an isolated system can only increase over time. This appears to conflict with the reversible evolution of isolated quantum systems under the Schr\"odinger equation, which preserves the von Neumann entropy. Nonetheless, one finds that with respect to many observables, expectation values approach a fixed value -- their equilibrium value. This ultimately raises the question: in what sense does the entropy of an isolated quantum system increase over time? For classical systems, one introduces the assumption of a low entropy initial state along with the concept of ignorance about the microscopic details of the physical system, leading to a statistical interpretation of the second law. By considering the observables through which we examine quantum systems, both these assumptions can be incorporated, building upon recent studies of the equilibration on average of observables. While the statistical behavior of observable expectation values is well-established, a quantitative connection to entropy increase has been lacking so far. In deriving novel bounds for the equilibration of observables, and considering the entropy of the system relative to observables, we recover a variant of the second law: the entropy with respect to a given observable tends towards its equilibrium value in the course of the system's unitary evolution. These results also support recent findings which question the necessity of non-integrability for equilibration in quantum systems. We further illustrate our bounds using numerical results from the paradigmatic example of a quantum Ising model on a chain of spins. There, we observe entropy increasing up to equilibrium values, as well as fluctuations which expose the underlying reversible evolution in accordance with the derived bounds.
翻訳日:2024-08-05 18:03:40 公開日:2024-08-01
# 計測専用回路におけるマジック遷移

Magic transition in measurement-only circuits ( http://arxiv.org/abs/2407.15939v2 )

ライセンス: Link先を確認
Poetri Sonya Tarabunga, Emanuele Tirrito, (参考訳) 非安定化器性(nonstabilizerness)とも呼ばれるマジック(Magic)は、量子状態から安定化器状態の集合までの距離を定量化し、古典的計算よりも量子的優位性を持つ可能性のあるリソースとして機能する。 本研究では,CiffordとNon-Ciffordの測定を競合するタイプのCiffordとNon-Cifford測定を併用した,測定専用量子回路におけるマジックについて検討する。 この回路は、効率的にシミュレートできる古典的なモデルにマッピングすることができ、マジックは、単一量子状態のテンソル積に対して加法的である任意のマジック測度を用いて特徴づけることができる。 この観測を生かし、大規模数値シミュレーションを用いて1次元格子と2次元格子の両方において、この回路の魔法の遷移を研究する。 本研究は, 相互魔法が絡み合いに類似したスケーリング行動を示す臨界点によって分離された, 広範囲なマジックスケーリングを伴う2つの相間のマジック遷移の存在を実証するものである。 さらに、これらの2つの異なる位相は、トポロジカルマジックによって区別可能であることを示す。 異なる体制では、非クリフォード測定の消滅率で、魔法が両方の相で飽和していることが分かる。 我々の研究は、量子回路における魔法の挙動とその線形結合に光を当て、真の魔法の測度を用いている。

Magic, also known as nonstabilizerness, quantifies the distance of a quantum state to the set of stabilizer states, and it serves as a necessary resource for potential quantum advantage over classical computing. In this work, we study magic in a measurement-only quantum circuit with competing types of Clifford and non-Clifford measurements, where magic is injected through the non-Clifford measurements. This circuit can be mapped to a classical model that can be simulated efficiently, and the magic can be characterized using any magic measure that is additive for tensor product of single-qubit states. Leveraging this observation, we study the magic transition in this circuit in both one- and two-dimensional lattices using large-scale numerical simulations. Our results demonstrate the presence of a magic transition between two different phases with extensive magic scaling, separated by a critical point in which the mutual magic exhibits scaling behavior analogous to entanglement. We further show that these two distinct phases can be distinguished by the topological magic. In a different regime, with a vanishing rate of non-Clifford measurements, we find that the magic saturates in both phases. Our work sheds light on the behavior of magic and its linear combinations in quantum circuits, employing genuine magic measures.
翻訳日:2024-08-05 18:03:40 公開日:2024-08-01
# AIが金融(StockAgent)と出会う - 実環境を模擬した大規模言語モデルに基づくストックトレーディング

When AI Meets Finance (StockAgent): Large Language Model-based Stock Trading in Simulated Real-world Environments ( http://arxiv.org/abs/2407.18957v3 )

ライセンス: Link先を確認
Chong Zhang, Xinyi Liu, Mingyu Jin, Zhongmou Zhang, Lingyao Li, Zhenting Wang, Wenyue Hua, Dong Shu, Suiyuan Zhu, Xiaobo Jin, Sujian Li, Mengnan Du, Yongfeng Zhang, (参考訳) AIエージェントは、現実世界のトレーディング環境をシミュレートして、外的要因が株式トレーディング活動(例えば、マクロ経済学、政策変更、企業基本、グローバルイベント)に与える影響を調査できますか? これらの要因は、しばしば取引行動に影響を与えるが、投資家の利益を最大化するための探求において重要な要素である。 我々の研究は、大規模言語モデルに基づくエージェントによってこの問題を解決しようと試みている。 LLMによって駆動されるマルチエージェントAIシステムであるStockAgentを開発した。 StockAgentを使えば、ユーザーはさまざまな外部要因が投資家の取引に与える影響を評価し、取引行動や収益性への影響を分析することができる。 さらに、StockAgentはAIエージェントに基づいた既存のトレーディングシミュレーションシステムに存在するテストセットのリーク問題を回避する。 具体的には、モデルがテストデータに関して取得した可能性のある事前知識を活用するのを防ぐ。 実環境によく似たストックトレーディング環境で,StockAgentの枠組みの下で異なるLCMを評価した。 実験結果は、取引行動や株価変動ルールを含む外的要因が株式市場取引に与える影響を実証した。 本研究は,市場データに関する事前知識がない文脈において,エージェントの自由貿易ギャップについて検討する。 StockAgentシミュレーションで特定されたパターンは、LLMベースの投資アドバイスと株式レコメンデーションに貴重な洞察を与える。 コードはhttps://github.com/MingyuJ666/Stockagent.comで公開されている。

Can AI Agents simulate real-world trading environments to investigate the impact of external factors on stock trading activities (e.g., macroeconomics, policy changes, company fundamentals, and global events)? These factors, which frequently influence trading behaviors, are critical elements in the quest for maximizing investors' profits. Our work attempts to solve this problem through large language model based agents. We have developed a multi-agent AI system called StockAgent, driven by LLMs, designed to simulate investors' trading behaviors in response to the real stock market. The StockAgent allows users to evaluate the impact of different external factors on investor trading and to analyze trading behavior and profitability effects. Additionally, StockAgent avoids the test set leakage issue present in existing trading simulation systems based on AI Agents. Specifically, it prevents the model from leveraging prior knowledge it may have acquired related to the test data. We evaluate different LLMs under the framework of StockAgent in a stock trading environment that closely resembles real-world conditions. The experimental results demonstrate the impact of key external factors on stock market trading, including trading behavior and stock price fluctuation rules. This research explores the study of agents' free trading gaps in the context of no prior knowledge related to market data. The patterns identified through StockAgent simulations provide valuable insights for LLM-based investment advice and stock recommendation. The code is available at https://github.com/MingyuJ666/Stockagent.
翻訳日:2024-08-05 18:03:40 公開日:2024-08-01
# FloorSet - 実世界のSoCの設計制約付きVLSIフロアプランニングデータセット

FloorSet -- a VLSI Floorplanning Dataset with Design Constraints of Real-World SoCs ( http://arxiv.org/abs/2405.05480v4 )

ライセンス: Link先を確認
Uday Mallappa, Hesham Mostafa, Mikhail Galkin, Mariano Phielipp, Somdeb Majumdar, (参考訳) システム・オン・ア・チップ(SoC)とそのサブシステムのフロアプランニングは、物理的設計フローの重要かつ非自明なステップである。 これは組合せ最適化の難しさを表している。 120個のパーティションを持つ典型的な大規模SoCは、約10E250の検索空間を生成する。 このような問題に対処するために、新しい機械学習(ML)アプローチが出現するにつれて、既存のベンチマークと比較して現実の制約や目的をよりよく反映する大規模なトレーニングデータセットとパフォーマンスメトリクスを含む、現代的なベンチマークの必要性が高まっている。 このニーズに対処するために、FloorSet -- 実際のSoCの分布を反映した、合成固定アウトラインのフロアプランレイアウトの2つの包括的なデータセットを提供する。 各データセットは100万のトレーニングサンプルと100のテストサンプルを持ち、各サンプルは合成フロアプランである。 FloorSet-Primeは、完全結合された直線分割と、ほぼ最適のワイヤ長からなる。 初期の設計フェーズを反映した単純化されたデータセットであるFloorSet-Liteは、長方形のパーティションで構成され、5%以下のホワイトスペースとほぼ最適ワイヤ長を持つ。 どちらのデータセットも、形状制約、エッジ親和性、グループ化制約、配置前制約など、現代的なデザインフローで見られる厳しい制約を定義している。 FloorSetは、大規模制約付き最適化問題の基礎研究を促進することを目的としている。 重要なことに、FloorSetは、このような問題に対する現代のML駆動ソリューションにおける再現性の中心的な問題を緩和している。 FloorSetは研究コミュニティのためのオープンソースリポジトリとして利用できる。

Floorplanning for systems-on-a-chip (SoCs) and its sub-systems is a crucial and non-trivial step of the physical design flow. It represents a difficult combinatorial optimization problem. A typical large scale SoC with 120 partitions generates a search-space of nearly 10E250. As novel machine learning (ML) approaches emerge to tackle such problems, there is a growing need for a modern benchmark that comprises a large training dataset and performance metrics that better reflect real-world constraints and objectives compared to existing benchmarks. To address this need, we present FloorSet -- two comprehensive datasets of synthetic fixed-outline floorplan layouts that reflect the distribution of real SoCs. Each dataset has 1M training samples and 100 test samples where each sample is a synthetic floor-plan. FloorSet-Prime comprises fully-abutted rectilinear partitions and near-optimal wire-length. A simplified dataset that reflects early design phases, FloorSet-Lite comprises rectangular partitions, with under 5 percent white-space and near-optimal wire-length. Both datasets define hard constraints seen in modern design flows such as shape constraints, edge-affinity, grouping constraints, and pre-placement constraints. FloorSet is intended to spur fundamental research on large-scale constrained optimization problems. Crucially, FloorSet alleviates the core issue of reproducibility in modern ML driven solutions to such problems. FloorSet is available as an open-source repository for the research community.
翻訳日:2024-08-05 17:53:28 公開日:2024-08-01
# Inverse Concave-Utility Reinforcement Learning is Inverse Game Theory

Inverse Concave-Utility Reinforcement Learning is Inverse Game Theory ( http://arxiv.org/abs/2405.19024v3 )

ライセンス: Link先を確認
Mustafa Mert Çelikok, Frans A. Oliehoek, Jan-Willem van de Meent, (参考訳) 凹凸ユーティリティによる逆強化学習問題を考察する。 コンケーブユーティリティ強化学習(Concave Utility Reinforcement Learning, CURL)は、線形関数ではなく、状態占有率のコンケーブ関数を用いる標準RL目標の一般化である。 CURLは、模倣学習、純粋な探索、制約されたMDP、オフラインRL、人間規則化されたRLなどの標準RLを含む多くの重要なアプリケーションのインスタンスを表現できることで近年注目を集めている。 逆強化学習は、エージェントの観察された振る舞いを合理化できる未知の報酬関数の回復に焦点を当てた強力なパラダイムである。 逆 RL では、この問題は実現可能な報酬関数の集合を識別するものとして定式化されている。 しかし、CURL問題に対する逆RLは、これまで検討されていない。 本稿では、CURLが古典ベルマン方程式を無効にするため、標準IRL結果の大部分が一般には適用されないことを示す。 これにより、逆CURL問題に対する新たな理論的枠組みが要求される。 CURLと平均場ゲーム間の最近の等価結果を用いて、平均場ゲームサブクラスにおける逆ゲーム理論問題と等価であることを証明し、I-CURLに対する実現可能な報酬の新たな定義を提案する。 結果によって実現された人間-AIコラボレーションにおける今後の方向性と応用について概説する。

We consider inverse reinforcement learning problems with concave utilities. Concave Utility Reinforcement Learning (CURL) is a generalisation of the standard RL objective, which employs a concave function of the state occupancy measure, rather than a linear function. CURL has garnered recent attention for its ability to represent instances of many important applications including the standard RL such as imitation learning, pure exploration, constrained MDPs, offline RL, human-regularized RL, and others. Inverse reinforcement learning is a powerful paradigm that focuses on recovering an unknown reward function that can rationalize the observed behaviour of an agent. There has been recent theoretical advances in inverse RL where the problem is formulated as identifying the set of feasible reward functions. However, inverse RL for CURL problems has not been considered previously. In this paper we show that most of the standard IRL results do not apply to CURL in general, since CURL invalidates the classical Bellman equations. This calls for a new theoretical framework for the inverse CURL problem. Using a recent equivalence result between CURL and Mean-field Games, we propose a new definition for the feasible rewards for I-CURL by proving that this problem is equivalent to an inverse game theory problem in a subclass of mean-field games. We outline future directions and applications in human--AI collaboration enabled by our results.
翻訳日:2024-08-05 17:53:28 公開日:2024-08-01
# AIはどのように倫理的であるべきか? LLMのリスク設定をAIがどう形作るか

How Ethical Should AI Be? How AI Alignment Shapes the Risk Preferences of LLMs ( http://arxiv.org/abs/2406.01168v2 )

ライセンス: Link先を確認
Shumiao Ouyang, Hayong Yun, Xingjian Zheng, (参考訳) 本研究では,Large Language Models(LLMs)のリスク嗜好と,それらと人間の倫理基準の整合が,その経済的な意思決定にどのように影響するかを検討する。 30個のLSMを分析すると、リスク逆からリスク探索まで、さまざまな固有のリスクプロファイルが明らかになる。 LLMと人的価値の整合性、無害性、有用性、誠実性を重視し、それらをリスク回避にシフトしていることが分かりました。 一部のアライメントは投資予測の精度を改善するが、過剰なアライメントは過度に慎重な予測をもたらし、潜在的に深刻な過小評価をもたらす。 本研究は, LLMを財務に使用する際に, 経済領域の具体的要件と倫理的整合性をバランスさせる, ニュアンス的なアプローチの必要性を強調した。

This study examines the risk preferences of Large Language Models (LLMs) and how aligning them with human ethical standards affects their economic decision-making. Analyzing 30 LLMs reveals a range of inherent risk profiles, from risk-averse to risk-seeking. We find that aligning LLMs with human values, focusing on harmlessness, helpfulness, and honesty, shifts them towards risk aversion. While some alignment improves investment forecast accuracy, excessive alignment leads to overly cautious predictions, potentially resulting in severe underinvestment. Our findings highlight the need for a nuanced approach that balances ethical alignment with the specific requirements of economic domains when using LLMs in finance.
翻訳日:2024-08-05 17:53:28 公開日:2024-08-01
# ReLUは意図しない神経表現を学習するのに十分である

ReLUs Are Sufficient for Learning Implicit Neural Representations ( http://arxiv.org/abs/2406.02529v2 )

ライセンス: Link先を確認
Joseph Shenouda, Yamin Zhou, Robert D. Nowak, (参考訳) Rectified Linear Unit(ReLU)をアクティベーション関数とするニューラルネットワークの理論的理解の高まりにより、暗黙的ニューラルネットワーク表現(INR)の学習にReLUアクティベーション関数を使用することが再考される。 2次B-スプラインウェーブレットにインスパイアされ、ディープニューラルネットワーク(DNN)の各層にReLUニューロンに一連の簡単な制約を加え、スペクトルバイアスを緩和する。 これにより、様々なINRタスクに使用できる。 実証的に、一般的な信念とは対照的に、ReLUニューロンのみからなるDNNに基づいて最先端のINRを学習できることを実証する。 次に、ReLUニューラルネットワークが学習する関数の種類を特徴付ける最近の理論的研究を活用して、学習した関数の正則性を定量化する方法を提供する。 これはINRアーキテクチャのハイパーパラメータを選択するための原則化されたアプローチを提供する。 我々は,信号表現,超解像,コンピュータ断層撮影の実験を通じて,本手法の汎用性と有効性を示す。 すべての実験のコードはhttps://github.com/joeshenouda/relu-inrs.comで見ることができる。

Motivated by the growing theoretical understanding of neural networks that employ the Rectified Linear Unit (ReLU) as their activation function, we revisit the use of ReLU activation functions for learning implicit neural representations (INRs). Inspired by second order B-spline wavelets, we incorporate a set of simple constraints to the ReLU neurons in each layer of a deep neural network (DNN) to remedy the spectral bias. This in turn enables its use for various INR tasks. Empirically, we demonstrate that, contrary to popular belief, one can learn state-of-the-art INRs based on a DNN composed of only ReLU neurons. Next, by leveraging recent theoretical works which characterize the kinds of functions ReLU neural networks learn, we provide a way to quantify the regularity of the learned function. This offers a principled approach to selecting the hyperparameters in INR architectures. We substantiate our claims through experiments in signal representation, super resolution, and computed tomography, demonstrating the versatility and effectiveness of our method. The code for all experiments can be found at https://github.com/joeshenouda/relu-inrs.
翻訳日:2024-08-05 17:53:28 公開日:2024-08-01
# RepCNN: Wakeword検出のためのマイクロサイズマイティモデル

RepCNN: Micro-sized, Mighty Models for Wakeword Detection ( http://arxiv.org/abs/2406.02652v2 )

ライセンス: Link先を確認
Arnav Kundu, Prateeth Nayak, Priyanka Padmanabhan, Devang Naik, (参考訳) 常時オンの機械学習モデルは、非常に少ないメモリと計算フットプリントを必要とする。 彼らの制限されたパラメータカウントは、学習するモデルの能力と、最高のパラメータを見つけるための通常のトレーニングアルゴリズムの有効性を制限する。 ここでは、小さな畳み込みモデルを、まず計算をより大きな冗長なマルチブランチアーキテクチャにリファクタリングすることで、よりよく訓練できることを示す。 そして、推論のために、トレーニングされたモデルをより少ないパラメータでより少ないメモリフットプリントと計算コストで単一ブランチ形式に代数的に再パラメータ化する。 この手法を用いることで、常時起動するウェイクワード検出モデルであるRepCNNが、推論中のレイテンシと精度のトレードオフを良好に提供することを示す。 RepCNNの再パラメータ化モデルは、同じランタイムを持ちながら、ユニブランチの畳み込みモデルよりも43%正確である。 RepCNNは、BC-ResNetのような複雑なアーキテクチャの精度も満たしている。

Always-on machine learning models require a very low memory and compute footprint. Their restricted parameter count limits the model's capacity to learn, and the effectiveness of the usual training algorithms to find the best parameters. Here we show that a small convolutional model can be better trained by first refactoring its computation into a larger redundant multi-branched architecture. Then, for inference, we algebraically re-parameterize the trained model into the single-branched form with fewer parameters for a lower memory footprint and compute cost. Using this technique, we show that our always-on wake-word detector model, RepCNN, provides a good trade-off between latency and accuracy during inference. RepCNN re-parameterized models are 43% more accurate than a uni-branch convolutional model while having the same runtime. RepCNN also meets the accuracy of complex architectures like BC-ResNet, while having 2x lesser peak memory usage and 10x faster runtime.
翻訳日:2024-08-05 17:53:28 公開日:2024-08-01
# 多変量変圧器によるソーラードライバ予測の強化

Enhancing Solar Driver Forecasting with Multivariate Transformers ( http://arxiv.org/abs/2406.15847v2 )

ライセンス: Link先を確認
Sergio Sanchez-Hurtado, Victor Rodriguez-Fernandez, Julia Briden, Peng Mun Siew, Richard Linares, (参考訳) 本研究では,F10.7,S10.7,M10.7,Y10.7を時系列変換器(PatchTST)で予測する総合的なフレームワークを開発する。 太陽活動の高レベルと低レベルを均等に表現するために、太陽運転者の歴史的分布とトレーニングセットの間の距離に基づいて、試料を重み付けするためのカスタム損失関数を構築した。 ソーラードライバー予測フレームワークには、18日間の見返りウィンドウと6日間の将来の予測が含まれている。 宇宙環境技術(SET)データセットに対してベンチマークを行うと、我々のモデルは、ほぼ全てのケースにおいて標準平均誤差が低い予測を常に生成し、高い太陽活動の期間における予測精度が向上する。 すべてのコードはGithub https://github.com/ARCLab-MIT/sw-driver-forecasterで公開されている。

In this work, we develop a comprehensive framework for F10.7, S10.7, M10.7, and Y10.7 solar driver forecasting with a time series Transformer (PatchTST). To ensure an equal representation of high and low levels of solar activity, we construct a custom loss function to weight samples based on the distance between the solar driver's historical distribution and the training set. The solar driver forecasting framework includes an 18-day lookback window and forecasts 6 days into the future. When benchmarked against the Space Environment Technologies (SET) dataset, our model consistently produces forecasts with a lower standard mean error in nearly all cases, with improved prediction accuracy during periods of high solar activity. All the code is available on Github https://github.com/ARCLab-MIT/sw-driver-forecaster.
翻訳日:2024-08-05 17:43:44 公開日:2024-08-01
# D-CDLF:多次元高次元データのための共通および識別潜在因子の分解

D-CDLF: Decomposition of Common and Distinctive Latent Factors for Multi-view High-dimensional Data ( http://arxiv.org/abs/2407.00730v2 )

ライセンス: Link先を確認
Hai Shu, (参考訳) 複数の高次元データビューのジョイント分析における典型的なアプローチは、各ビューのデータマトリックスを3つの部分に分解することである。 既存の分解法では、共通潜時要因と特異潜時要因の非相関性に焦点をあてることが多いが、異なるデータビューからの特異潜時要因の等しく不要な非相関性に対処するには不十分である。 本稿では,2視点データに対する非相関性を効果的に実現するために,D-CDLF (Decomposition of Common and Distinctive Latent Factors) と呼ばれる新しい分解法を提案する。 また,高次元環境下でのD-CDLFの推定についても検討した。

A typical approach to the joint analysis of multiple high-dimensional data views is to decompose each view's data matrix into three parts: a low-rank common-source matrix generated by common latent factors of all data views, a low-rank distinctive-source matrix generated by distinctive latent factors of the corresponding data view, and an additive noise matrix. Existing decomposition methods often focus on the uncorrelatedness between the common latent factors and distinctive latent factors, but inadequately address the equally necessary uncorrelatedness between distinctive latent factors from different data views. We propose a novel decomposition method, called Decomposition of Common and Distinctive Latent Factors (D-CDLF), to effectively achieve both types of uncorrelatedness for two-view data. We also discuss the estimation of the D-CDLF under high-dimensional settings.
翻訳日:2024-08-05 17:43:44 公開日:2024-08-01
# 安全制約を考慮したオフラインマルチエージェント強化学習のための拡散モデル

Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints ( http://arxiv.org/abs/2407.00741v5 )

ライセンス: Link先を確認
Jianuo Huang, (参考訳) 近年のMARL(Multi-agent Reinforcement Learning)の進歩により、その応用は様々な安全クリティカルなシナリオにまで拡張されている。 しかし,ほとんどの手法はオンライン学習に重点を置いており,実際の環境に配置した場合にかなりのリスクが生じる。 この課題に対処するために、MARLパラダイムに拡散モデルを統合する革新的なフレームワークを導入する。 このアプローチは、協調動作をモデル化しながらリスク軽減を通じて、複数のエージェントが取るべき行動の安全性を特に向上させる。 我々のフレームワークは、予測軌道生成のための拡散モデルによって強化された、分散実行による集中訓練(CTDE)アーキテクチャに基礎を置いている。 さらに、運用上の安全性をさらに確保するために、特殊なアルゴリズムを組み込んだ。 DSRLベンチマークを用いて,ベースラインに対するモデルの評価を行った。 実験結果から, 本モデルは厳密な安全制約に固執するだけでなく, 既存の手法と比較して優れた性能が得られることが示された。 このことは、現実世界のアプリケーションにおけるMARLの安全性と有効性向上における我々のアプローチの可能性を浮き彫りにしている。

In recent advancements in Multi-agent Reinforcement Learning (MARL), its application has extended to various safety-critical scenarios. However, most methods focus on online learning, which presents substantial risks when deployed in real-world settings. Addressing this challenge, we introduce an innovative framework integrating diffusion models within the MARL paradigm. This approach notably enhances the safety of actions taken by multiple agents through risk mitigation while modeling coordinated action. Our framework is grounded in the Centralized Training with Decentralized Execution (CTDE) architecture, augmented by a Diffusion Model for prediction trajectory generation. Additionally, we incorporate a specialized algorithm to further ensure operational safety. We evaluate our model against baselines on the DSRL benchmark. Experiment results demonstrate that our model not only adheres to stringent safety constraints but also achieves superior performance compared to existing methodologies. This underscores the potential of our approach in advancing the safety and efficacy of MARL in real-world applications.
翻訳日:2024-08-05 17:43:44 公開日:2024-08-01
# SLIP:重み分解を用いたLLMIPのセキュア化

SLIP: Securing LLMs IP Using Weights Decomposition ( http://arxiv.org/abs/2407.10886v2 )

ライセンス: Link先を確認
Yehonathan Refael, Adam Hakim, Lev Greenberg, Tal Aviv, Satya Lokam, Ben Fishman, Shachar Seidman, (参考訳) 大規模言語モデル(LLM)は、最近、アカデミックと産業の両方で広く採用されている。 これらのモデルが成長するにつれて、彼らは価値ある知的財産権(IP)となり、所有者による巨額の投資を反映している。 さらに、クラウドベースのデプロイメントのコストが高いことから、エッジデバイスへのデプロイメントへの関心が高まっている。 エッジ上のモデルのIPを保護する現在の方法は、実用性、精度の低下、要求に対する適合性の制限がある。 本稿では,エッジデデプロイされたモデルを盗難から保護するために,SLIPという新しいハイブリッド推論アルゴリズムを提案する。 SLIPは、現実のアプリケーションには実用的であり、信頼性の低下やレイテンシへの影響を最小限に抑えながら、確実にセキュアな最初のハイブリッドプロトコルである。 モデルは2つのコンピューティングリソース間で分割され、1つは安全だが高価で、もう1つはコスト効率が良いが脆弱性がある。 これは行列分解によって達成され、セキュアなリソースが最小の計算量を実行しながら、モデルのIPの最大機密部分を保持することを保証する。 重要なことに、このプロトコルには、攻撃者が機密情報を推測するためにパーティションを悪用することを防ぐセキュリティ保証が含まれている。 最後に,本手法のロバスト性と有効性を示す実験結果について述べる。

Large language models (LLMs) have recently seen widespread adoption, in both academia and industry. As these models grow, they become valuable intellectual property (IP), reflecting enormous investments by their owners. Moreover, the high cost of cloud-based deployment has driven interest towards deployment to edge devices, yet this risks exposing valuable parameters to theft and unauthorized use. Current methods to protect models' IP on the edge have limitations in terms of practicality, loss in accuracy, or suitability to requirements. In this paper, we introduce a novel hybrid inference algorithm, named SLIP, designed to protect edge-deployed models from theft. SLIP is the first hybrid protocol that is both practical for real-world applications and provably secure, while having zero accuracy degradation and minimal impact on latency. It involves partitioning the model between two computing resources, one secure but expensive, and another cost-effective but vulnerable. This is achieved through matrix decomposition, ensuring that the secure resource retains a maximally sensitive portion of the model's IP while performing a minimal amount of computations, and vice versa for the vulnerable resource. Importantly, the protocol includes security guarantees that prevent attackers from exploiting the partition to infer the secured information. Finally, we present experimental results that show the robustness and effectiveness of our method, positioning it as a compelling solution for protecting LLMs.
翻訳日:2024-08-05 15:50:45 公開日:2024-08-01
# AI実践者とAIコンプライアンスの専門家によるAI影響評価レポートテンプレートの共同設計

Co-designing an AI Impact Assessment Report Template with AI Practitioners and AI Compliance Experts ( http://arxiv.org/abs/2407.17374v2 )

ライセンス: Link先を確認
Edyta Bogucka, Marios Constantinides, Sanja Šćepanović, Daniele Quercia, (参考訳) AI規制の進化する状況において、企業は影響評価を行い、包括的なレポートを通じてコンプライアンスを文書化することが不可欠である。 しかし、現在のレポートでは規制の根拠がなく、多くの場合、これらのシステムの現実的な使用に対処することなく、AIシステムに関するプライバシーのような特定の側面に焦点を当てている。 さらに、これらのレポートをAI実践者とAIコンプライアンスの専門家の両方で設計し、評価するための体系的な努力は存在しない。 このギャップに対処するため、14人のAI実践者と6人のAIコンプライアンス専門家による反復的共同設計プロセスを実施し、EU AI Act、NISTのAIリスク管理フレームワーク、ISO 42001 AI Management Systemに根ざした影響評価レポートのテンプレートを提案した。 大手IT企業におけるAIベースのミーティングコンパニオンのインパクトアセスメントレポートを作成し,テンプレートの評価を行った。 同じ企業の8人のAI実践者と、業界と学界の5人のAIコンプライアンスの専門家によるユーザスタディによると、私たちのテンプレートは、AIシステムの影響を効果的に評価し、ドキュメント化するために必要な情報を提供しています。 参加者は、コンプライアンスのための事前デプロイ段階だけでなく、AI使用の設計段階をガイドするツールとしても、テンプレートを使用することを想定していた。

In the evolving landscape of AI regulation, it is crucial for companies to conduct impact assessments and document their compliance through comprehensive reports. However, current reports lack grounding in regulations and often focus on specific aspects like privacy in relation to AI systems, without addressing the real-world uses of these systems. Moreover, there is no systematic effort to design and evaluate these reports with both AI practitioners and AI compliance experts. To address this gap, we conducted an iterative co-design process with 14 AI practitioners and 6 AI compliance experts and proposed a template for impact assessment reports grounded in the EU AI Act, NIST's AI Risk Management Framework, and ISO 42001 AI Management System. We evaluated the template by producing an impact assessment report for an AI-based meeting companion at a major tech company. A user study with 8 AI practitioners from the same company and 5 AI compliance experts from industry and academia revealed that our template effectively provides necessary information for impact assessments and documents the broad impacts of AI systems. Participants envisioned using the template not only at the pre-deployment stage for compliance but also as a tool to guide the design stage of AI uses.
翻訳日:2024-08-05 15:50:45 公開日:2024-08-01
# 一般化正規分布の強化--機械学習と演算知識の統合

Boosted generalized normal distributions: Integrating machine learning with operations knowledge ( http://arxiv.org/abs/2407.19092v2 )

ライセンス: Link先を確認
Ragip Gurlek, Francis de Vericourt, Donald K. K. Lee, (参考訳) 機械学習(ML)技術の運用環境への適用は、しばしば2つの課題に直面します。 一 主に点予測を行うML手法であって、多くの運用上の問題には分布情報が必要であること。 二 通常、業務文献、特に特定の分布を特徴づける理論的及び実証的な知見に広範な知識を取り入れない。 本稿では,これらの課題に対処するため,新しい厳密な方法論であるBoosted Generalized Normal Distribution(GND)を紹介する。 一般正規分布(GND)は、操作でよく見られる幅広いパラメトリック分布を包含し、$b$GNDは、木学習者による勾配上昇を利用して、GNDのパラメータを共変量の関数として柔軟に推定する。 我々は、$b$GNDの統計的整合性を確立し、そのような保証を欠いたML文献で研究された特別な事例にこの鍵特性を拡張した。 米国における大規模大学救急部門のデータを用いて,患者の待ち時間とサービス時間の分布予測は,医療活動文献の知見を活用すれば有意に改善できることを示す。 具体的には、$b$GNDは、それぞれ待ち時間とサービス時間を予測するために使用される分散に依存しないMLベンチマークよりも6%と9%パフォーマンスがよい。 さらに分析したところ、これらの改善は患者の満足度を9%増加させ、心筋梗塞患者の死亡率を4%低下させることが示唆された。 本研究は,MLを運用知識と統合し,分散予測を強化することの重要性を浮き彫りにする。

Applications of machine learning (ML) techniques to operational settings often face two challenges: i) ML methods mostly provide point predictions whereas many operational problems require distributional information; and ii) They typically do not incorporate the extensive body of knowledge in the operations literature, particularly the theoretical and empirical findings that characterize specific distributions. We introduce a novel and rigorous methodology, the Boosted Generalized Normal Distribution ($b$GND), to address these challenges. The Generalized Normal Distribution (GND) encompasses a wide range of parametric distributions commonly encountered in operations, and $b$GND leverages gradient boosting with tree learners to flexibly estimate the parameters of the GND as functions of covariates. We establish $b$GND's statistical consistency, thereby extending this key property to special cases studied in the ML literature that lacked such guarantees. Using data from a large academic emergency department in the United States, we show that the distributional forecasting of patient wait and service times can be meaningfully improved by leveraging findings from the healthcare operations literature. Specifically, $b$GND performs 6% and 9% better than the distribution-agnostic ML benchmark used to forecast wait and service times respectively. Further analysis suggests that these improvements translate into a 9% increase in patient satisfaction and a 4% reduction in mortality for myocardial infarction patients. Our work underscores the importance of integrating ML with operations knowledge to enhance distributional forecasts.
翻訳日:2024-08-05 15:40:20 公開日:2024-08-01
# カナダにおける新参者の社会的・倫理的リスク

Social and Ethical Risks Posed by General-Purpose LLMs for Settling Newcomers in Canada ( http://arxiv.org/abs/2407.20240v2 )

ライセンス: Link先を確認
Isar Nejadgholi, Maryam Molamohammadi, Samir Bakhtawar, (参考訳) カナダの非営利の決済部門は、新参者が統合を成功させるために支援している。 このセクターは、移民ターゲットの増加中の運用上のプレッシャーの増大に直面しており、信頼性の高いAIソリューションを通じて、効率性とイノベーションの強化の必要性を強調している。 ChatGPTのような汎用ジェネレーティブAIのアドホックな使用は、このニーズに対処するための新参者やサービス提供者の間で一般的な実践になるかもしれない。 しかし、これらの道具は入植地に適したものではなく、移民や難民に有害な影響を及ぼす可能性がある。 われわれは、これらのツールが初心者に悪影響を及ぼすリスクを探求し、生成AIの非防衛的使用に対して警告し、そして第二に、AIリテラシープログラムの作成におけるさらなる研究と開発を奨励し、影響したコミュニティの好みに合わせたカスタマイズされたLLMも検討する。 重要なことは、そのような技術は、決済部門の既存のワークフローにシームレスに統合し、人間の監視、信頼性、説明責任を保証するよう設計されるべきである。

The non-profit settlement sector in Canada supports newcomers in achieving successful integration. This sector faces increasing operational pressures amidst rising immigration targets, which highlights a need for enhanced efficiency and innovation, potentially through reliable AI solutions. The ad-hoc use of general-purpose generative AI, such as ChatGPT, might become a common practice among newcomers and service providers to address this need. However, these tools are not tailored for the settlement domain and can have detrimental implications for immigrants and refugees. We explore the risks that these tools might pose on newcomers to first, warn against the unguarded use of generative AI, and second, to incentivize further research and development in creating AI literacy programs as well as customized LLMs that are aligned with the preferences of the impacted communities. Crucially, such technologies should be designed to integrate seamlessly into the existing workflow of the settlement sector, ensuring human oversight, trustworthiness, and accountability.
翻訳日:2024-08-05 15:40:20 公開日:2024-08-01
# 多目的深層学習による適応交通信号の安全性と効率向上

Adaptive traffic signal safety and efficiency improvement by multi objective deep reinforcement learning approach ( http://arxiv.org/abs/2408.00814v1 )

ライセンス: Link先を確認
Shahin Mirbakhsh, Mahdi Azizi, (参考訳) 本研究では,多目的深部強化学習(DRL)技術を活用した適応交通信号制御(ATSC)の革新的手法を提案する。 提案手法は, 安全, 効率, 脱炭目標に対処しながら, 交差点における制御戦略を強化することを目的としている。 従来のATSC手法は、通常、交通効率を優先し、しばしばリアルタイムの動的交通条件に適応するのに苦労する。 これらの課題に対処するために、Dueling Double Deep Q Network(D3QN)フレームワークを組み込んだDRLベースのATSCアルゴリズムを提案する。 このアルゴリズムの性能は、中国の長社におけるシミュレーション交点を用いて評価する。 特に、提案したATSCアルゴリズムは、トラフィック競合の16%以上、二酸化炭素排出量の4%以上を達成し、効率最適化に重点を置く従来のATSCアルゴリズムとATSCアルゴリズムを上回っている。 交通効率に関しては、従来のATSCと比較して待ち時間は18%削減されるが、D3QNフレームワークを統合するDRLベースのATSCアルゴリズムに比べてわずかに増加(0.64%)している。 この限界的な増加は、効率と安全性や脱炭といった他の目的とのトレードオフを示唆している。 さらに,提案手法は,特に交通負荷の高いシナリオにおいて,3つの目的のすべてに対して優れた性能を示す。 これらの知見は,現実の交通状況における信号制御戦略を最適化するための実用的で効果的なソリューションを提供することによって,交通制御システムの進歩に寄与する。

This research introduces an innovative method for adaptive traffic signal control (ATSC) through the utilization of multi-objective deep reinforcement learning (DRL) techniques. The proposed approach aims to enhance control strategies at intersections while simultaneously addressing safety, efficiency, and decarbonization objectives. Traditional ATSC methods typically prioritize traffic efficiency and often struggle to adapt to real-time dynamic traffic conditions. To address these challenges, the study suggests a DRL-based ATSC algorithm that incorporates the Dueling Double Deep Q Network (D3QN) framework. The performance of this algorithm is assessed using a simulated intersection in Changsha, China. Notably, the proposed ATSC algorithm surpasses both traditional ATSC and ATSC algorithms focused solely on efficiency optimization by achieving over a 16% reduction in traffic conflicts and a 4% decrease in carbon emissions. Regarding traffic efficiency, waiting time is reduced by 18% compared to traditional ATSC, albeit showing a slight increase (0.64%) compared to the DRL-based ATSC algorithm integrating the D3QN framework. This marginal increase suggests a trade-off between efficiency and other objectives like safety and decarbonization. Additionally, the proposed approach demonstrates superior performance, particularly in scenarios with high traffic demand, across all three objectives. These findings contribute to advancing traffic control systems by offering a practical and effective solution for optimizing signal control strategies in real-world traffic situations.
翻訳日:2024-08-05 15:40:20 公開日:2024-08-01
# Y Social: LLM搭載のソーシャルメディアデジタルツイン

Y Social: an LLM-powered Social Media Digital Twin ( http://arxiv.org/abs/2408.00818v1 )

ライセンス: Link先を確認
Giulio Rossetti, Massimo Stella, Rémy Cazabet, Katherine Abramski, Erica Cau, Salvatore Citraro, Andrea Failla, Riccardo Improta, Virginia Morini, Valentina Pansanella, (参考訳) 本稿では,オンラインソーシャルメディアプラットフォームを再現する次世代デジタルツインYを紹介する。 デジタルツイン(Digital twins)は、高度な分析と実験を可能にする物理システムの仮想レプリカである。 ソーシャルメディアの場合、Yのようなデジタル双生児は、研究者が複雑なオンラインインタラクションをシミュレートし理解するための強力なツールを提供する。 {\tt Y} は最先端の大規模言語モデル(LLM)を活用し、洗練されたエージェントの動作を再現し、ユーザインタラクション、コンテンツ拡散、ネットワークダイナミクスの正確なシミュレーションを可能にする。 これらの側面を統合することで、Yはユーザエンゲージメント、情報拡散、プラットフォームポリシーの影響に関する貴重な洞察を提供する。 さらに、LLMの統合により、Yはニュアンス付きテキストコンテンツを生成し、ユーザの反応を予測することができ、オンライン環境における創発的現象の研究を容易にする。 提案するディジタルツインをより正確に特徴付けるため,本論文では,その実装の背景にある理論的根拠を説明し,生成可能なデータ上で実行可能な分析の例を示し,多分野研究におけるその関連性について論じる。

In this paper we introduce Y, a new-generation digital twin designed to replicate an online social media platform. Digital twins are virtual replicas of physical systems that allow for advanced analyses and experimentation. In the case of social media, a digital twin such as Y provides a powerful tool for researchers to simulate and understand complex online interactions. {\tt Y} leverages state-of-the-art Large Language Models (LLMs) to replicate sophisticated agent behaviors, enabling accurate simulations of user interactions, content dissemination, and network dynamics. By integrating these aspects, Y offers valuable insights into user engagement, information spread, and the impact of platform policies. Moreover, the integration of LLMs allows Y to generate nuanced textual content and predict user responses, facilitating the study of emergent phenomena in online environments. To better characterize the proposed digital twin, in this paper we describe the rationale behind its implementation, provide examples of the analyses that can be performed on the data it enables to be generated, and discuss its relevance for multidisciplinary research.
翻訳日:2024-08-05 15:40:20 公開日:2024-08-01
# 米国における先進運転支援システムの浸透率推定手法

Methods to Estimate Advanced Driver Assistance System Penetration Rates in the United States ( http://arxiv.org/abs/2408.00819v1 )

ライセンス: Link先を確認
Noah Goodall, (参考訳) 高度な運転支援システム(ADAS)は、車両群でますます普及し、安全性と能力に大きな影響を与えている。 ADASは車両登録データベースに登録されていないため、交通機関はこれらの効果を計画するのに苦労している。 本稿では,米国におけるレベル1および2ADAS技術を利用する車両の割合を推定するために,既存の公報やデータベースを活用する手法について検討する。 2022年には、車両の8%から25%が様々なADAS機能を備えていたが、実際の使用率は運転者の不活性化により低下していた。 本研究は,事故データの解析,イベントデータレコーダ機能の拡張,自然主義的な運転研究の実施,メーカーとの協力による設置率の決定など,予測を強化する戦略を提案する。

Advanced driver assistance systems (ADAS) are increasingly prevalent in the vehicle fleet, significantly impacting safety and capacity. Transportation agencies struggle to plan for these effects as ADAS availability is not tracked in vehicle registration databases. This paper examines methods to leverage existing public reports and databases to estimate the proportion of vehicles equipped with or utilizing Levels 1 and 2 ADAS technologies in the United States. Findings indicate that in 2022, between 8% and 25% of vehicles were equipped with various ADAS features, though actual usage rates were lower due to driver deactivation. The study proposes strategies to enhance estimates, including analyzing crash data, expanding event data recorder capabilities, conducting naturalistic driving studies, and collaborating with manufacturers to determine installation rates.
翻訳日:2024-08-05 15:40:20 公開日:2024-08-01
# AIのためのFDA : 最前線人工知能の承認規制の落とし穴と可能性

An FDA for AI? Pitfalls and Plausibility of Approval Regulation for Frontier Artificial Intelligence ( http://arxiv.org/abs/2408.00821v1 )

ライセンス: Link先を確認
Daniel Carpenter, Carson Ezell, (参考訳) 人工知能(AI)のオブザーバと実践者は、最も先進的なAIモデルのFDAスタイルのライセンス制度を提案した。 本稿では、フロンティアAIの規制に対する承認規制、すなわち、実験ミニマと、その実験を部分的に又は完全に条件付けした政府のライセンスとを組み合わせた製品の適用性について検討する。 承認規制が単に適用されたとしても、フロンティアAIのリスクには不適当であると考える理由はいくつかある。 弱い適合のドメインには、規制された製品を定義することの難しさ、AIの害に対するナイト的不確実性や深い曖昧さの存在、潜在的に伝達可能なリスクの性質、AIライフサイクルに関わるアクター間の分散アクティビティが含まれる。 我々は、規制開発における政策学習と実験の役割を強調し、AI規制の他の形態からの学習と評価と試験方法の改善が、我々が特定した課題のいくつかを克服するのにどう役立つかを説明した。

Observers and practitioners of artificial intelligence (AI) have proposed an FDA-style licensing regime for the most advanced AI models, or 'frontier' models. In this paper, we explore the applicability of approval regulation -- that is, regulation of a product that combines experimental minima with government licensure conditioned partially or fully upon that experimentation -- to the regulation of frontier AI. There are a number of reasons to believe that approval regulation, simplistically applied, would be inapposite for frontier AI risks. Domains of weak fit include the difficulty of defining the regulated product, the presence of Knightian uncertainty or deep ambiguity about harms from AI, the potentially transmissible nature of risks, and distributed activities among actors involved in the AI lifecycle. We conclude by highlighting the role of policy learning and experimentation in regulatory development, describing how learning from other forms of AI regulation and improvements in evaluation and testing methods can help to overcome some of the challenges we identify.
翻訳日:2024-08-05 15:40:20 公開日:2024-08-01
# 多体局在系の位相位相:固有状態次数を超えて

Topological Phases of Many-Body Localized Systems: Beyond Eigenstate Order ( http://arxiv.org/abs/2408.00825v1 )

ライセンス: Link先を確認
David M. Long, Dominic V. Else, (参考訳) 多体局在(MBL)は物質の非平衡相に顕著な堅牢性を与える。 このような位相は、その基底状態と励起状態における位相的および対称性の破れ秩序を示すことができるが、それらはまた、有界局所化位相(ALT相)に属する。 ALT 相のすべての固有状態は、積状態に変形できるという点で自明であるが、ハミルトニアン全体は非局在化遷移を経ることなく自明な局所化モデルに変形することはできない。 量子セルオートマトン (QCA) と呼ばれる短距離エンタングルメントを持つMBL相と局所性保存ユニタリの対応を利用して、ALT相の分類をQCAに還元する。 この手法は周期的に(Floquet)と準周期的に駆動されるALT位相に拡張し、静的位相と同じフレームワーク内で異常なFloquet位相をキャプチャする。 QCAフレームワークはさらに対称性に富んだALT相(SALT相)を包含するように一般化し、量子シミュレータにおける実現に適した可溶性モデルの大規模なクラスを提供する。 ALT相の研究の体系化において、相互作用する非平衡系の分類を大幅に拡張し、非自明なハミルトン群と非自明な基底状態とを暗黙的に同一視する文献の混乱を明らかにする。

Many-body localization (MBL) lends remarkable robustness to nonequilibrium phases of matter. Such phases can show topological and symmetry breaking order in their ground and excited states, but they may also belong to an fanomalous localized topological phase (ALT phase). All eigenstates in an ALT phase are trivial, in that they can be deformed to product states, but the entire Hamiltonian cannot be deformed to a trivial localized model without going through a delocalization transition. Using a correspondence between MBL phases with short-ranged entanglement and locality preserving unitaries -- called quantum cellular automata (QCA) -- we reduce the classification of ALT phases to that of QCA. This method extends to periodically (Floquet) and quasiperiodically driven ALT phases, and captures anomalous Floquet phases within the same framework as static phases. The QCA framework further generalizes to include symmetry-enriched ALT phases (SALT phases), and provides a large class of soluble models suitable for realization in quantum simulators. In systematizing the study of ALT phases, we both greatly extend the classification of interacting nonequilibrium systems and clarify a confusion in the literature which implicitly equates nontrivial Hamiltonians with nontrivial ground states.
翻訳日:2024-08-05 15:40:20 公開日:2024-08-01
# クリャロフの精製複雑性

Krylov complexity of purification ( http://arxiv.org/abs/2408.00826v1 )

ライセンス: Link先を確認
Rathindra Nath Das, Takato Mori, (参考訳) 精製は混合状態を純状態に、非単体進化をヒルベルト空間を拡大してユニタリ状態に写す。 我々は, 密度行列の演算子複雑性と精製状態の状態/演算子複雑性を, 時間非依存, 時間依存, 即時浄化という3つの浄化スキームを用いて関連付ける。 混合状態の作用素と状態の複素量とその精製について不等式を提案し, 単一量子ビット, 2量子ヴェルナー状態, 無限次元対角混合状態を用いて実証した。 熱状態に進化する真空の複雑さは、リンドラー粒子の平均個数に等しいことがわかった。 最後に、熱場二重状態が0から有限の温度に進化するのに対して、我々はそのことを示している。 1) 状態複雑性はロイド境界に従い、そして 2) クリロフ状態/演算複雑性はホログラフィック体積複雑性とは対照的に部分加法的である。

Purification maps a mixed state to a pure state and a non-unitary evolution into a unitary one by enlarging the Hilbert space. We link the operator complexity of the density matrix to the state/operator complexity of purified states using three purification schemes: time-independent, time-dependent, and instantaneous purification. We propose inequalities among the operator and state complexities of mixed states and their purifications, demonstrated with a single qubit, two-qubit Werner states, and infinite-dimensional diagonal mixed states. We find that the complexity of a vacuum evolving into a thermal state equals the average number of Rindler particles created between left and right Rindler wedges. Finally, for the thermofield double state evolving from zero to finite temperature, we show that 1) the state complexity follows the Lloyd bound, and 2) the Krylov state/operator complexities are subadditive in contrast to the holographic volume complexity.
翻訳日:2024-08-05 15:40:20 公開日:2024-08-01
# 置換基依存相互作用からの例外ルッティンガー液体

Exceptional Luttinger Liquids from sublattice dependent interaction ( http://arxiv.org/abs/2408.00828v1 )

ライセンス: Link先を確認
J. Schwardt, B. Michen, C. Lehmann, J. C. Budich, (参考訳) サブラチテン依存電子-電子相互作用を持つ顕微鏡格子モデルの低エネルギー励起を記述したルッティンガー液体(LL)理論において、例外点(EP)が自然に生じることを示す。 ボゾン化の際、この部分格子は直接、単一粒子グリーン関数(GF)の非エルミート行列構造に寄与する非標準シネ-ゴルドン型項に変換される。 励起の寿命における構造は、基礎となる自由ブロッホ・ハミルトニアンと通勤しないので、エルミート模型ハミルトニアンにもかかわらず、単粒子GFの非エルミート位相的性質が出現する。 有限温度と非自明なルッティンガーパラメータ$K\neq 1$はEPの形成に必要であり、その空間次元における位相安定性はモデルのカイラル対称性によって保証される。 上述のsine-Gordon-termの存在下では、単粒子GFを計算するための先行摂動理論(PT)を利用する。 LL理論で導かれる全ての定性的な結果は、保存する第2ボルン近似の数値シミュレーションと、フェルミオン平板PTによる弱い相互作用と高温の双方で相関する。 あるパラメータ規則では、有効ボゾン化モデルにおける適切なパラメータ選択によって量的一致に到達することができる。

We demonstrate how Exceptional Points (EPs) naturally occur in the Luttinger Liquid (LL) theory describing the low-energy excitations of a microscopic lattice model with sublattice dependent electron-electron interaction. Upon bosonization, this sublattice dependence directly translates to a non-standard sine-Gordon-type term responsible for the non-Hermitian matrix structure of the single-particle Green Function (GF). As the structure in the lifetime of excitations does not commute with the underlying free Bloch Hamiltonian, non-Hermitian topological properties of the single-particle GF emerge -- despite our Hermitian model Hamiltonian. Both finite temperature and a non-trivial Luttinger parameter $K\neq 1$ are required for the formation of EPs, and their topological stability in one spatial dimension is guaranteed by the chiral symmetry of our model. In the presence of the aforementioned sine-Gordon-term, we resort to leading order Perturbation Theory (PT) to compute the single-particle GF. All qualitative findings derived within LL theory are corroborated by comparison to both numerical simulations within the conserving second Born approximation, and, for weak interactions and high temperatures, by fermionic plain PT. In certain parameter regimes, quantitative agreement can be reached by a suitable parameter choice in the effective bosonized model.
翻訳日:2024-08-05 15:16:52 公開日:2024-08-01
# 消去量子ビットを用いた量子誤り訂正プロトコルの最適化

Optimizing quantum error correction protocols with erasure qubits ( http://arxiv.org/abs/2408.00829v1 )

ライセンス: Link先を確認
Shouzhen Gu, Yotam Vaknin, Alex Retzker, Aleksander Kubica, (参考訳) 消去量子ビットは量子エラー訂正(QEC)プロトコルのオーバーヘッドを減らすための有望な道を提供する。 しかし、消去チェックのような追加の操作が必要であるため、ノイズが増し、QECプロトコルのランタイムが増加する可能性がある。 量子ビットの消去によって得られる利点を評価するため,量子メモリとしての表面コードの性能に着目した。 特に, 種々の消去チェックスケジュールを分析し, 誤差パラメータの位相空間における補正可能な領域を見つけ, 論理誤差率のサブスレッショルドスケーリングを探索する。 次に、超伝導ハードウェアアーキテクチャにおける消去量子ビットをデュアルレール量子ビットで実現することを検討する。 性能ベンチマークとして、サーフェスコードの標準的なトランスモンベースの実装を使用します。 以上の結果から, 消去キュービットを用いたQECプロトコルは, 消去誤差の正確な情報がない場合でも, 最先端のトランスモンよりも優れていることが示唆された。

Erasure qubits offer a promising avenue toward reducing the overhead of quantum error correction (QEC) protocols. However, they require additional operations, such as erasure checks, that may add extra noise and increase runtime of QEC protocols. To assess the benefits provided by erasure qubits, we focus on the performance of the surface code as a quantum memory. In particular, we analyze various erasure check schedules, find the correctable regions in the phase space of error parameters and probe the subthreshold scaling of the logical error rate. We then consider a realization of erasure qubits in the superconducting hardware architectures via dual-rail qubits. We use the standard transmon-based implementation of the surface code as the performance benchmark. Our results indicate that QEC protocols with erasure qubits can outperform the ones with state-of-the-art transmons, even in the absence of precise information about the locations of erasure errors.
翻訳日:2024-08-05 15:16:52 公開日:2024-08-01
# 局在の絡み合いコストに基づくジョイント量子計測の分類

Classification of joint quantum measurements based on entanglement cost of localization ( http://arxiv.org/abs/2408.00831v1 )

ライセンス: Link先を確認
Jef Pauwels, Alejandro Pozas-Kerstjens, Flavio Del Santo, Nicolas Gisin, (参考訳) 量子論において重要であるにも拘わらず、共同量子測定はいまだに理解されていない。 興味深い概念的および実践的な疑問は、分離されたシステム上のジョイント量子測定を、それらをまとめることなく行うことができるかどうかである。 注目すべきは、共有エンタングルメントを使用することで、後測定状態を無視する場合に、これを完璧に達成することができることである。 しかし、既存のローカライゼーションプロトコルは通常、非有界な絡み合いを必要とする。 本研究では,「有限個の絡み合いで関節測定を局所化できるのか?」という根本的な疑問に対処する。 我々は、テレポーテーションに基づくスキームの有限リソースバージョンを開発し、これらの階層の最初のステップでローカライズできる2ビットの測定を解析的に分類する。 これらには、ベル状態測定やエレガントな関節測定など、例外的な性質と対称性を持ついくつかの測定が含まれている。 そこで我々は, 絡み合いコストに基づく関節計測の体系的な分類を提案する。 数値的に高次元を探索し、高次元および多部構成への一般化を構築する方法について述べる。

Despite their importance in quantum theory, joint quantum measurements remain poorly understood. An intriguing conceptual and practical question is whether joint quantum measurements on separated systems can be performed without bringing them together. Remarkably, by using shared entanglement, this can be achieved perfectly when disregarding the post-measurement state. However, existing localization protocols typically require unbounded entanglement. In this work, we address the fundamental question: "Which joint measurements can be localized with a finite amount of entanglement?" We develop finite-resource versions of teleportation-based schemes and analytically classify all two-qubit measurements that can be localized in the first steps of these hierarchies. These include several measurements with exceptional properties and symmetries, such as the Bell state measurement and the elegant joint measurement. This leads us to propose a systematic classification of joint measurements based on entanglement cost, which we argue directly connects to the complexity of implementing those measurements. We illustrate how to numerically explore higher levels and construct generalizations to higher dimensions and multipartite settings.
翻訳日:2024-08-05 15:16:52 公開日:2024-08-01
# ハバードモデルの変分量子固有解法シミュレーションのための古典的ベンチマーク

Classical Benchmarks for Variational Quantum Eigensolver Simulations of the Hubbard Model ( http://arxiv.org/abs/2408.00836v1 )

ライセンス: Link先を確認
Antonios M. Alvertis, Abid Khan, Thomas Iadecola, Peter P. Orth, Norm Tubman, (参考訳) ハバードモデルをシミュレートすることは、凝縮物質物理学における幅広い応用に非常に興味があるが、古典的なコンピュータにおける解は1より大きい次元で難しいままである。 このモデルの相対的単純さは、ハミルトン行列のスパース性によって具現化され、量子コンピュータへの効率的な実装と、変分量子固有解法のような変分アルゴリズムを用いた近似解を可能にする。 これらのアルゴリズムは、ハバードモデルの定性的特徴を再現することが示されているが、真の基底状態エネルギーやその他の特性の量的精度、およびこの精度がシステムサイズと相互作用強度、変分アンザッツの選択、モデルにおける空間的不均一性の程度に依存していることは、いまだ不明である。 本稿では、量子ハードウェア上でのHubbardモデルの変動解の精度に対するこれらの因子の潜在的影響を示す厳密な古典的ベンチマーク研究を示す。 ハバードモデルにおいて最も正確な波動関数 ans\{a}tze を用いても、その基底状態エネルギーと大きな格子に対する波動関数プラトーの誤差は大きいが、強い電子相関はこの問題を増大させる。 同時に、空間的に不均一なパラメータとオフサイトクーロン相互作用の存在は、計算された基底状態エネルギーの精度に小さな影響しか与えない。 本研究は,量子ハードウェア上でのHubbardモデルを解くための現在のアプローチの能力と限界を強調し,今後の研究の道筋について論じる。

Simulating the Hubbard model is of great interest to a wide range of applications within condensed matter physics, however its solution on classical computers remains challenging in dimensions larger than one. The relative simplicity of this model, embodied by the sparseness of the Hamiltonian matrix, allows for its efficient implementation on quantum computers, and for its approximate solution using variational algorithms such as the variational quantum eigensolver. While these algorithms have been shown to reproduce the qualitative features of the Hubbard model, their quantitative accuracy in terms of producing true ground state energies and other properties, and the dependence of this accuracy on the system size and interaction strength, the choice of variational ansatz, and the degree of spatial inhomogeneity in the model, remains unknown. Here we present a rigorous classical benchmarking study, demonstrating the potential impact of these factors on the accuracy of the variational solution of the Hubbard model on quantum hardware. We find that even when using the most accurate wavefunction ans\"{a}tze for the Hubbard model, the error in its ground state energy and wavefunction plateaus for larger lattices, while stronger electronic correlations magnify this issue. Concurrently, spatially inhomogeneous parameters and the presence of off-site Coulomb interactions only have a small effect on the accuracy of the computed ground state energies. Our study highlights the capabilities and limitations of current approaches for solving the Hubbard model on quantum hardware, and we discuss potential future avenues of research.
翻訳日:2024-08-05 15:16:52 公開日:2024-08-01
# ベイズ増幅のためのベイズ生成機械学習の校正

Calibrating Bayesian Generative Machine Learning for Bayesiamplification ( http://arxiv.org/abs/2408.00838v1 )

ライセンス: Link先を確認
Sebastian Bieringer, Sascha Diefenbacher, Gregor Kasieczka, Mathias Trabs, (参考訳) 近年、高速検出器シミュレーションと推論タスクの両方のために、素粒子物理学において生成機械学習とベイズ機械学習の組み合わせが導入されている。 これらのニューラルネットワークは、限られたトレーニング統計から生じる、生成された分布の不確実性を定量化することを目的としている。 しかし、分布全体の不確実性の解釈は未定義のままである。 ベイズ生成機械学習モデルのキャリブレーションを定量化するための明確なスキームを示す。 低次元のおもちゃの例に適用した連続正規化流れについて、平均体ガウス量後端またはモンテカルロサンプリングネットワークウェイトからベイズの不確かさの校正を評価し、その挙動を非定常分布エッジ上で測定する。 適切に校正された不確実性は、生成したサンプルと同等の非相関真理サンプルの数を大まかに推定し、分布の滑らかな特徴に対するデータ増幅を示すために用いられる。

Recently, combinations of generative and Bayesian machine learning have been introduced in particle physics for both fast detector simulation and inference tasks. These neural networks aim to quantify the uncertainty on the generated distribution originating from limited training statistics. The interpretation of a distribution-wide uncertainty however remains ill-defined. We show a clear scheme for quantifying the calibration of Bayesian generative machine learning models. For a Continuous Normalizing Flow applied to a low-dimensional toy example, we evaluate the calibration of Bayesian uncertainties from either a mean-field Gaussian weight posterior, or Monte Carlo sampling network weights, to gauge their behaviour on unsteady distribution edges. Well calibrated uncertainties can then be used to roughly estimate the number of uncorrelated truth samples that are equivalent to the generated sample and clearly indicate data amplification for smooth features of the distribution.
翻訳日:2024-08-05 15:16:52 公開日:2024-08-01
# 不完全消去チェック付き表面コード

Surface Code with Imperfect Erasure Checks ( http://arxiv.org/abs/2408.00842v1 )

ライセンス: Link先を確認
Kathleen Chang, Shraddha Singh, Jahan Claes, Kaavya Sahay, James Teoh, Shruti Puri, (参考訳) 近年,個体群を検知し,キュービット部分空間に戻すことのできる漏洩状態に支配的な物理ノイズが励起する消去量子ビットの設計に多くの努力が注がれている。 これらの消去量子ビットの関心は、全てのゲート操作におけるノイズが消去によって支配されるとき、フォールトトレラントな量子誤差補正の要求が著しく緩和されることを示す研究によってもたらされている。 しかし、これらの研究は、一般的に望ましくない時間とハードウェアオーバーヘッドのコストが伴うゲート操作毎に、完全に正確な消去チェックを仮定する。 本研究では,表面コードによるフォールトトレラントな量子誤り訂正に対して,不完全だがオーバヘッド効率の高い消去チェックを用いた結果について検討する。 不完全消去チェックの物理的に妥当な仮定の下では、しきい値誤差率はパウリノイズの少なくとも2倍以上である。 また, 有効誤差距離に対する不完全消去チェックの影響について検討し, リークしたクォービットと相互作用する場合に, クォービットが非偏極雑音に悩まされるような一般的な誤差モデルの下で, 有効距離を劣化させることを示した。 次に、リークされた量子ビットと相互作用する量子ビットに対して、より制限的かつ現実的なノイズモデルを特定し、その下で、有効誤差距離はパウリ雑音の2倍である。 最近提案した超伝導二重レール消去量子ビットに本解析を適用し,システム要件を緩和した高性能表面符号量子メモリの実現が可能であることを示す。

Recently, a lot of effort has been devoted towards designing erasure qubits in which dominant physical noise excites leakage states whose population can be detected and returned to the qubit subspace. Interest in these erasure qubits has been driven by studies showing that the requirements for fault-tolerant quantum error correction are significantly relaxed when noise in every gate operation is dominated by erasures. However, these studies assume perfectly accurate erasure checks after every gate operation which generally come with undesirable time and hardware overhead costs. In this work, we investigate the consequences of using an imperfect but overhead-efficient erasure check for fault-tolerant quantum error correction with the surface code. We show that, under physically reasonable assumptions on the imperfect erasure checks, the threshold error rate is still at least over twice that for Pauli noise. We also study the impact of imperfect erasure checks on the effective error distance and find that it degrades the effective distance under a general error model in which a qubit suffers from depolarizing noise when interacting with a leaked qubit. We then identify a more restrictive but realistic noise model for a qubit that interacts with a leaked qubit, under which the effective error distance is twice that for Pauli noise. We apply our analysis to recently proposed superconducting dual-rail erasure qubits and show that achieving good performance surface code quantum memories with relaxed system requirements is possible.
翻訳日:2024-08-05 15:16:52 公開日:2024-08-01
# コヒーレントな役割重畳による絡み合いの浄化

Improving entanglement purification through coherent superposition of roles ( http://arxiv.org/abs/2408.00844v1 )

ライセンス: Link先を確認
Jorge Miguel-Ramiro, Alexander Pirker, Wolfgang Dür, (参考訳) 量子通信技術の潜在能力を最大限活用するためには、絡み合いの浄化と蒸留プロトコルが不可欠である。 このようなプロトコルにアプローチし最適化するための複数の戦略が提案されているが、そのほとんどはクリフォード演算に限られている。 本稿では, 絡み合い状態の役割のコヒーレントな重ね合わせを利用して, 浄化効率を向上させる, 新規な絡み合い浄化設計戦略を提案する。 我々は、このアプローチを既存の絡み合い浄化戦略と階層的に統合し、プロトコル性能を継続的に改善する方法を実証する。

Entanglement purification and distillation protocols are essential for harnessing the full potential of quantum communication technologies. Multiple strategies have been proposed to approach and optimize such protocols, most however restricted to Clifford operations. In this paper, we introduce a novel superposed entanglement purification design strategy, leveraging coherent superpositions of the roles of entangled states to enhance purification efficiency. We demonstrate how this approach can be hierarchically integrated with existing entanglement purification strategies, consistently improving protocols performance.
翻訳日:2024-08-05 15:16:52 公開日:2024-08-01
# 数学生物学における擬似スペクトルの新しい利用:HPA軸感度の理解

A Novel Use of Pseudospectra in Mathematical Biology: Understanding HPA Axis Sensitivity ( http://arxiv.org/abs/2408.00845v1 )

ライセンス: Link先を確認
Catherine Drysdale, Matthew J. Colbrook, (参考訳) 視床下部-Pituitary-Adrenal(HPA)軸は主要な神経内分泌系であり、その解離は様々な疾患に関係している。 このシステムは、モデリングにおける興味深い数学的課題も提示する。 我々は非線形遅延微分方程式モデルを検討し、3つの異なる線形化の擬似スペクトルを計算する:時依存ジャコビアン、極限周期の線形化、クープマン作用素の動的モード分解(DMD)解析(グローバル線形化)。 ジャコビアンは、なぜラットがコルチコステロン分泌の上昇と下降の傾斜の間、摂動に異なる反応をするのかを説明する実験的な現象に関する洞察を提供した。 我々は、バナッハ空間上の擬似スペクトルを計算し、DMDをそれぞれ遅延微分方程式に適用するために、他の2つの線形化のための新しい数学的手法を開発した。 これらの手法は局所的および大域的極限サイクルの安定性を確立し、過渡性を研究するのに役立った。 さらに、擬似スペクトルを用いて、実験的な文脈でモデルを同定し、データ駆動方式による生物多様性を確立することについて議論する。 この研究は、初めて擬似スペクトルを用いてHPA軸を探索した。

The Hypothalamic-Pituitary-Adrenal (HPA) axis is a major neuroendocrine system, and its dysregulation is implicated in various diseases. This system also presents interesting mathematical challenges for modeling. We consider a nonlinear delay differential equation model and calculate pseudospectra of three different linearizations: a time-dependent Jacobian, linearization around the limit cycle, and dynamic mode decomposition (DMD) analysis of Koopman operators (global linearization). The time-dependent Jacobian provided insight into experimental phenomena, explaining why rats respond differently to perturbations during corticosterone secretion's upward versus downward slopes. We developed new mathematical techniques for the other two linearizations to calculate pseudospectra on Banach spaces and apply DMD to delay differential equations, respectively. These methods helped establish local and global limit cycle stability and study transients. Additionally, we discuss using pseudospectra to substantiate the model in experimental contexts and establish bio-variability via data-driven methods. This work is the first to utilize pseudospectra to explore the HPA axis.
翻訳日:2024-08-05 15:16:52 公開日:2024-08-01
# 変化点検出のためのディープラーニングアプローチ:ペナルティパラメータ最適化

Deep Learning Approach for Changepoint Detection: Penalty Parameter Optimization ( http://arxiv.org/abs/2408.00856v1 )

ライセンス: Link先を確認
Tung L Nguyen, Toby Dylan Hocking, (参考訳) データシーケンス内の重要なシフトを特定する技術である変更点検出は、財務、ゲノム学、医学など、さまざまな分野において不可欠である。 動的プログラミングによる変更点検出アルゴリズムは、変更点数を制御するためにペナルティパラメータに依存するシーケンス内の変更点の位置を特定するために使用される。 このペナルティパラメータを推定するために、以前の研究は線形モデルや決定木のような単純なモデルを用いていた。 本研究では,ペナルティパラメータの予測のための新しい深層学習手法を提案する。これにより,従来の手法と比較して,大規模なベンチマーク教師付きラベル付きデータセットにおいて,変更点検出精度が著しく向上した。

Changepoint detection, a technique for identifying significant shifts within data sequences, is crucial in various fields such as finance, genomics, medicine, etc. Dynamic programming changepoint detection algorithms are employed to identify the locations of changepoints within a sequence, which rely on a penalty parameter to regulate the number of changepoints. To estimate this penalty parameter, previous work uses simple models such as linear models or decision trees. This study introduces a novel deep learning method for predicting penalty parameters, leading to demonstrably improved changepoint detection accuracy on large benchmark supervised labeled datasets compared to previous methods.
翻訳日:2024-08-05 15:16:52 公開日:2024-08-01
# 長距離量子多体状態に対するペッツ写像の復元

Petz map recovery for long-range entangled quantum many-body states ( http://arxiv.org/abs/2408.00857v1 )

ライセンス: Link先を確認
Yangrui Hu, Yijian Zou, (参考訳) A,B,C$上の三部分量子状態と$C$上の消去チャネルが与えられたとき、回転されたペッツマップは、消去された量子情報を回復するために$B$に作用する回復チャネルである。 最良の回復の不完全性は条件付き相互情報(CMI)によって上界される。 本研究では、いくつかの物理的に関連のある長距離量子状態におけるペッツ写像の不完全性について研究する。 具体的には、量子相の3つのクラスについて研究する。 一 測定誘起相転移の定常状態 (二)局地的測定による臨界地盤状態、及び 三 局地的な測定によるキラル状態 平均ペッツ写像の不完全性は、3つのクラスを著しく区別する。 (i)および (ii)CMIとの不整合のスケーリングと区別される 三) 回転パラメータの不忠実性の非対称性を特徴とする。 また, トポロジ的順序に対するペッツ写像の復元について検討し, トポロジ的絡み合いエントロピーの操作的解釈を求める。 この結果は、ペッツ写像の忠実度が物質の量子位相の有用な診断であることを示している。

Given a tripartite quantum state on $A,B,C$ and the erasure channel on $C$, the rotated Petz map is a recovery channel that acts on $B$ to recover the erased quantum information. The infidelity of the best recovery is upper-bounded by the conditional mutual information (CMI). In this work, we study the infidelity of the rotated Petz map on several physically-relevant long-range entangled quantum states. Specifically, we study three classes of quantum phases: (i) steady states of measurement-induced phase transitions, (ii) critical ground state under local measurements, and (iii) chiral states under local measurements. We find that the average Petz map infidelity sharply distinguishes the three classes: (i) and (ii) are distinguished by the scaling of the infidelity with CMI and (iii) is characterized by an asymmetry of the infidelity with the rotation parameter. We also study Petz map recovery for topological order and find an operational interpretation of the topological entanglement entropy. Our result indicates that the Petz map fidelity is a useful diagnostic of quantum phases of matter.
翻訳日:2024-08-05 15:16:52 公開日:2024-08-01
# licM:ニュースレコメンデーションのための効率的かつ効率的な長鎖モデリング

LICM: Effective and Efficient Long Interest Chain Modeling for News Recommendation ( http://arxiv.org/abs/2408.00859v1 )

ライセンス: Link先を確認
Zhen Yang, Wenhui Wang, Tao Qi, Peng Zhang, Tianyun Zhang, Ru Zhang, Jianyi Liu, Yongfeng Huang, (参考訳) パーソナライズされた候補のニュース記事をユーザーに正確に推薦することは、常にニュースレコメンデーションシステムの中核的な課題である。 ニュースレコメンデーションは、候補者のニュースにマッチするために、しばしばユーザーの興味のモデリングを必要とする。 近年,局所的なサブグラフ情報の抽出に重点を置いているが,包括的グローバルニュースグラフ抽出の欠如により,類似ユーザ間での協調的なグローバルニュース情報の活用が妨げられている。 これらの制約を克服するために,近隣の関心とグローバルなニュースクリックグラフから抽出した長鎖興味とを組み合わせ,ニュースレコメンデーションを強化するための,効果的で効率的な長鎖チェインモデリング(licM)を提案する。 全ユーザのクリック履歴に基づくグローバルニュースグラフでは、その中の高次元情報をより活用し、協調的なレコメンデーションの有効性を高めることができる。 そこで我々は,グローバルグラフから長鎖利得を得るために,包括的選択機構と利子エンコーダを設計する。 最後に、ゲートネットワークを用いて、隣接する情報と長鎖情報を統合し、最終的なユーザ表現を実現する。 実世界のデータセットによる実験結果から,提案モデルの有効性と有効性を検証し,ニュースレコメンデーションの性能を向上させる。

Accurately recommending personalized candidate news articles to users has always been the core challenge of news recommendation system. News recommendations often require modeling of user interests to match candidate news. Recent efforts have primarily focused on extract local subgraph information, the lack of a comprehensive global news graph extraction has hindered the ability to utilize global news information collaboratively among similar users. To overcome these limitations, we propose an effective and efficient Long Interest Chain Modeling for News Recommendation(LICM), which combines neighbor interest with long-chain interest distilled from a global news click graph based on the collaborative of similar users to enhance news recommendation. For a global news graph based on the click history of all users, long chain interest generated from it can better utilize the high-dimensional information within it, enhancing the effectiveness of collaborative recommendations. We therefore design a comprehensive selection mechanism and interest encoder to obtain long-chain interest from the global graph. Finally, we use a gated network to integrate long-chain information with neighbor information to achieve the final user representation. Experiment results on real-world datasets validate the effectiveness and efficiency of our model to improve the performance of news recommendation.
翻訳日:2024-08-05 15:16:52 公開日:2024-08-01
# UltraRe-NeRF:3D Ultrasound Imaging through Neural Rendering with Ultrasound Reflection Direction Parameterization (特集:MEとバイオサイバネティックス)

UlRe-NeRF: 3D Ultrasound Imaging through Neural Rendering with Ultrasound Reflection Direction Parameterization ( http://arxiv.org/abs/2408.00860v1 )

ライセンス: Link先を確認
Ziwen Guo, Zi Fang, Zhuang Fu, (参考訳) 3次元超音波イメージングは、医学的診断に広く用いられている重要な技術である。 しかし、従来の3D超音波イメージング法では、解像度の固定化、ストレージ効率の低下、コンテキスト接続の不十分といった制限があり、複雑なアーティファクトや反射特性の処理性能が劣る。 近年、NeRF(Neural Radiance Fields)に基づく技術は、視線合成と3次元再構成において大きな進歩を遂げているが、高画質超音波画像では依然として研究のギャップが残っている。 これらの問題に対処するために,暗黙のニューラルネットワークと明示的な超音波ボリュームレンダリングを組み合わせたUlRe-NeRFという新しいモデルを提案する。 このモデルは反射方向パラメータ化と高調波符号化を取り入れており、指向性MLPモジュールを用いてビュー依存の高周波数反射強度推定を発生させ、空間的MLPモジュールを用いて媒体の物理的特性パラメータを生成する。 これらのパラメータは、媒体内の超音波の伝搬と反射の挙動を正確に再現するために、ボリュームレンダリングプロセスで使用される。 実験により,UlRe-NeRFモデルは,特に複雑な媒体構造を扱う場合,高忠実度超音波画像再構成の現実性と精度を著しく向上させることが示された。

Three-dimensional ultrasound imaging is a critical technology widely used in medical diagnostics. However, traditional 3D ultrasound imaging methods have limitations such as fixed resolution, low storage efficiency, and insufficient contextual connectivity, leading to poor performance in handling complex artifacts and reflection characteristics. Recently, techniques based on NeRF (Neural Radiance Fields) have made significant progress in view synthesis and 3D reconstruction, but there remains a research gap in high-quality ultrasound imaging. To address these issues, we propose a new model, UlRe-NeRF, which combines implicit neural networks and explicit ultrasound volume rendering into an ultrasound neural rendering architecture. This model incorporates reflection direction parameterization and harmonic encoding, using a directional MLP module to generate view-dependent high-frequency reflection intensity estimates, and a spatial MLP module to produce the medium's physical property parameters. These parameters are used in the volume rendering process to accurately reproduce the propagation and reflection behavior of ultrasound waves in the medium. Experimental results demonstrate that the UlRe-NeRF model significantly enhances the realism and accuracy of high-fidelity ultrasound image reconstruction, especially in handling complex medium structures.
翻訳日:2024-08-05 15:16:52 公開日:2024-08-01
# UniMoT:離散トークン表現を用いた統一分子テキスト言語モデル

UniMoT: Unified Molecule-Text Language Model with Discrete Token Representation ( http://arxiv.org/abs/2408.00863v1 )

ライセンス: Link先を確認
Juzheng Zhang, Yatao Bian, Yongqiang Chen, Quanming Yao, (参考訳) 様々なタスクにわたる大規模言語モデル(LLM)の顕著な成功は、研究コミュニティを分子アプリケーションに拡張させるきっかけとなった。 しかし、ほとんどの分子LLMは、分子とテキストのモダリティを等しく扱わず、分子のモダリティを監督する信号を持たないアダプタベースのアーキテクチャを採用している。 これらの問題に対処するために,LLMの語彙を分子トークンで拡張するトークン化アーキテクチャを採用したUniMoTを導入する。 具体的には,Q-Formerを組み込んで,分子とテキスト間のモダリティギャップを埋めるベクトル量子化によるトークン化手法を提案する。 このトークン化剤は、分子を因果依存性を持つ分子トークンの配列に変換し、高レベルの分子およびテキスト情報をカプセル化する。 このトークン化剤を装備したUniMoTは、共有トークン表現と自己回帰訓練パラダイムの下で分子とテキストのモダリティを統一することができ、分子を外国語として解釈し、それらをテキストとして生成することができる。 4段階のトレーニングスキームの後、UniMoTは分子間テキストとテキスト間タスクの両方を実行するマルチモーダル・ジェネラリストとして登場した。 広範な実験により、UniMoTは幅広い分子理解および生成タスクで最先端のパフォーマンスを達成することが示されている。

The remarkable success of Large Language Models (LLMs) across diverse tasks has driven the research community to extend their capabilities to molecular applications. However, most molecular LLMs employ adapter-based architectures that do not treat molecule and text modalities equally and lack a supervision signal for the molecule modality. To address these issues, we introduce UniMoT, a Unified Molecule-Text LLM adopting a tokenizer-based architecture that expands the vocabulary of LLM with molecule tokens. Specifically, we introduce a Vector Quantization-driven tokenizer that incorporates a Q-Former to bridge the modality gap between molecule and text. This tokenizer transforms molecules into sequences of molecule tokens with causal dependency, encapsulating high-level molecular and textual information. Equipped with this tokenizer, UniMoT can unify molecule and text modalities under a shared token representation and an autoregressive training paradigm, enabling it to interpret molecules as a foreign language and generate them as text. Following a four-stage training scheme, UniMoT emerges as a multi-modal generalist capable of performing both molecule-to-text and text-to-molecule tasks. Extensive experiments demonstrate that UniMoT achieves state-of-the-art performance across a wide range of molecule comprehension and generation tasks.
翻訳日:2024-08-05 15:16:52 公開日:2024-08-01
# 2+1$d及び't Hooft Anomaly Matchingにおけるボソニックおよびフェルミオン一形式対称性の分類について

On the Classification of Bosonic and Fermionic One-Form Symmetries in $2+1$d and 't Hooft Anomaly Matching ( http://arxiv.org/abs/2408.00866v1 )

ライセンス: Link先を確認
Mahesh Balasubramanian, Matthew Buican, Rajath Radhakrishnan, (参考訳) 物理においてボソニックとフェルミオンの対称性が果たす基本的な役割により、ボソニックとフェルミオンの自己統計学を持つ位相線からなる2 + 1$dの(非可逆な)一形式対称性を研究する。 これらの線をBFB(Bose-Fermi-Braided)対称性と呼び、分類できると主張している。 一般正準直線の場合とは異なり、BFB対称性は群と密接に関連している。 特に、BFB線が非可逆であるとき、それらは本質的に非可逆である。 さらに、BFB対称性は分類学的には弱い群論である。 この理解を用いて、BFB対称性を持つ非トポロジカルQFTを含む再正規化群フローの不変性について検討する。

Motivated by the fundamental role that bosonic and fermionic symmetries play in physics, we study (non-invertible) one-form symmetries in $2 + 1$d consisting of topological lines with bosonic and fermionic self-statistics. We refer to these lines as Bose-Fermi-Braided (BFB) symmetries and argue that they can be classified. Unlike the case of generic anyonic lines, BFB symmetries are closely related to groups. In particular, when BFB lines are non-invertible, they are non-intrinsically non-invertible. Moreover, BFB symmetries are, in a categorical sense, weakly group theoretical. Using this understanding, we study invariants of renormalization group flows involving non-topological QFTs with BFB symmetry.
翻訳日:2024-08-05 15:16:52 公開日:2024-08-01
# マルチキュービット実験における測定誤差のベイズ緩和

Bayesian mitigation of measurement errors in multi-qubit experiments ( http://arxiv.org/abs/2408.00869v1 )

ライセンス: Link先を確認
F. Cosco, F. Plastina, N. Lo Gullo, (参考訳) 本稿では,近距離量子デバイス上でのマルチビット実験に適したベイズ測定誤差軽減手法を提案する。 提案手法では,キュービットのバイナリ状態代入前に利用可能な読み出し信号から完全情報を利用する。 我々は、検出器応答関数の校正から測定結果の処理後まで、現在の量子コンピューティングデバイスや量子アルゴリズムの典型的な出力サイズに適した計算効率の良いソリューションを提供する、詳細なアルゴリズムワークフローを提供する。 我々は,このプロトコルを超伝導量子ビットを用いて,実際の量子コンピュータ上でベンチマークする。そこでは,読み出し信号が,量子ビット状態割り当ての前にIQ雲の計測情報を符号化する。 最後に,提案アルゴリズムの性能をベイズ展開や雑音行列の逆変換などの他の測定誤差低減手法と比較する。

We introduce an implementation of Bayesian measurement error mitigation tailored for multiqubit experiments on near-term quantum devices. Our approach leverages complete information from the readout signal, which is available before any binary state assignment of the qubits. We provide a detailed algorithm workflow, from the calibration of detector response functions to the post-processing of measurement outcomes, offering a computationally efficient solution suitable for the output size typical of current quantum computing devices and quantum algorithms. We benchmark our protocol on actual quantum computers with superconducting qubits, where the readout signal encodes the measurement information in the IQ clouds before qubit state assignment. Finally, we compare the performance of our algorithm against other measurement error mitigation methods, such as iterative Bayesian unfolding and noise matrix inversion.
翻訳日:2024-08-05 15:16:52 公開日:2024-08-01
# 解釈可能性を考慮した時間的知識グラフにおける異常のオンライン検出

Online Detection of Anomalies in Temporal Knowledge Graphs with Interpretability ( http://arxiv.org/abs/2408.00872v1 )

ライセンス: Link先を確認
Jiasheng Zhang, Jie Shao, Rex Ying, (参考訳) 時間的知識グラフ(TKG)は、実体間の関係の進化を捉える上で貴重な資源であるが、しばしばノイズに悩まされ、堅牢な異常検出機構を必要とする。 既存の動的グラフ異常検出アプローチは、TKG内のノードとエッジのカテゴリによって導入されたリッチなセマンティクスを捉えるのに苦労するが、TKG埋め込み手法は解釈可能性に欠け、異常検出の信頼性を損なう。 さらに,これらの手法は,知識更新によるパターン変化やセマンティックドリフトへの適応を阻害する。 これらの課題に対処するために、TKGにおけるオンライン異常検出の解釈に適した効率的なTKG要約手法であるAnoTを導入する。 AnoTは、TKGを新しい規則グラフにまとめることから始まり、TKGの複雑なパターンの柔軟な推論を可能にする。 新しい知識が出現すると、AnoTはルールグラフのノードにそれをマッピングし、ルールグラフを逆行して知識の異常スコアを導出する。 トラバーサルは到達可能なノードを生成し、新しい知識の妥当性や異常を解釈可能な証拠を与える。 全体として、AnoTは、オフラインのTKG要約とオンラインスコアリングのための検出器、新しい知識に基づくリアルタイムルールグラフ更新のための更新器、およびルールグラフの近似誤差を推定するモニターを含む、検出器・アップダッタ・モニタアーキテクチャを具現化している。 4つの実世界のデータセットの実験結果は、AnoTが既存の手法を精度と相互運用性の点ではるかに上回っていることを示している。 すべての生データセットとAnoTの実装はhttps://github.com/zjs123/ANoTで提供されている。

Temporal knowledge graphs (TKGs) are valuable resources for capturing evolving relationships among entities, yet they are often plagued by noise, necessitating robust anomaly detection mechanisms. Existing dynamic graph anomaly detection approaches struggle to capture the rich semantics introduced by node and edge categories within TKGs, while TKG embedding methods lack interpretability, undermining the credibility of anomaly detection. Moreover, these methods falter in adapting to pattern changes and semantic drifts resulting from knowledge updates. To tackle these challenges, we introduce AnoT, an efficient TKG summarization method tailored for interpretable online anomaly detection in TKGs. AnoT begins by summarizing a TKG into a novel rule graph, enabling flexible inference of complex patterns in TKGs. When new knowledge emerges, AnoT maps it onto a node in the rule graph and traverses the rule graph recursively to derive the anomaly score of the knowledge. The traversal yields reachable nodes that furnish interpretable evidence for the validity or the anomalous of the new knowledge. Overall, AnoT embodies a detector-updater-monitor architecture, encompassing a detector for offline TKG summarization and online scoring, an updater for real-time rule graph updates based on emerging knowledge, and a monitor for estimating the approximation error of the rule graph. Experimental results on four real-world datasets demonstrate that AnoT surpasses existing methods significantly in terms of accuracy and interoperability. All of the raw datasets and the implementation of AnoT are provided in https://github.com/zjs123/ANoT.
翻訳日:2024-08-05 15:06:04 公開日:2024-08-01
# Medical SAM 2: Segment Anything Model 2による医用画像の映像化

Medical SAM 2: Segment medical images as video via Segment Anything Model 2 ( http://arxiv.org/abs/2408.00874v1 )

ライセンス: Link先を確認
Jiayuan Zhu, Yunli Qi, Junde Wu, (参考訳) 本稿では,SAM2フレームワークを用いて2次元および3次元の医用画像セグメンテーションタスクに対処する高度なセグメンテーションモデルであるMedSAM-2を紹介する。 MedSAM-2は、3Dの医療画像だけでなく、新しいワンプロンプト・セグメンテーション(One-prompt Segmentation)機能をアンロックする。 これによってユーザは、オブジェクトをターゲットとする1つまたは特定のイメージに対してプロンプトを提供することができ、その後、画像間の時間的関係に関係なく、モデルがすべての画像に同じタイプのオブジェクトを自律的に分割することができる。 腹部, 視床, 脳腫瘍, 甲状腺結節, 皮膚病変など, 様々な医用画像モダリティでMedSAM-2を評価し, 従来型および対話型セグメンテーション設定の最先端モデルと比較した。 以上の結果から,MedSAM-2は既存モデルに勝るだけでなく,医療画像のセグメンテーションタスクにも優れることがわかった。 私たちのコードは、https://github.com/MedicineToken/Medical-SAM2でリリースされます。

In this paper, we introduce Medical SAM 2 (MedSAM-2), an advanced segmentation model that utilizes the SAM 2 framework to address both 2D and 3D medical image segmentation tasks. By adopting the philosophy of taking medical images as videos, MedSAM-2 not only applies to 3D medical images but also unlocks new One-prompt Segmentation capability. That allows users to provide a prompt for just one or a specific image targeting an object, after which the model can autonomously segment the same type of object in all subsequent images, regardless of temporal relationships between the images. We evaluated MedSAM-2 across a variety of medical imaging modalities, including abdominal organs, optic discs, brain tumors, thyroid nodules, and skin lesions, comparing it against state-of-the-art models in both traditional and interactive segmentation settings. Our findings show that MedSAM-2 not only surpasses existing models in performance but also exhibits superior generalization across a range of medical image segmentation tasks. Our code will be released at: https://github.com/MedicineToken/Medical-SAM2
翻訳日:2024-08-05 15:06:04 公開日:2024-08-01
# モノトーンと正方形確率回路の関係について

On the Relationship Between Monotone and Squared Probabilistic Circuits ( http://arxiv.org/abs/2408.00876v1 )

ライセンス: Link先を確認
Benjie Wang, Guy Van den Broeck, (参考訳) 確率回路は重み付き和と積の計算グラフとして関数の統一表現である。 その主な用途は確率的モデリングであり、非負の重みを持つ回路(モノトーン回路)を使って密度/質量関数を表現・学習することができる。 近年、密度を回路関数(二乗回路)の正方形として表現することが提案され、これはトラクタビリティを維持しながら負の重みを使用でき、単調回路よりも指数関数的にコンパクトである。 残念なことに、逆もまた成り立ち、つまり単調回路と正方形回路は一般には相容れない。 これにより、和解できるかどうかという疑問が持ち上がり、2つのモデリングアプローチが実際に改善される。 InceptionPCはモノトーン回路と2乗回路の両方を特別に含む新しいタイプの回路であり、複雑なパラメータを用いる。 InceptionPCは画像データセット上でモノトーン回路と正方形回路の両方より優れていることを実証的に検証する。

Probabilistic circuits are a unifying representation of functions as computation graphs of weighted sums and products. Their primary application is in probabilistic modeling, where circuits with non-negative weights (monotone circuits) can be used to represent and learn density/mass functions, with tractable marginal inference. Recently, it was proposed to instead represent densities as the square of the circuit function (squared circuits); this allows the use of negative weights while retaining tractability, and can be exponentially more compact than monotone circuits. Unfortunately, we show the reverse also holds, meaning that monotone circuits and squared circuits are incomparable in general. This raises the question of whether we can reconcile, and indeed improve upon the two modeling approaches. We answer in the positive by proposing InceptionPCs, a novel type of circuit that naturally encompasses both monotone circuits and squared circuits as special cases, and employs complex parameters. Empirically, we validate that InceptionPCs can outperform both monotone and squared circuits on image datasets.
翻訳日:2024-08-05 15:06:04 公開日:2024-08-01
# ホッピング振幅勾配を持つSSH様モデルの例外点

Exceptional points in SSH-like models with hopping amplitude gradient ( http://arxiv.org/abs/2408.00879v1 )

ライセンス: Link先を確認
David S. Simon, Christopher R. Schwarze, Abdoulaye Ndao, Alexander V. Sergienko, (参考訳) Su-Schrieffer-Heeger (SSH) システムは、トポロジカル絶縁体とトポロジカル位相を1次元で探索するための一般的なモデルである。 例外点に対する近年の関心は、SSHモデルを含む多くの物理モデルの非エルミート一般化の再検討につながっている。 そのような非エルミート系では、例外点 (EP) と呼ばれる特異点が超解像センシングシステムや位相レーザーへの応用に関心を持つ。 ここでは、SSHモデルの非エルミートおよび非PT対称変動を導入し、ホッピング振幅は非相互であり、鎖に沿って単調に変化する。 EPsの存在は非相互結合によるものであるが、EPsの数、位置、順序はすべてホッピング振幅勾配の追加によって変化し、非エルミート系のスペクトルを調整するための新しいツールが加えられることが判明した。

The Su-Schrieffer-Heeger (SSH) system is a popular model for exploring topological insulators and topological phases in one dimension. Recent interest in exceptional points has led to re-examination of non-Hermitian generalizations of many physical models, including the SSH model. In such non-Hermitian systems, singular points called exceptional points (EPs) appear that are of interest for applications in super-resolution sensing systems and topological lasers. Here, a non-Hermitian and non-PT-symmetric variation of the SSH model is introduced, in which the hopping amplitudes are non-reciprocal and vary monotonically along the chain. It is found that, while the existence of the EPs is due to the nonreciprocal couplings, the number, position, and order of the EPs can all be altered by the addition of the hopping amplitude gradient, adding a new tool for tailoring the spectrum of a non-Hermitian system.
翻訳日:2024-08-05 15:06:04 公開日:2024-08-01
# ループにおけるアノテーション:ブレンドベンチマークデータセット作成のための奥行きラタエンゲージメントのケーススタディ

Annotator in the Loop: A Case Study of In-Depth Rater Engagement to Create a Bridging Benchmark Dataset ( http://arxiv.org/abs/2408.00880v1 )

ライセンス: Link先を確認
Sonja Schmer-Galunder, Ruta Wheelock, Scott Friedman, Alyssa Chvasta, Zaria Jalan, Emily Saltz, (参考訳) 大規模な言語モデルの普及に伴い、クラウドレーダのプールを使用して機械学習のデータセットに注釈を付けることがますます一般的になっている。 しかし、これらのラッカーは個別のクラウドワーカーとして独立して働くことが多い。 本研究では、アノテーションは、単に安価でスケーラブルな作業であるだけでなく、テキストで言っていることの意味を識別するための微妙な解釈の努力であると見なしている。 筆者らは,新たな,協調的かつ反復的なアノテーションを用いたアノテーション手法について述べる。その結果,Civil Commentsデータセットの11,973件のテキスト投稿から,ブリッジング分割に関連するコメントの'Bridging Benchmark Dataset'が得られた。 この手法は,(1) 注釈付き概念の定義を改良し,(2) チェックインミーティングや議論を伴う複雑な社会概念を反復的に注釈付けする,という,米国の7つのラウンダーとの密接な反復的な関与によって,一般の匿名のクラウドレーディングアノテーションプロセスとは異なっている。 提案手法は,現在の匿名クラウドベースのアノテーション処理の欠点に対処するものであり,このアノテーションプロセスの性能に関する実証的な証拠を,層間信頼性の形で提示する。 本研究は,遠隔での単独作業にのみ依存するのではなく,アノテータとの共同作業によりアノテーション手法が強化できることを示唆する。 本稿では、入力テキスト、属性、アノテーションのプロセスの概要と、経験的結果と結果のベンチマークデータセットについて、以下の属性に分類する: 疎外、思いやり、推論、好奇心、道徳的アウトラージュ、尊敬。

With the growing prevalence of large language models, it is increasingly common to annotate datasets for machine learning using pools of crowd raters. However, these raters often work in isolation as individual crowdworkers. In this work, we regard annotation not merely as inexpensive, scalable labor, but rather as a nuanced interpretative effort to discern the meaning of what is being said in a text. We describe a novel, collaborative, and iterative annotator-in-the-loop methodology for annotation, resulting in a 'Bridging Benchmark Dataset' of comments relevant to bridging divides, annotated from 11,973 textual posts in the Civil Comments dataset. The methodology differs from popular anonymous crowd-rating annotation processes due to its use of an in-depth, iterative engagement with seven US-based raters to (1) collaboratively refine the definitions of the to-be-annotated concepts and then (2) iteratively annotate complex social concepts, with check-in meetings and discussions. This approach addresses some shortcomings of current anonymous crowd-based annotation work, and we present empirical evidence of the performance of our annotation process in the form of inter-rater reliability. Our findings indicate that collaborative engagement with annotators can enhance annotation methods, as opposed to relying solely on isolated work conducted remotely. We provide an overview of the input texts, attributes, and annotation process, along with the empirical results and the resulting benchmark dataset, categorized according to the following attributes: Alienation, Compassion, Reasoning, Curiosity, Moral Outrage, and Respect.
翻訳日:2024-08-05 15:06:04 公開日:2024-08-01
# SaludConectaMX:メキシコにおける小児がん医療における協調医療システムの導入から学んだ教訓

SaludConectaMX: Lessons Learned from Deploying a Cooperative Mobile Health System for Pediatric Cancer Care in Mexico ( http://arxiv.org/abs/2408.00881v1 )

ライセンス: Link先を確認
Jennifer J. Schnur, Angélica Garcia-Martínez, Patrick Soga, Karla Badillo-Urquiola, Alejandra J. Botello, Ana Calderon Raisbeck, Sugana Chawla, Josef Ernst, William Gentry, Richard P. Johnson, Michael Kennel, Jesús Robles, Madison Wagner, Elizabeth Medina, Juan Garduño Espinosa, Horacio Márquez-González, Victor Olivar-López, Luis E. Juárez-Villegas, Martha Avilés-Robles, Elisa Dorantes-Acosta, Viridia Avila, Gina Chapa-Koloffon, Elizabeth Cruz, Leticia Luis, Clara Quezada, Emanuel Orozco, Edson Serván-Mori, Martha Cordero, Rubén Martín Payo, Nitesh V. Chawla, (参考訳) SaludConectaMXは,メキシコのがん患児に対する化学療法中における合併症の要因を把握し,理解するための総合システムである。 SaludConectaMXは、患者の臨床指標を社会的決定要因や介護者のメンタルヘルスと統合し、患者の健康軌道の社会的・クリニカルな視点を形成するという点でユニークである。 このシステムは、Webアプリケーション(病院スタッフ向け)とモバイルアプリケーション(家族介護者向け)で構成されており、病院と自宅の両方で協調的な患者モニタリングを行う機会を提供する。 本稿では,1.5年間のパイロット実験によるシステム設計およびユーザビリティ評価結果について述べる。 以上の結果から,院内Webアプリは高い完成率とユーザ満足度を示す一方で,家族向けモバイルアプリではアクセシビリティの向上が求められ,統計的および定性的なデータ分析がシステム改善の道筋を照らすことがわかった。 この証拠に基づいて,HCI研究者が今後の研究に活用できるLMICの健康システム開発の提案を定式化する。

We developed SaludConectaMX as a comprehensive system to track and understand the determinants of complications throughout chemotherapy treatment for children with cancer in Mexico. SaludConectaMX is unique in that it integrates patient clinical indicators with social determinants and caregiver mental health, forming a social-clinical perspective of the patient's evolving health trajectory. The system is composed of a web application (for hospital staff) and a mobile application (for family caregivers), providing the opportunity for cooperative patient monitoring in both hospital and home settings. This paper presents the system's preliminary design and usability evaluation results from a 1.5-year pilot study. Our findings indicate that while the hospital web app demonstrates high completion rates and user satisfaction, the family mobile app requires additional improvements for optimal accessibility; statistical and qualitative data analysis illuminate pathways for system improvement. Based on this evidence, we formalize suggestions for health system development in LMICs, which HCI researchers may leverage in future work.
翻訳日:2024-08-05 15:06:04 公開日:2024-08-01
# エラーによる学習におけるベンチマークアタック

Benchmarking Attacks on Learning with Errors ( http://arxiv.org/abs/2408.00882v1 )

ライセンス: Link先を確認
Emily Wenger, Eshika Saxena, Mohamed Malhou, Ellie Thieu, Kristin Lauter, (参考訳) 誤りを伴う学習(LWE)に基づく格子暗号スキームは、後量子暗号システムとして使われるためにNISTによって標準化され、機密データを暗号化するためのHomomorphicEncryption.orgによって標準化された。 そのため、具体的なセキュリティを理解することが重要である。 LWEセキュリティに関するほとんどの研究は、攻撃性能の理論的推定に重点を置いている。 現存する唯一の具体的なベンチマークの取り組みであるDarmstadt Lattice Challengeは、小さな秘密や小さなエラー分布のような標準LWEパラメータの選択に関連するベンチマークや、Ring-LWE(RLWE)とModule-LWE(MLWE)の亜種を含まない。 具体的なLWEセキュリティの理解を深めるために、LWEの秘密回復のためのベンチマークを標準化されたパラメータに対して提供します。 検索-LWEはuSVP, SALSA, Cool & Cruel, Decision-LWE攻撃はDual Hybrid Meet-in-the-Middle (MitM)である。 SALSAとCool & Cruelの攻撃を大きな形で拡張し、MitM攻撃の実装とスケールアップを初めて行います。 例えば、KYBER(\kappa=2$)パラメータのハミングウェイト9-11ドルのバイナリシークレットを、SALSAとCool\&Cruelで28-36ドルの時間で回収していますが、MitMは、Kyberパラメータのハミングウェイト最大最大4ドルまで、USVP攻撃は、100ドル以上走った後、シークレットを回復できません。 また, 実測値と実測値との比較を行った。 最後に、将来の研究を可能にするために、コードをオープンソース化します。

Lattice cryptography schemes based on the learning with errors (LWE) hardness assumption have been standardized by NIST for use as post-quantum cryptosystems, and by HomomorphicEncryption.org for encrypted compute on sensitive data. Thus, understanding their concrete security is critical. Most work on LWE security focuses on theoretical estimates of attack performance, which is important but may overlook attack nuances arising in real-world implementations. The sole existing concrete benchmarking effort, the Darmstadt Lattice Challenge, does not include benchmarks relevant to the standardized LWE parameter choices - such as small secret and small error distributions, and Ring-LWE (RLWE) and Module-LWE (MLWE) variants. To improve our understanding of concrete LWE security, we provide the first benchmarks for LWE secret recovery on standardized parameters, for small and low-weight (sparse) secrets. We evaluate four LWE attacks in these settings to serve as a baseline: the Search-LWE attacks uSVP, SALSA, and Cool & Cruel, and the Decision-LWE attack: Dual Hybrid Meet-in-the-Middle (MitM). We extend the SALSA and Cool & Cruel attacks in significant ways, and implement and scale up MitM attacks for the first time. For example, we recover hamming weight $9-11$ binomial secrets for KYBER ($\kappa=2$) parameters in $28-36$ hours with SALSA and Cool\&Cruel, while we find that MitM can solve Decision-LWE instances for hamming weights up to $4$ in under an hour for Kyber parameters, while uSVP attacks do not recover any secrets after running for more than $1100$ hours. We also compare concrete performance against theoretical estimates. Finally, we open source the code to enable future research.
翻訳日:2024-08-05 15:06:04 公開日:2024-08-01
# 関係データベースと大規模言語モデルに対するハイブリッドクエリ

Hybrid Querying Over Relational Databases and Large Language Models ( http://arxiv.org/abs/2408.00884v1 )

ライセンス: Link先を確認
Fuheng Zhao, Divyakant Agrawal, Amr El Abbadi, (参考訳) データベースクエリは従来、クローズドワールドの仮定の下で運用され、データベースに格納されたデータ以外の情報を必要とする質問に対する回答は提供されない。 SQLを使用したハイブリッドクエリは、リレーショナルデータベースと大きな言語モデル(LLM)を統合することで、データベースを越えた質問に答える代替手段を提供する。 本稿では,4つの実世界のデータベースに対して,120以上の問合せを含む最初のクロスドメインベンチマークSWANを提案する。 SWANにおけるこれらの複雑な問題に対処する上で、最先端の言語モデルを活用するために、HQDL、ハイブリッドクエリのための予備的なソリューション、そして将来的な方向性について議論する。 GPT-4 Turbo を用いたHQDL は,実行精度が 40.0 %,データ事実性が 48.2 % であることを示す。 これらの結果は、ハイブリッドクエリの可能性と課題の両方を強調している。 私たちは、リレーショナルデータベースと大規模言語モデルをシームレスに統合し、データベースを超えた問題に対処する、より効率的で正確なデータシステムを構築するための、さらなる研究を後押しすると考えています。

Database queries traditionally operate under the closed-world assumption, providing no answers to questions that require information beyond the data stored in the database. Hybrid querying using SQL offers an alternative by integrating relational databases with large language models (LLMs) to answer beyond-database questions. In this paper, we present the first cross-domain benchmark, SWAN, containing 120 beyond-database questions over four real-world databases. To leverage state-of-the-art language models in addressing these complex questions in SWAN, we present, HQDL, a preliminary solution for hybrid querying, and also discuss potential future directions. Our evaluation demonstrates that HQDL using GPT-4 Turbo with few-shot prompts, achieves 40.0\% in execution accuracy and 48.2\% in data factuality. These results highlights both the potential and challenges for hybrid querying. We believe that our work will inspire further research in creating more efficient and accurate data systems that seamlessly integrate relational databases and large language models to address beyond-database questions.
翻訳日:2024-08-05 15:06:04 公開日:2024-08-01
# 変形性膝関節症の経時的変化 : X線医用画像合成のための拡散モデル

Temporal Evolution of Knee Osteoarthritis: A Diffusion-based Morphing Model for X-ray Medical Image Synthesis ( http://arxiv.org/abs/2408.00891v1 )

ライセンス: Link先を確認
Zhe Wang, Aladine Chetouani, Rachid Jennane, Yuhua Ru, Wasim Issa, Mohamed Jarraya, (参考訳) 変形性膝関節症(KOA)は,高齢者の運動に著しい影響を及ぼす筋骨格障害である。 医学領域では、時間的データを含む画像は、時間的ダイナミクスの研究や、病気の進行を統計的に監視するために頻繁に利用される。 自然画像の深層学習に基づく生成モデルは広く研究されているが、側頭膝X線を合成する手法は比較的少ない。 本研究では,特定の患者の健康な膝と重度のKOAステージ間の中間X線画像の合成を目的とした新しいディープラーニングモデルを提案する。 テストフェーズでは,健常な膝X線に基づいて,さまざまな重度を有するKOAX線画像の連続的かつ効果的なシーケンスを生成することができる。 具体的には,拡散確率モデルを変更することで拡散に基づくモーフィングモデルを導入する。 提案手法は拡散・変形モジュールを統合し, 対象の膝X線画像から空間的変形の詳細を抽出し, 中間フレームをジオデシックパスに沿って合成する。 拡散損失, 変態損失, 監督損失からなるハイブリッド損失を用いた。 提案手法は,最高時間フレーム合成性能を実現し,分類モデルのデータを効果的に拡張し,KOAの進行をシミュレートする。

Knee Osteoarthritis (KOA) is a common musculoskeletal disorder that significantly affects the mobility of older adults. In the medical domain, images containing temporal data are frequently utilized to study temporal dynamics and statistically monitor disease progression. While deep learning-based generative models for natural images have been widely researched, there are comparatively few methods available for synthesizing temporal knee X-rays. In this work, we introduce a novel deep-learning model designed to synthesize intermediate X-ray images between a specific patient's healthy knee and severe KOA stages. During the testing phase, based on a healthy knee X-ray, the proposed model can produce a continuous and effective sequence of KOA X-ray images with varying degrees of severity. Specifically, we introduce a Diffusion-based Morphing Model by modifying the Denoising Diffusion Probabilistic Model. Our approach integrates diffusion and morphing modules, enabling the model to capture spatial morphing details between source and target knee X-ray images and synthesize intermediate frames along a geodesic path. A hybrid loss consisting of diffusion loss, morphing loss, and supervision loss was employed. We demonstrate that our proposed approach achieves the highest temporal frame synthesis performance, effectively augmenting data for classification models and simulating the progression of KOA.
翻訳日:2024-08-05 15:06:04 公開日:2024-08-01
# タンパク質言語モデルを用いたペプチド配列決定

Peptide Sequencing Via Protein Language Models ( http://arxiv.org/abs/2408.00892v1 )

ライセンス: Link先を確認
Thuong Le Hoai Pham, Jillur Rahman Saurav, Aisosa A. Omere, Calvin J. Heyl, Mohammad Sadegh Nasr, Cody Tyler Reynolds, Jai Prakash Yadav Veerla, Helen H Shang, Justyn Jaworski, Alison Ravenscraft, Joseph Anthony Buonomo, Jacob M. Luber, (参考訳) アミノ酸の限られた配列の測定に基づいてペプチドの完全配列を決定するためのタンパク質言語モデルを提案する。 現在、タンパク質の塩基配列決定は質量分析に依存しており、非ネイティブペプチドを配列できる新しいエドマン・デグレゲーションベースのプラットフォームがある。 現在のタンパク質シークエンシング技術は、全てのアミノ酸を正確に同定する際の限界に直面し、包括的なプロテオーム解析を妨げる。 本手法は、UniRefデータベースからのタンパク質配列の特定が困難であるアミノ酸を選択的にマスキングすることにより、部分的シークエンシングデータをシミュレートする。 このマスクは現実世界のシークエンシングの限界を模倣している。 次に、ProtBertから派生したトランスフォーマーベースのモデルを変更して、これらのマスクされた残基を予測する新しい下流タスクを作成し、完全なシーケンスを近似する。 細菌性大腸菌の3種を評価すると、アミノ酸([KCYM])が4つしか知られていない場合、アミノ酸当たりの精度は90.5%に達する。 AlphaFold と TM-score を用いた構造評価により, 予測の生物学的妥当性が検証された。 このモデルはまた、種間パフォーマンスによる進化解析の可能性を示す。 このシミュレーションされた実験的制約と計算的予測を統合することで、タンパク質配列解析を向上し、限られた実験データから完全なタンパク質配列を確率論的に再構築することで、プロテオミクスと構造生物学の進歩を加速する可能性がある。

We introduce a protein language model for determining the complete sequence of a peptide based on measurement of a limited set of amino acids. To date, protein sequencing relies on mass spectrometry, with some novel edman degregation based platforms able to sequence non-native peptides. Current protein sequencing techniques face limitations in accurately identifying all amino acids, hindering comprehensive proteome analysis. Our method simulates partial sequencing data by selectively masking amino acids that are experimentally difficult to identify in protein sequences from the UniRef database. This targeted masking mimics real-world sequencing limitations. We then modify and finetune a ProtBert derived transformer-based model, for a new downstream task predicting these masked residues, providing an approximation of the complete sequence. Evaluating on three bacterial Escherichia species, we achieve per-amino-acid accuracy up to 90.5% when only four amino acids ([KCYM]) are known. Structural assessment using AlphaFold and TM-score validates the biological relevance of our predictions. The model also demonstrates potential for evolutionary analysis through cross-species performance. This integration of simulated experimental constraints with computational predictions offers a promising avenue for enhancing protein sequence analysis, potentially accelerating advancements in proteomics and structural biology by providing a probabilistic reconstruction of the complete protein sequence from limited experimental data.
翻訳日:2024-08-05 15:06:04 公開日:2024-08-01
# 離散ランダムな平滑化と量子コンピューティング

Discrete Randomized Smoothing Meets Quantum Computing ( http://arxiv.org/abs/2408.00895v1 )

ライセンス: Link先を確認
Tom Wollschläger, Aman Saxena, Nicola Franco, Jeanette Miriam Lorenz, Stephan Günnemann, (参考訳) 機械学習(ML)のブレークスルーと量子コンピューティング(QC)の進歩は、量子機械学習の学際的な分野を新たなレベルに押し上げる。 しかし、MLモデルの敵攻撃に対する感受性のため、実践的使用は安全性を危惧する懸念を提起する。 従来の機械学習モデルに対する既存のランダム化平滑化(RS)認証手法は計算集約的である。 本稿では、離散データに対するMLモデルの確率的認証を高速化するために、QCと離散ランダム化平滑化の概念の組み合わせを提案する。 重ね合わせにおける入力バイナリデータの摂動をエンコードし、量子振幅推定(QAE)を用いて、従来のランダム化スムースティング手法と比較して要求されるモデルの呼び出し数を2次的に削減する方法を示す。 さらに、画像、グラフ、テキストに対するアプローチの広範な評価を可能にする新しいバイナリ脅威モデルを提案する。

Breakthroughs in machine learning (ML) and advances in quantum computing (QC) drive the interdisciplinary field of quantum machine learning to new levels. However, due to the susceptibility of ML models to adversarial attacks, practical use raises safety-critical concerns. Existing Randomized Smoothing (RS) certification methods for classical machine learning models are computationally intensive. In this paper, we propose the combination of QC and the concept of discrete randomized smoothing to speed up the stochastic certification of ML models for discrete data. We show how to encode all the perturbations of the input binary data in superposition and use Quantum Amplitude Estimation (QAE) to obtain a quadratic reduction in the number of calls to the model that are required compared to traditional randomized smoothing techniques. In addition, we propose a new binary threat model to allow for an extensive evaluation of our approach on images, graphs, and text.
翻訳日:2024-08-05 15:06:04 公開日:2024-08-01
# 表現型MIDIフォーマットピアノ性能生成

Expressive MIDI-format Piano Performance Generation ( http://arxiv.org/abs/2408.00900v1 )

ライセンス: Link先を確認
Jingwei Liu, (参考訳) この研究は、MIDIフォーマットで表現力のあるピアノ演奏を生成することができる生成型ニューラルネットワークを示す。 音楽の表現性は、鮮明なマイクロタイピング、豊かなポリフォニックテクスチャ、様々なダイナミクス、持続的なペダル効果によって反映される。 このモデルは、データ処理からニューラルネットワーク設計に至るまで、多くの面で革新的です。 このシンボリック・ミュージック・ジェネレーション・モデルは、シンボリック・ミュージックの一般的な批判を克服し、生のオーディオの世代に劣らず、表現力のある音楽の流れを生成できると主張している。 1つの欠点は、提出時間に制限があるため、モデルは微調整されず、十分な訓練を受けていないため、生成は特定の点で不整合でランダムに聞こえることである。 それにもかかわらず、このモデルは表現力のあるピアノ作品を生成する強力な生成能力を示している。

This work presents a generative neural network that's able to generate expressive piano performance in MIDI format. The musical expressivity is reflected by vivid micro-timing, rich polyphonic texture, varied dynamics, and the sustain pedal effects. This model is innovative from many aspects of data processing to neural network design. We claim that this symbolic music generation model overcame the common critics of symbolic music and is able to generate expressive music flows as good as, if not better than generations with raw audio. One drawback is that, due to the limited time for submission, the model is not fine-tuned and sufficiently trained, thus the generation may sound incoherent and random at certain points. Despite that, this model shows its powerful generative ability to generate expressive piano pieces.
翻訳日:2024-08-05 15:06:04 公開日:2024-08-01
# 2次元および3次元量子処理ユニットにおける量子ビット読み出し改善のためのFPGAベースの量子制御プラットフォーム上での適応LMSフィルタリングの可能性

Demonstrating the Potential of Adaptive LMS Filtering on FPGA-Based Qubit Control Platforms for Improved Qubit Readout in 2D and 3D Quantum Processing Units ( http://arxiv.org/abs/2408.00904v1 )

ライセンス: Link先を確認
Hans Johnson, Nicholas Bornman, Taeyoon Kim, David Van Zanten, Silvia Zorzetti, Jafar Saniie, (参考訳) 量子コンピューティングの進歩は、量子状態を正確に識別する高度な量子ビット読み出し技術に対する重要な必要性を浮き彫りにした。 本稿では,2次元および3次元量子処理ユニット(QPU)の読み出しパルス忠実度を最適化することを目的とした研究成果について述べる。 本稿では,LMS適応フィルタアルゴリズムの適用に特化して,qubit状態検出の精度と効率を向上させるため,FPGAベースの制御システムとの統合について検討する。 The LMS algorithm on the Zynq UltraScale+ RFSoC Gen 3 devices (RFSoC 4x2 FPGA and ZCU216 FPGA) using the Quantum Instrumentation Control Kit (QICK) open-source platform, we aimed to improve the filtering parameters in real-time to adapt and adapt to the noise profile presented in quantum computing readout signal。 我々の予備的な結果は、FPGAリソースを効率的に管理しながら高い読み出し精度を維持するLMSフィルタの機能を示す。 これらの発見は、より信頼性が高くスケーラブルな量子コンピューティングアーキテクチャの開発に寄与することが期待されており、量子技術の発展における適応信号処理の重要な役割を強調している。

Advancements in quantum computing underscore the critical need for sophisticated qubit readout techniques to accurately discern quantum states. This abstract presents our research intended for optimizing readout pulse fidelity for 2D and 3D Quantum Processing Units (QPUs), the latter coupled with Superconducting Radio Frequency (SRF) cavities. Focusing specifically on the application of the Least Mean Squares (LMS) adaptive filtering algorithm, we explore its integration into the FPGA-based control systems to enhance the accuracy and efficiency of qubit state detection by improving Signal-to-Noise Ratio (SNR). Implementing the LMS algorithm on the Zynq UltraScale+ RFSoC Gen 3 devices (RFSoC 4x2 FPGA and ZCU216 FPGA) using the Quantum Instrumentation Control Kit (QICK) open-source platform, we aim to dynamically test and adjust the filtering parameters in real-time to characterize and adapt to the noise profile presented in quantum computing readout signals. Our preliminary results demonstrate the LMS filter's capability to maintain high readout accuracy while efficiently managing FPGA resources. These findings are expected to contribute to developing more reliable and scalable quantum computing architectures, highlighting the pivotal role of adaptive signal processing in quantum technology advancements.
翻訳日:2024-08-05 15:06:04 公開日:2024-08-01
# 発明者評価ネットワークにおけるハイイペンタクトイノベーションと隠されたジェンダー格差

High-Impact Innovations and Hidden Gender Disparities in Inventor-Evaluator Networks ( http://arxiv.org/abs/2408.00905v1 )

ライセンス: Link先を確認
Tara Sowrirajan, Ryan Whalen, Brian Uzzi, (参考訳) 我々は、何百万もの科学、技術、芸術の革新を研究し、女性が直面するイノベーションのギャップは、決して普遍的ではないことに気付きました。 従来のイノベーションにはギャップはありません。 むしろこのギャップは、思いがけない方法でアイデアを組み合わせるイノベーションに広範に根ざしている。 さらに、USPTOでは、女性検査官が男性検査官よりも女性の発明者による非伝統的なイノベーションを最大33%拒否していることがわかり、男女差別がこのイノベーションのギャップを弱めていることを示唆している。 代わりに、新しいデータは、制度的なプラクティスの構成がイノベーションのギャップを説明することを示している。 これらの慣行は、女性が非伝統的なイノベーションを正確に評価し、女性検査官を女性のイノベーターに"過度に"割り当てる"必要がある専門知識を損ね、女性のイノベーションを損なう。 これらの制度的な障害は科学の革新率に悪影響を及ぼすが、文化的にきめ細かな性別差別よりも行動可能な政策変更に順応できるという特質がある。

We study of millions of scientific, technological, and artistic innovations and find that the innovation gap faced by women is far from universal. No gap exists for conventional innovations. Rather, the gap is pervasively rooted in innovations that combine ideas in unexpected ways - innovations most critical to scientific breakthroughs. Further, at the USPTO we find that female examiners reject up to 33 percent more unconventional innovations by women inventors than do male examiners, suggesting that gender discrimination weakly explains this innovation gap. Instead, new data indicate that a configuration of institutional practices explains the innovation gap. These practices compromise the expertise women examiners need to accurately assess unconventional innovations and then "over-assign" women examiners to women innovators, undermining women's innovations. These institutional impediments negatively impact innovation rates in science but have the virtue of being more amenable to actionable policy changes than does culturally ingrained gender discrimination.
翻訳日:2024-08-05 15:06:04 公開日:2024-08-01
# 重み付きグラフ注意記述を用いた多面グラフ構造学習による安静状態脳波からのパーキンソン病の検出

Parkinson's Disease Detection from Resting State EEG using Multi-Head Graph Structure Learning with Gradient Weighted Graph Attention Explanations ( http://arxiv.org/abs/2408.00906v1 )

ライセンス: Link先を確認
Christopher Neves, Yong Zeng, Yiming Xiao, (参考訳) パーキンソン病(英: Parkinson's disease、PD)は、個人の生活の質に深刻な影響を与える神経変性疾患である。 構造的および機能的なMRIベースのバイオマーカーと比較すると、脳波検査(EEG)は臨床的な洞察のためによりアクセスしやすい代替手段を提供することができる。 深層学習(DL)技術は優れた結果をもたらしたが、多くの技術は空間情報や脳の動的接続をモデル化できず、堅牢な特徴学習、限られたデータサイズ、説明可能性の低下といった課題に直面している。 これらの問題に対処するために、安静時脳波を用いた説明可能なPD検出のための新しいグラフニューラルネットワーク(GNN)手法を提案した。 具体的には、限られたデータで複雑な特徴をモデル化するために、対照的な学習を伴う構造化されたグローバル畳み込みと、脳波データの非ユークリッド構造を捉える新しいマルチヘッドグラフ構造学習と、ニューラルネットワークの洞察を提供するための頭部勾配重み付きグラフ注意説明器を用いる。 我々は,UCサンディエゴ・パーキンソン病脳波データセットを用いて本手法の開発と評価を行い,学習したグラフトポロジの直感的な説明を生成しながら,被験者単位の残差検定において69.40%の精度で検出した。

Parkinson's disease (PD) is a debilitating neurodegenerative disease that has severe impacts on an individual's quality of life. Compared with structural and functional MRI-based biomarkers for the disease, electroencephalography (EEG) can provide more accessible alternatives for clinical insights. While deep learning (DL) techniques have provided excellent outcomes, many techniques fail to model spatial information and dynamic brain connectivity, and face challenges in robust feature learning, limited data sizes, and poor explainability. To address these issues, we proposed a novel graph neural network (GNN) technique for explainable PD detection using resting state EEG. Specifically, we employ structured global convolutions with contrastive learning to better model complex features with limited data, a novel multi-head graph structure learner to capture the non-Euclidean structure of EEG data, and a head-wise gradient-weighted graph attention explainer to offer neural connectivity insights. We developed and evaluated our method using the UC San Diego Parkinson's disease EEG dataset, and achieved 69.40% detection accuracy in subject-wise leave-one-out cross-validation while generating intuitive explanations for the learnt graph topology.
翻訳日:2024-08-05 15:06:04 公開日:2024-08-01
# 繰り返し重要度に基づく早期停止

Early Stopping Based on Repeated Significance ( http://arxiv.org/abs/2408.00908v1 )

ライセンス: Link先を確認
Eric Bax, Arundhyoti Sarkar, Alex Shtoff, (参考訳) 成功のための単一の基準と一定の数のサンプルまたはテスト期間を持つバケットテストの場合、成功基準のための$\alpha$の特定の値よりも小さい$p$-valueを要求すると、レベル1 - \alpha$の統計的信頼が得られる。 複数の基準について、Bonferroniによる$\alpha$を分割する補正は、各基準に対してより低い$p$-値を必要とするコストで統計的信頼を生み出す。 同じ概念が早期停止に関する決定にも適用可能だが、これは$p$-valuesの厳格な要件につながる可能性がある。 私たちは、複数の意思決定ポイントで成功するための基準を必要とすることで、その課題にどのように対処するかを示します。

For a bucket test with a single criterion for success and a fixed number of samples or testing period, requiring a $p$-value less than a specified value of $\alpha$ for the success criterion produces statistical confidence at level $1 - \alpha$. For multiple criteria, a Bonferroni correction that partitions $\alpha$ among the criteria produces statistical confidence, at the cost of requiring lower $p$-values for each criterion. The same concept can be applied to decisions about early stopping, but that can lead to strict requirements for $p$-values. We show how to address that challenge by requiring criteria to be successful at multiple decision points.
翻訳日:2024-08-05 14:56:17 公開日:2024-08-01
# 空間トランスクリプトークスの距離保存生成モデル

Distance-Preserving Generative Modeling of Spatial Transcriptomics ( http://arxiv.org/abs/2408.00911v1 )

ライセンス: Link先を確認
Wenbin Zhou, Jin-Hong Du, (参考訳) 空間転写学データは、組織における遺伝子発現の空間的構造を理解するのに有用である。 遺伝子表現モデリングにおいて,関連空間情報を効果的に活用する方法について,一貫した研究がなされている。 得られた空間情報を用いて、解析された遺伝子発現の表現空間を、同様のペアワイズ距離構造を持つように調整する空間転写学のための距離保存型生成モデルについて紹介する。 これにより、潜伏空間は空間的近接で意味のある遺伝子のエンコーディングを捉えるのに役立つ。 この目的のために, トラクタブルな損失関数に関する理論的解析を行い, 学習対象を正規化された証拠の下位境界として定式化する。 我々のフレームワークは、遺伝子発現モデリングのためのあらゆる変分推論に基づく生成モデルとの互換性を付与する。 実験により,提案手法をマウス脳組織のVisiumデータセット上で検証し,背骨モデルとして用いた変異型オートエンコーダとscVIを用いて改良された性能を観察した。

Spatial transcriptomics data is invaluable for understanding the spatial organization of gene expression in tissues. There have been consistent efforts in studying how to effectively utilize the associated spatial information for refining gene expression modeling. We introduce a class of distance-preserving generative models for spatial transcriptomics, which utilizes the provided spatial information to regularize the learned representation space of gene expressions to have a similar pair-wise distance structure. This helps the latent space to capture meaningful encodings of genes in spatial proximity. We carry out theoretical analysis over a tractable loss function for this purpose and formalize the overall learning objective as a regularized evidence lower bound. Our framework grants compatibility with any variational-inference-based generative models for gene expression modeling. Empirically, we validate our proposed method on the mouse brain tissues Visium dataset and observe improved performance with variational autoencoders and scVI used as backbone models.
翻訳日:2024-08-05 14:56:17 公開日:2024-08-01
# GPT-4ライセンスの付与とオポチュニティ:Few-Shotイベント検出の精度向上と信頼度推定

Granting GPT-4 License and Opportunity: Enhancing Accuracy and Confidence Estimation for Few-Shot Event Detection ( http://arxiv.org/abs/2408.00914v1 )

ライセンス: Link先を確認
Steven Fincke, Adrien Bibal, Elizabeth Boschee, (参考訳) GPT-4のような大規模言語モデル(LLM)は、"銀"データの生成と、反復的なアプリケーションとレビューによる新しいオントロジの洗練を推奨するために、数ショットの学習コンテキストにおいて十分な可能性を示している。 このようなワークフローは信頼性評価によってより効果的になる。 残念なことに、信頼度推定はGPT-4のようなモデルの弱点を文書化したものであり、補うための確立された方法には、かなりの複雑さと計算が必要である。 本研究は,車両としてのBETTERオントロジーにおける事象検出のための数ショット学習によるGPT-4による効果的な信頼度推定手法について検討する。 鍵となるイノベーションは、GPT-4に提示されたプロンプトとタスクを拡張して、不確実性と不確実性(L&O)を定量化し説明するための機会を推測するライセンスを提供することである。 このアプローチは精度を向上し、追加の機械なしで使用可能な信頼度(0.759 AUC)を提供する。

Large Language Models (LLMs) such as GPT-4 have shown enough promise in the few-shot learning context to suggest use in the generation of "silver" data and refinement of new ontologies through iterative application and review. Such workflows become more effective with reliable confidence estimation. Unfortunately, confidence estimation is a documented weakness of models such as GPT-4, and established methods to compensate require significant additional complexity and computation. The present effort explores methods for effective confidence estimation with GPT-4 with few-shot learning for event detection in the BETTER ontology as a vehicle. The key innovation is expanding the prompt and task presented to GPT-4 to provide License to speculate when unsure and Opportunity to quantify and explain its uncertainty (L&O). This approach improves accuracy and provides usable confidence measures (0.759 AUC) with no additional machinery.
翻訳日:2024-08-05 14:56:17 公開日:2024-08-01
# ディープニューラルネットワークの認定アンラーニングに向けて

Towards Certified Unlearning for Deep Neural Networks ( http://arxiv.org/abs/2408.00920v1 )

ライセンス: Link先を確認
Binchi Zhang, Yushun Dong, Tianhao Wang, Jundong Li, (参考訳) 機械学習の分野では、高い効率と強力な理論的保証のために、認定された未学習が凸機械学習モデルで広く研究されている。 しかし、その非凸性で知られているディープニューラルネットワーク(DNN)への応用は、依然として課題となっている。 認定アンラーニングとDNNのギャップを埋めるために,認定アンラーニング手法を非凸目的に拡張するためのいくつかの簡単な手法を提案する。 時間的複雑性を低減するため,認証保証を妥協することなく,逆ヘッセン近似による効率的な計算法を開発した。 さらに、実世界のユーザが異なる時間ポイントで未学習の要求を送信できることを考慮して、非収束トレーニングやシーケンシャルアンラーニングに認定に関する議論を拡大する。 3つの実世界のデータセットに対する大規模な実験は、我々の手法の有効性と、DNNにおける認定未学習の利点を実証している。

In the field of machine unlearning, certified unlearning has been extensively studied in convex machine learning models due to its high efficiency and strong theoretical guarantees. However, its application to deep neural networks (DNNs), known for their highly nonconvex nature, still poses challenges. To bridge the gap between certified unlearning and DNNs, we propose several simple techniques to extend certified unlearning methods to nonconvex objectives. To reduce the time complexity, we develop an efficient computation method by inverse Hessian approximation without compromising certification guarantees. In addition, we extend our discussion of certification to nonconvergence training and sequential unlearning, considering that real-world users can send unlearning requests at different time points. Extensive experiments on three real-world datasets demonstrate the efficacy of our method and the advantages of certified unlearning in DNNs.
翻訳日:2024-08-05 14:56:17 公開日:2024-08-01
# LLMを用いた自動プルリクエスト記述生成:T5モデルアプローチ

Automatic Pull Request Description Generation Using LLMs: A T5 Model Approach ( http://arxiv.org/abs/2408.00921v1 )

ライセンス: Link先を確認
Md Nazmus Sakib, Md Athikul Islam, Md Mashrur Arifin, (参考訳) 開発者はプルリクエスト(PR)記述を作成して、変更の概要と、その背景にあるモチベーションを説明する。 これらの説明は、レビュアーや同僚の開発者がアップデートを素早く理解するのに役立ちます。 その重要性にもかかわらず、一部の開発者はこれらの記述を省略している。 そこで本研究では,コミットメッセージとソースコードコメントに基づくPR記述の自動生成手法を提案する。 本手法は,T5テキスト-テキスト間転送モデルを用いて,タスクをテキスト要約問題としてフレーム化する。 我々は,33,466個のPRを含むデータセットを用いて,事前学習したT5モデルを微調整した。 このモデルの有効性をROUGEメトリクスを用いて評価した。 以上の結果から,T5モデルはLexRankより有意に優れており,LexRankは我々のベースラインとして機能していることがわかった。

Developers create pull request (PR) descriptions to provide an overview of their changes and explain the motivations behind them. These descriptions help reviewers and fellow developers quickly understand the updates. Despite their importance, some developers omit these descriptions. To tackle this problem, we propose an automated method for generating PR descriptions based on commit messages and source code comments. This method frames the task as a text summarization problem, for which we utilized the T5 text-to-text transfer model. We fine-tuned a pre-trained T5 model using a dataset containing 33,466 PRs. The model's effectiveness was assessed using ROUGE metrics, which are recognized for their strong alignment with human evaluations. Our findings reveal that the T5 model significantly outperforms LexRank, which served as our baseline for comparison.
翻訳日:2024-08-05 14:56:17 公開日:2024-08-01
# 残留知識の回復:低ビット量子化のための新しいパラダイム

Reclaiming Residual Knowledge: A Novel Paradigm to Low-Bit Quantization ( http://arxiv.org/abs/2408.00923v1 )

ライセンス: Link先を確認
Róisín Luo, Alexandru Drimbarean, James McDermott, Colm O'Riordan, (参考訳) 本稿では、畳み込みニューラルネットワーク(ConvNets)内のアーキテクチャ探索問題として最適量子化をフレーミングすることにより、従来の最先端手法とは異なる低ビット(すなわち4ビット以下)量子化の新たなパラダイムを探求する。 我々のフレームワークは \textbf{CoRa} (Optimal Quantization Residual \textbf{Co}nvolutional Operator Low-\textbf{Ra}nk Adaptation) と呼ばれ、2つの重要な側面によって動機付けられている。 第一に、量子化の残留知識、すなわち浮動小数点の重みと量子化の重みの間の失われた情報は、長い間研究コミュニティによって無視されてきた。 臨界残留知識の再生は、無限小の余剰パラメータコストで、トレーニングなしで性能劣化を反転させることができる。 第二に、最先端の量子化フレームワークは、性能劣化に対処するために最適な量子化重みを探索する。 しかし、重量最適化における広大な探索空間は、大規模モデルの効率的な最適化に挑戦する。 例えば、最先端のBRECQはモデルを定量化するために2ドルの10^4$反復を必要とする。 基本的には既存の方法と異なるが、textbf{CoRa} は低ランクアダプタの最適アーキテクチャを探索し、重み空間よりも小さい探索空間内の臨界量子化残留知識を等級数で検索する。 低ランクアダプタは、以前の方法で捨てられた量子化残量に近似する。 我々は、ImageNet上で事前学習した複数のConvNetに対するアプローチを評価した。 \textbf{CoRa}は、1600ドルの画像を持つ小さなキャリブレーションセットで250ドル未満のイテレーションを使用することで、最先端の量子化トレーニングとポストトレーニング量子化ベースラインを4ドルと3ドルで比較して、同等のパフォーマンスを達成する。 したがって、textbf{CoRa} は、低ビット量子化における最適化効率の観点から、新しい最先端を確立する。

This paper explores a novel paradigm in low-bit (i.e. 4-bits or lower) quantization, differing from existing state-of-the-art methods, by framing optimal quantization as an architecture search problem within convolutional neural networks (ConvNets). Our framework, dubbed \textbf{CoRa} (Optimal Quantization Residual \textbf{Co}nvolutional Operator Low-\textbf{Ra}nk Adaptation), is motivated by two key aspects. Firstly, quantization residual knowledge, i.e. the lost information between floating-point weights and quantized weights, has long been neglected by the research community. Reclaiming the critical residual knowledge, with an infinitesimal extra parameter cost, can reverse performance degradation without training. Secondly, state-of-the-art quantization frameworks search for optimal quantized weights to address the performance degradation. Yet, the vast search spaces in weight optimization pose a challenge for the efficient optimization in large models. For example, state-of-the-art BRECQ necessitates $2 \times 10^4$ iterations to quantize models. Fundamentally differing from existing methods, \textbf{CoRa} searches for the optimal architectures of low-rank adapters, reclaiming critical quantization residual knowledge, within the search spaces smaller compared to the weight spaces, by many orders of magnitude. The low-rank adapters approximate the quantization residual weights, discarded in previous methods. We evaluate our approach over multiple pre-trained ConvNets on ImageNet. \textbf{CoRa} achieves comparable performance against both state-of-the-art quantization-aware training and post-training quantization baselines, in $4$-bit and $3$-bit quantization, by using less than $250$ iterations on a small calibration set with $1600$ images. Thus, \textbf{CoRa} establishes a new state-of-the-art in terms of the optimization efficiency in low-bit quantization.
翻訳日:2024-08-05 14:56:17 公開日:2024-08-01
# WHITE PAPER:GCGサフィックスを用いたデータ抽出の簡単な探索

WHITE PAPER: A Brief Exploration of Data Exfiltration using GCG Suffixes ( http://arxiv.org/abs/2408.00925v1 )

ライセンス: Link先を確認
Victor Valbuena, (参考訳) クロスプロンプト・インジェクション・アタック(XPIA)はデータ・エクスプロイトに有効な手法であり、利用が増加している。 この攻撃では、攻撃者は悪意のある命令を第三者のデータに注入し、LLMは、被害者であるユーザを支援する際に消費する可能性が高い。 XPIAはデータ流出の手段としてよく使われており、企業の平均データ漏洩の見積コストは450万ドル近くと見積もられている。 GCGサフィックス攻撃のような勾配に基づく攻撃が増加し、GCGサフィックスを使用するXPIAの発生確率が懸念される。 MicrosoftのAI Red Teamでの私の仕事の一環として、シミュレーションされたXPIAシナリオでインジェクションと組み合わせたGCGサフィックスを使用して実行可能な攻撃モデルを実演しました。 以上の結果から,GCG接尾辞の存在は,データ流出の確率を20%近く増加させる可能性があることが示唆された。

The cross-prompt injection attack (XPIA) is an effective technique that can be used for data exfiltration, and that has seen increasing use. In this attack, the attacker injects a malicious instruction into third party data which an LLM is likely to consume when assisting a user, who is the victim. XPIA is often used as a means for data exfiltration, and the estimated cost of the average data breach for a business is nearly $4.5 million, which includes breaches such as compromised enterprise credentials. With the rise of gradient-based attacks such as the GCG suffix attack, the odds of an XPIA occurring which uses a GCG suffix are worryingly high. As part of my work in Microsoft's AI Red Team, I demonstrated a viable attack model using a GCG suffix paired with an injection in a simulated XPIA scenario. The results indicate that the presence of a GCG suffix can increase the odds of successful data exfiltration by nearly 20%, with some caveats.
翻訳日:2024-08-05 14:56:17 公開日:2024-08-01
# NISQ量子コンピューティングのための耐雑音性と深さ近似加算器

Noise-Resilient and Reduced Depth Approximate Adders for NISQ Quantum Computing ( http://arxiv.org/abs/2408.00927v1 )

ライセンス: Link先を確認
Bhaskar Gaur, Travis S. Humble, Himanshu Thapliyal, (参考訳) NISQマシン時代は、主にノイズの緩和、エラーの制御、高忠実度操作の実行に重点を置いており、その結果、浅い回路深さとノイズロバスト性を必要としている。 近似コンピューティング(英: Approximate computing)は、マルチメディア、データマイニング、画像処理を含むエラー耐性アプリケーションのための完全正確な出力の必要性を緩和し、不正確な結果を生成する新しいコンピューティングパラダイムである。 NISQ量子コンピューティングにおける量子加算器回路のノイズレジリエンスの近似計算による改善について検討する。 ノイズ耐性を保ちつつ,5つの量子加算器の設計を提案し,その間に3つの設計が搬送され,一方2つは搬送されていない。 我々は、入力(パススルー設計)からのみSumを近似し、量子ゲートを必要としないため、深さがゼロとなるような新しい設計手法を用いてきた。 第2の設計スタイルでは、1つのCNOTゲートを使用してSUMを一定の深さのO(1)で近似する。 我々はIBM Qiskitで、熱、脱分極、振幅減衰、位相減衰、ビットフリップを含むノイズモデルの実験を行った。 一 キャリーバックなしの正確な量子リップルキャリー添加器と比較して、キャリーアウトなしの近似加算器は、8.34%から219.22%の忠実度を向上し、 (II) キャリーニングによる正確な量子リップルキャリー添加器と比較して, キャリーニングによる近似加算器は8.23%から371%に改善された。 さらに,提案した近似量子加算器を,様々な誤差指標を用いて評価する。

The "Noisy intermediate-scale quantum" NISQ machine era primarily focuses on mitigating noise, controlling errors, and executing high-fidelity operations, hence requiring shallow circuit depth and noise robustness. Approximate computing is a novel computing paradigm that produces imprecise results by relaxing the need for fully precise output for error-tolerant applications including multimedia, data mining, and image processing. We investigate how approximate computing can improve the noise resilience of quantum adder circuits in NISQ quantum computing. We propose five designs of approximate quantum adders to reduce depth while making them noise-resilient, in which three designs are with carryout, while two are without carryout. We have used novel design approaches that include approximating the Sum only from the inputs (pass-through designs) and having zero depth, as they need no quantum gates. The second design style uses a single CNOT gate to approximate the SUM with a constant depth of O(1). We performed our experimentation on IBM Qiskit on noise models including thermal, depolarizing, amplitude damping, phase damping, and bitflip: (i) Compared to exact quantum ripple carry adder without carryout the proposed approximate adders without carryout have improved fidelity ranging from 8.34% to 219.22%, and (ii) Compared to exact quantum ripple carry adder with carryout the proposed approximate adders with carryout have improved fidelity ranging from 8.23% to 371%. Further, the proposed approximate quantum adders are evaluated in terms of various error metrics.
翻訳日:2024-08-05 14:56:17 公開日:2024-08-01
# 機械学習の検証は誤りである

Verification of Machine Unlearning is Fragile ( http://arxiv.org/abs/2408.00929v1 )

ライセンス: Link先を確認
Binchi Zhang, Zihan Chen, Cong Shen, Jundong Li, (参考訳) プライバシーに関する懸念が機械学習の領域でエスカレートする中、データ所有者は機械学習を利用して機械学習モデルからデータを除去するオプションを選択できるようになった。 機械学習における透明性を高め、モデル提供者による潜在的な不正を避けるため、様々な検証戦略が提案されている。 これらの戦略により、データ所有者は、ターゲットデータがモデルから効果的に解放されたかどうかを確認することができる。 しかし、機械学習検証の安全性に関する我々の理解は、いまだに始まったばかりである。 本稿では、モデル提供者が、未学習とされるデータの情報を保持しながら、検証戦略を回避できるかどうかという新たな研究課題を考察する。 我々の調査は悲観的な答えをもたらす: \textit{the validation of machine unlearning is fragile}。 具体的には、モデル提供者間の潜在的な欠点に関する現在の検証戦略を2つのタイプに分類する。 その後、両タイプを回避できる2つの新しい非学習プロセスを紹介した。 実世界のデータセットを用いた理論的解析と実証実験により,本手法の有効性を検証した。 この研究は、機械学習検証の脆弱性と限界を強調し、機械学習の安全性に関するさらなる研究の道を開く。

As privacy concerns escalate in the realm of machine learning, data owners now have the option to utilize machine unlearning to remove their data from machine learning models, following recent legislation. To enhance transparency in machine unlearning and avoid potential dishonesty by model providers, various verification strategies have been proposed. These strategies enable data owners to ascertain whether their target data has been effectively unlearned from the model. However, our understanding of the safety issues of machine unlearning verification remains nascent. In this paper, we explore the novel research question of whether model providers can circumvent verification strategies while retaining the information of data supposedly unlearned. Our investigation leads to a pessimistic answer: \textit{the verification of machine unlearning is fragile}. Specifically, we categorize the current verification strategies regarding potential dishonesty among model providers into two types. Subsequently, we introduce two novel adversarial unlearning processes capable of circumventing both types. We validate the efficacy of our methods through theoretical analysis and empirical experiments using real-world datasets. This study highlights the vulnerabilities and limitations in machine unlearning verification, paving the way for further research into the safety of machine unlearning.
翻訳日:2024-08-05 14:56:17 公開日:2024-08-01
# GPUによる高データスループット強化学習の実現: データ駆動科学研究のためのドメインに依存しないフレームワーク

Enabling High Data Throughput Reinforcement Learning on GPUs: A Domain Agnostic Framework for Data-Driven Scientific Research ( http://arxiv.org/abs/2408.00930v1 )

ライセンス: Link先を確認
Tian Lan, Huan Wang, Caiming Xiong, Silvio Savarese, (参考訳) WarpSciは、高次元の観測や行動空間を特徴とする膨大なデータセットを用いて、複雑な環境に強化学習を適用する際に発生する重要なシステムのボトルネックを克服するために設計されたドメインに依存しないフレームワークである。 特に、我々のフレームワークは、CPUとGPU間のデータ転送の必要性を排除し、単一のまたは複数のGPU上で数千のシミュレーションを同時実行可能にする。 この高いデータスループットアーキテクチャは、複雑な環境モデルが一般的に必須であるデータ駆動科学研究において特に有利である。

We introduce WarpSci, a domain agnostic framework designed to overcome crucial system bottlenecks encountered in the application of reinforcement learning to intricate environments with vast datasets featuring high-dimensional observation or action spaces. Notably, our framework eliminates the need for data transfer between the CPU and GPU, enabling the concurrent execution of thousands of simulations on a single or multiple GPUs. This high data throughput architecture proves particularly advantageous for data-driven scientific research, where intricate environment models are commonly essential.
翻訳日:2024-08-05 14:56:17 公開日:2024-08-01
# 視覚言語モデルによる建築環境のゼロショットアノテーション化に向けて(ビジョンペーパー)

Towards Zero-Shot Annotation of the Built Environment with Vision-Language Models (Vision Paper) ( http://arxiv.org/abs/2408.00932v1 )

ライセンス: Link先を確認
Bin Han, Yiwei Yang, Anat Caspi, Bill Howe, (参考訳) 道路や歩道だけでなく、自転車レーン、目印のない横断歩道、ランプとカットの遮断、障害物、交通信号、標識、街路標識、穴など、建設環境の忠実度の高いデジタル表現が必要である。 直接検査や手動のアノテーションは、大規模では違法に高価である。 従来の機械学習手法では、十分な性能を得るために、かなりのアノテートされたトレーニングデータが必要である。 本稿では,視覚言語モデルについて,衛星画像から多種多様な都市特徴をアノテートするメカニズムとして,人間のアノテーションへの依存を低減し,大規模なトレーニングセットを生成するメカニズムとして考察する。 これらのモデルは、人間の視点で捉えた画像に共通のオブジェクトを記述するという印象的な結果を得たが、それらのトレーニングセットは、構築された環境に密な特徴を示す強力なシグナルを含まないため、これらの設定でのそれらのパフォーマンスは不明確である。 本稿では,最先端のビジョン言語モデルと,原画像と独立してセグメント要素を考慮させるプロンプト戦略の変種を組み合わせた概念実証を行う。 ストップラインとアップテーブルという2つの都市特性の実験は、直接ゼロショットプロンプトがほぼゼロの画像に正しくアノテートする一方で、プレセグメンテーション戦略は、画像にアノテートを約40%の精度でアノテートすることができることを示している。 本報告では, 建設環境の自動アノテーションにおける新たな研究課題として, 広範囲及び多様な環境において, 株式, アクセシビリティ, 安全性を向上する方法について述べる。

Equitable urban transportation applications require high-fidelity digital representations of the built environment: not just streets and sidewalks, but bike lanes, marked and unmarked crossings, curb ramps and cuts, obstructions, traffic signals, signage, street markings, potholes, and more. Direct inspections and manual annotations are prohibitively expensive at scale. Conventional machine learning methods require substantial annotated training data for adequate performance. In this paper, we consider vision language models as a mechanism for annotating diverse urban features from satellite images, reducing the dependence on human annotation to produce large training sets. While these models have achieved impressive results in describing common objects in images captured from a human perspective, their training sets are less likely to include strong signals for esoteric features in the built environment, and their performance in these settings is therefore unclear. We demonstrate proof-of-concept combining a state-of-the-art vision language model and variants of a prompting strategy that asks the model to consider segmented elements independently of the original image. Experiments on two urban features -- stop lines and raised tables -- show that while direct zero-shot prompting correctly annotates nearly zero images, the pre-segmentation strategies can annotate images with near 40% intersection-over-union accuracy. We describe how these results inform a new research agenda in automatic annotation of the built environment to improve equity, accessibility, and safety at broad scale and in diverse environments.
翻訳日:2024-08-05 14:56:17 公開日:2024-08-01
# カオスはカーパラメトリック発振器の励起状態量子相転移を破壊する

Chaos destroys the excited state quantum phase transition of the Kerr parametric oscillator ( http://arxiv.org/abs/2408.00934v1 )

ライセンス: Link先を確認
Ignacio García-Mata, Miguel A. Prado Reynoso, Rodrigo G. Cortiñas, Jorge Chávez-Carlos, Victor S. Batista, Lea F. Santos, Diego A. Wisniacki, (参考訳) 基本物理学や量子技術に興味を持つカーパラメトリック発振器は、不安定な古典周期軌道から生じる励起状態量子相転移(ESQPT)を示す。 このタイプのESQPTの主符号は、位相空間を2つの異なる領域に分割する古典的セパラトリクスのエネルギーの近傍のレベル密度の特異点である。 セパラトリクスの下のエネルギーを持つ量子状態は、局所的なデコヒーレンスプロセスから保護する猫のような構造を示すため、量子技術に有用である。 本研究では,外部駆動とシステムの非線形性の間の相互作用から生じるカオスがESQPTを破壊し,最終的に猫の状態を除去することを示す。 本研究は, より大きな非線形性を持つ新しいパラメトリック発振器の設計における理論モデルの解析の重要性を実証するものである。

The driven Kerr parametric oscillator, of interest to fundamental physics and quantum technologies, exhibits an excited state quantum phase transition (ESQPT) originating in an unstable classical periodic orbit. The main signature of this type of ESQPT is a singularity in the level density in the vicinity of the energy of the classical separatrix that divides the phase space into two distinct regions. The quantum states with energies below the separatrix are useful for quantum technologies, because they show a cat-like structure that protects them against local decoherence processes. In this work, we show how chaos arising from the interplay between the external drive and the nonlinearities of the system destroys the ESQPT and eventually eliminates the cat states. Our results demonstrate the importance of the analysis of theoretical models for the design of new parametric oscillators with ever larger nonlinearities.
翻訳日:2024-08-05 14:56:17 公開日:2024-08-01
# 量子フーリエ変換に基づく多重制御単一量子ユニタリゲート

Multi-controlled single-qubit unitary gates based on the quantum Fourier transform ( http://arxiv.org/abs/2408.00935v1 )

ライセンス: Link先を確認
Vladimir V. Arsoski, (参考訳) マルチコントロール (MC) 特殊ユニタリ (U) ゲートは量子アルゴリズムや回路で広く使われている。 MCUゲートの非要素$C-R_x$と$C-U^{1/2^{m-1}}$ゲートは、実装回路の深さの線形関数となる。 我々のアプローチは、アダマールと制御相ゲートからなる量子フーリエ変換(QFT)を用いたマルチコントロールX(MCX)ゲートの2つの一般化に基づいている。 真の量子コンピュータで使用されるネイティブゲートセットでは、制御相ゲートの分解は$C-R_x$の2倍の複雑さであり、QFTから導出される回路のおよそ2倍の利点をもたらす。 第1の一般化は、ターゲットキュービットに作用する制御ゲートを変更することに基づいている。 これらのゲートは最も複雑であり、最先端の回路でも使用されている。 我々の回路は、最も効率のよいゲートに比べて、基本ゲートの数が半分であり、結果として誤差が小さくなる可能性がある。 しかし、時間複雑性の利点はMCXゲートのように2倍ではない。 第2の一般化はZYZ分解に依存し、分解に必要な2つのマルチコントロールXゲートを実装するために1つのQFTベースの回路のみを使用する。 この回路の複雑さはQFTベースのMCXとほぼ等しいため、我々のMCU実装は既存のどの回路よりも優れている。 最もよく知られた最適化アルゴリズムの優位性は、真の量子デバイスで実行するために組み立てられたトランスパイル回路を比較することで示される。

Multi-controlled (MC) special unitary (U) gates are widely used in quantum algorithms and circuits. Few state-of-the-art decompositions of MCU gates use non-elementary $C-R_x$ and $C-U^{1/2^{m-1}}$ gates resulting in a linear function for the depths of an implemented circuit on the number of these gates. Our approach is based on two generalizations of the multi-controlled X (MCX) gate that uses the quantum Fourier transform (QFT) comprised of Hadamard and controlled-phase gates. For the native gate set used in a genuine quantum computer, the decomposition of the controlled-phase gate is twice as less complex as $C-R_x$, which can result in an approximately double advantage of circuits derived from the QFT. The first generalization is based on altering the controlled gates acting on the target qubit. These gates are the most complex and are also used in the state-of-the-art circuits. Our circuit uses half the number of elementary gates compared to the most efficient one, potentially resulting in a smaller error. However, the advantage in time complexity is not twofold, as it was in MCX gates. The second generalization relies on the ZYZ decomposition and uses only one QFT-based circuit to implement the two multi-controlled X gates needed for the decomposition. Since the complexities of this circuit are approximately equal to the QFT-based MCX, our MCU implementation is more advanced than any known existing. The supremacy over the best-known optimized algorithm will be demonstrated by comparing transpiled circuits assembled for execution in a genuine quantum device.
翻訳日:2024-08-05 14:56:17 公開日:2024-08-01
# CIResDiff : 特発性肺線維症進展予測のための臨床応用残留拡散モデル

CIResDiff: A Clinically-Informed Residual Diffusion Model for Predicting Idiopathic Pulmonary Fibrosis Progression ( http://arxiv.org/abs/2408.00938v1 )

ライセンス: Link先を確認
Caiwen Jiang, Xiaodan Xing, Zaixin Ou, Mianxin Liu, Walsh Simon, Guang Yang, Dinggang Shen, (参考訳) 特発性肺線維症(IPF)の進行は患者の死亡率に大きく相関する。 IPFの早期検出は、タイムリーな治療を開始するために重要であり、疾患の進行を効果的に遅らせる可能性がある。 しかし、現在の臨床基準では、1年間隔で2回のCTスキャンを必要とする疾患の進行を規定しており、ジレンマを呈している。 そこで本研究では,初回CTスキャンから患者の追跡CTスキャンを生成することにより,IPFの進行を正確に予測する新しい拡散モデルを開発した。 具体的には、臨床先行知識から従来の拡散モデルの改善を調整し、CIResDiffと呼ばれる臨床インフォームド残差拡散モデルを提案する。 CIResDiffの重要なイノベーションは 1)2つのCTスキャンの肺領域を異なる時間で整列させて、発生困難を低減させるための対象領域事前登録を行う。 2) 従来の拡散法ではなく残留拡散法を採用することにより, ほぼ同一の解剖学的内容ではなく, 2つのCTスキャンの差(病変)により焦点を絞ることができる。 3)CLIP技術に基づく臨床応用プロセスの設計により,診断と高い関連性を有する肺機能情報を逆工程に組み込んで生成を支援する。 臨床データに対する大規模な実験により,本手法は最先端の手法より優れ,IPFの進行を効果的に予測できることが示された。

The progression of Idiopathic Pulmonary Fibrosis (IPF) significantly correlates with higher patient mortality rates. Early detection of IPF progression is critical for initiating timely treatment, which can effectively slow down the advancement of the disease. However, the current clinical criteria define disease progression requiring two CT scans with a one-year interval, presenting a dilemma: a disease progression is identified only after the disease has already progressed. To this end, in this paper, we develop a novel diffusion model to accurately predict the progression of IPF by generating patient's follow-up CT scan from the initial CT scan. Specifically, from the clinical prior knowledge, we tailor improvements to the traditional diffusion model and propose a Clinically-Informed Residual Diffusion model, called CIResDiff. The key innovations of CIResDiff include 1) performing the target region pre-registration to align the lung regions of two CT scans at different time points for reducing the generation difficulty, 2) adopting the residual diffusion instead of traditional diffusion to enable the model focus more on differences (i.e., lesions) between the two CT scans rather than the largely identical anatomical content, and 3) designing the clinically-informed process based on CLIP technology to integrate lung function information which is highly relevant to diagnosis into the reverse process for assisting generation. Extensive experiments on clinical data demonstrate that our approach can outperform state-of-the-art methods and effectively predict the progression of IPF.
翻訳日:2024-08-05 14:56:17 公開日:2024-08-01
# 血栓摘出後脳出血予測のためのデュアルタスク相互学習フレームワーク

A dual-task mutual learning framework for predicting post-thrombectomy cerebral hemorrhage ( http://arxiv.org/abs/2408.00940v1 )

ライセンス: Link先を確認
Caiwen Jiang, Tianyu Wang, Xiaodan Xing, Mianxin Liu, Guang Yang, Zhongxiang Ding, Dinggang Shen, (参考訳) 脳虚血性脳卒中は、脳血管の閉塞によって引き起こされる重篤な疾患であり、酸素欠乏による脳組織の死につながる可能性がある。 血栓摘出術は即時効果のため虚血性脳梗塞の一般的な治療法となっている。 しかし、術後の脳出血のリスクも伴う。 臨床的には、術後0-72時間以内に複数のCTスキャンを用いて出血をモニターする。 しかし、このアプローチは患者に放射線を照射し、脳出血の検出を遅らせる可能性がある。 このジレンマに対処するために,患者のCTスキャンのみを用いて術後脳出血を測定するための新しい予測枠組みを提案する。 具体的には、初回CTスキャンを入力とし、術後脳出血の発生を予測するために、後続CTスキャンと予後ラベルの両方を同時に推定するデュアルタスク相互学習フレームワークを提案する。 提案手法は,2つの注意機構,すなわち自己注意と対話的注意を含む。 具体的には、自己注意機構により、画像内の高密度領域(すなわち潜在的な出血領域)により集中することができる。 対話型アテンション機構は、関連した生成タスクと分類タスクの依存関係をさらにモデル化し、個別に実行される場合よりも、両方のタスクがより良く実行されるようにする。 本手法は, 臨床データに基づいて, 最新診断法よりも追跡CTを精度良く生成し, 予後ラベルの予測に86.37%の精度を達成できる。 本研究は,血栓摘出後脳出血の経時的スクリーニングに寄与し,血栓摘出術および他の脳卒中関連手術の経過を著しく改善する可能性がある。

Ischemic stroke is a severe condition caused by the blockage of brain blood vessels, and can lead to the death of brain tissue due to oxygen deprivation. Thrombectomy has become a common treatment choice for ischemic stroke due to its immediate effectiveness. But, it carries the risk of postoperative cerebral hemorrhage. Clinically, multiple CT scans within 0-72 hours post-surgery are used to monitor for hemorrhage. However, this approach exposes radiation dose to patients, and may delay the detection of cerebral hemorrhage. To address this dilemma, we propose a novel prediction framework for measuring postoperative cerebral hemorrhage using only the patient's initial CT scan. Specifically, we introduce a dual-task mutual learning framework to takes the initial CT scan as input and simultaneously estimates both the follow-up CT scan and prognostic label to predict the occurrence of postoperative cerebral hemorrhage. Our proposed framework incorporates two attention mechanisms, i.e., self-attention and interactive attention. Specifically, the self-attention mechanism allows the model to focus more on high-density areas in the image, which are critical for diagnosis (i.e., potential hemorrhage areas). The interactive attention mechanism further models the dependencies between the interrelated generation and classification tasks, enabling both tasks to perform better than the case when conducted individually. Validated on clinical data, our method can generate follow-up CT scans better than state-of-the-art methods, and achieves an accuracy of 86.37% in predicting follow-up prognostic labels. Thus, our work thus contributes to the timely screening of post-thrombectomy cerebral hemorrhage, and could significantly reform the clinical process of thrombectomy and other similar operations related to stroke.
翻訳日:2024-08-05 14:56:17 公開日:2024-08-01
# 都市部における交差点におけるデータ駆動型交通シミュレーション

Data-Driven Traffic Simulation for an Intersection in a Metropolis ( http://arxiv.org/abs/2408.00943v1 )

ライセンス: Link先を確認
Chengbo Zang, Mehmet Kerem Turkcan, Gil Zussman, Javad Ghaderi, Zoran Kostic, (参考訳) 本稿では,大都市交差点の交通をモデル化するための新しいデータ駆動シミュレーション環境を提案する。 長期にわたって収集された実世界の追跡データを用いて,従来の捕獲が困難であったエージェントの相互作用や環境制約を学習するために,軌道予測モデルを訓練する。 新たなエージェントの軌道は、まず空間的および時間的生成分布からサンプリングして粗大に生成され、続いて最先端の軌道予測モデルを用いて洗練される。 シミュレーションは、自律的に、または、生成分布に条件付けされた明示的な人間の制御の下で実行することができる。 各種モデル構成の実験について述べる。 反復予測スキームの下で、ウェイポイント制御されたTrajNet++モデルはNVIDIA A100 GPU上で20FPSで0.36ファイナル変位誤差(FDE)を得た。

We present a novel data-driven simulation environment for modeling traffic in metropolitan street intersections. Using real-world tracking data collected over an extended period of time, we train trajectory forecasting models to learn agent interactions and environmental constraints that are difficult to capture conventionally. Trajectories of new agents are first coarsely generated by sampling from the spatial and temporal generative distributions, then refined using state-of-the-art trajectory forecasting models. The simulation can run either autonomously, or under explicit human control conditioned on the generative distributions. We present the experiments for a variety of model configurations. Under an iterative prediction scheme, the way-point-supervised TrajNet++ model obtained 0.36 Final Displacement Error (FDE) in 20 FPS on an NVIDIA A100 GPU.
翻訳日:2024-08-05 14:46:34 公開日:2024-08-01
# AIにおける完全不確かさの一般化 : 理論的研究

Generalisation of Total Uncertainty in AI: A Theoretical Study ( http://arxiv.org/abs/2408.00946v1 )

ライセンス: Link先を確認
Keivan Shariatmadar, (参考訳) AIは、非常に正確な結果を得るために不確実性に対処しています。 これは、適度に小さなデータセットやデータセットの変動によってさらに悪化する。 これは意思決定、予測、学習メカニズムに大きな影響を与えます。 この研究は、確立された作品、最新の開発、実践的応用からアイデアを引き出すことによって、AI内に存在する不確実性の性質を解き放つことを目的としており、AIにおける新たな完全不確実性定義を提供する。 創発理論から現在の方法論に至るまで,本論文では,AIにおける完全不確実性だけでなく,その意味や価値をさまざまな領域にわたって理解する上でも有効な,より高度な不確実性を扱うための統合的な視点を提供する。

AI has been dealing with uncertainty to have highly accurate results. This becomes even worse with reasonably small data sets or a variation in the data sets. This has far-reaching effects on decision-making, forecasting and learning mechanisms. This study seeks to unpack the nature of uncertainty that exists within AI by drawing ideas from established works, the latest developments and practical applications and provide a novel total uncertainty definition in AI. From inception theories up to current methodologies, this paper provides an integrated view of dealing with better total uncertainty as well as complexities of uncertainty in AI that help us understand its meaning and value across different domains.
翻訳日:2024-08-05 14:46:34 公開日:2024-08-01
# 都市間交通管理における大規模言語モデル(LLM)の活用:混在交通シナリオを事例として

Leveraging Large Language Models (LLMs) for Traffic Management at Urban Intersections: The Case of Mixed Traffic Scenarios ( http://arxiv.org/abs/2408.00948v1 )

ライセンス: Link先を確認
Sari Masri, Huthaifa I. Ashqar, Mohammed Elhenawy, (参考訳) 都市交通管理は、動的な環境のために重大な課題に直面しており、従来のアルゴリズムは、リアルタイムでこの環境に迅速に適応できず、起こりうる衝突を予測できない。 本研究では,大規模言語モデル(LLM),特にGPT-4o-miniの都市交差点における交通管理改善能力について検討する。 我々はGPT-4o-miniを雇い、様々な基本的なシナリオに対してリアルタイムで交差点での衝突を分析し、予測し、検出し、解決した。 本研究の重要な成果は,LLMが実時間解析を提供することで,交通効率と安全性を向上させるシナリオを論理的に推論し,理解することができるかどうかである。 この研究は、よりインテリジェントで適応的なシステムを構築する都市交通管理におけるLLMの可能性を強調している。 その結果, GPT-4o-miniは交通量, 混雑量, 混合速度条件の衝突を効果的に検出し, 解決することができた。 複数の交差点と障害物や歩行者の複雑なシナリオは、紛争管理にも成功した。 その結果,LLMの統合により,より安全で効率的な都市交差点管理のための交通制御の有効性が向上することが示唆された。

Urban traffic management faces significant challenges due to the dynamic environments, and traditional algorithms fail to quickly adapt to this environment in real-time and predict possible conflicts. This study explores the ability of a Large Language Model (LLM), specifically, GPT-4o-mini to improve traffic management at urban intersections. We recruited GPT-4o-mini to analyze, predict position, detect and resolve the conflicts at an intersection in real-time for various basic scenarios. The key findings of this study to investigate whether LLMs can logically reason and understand the scenarios to enhance the traffic efficiency and safety by providing real-time analysis. The study highlights the potential of LLMs in urban traffic management creating more intelligent and more adaptive systems. Results showed the GPT-4o-mini was effectively able to detect and resolve conflicts in heavy traffic, congestion, and mixed-speed conditions. The complex scenario of multiple intersections with obstacles and pedestrians saw successful conflict management as well. Results show that the integration of LLMs promises to improve the effectiveness of traffic control for safer and more efficient urban intersection management.
翻訳日:2024-08-05 14:46:34 公開日:2024-08-01
# 等変ニューラルネットワークとピースワイズ線形表現理論

Equivariant neural networks and piecewise linear representation theory ( http://arxiv.org/abs/2408.00949v1 )

ライセンス: Link先を確認
Joel Gibson, Daniel Tubbenhauer, Geordie Williamson, (参考訳) 等価ニューラルネットワークは対称性を持つニューラルネットワークである。 群表現の理論により、同変ニューラルネットワークの層を単純な表現に分解する。 非線形活性化関数は、単純表現の間の興味深い非線形同変写像をもたらす。 例えば、正則線型単位 (rerectified linear unit, ReLU) は、分割線型写像をもたらす。 これらの考察は、フーリエ級数(英語版)を一般化した同変ニューラルネットワークのフィルタリングにつながることを示す。 この観察は、同変ニューラルネットワークの解釈に有用なツールとなるかもしれない。

Equivariant neural networks are neural networks with symmetry. Motivated by the theory of group representations, we decompose the layers of an equivariant neural network into simple representations. The nonlinear activation functions lead to interesting nonlinear equivariant maps between simple representations. For example, the rectified linear unit (ReLU) gives rise to piecewise linear maps. We show that these considerations lead to a filtration of equivariant neural networks, generalizing Fourier series. This observation might provide a useful tool for interpreting equivariant neural networks.
翻訳日:2024-08-05 14:46:34 公開日:2024-08-01
# PrivateGaze: Black-box Mobile Gaze Trackingサービスにおけるユーザプライバシ保護

PrivateGaze: Preserving User Privacy in Black-box Mobile Gaze Tracking Services ( http://arxiv.org/abs/2408.00950v1 )

ライセンス: Link先を確認
Lingyu Du, Jinyuan Jia, Xucong Zhang, Guohao Lan, (参考訳) 視線は人間の注意と認知過程に関する豊富な情報を含んでいる。 この能力は、多くのユビキタスアプリケーションにとって重要なイネーブラーである視線追跡(gage tracking)として知られる基礎技術を生み出し、使い易い視線推定サービスの開発を促している。 実際、タブレットやスマートフォン上のユビキタスカメラを利用することで、ユーザーは容易に多くの視線推定サービスにアクセスすることができる。 これらのサービスを利用するには、ユーザーは視線推定器にフルフェイス画像を提供しなければならない。 これは、特に悪意のあるサービスプロバイダが大量の顔画像を収集して機密性の高いユーザー属性を分類する場合、ユーザにとって重大なプライバシー上の脅威となる。 本研究では,ブラックボックスの視線追跡サービスにおいて,視線推定性能を損なうことなくユーザのプライバシを効果的に保護する手法であるPrivateGazeを提案する。 具体的には,プライバシ情報を含まないまま視線推定に有効である全顔画像を難読化したプライバシ保護者を訓練するための新しい枠組みを提案する。 4つのデータセットの評価により、難読化画像は、本人性や性別などのユーザの個人情報を、不正な属性分類から保護できることが示された。 一方、ブラックボックスの視線推定器を直接入力として使用すると、難読化画像は従来の非保護フルフェイス画像と同等のトラッキング性能が得られる。

Eye gaze contains rich information about human attention and cognitive processes. This capability makes the underlying technology, known as gaze tracking, a critical enabler for many ubiquitous applications and has triggered the development of easy-to-use gaze estimation services. Indeed, by utilizing the ubiquitous cameras on tablets and smartphones, users can readily access many gaze estimation services. In using these services, users must provide their full-face images to the gaze estimator, which is often a black box. This poses significant privacy threats to the users, especially when a malicious service provider gathers a large collection of face images to classify sensitive user attributes. In this work, we present PrivateGaze, the first approach that can effectively preserve users' privacy in black-box gaze tracking services without compromising gaze estimation performance. Specifically, we proposed a novel framework to train a privacy preserver that converts full-face images into obfuscated counterparts, which are effective for gaze estimation while containing no privacy information. Evaluation on four datasets shows that the obfuscated image can protect users' private information, such as identity and gender, against unauthorized attribute classification. Meanwhile, when used directly by the black-box gaze estimator as inputs, the obfuscated images lead to comparable tracking performance to the conventional, unprotected full-face images.
翻訳日:2024-08-05 14:46:34 公開日:2024-08-01
# 顧客体験の変容を支援するためのデジタル能力評価

Digital capabilities assessment for supporting the transformation of the customer experience ( http://arxiv.org/abs/2408.00954v1 )

ライセンス: Link先を確認
Munoz Leonardo, Oscar Avila, (参考訳) ほとんどの組織は、自分たちの業界に必要な適切なデジタル能力を得るために、現在ますます巨額の資金を投資している。 組織が最も進歩したと感じている領域は、データ分析、ソーシャルメディア、位置情報ベースのマーケティング、モバイルチャネルなどの側面を含む、顧客エクスペリエンスの改善である。 この側面は、新型コロナウイルスのパンデミックの勃発以来、組織の生き残りにとって最も重要なものとなった。 多くは達成されているが、多くの組織はまだ満足していない。 前進する上で大きな問題の1つは、学業と産業の成熟度モデルにおける文学の欠如であり、組織は顧客と関わり合うデジタル能力の観点から現在の状況を理解でき、またこの領域で改善するための進化の道筋を計画できる。 この欠如を補うために,本論文では,顧客ライフサイクルを通じて,顧客エクスペリエンスとエンゲージメントを改善するために,組織がディジタル能力を評価することができる成熟度モデルの設計と検証について述べる。

Most of organizations are increasingly investing huge amounts of money today in order to have the right digital capabilities required for their industry. The area where organisations feel they have made the most progress is in improving the customer experience, which encompasses aspects such as data analytics, social media, location-based marketing, mobile channels among others. This aspect became the most important for the survival of organisations since the outbreak of the Covid-19 pandemic. While much has been achieved, many organisations are still not satisfied. One of the major problems in moving forward is the lack of literature in both academia and industry on maturity models allowing organisations to understand their current state in terms of digital capabilities to engage with customers, as well as to plan the evolutionary path to improve in this area. To fulfil this lack, this paper presents the design and validation of a maturity model that enables organizations to assess their digital capabilities in order to improve customer experience and engagement throughout the customer lifecycle.
翻訳日:2024-08-05 14:46:34 公開日:2024-08-01
# 分散ガウス過程に対する最適重み付き集約モデル

Aggregation Models with Optimal Weights for Distributed Gaussian Processes ( http://arxiv.org/abs/2408.00955v1 )

ライセンス: Link先を確認
Haoyuan Chen, Rui Tuo, (参考訳) ガウス過程(GP)モデルは、予測精度とモデリングの柔軟性のために近年ますます注目を集めている。 大規模データセットにおけるGPモデルの計算負担に対処するため,GPの分散学習がよく採用されている。 分散GPの現在のアグリゲーションモデルは、GPエキスパート間の相関を組み込む際には、時間効率が良くない。 本研究では,分散GPにおける集約予測のための新しい手法を提案する。 この手法は、正確かつスパースな変分GPの両方に適している。 提案手法は, 専門家間の相関関係を取り入れ, 管理可能な計算条件で予測精度を向上する。 実証的な研究によって実証されたように、提案手法は、最先端の一貫した集約モデルよりも少ない時間でより安定した予測をもたらす。

Gaussian process (GP) models have received increasingly attentions in recent years due to their superb prediction accuracy and modeling flexibility. To address the computational burdens of GP models for large-scale datasets, distributed learning for GPs are often adopted. Current aggregation models for distributed GPs are not time-efficient when incorporating correlations between GP experts. In this work, we propose a novel approach for aggregated prediction in distributed GPs. The technique is suitable for both the exact and sparse variational GPs. The proposed method incorporates correlations among experts, leading to better prediction accuracy with manageable computational requirements. As demonstrated by empirical studies, the proposed approach results in more stable predictions in less time than state-of-the-art consistent aggregation models.
翻訳日:2024-08-05 14:46:34 公開日:2024-08-01
# 制約リフティングによるモデル製品ラインのジェネリック解析

Generic Analysis of Model Product Lines via Constraint Lifting ( http://arxiv.org/abs/2008.11427v2 )

ライセンス: Link先を確認
Andreas Bayha, Vincent Aravantinos, (参考訳) 正しければ、生成可能なすべての変種は、いくつかの制約を満たす必要があります。 すべての変種が正しい(例えば well-typed)ことを確実にするためには、興味のある変種を個別にチェックするか、あるいはすべての制約に特有な複雑な積線解析アルゴリズムを思いつくかの2つの方法がある。 本稿では,この問題を一般化し,制約が生成可能なすべての変種に対して同時に成立するかどうかを確認する機構を提案する。 この論文の主な貢献は、すべての変種によって満たされる制約を仮定し、製品ラインの制約から(リフト)を生成する関数である。 これらの持ち上げられた制約は、モデル製品ラインで直接チェックできるため、すべての変種に対して同時に検証される。 リフトは非常に一般的な方法で定式化されており、SMTの解法や定理証明のような一般的なアルゴリズムをモジュラー方式で利用することができる。 本稿では,モデル製品ラインと制約を自動的に翻訳することで,SMT解決を用いた昇降制約の検証方法を示す。 本手法の適用性は工業ケーススタディで実証され,本手法をドメイン固有モデリング言語に適用して製造計画を行う。 最後に、ランタイム分析は、BMW GroupとMieleの製品計画データを用いて、異なるモデル製品ラインを分析してスケーラビリティを示す。

Engineering a product-line is more than just describing a product-line: to be correct, every variant that can be generated must satisfy some constraints. To ensure that all such variants will be correct (e.g. well-typed) there are only two ways: either to check the variants of interest individually or to come up with a complex product-line analysis algorithm, specific to every constraint. In this paper, we address a generalization of this problem: we propose a mechanism that allows to check whether a constraint holds simultaneously for all variants which might be generated. The main contribution of this paper is a function that assumes constraints that shall be fulfilled by all variants and generates ("lifts") out of them constraints for the product-line. These lifted constraints can then be checked directly on a model product-line, thus simultaneously be verified for all variants. The lifting is formulated in a very general manner, which allows to make use of generic algorithms like SMT solving or theorem proving in a modular way. We show how to verify lifted constraints using SMT solving by automatically translating model product-lines and constraints. The applicability of the approach is demonstrated with an industrial case study, in which we apply our lifting to a domain specific modelling language for manufacturing planning. Finally, a runtime analysis shows scalability by analyzing different model product-lines with production planning data from the BMW Group and Miele.
翻訳日:2024-08-05 01:55:24 公開日:2024-08-01
# OmniParser for Pure Vision Based GUI Agent

OmniParser for Pure Vision Based GUI Agent ( http://arxiv.org/abs/2408.00203v1 )

ライセンス: Link先を確認
Yadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah, (参考訳) 近年の大規模視覚言語モデルの成功は,エージェントシステムをユーザインタフェース上で動作させる大きな可能性を示している。 しかし、GPT-4Vのようなパワーマルチモーダルモデルは、様々なアプリケーションにまたがる複数のオペレーティングシステムの汎用エージェントとして、強靭なスクリーン解析技術が欠如していることから、大半が過小評価されている。 1) ユーザインタフェース内の対話可能なアイコンを確実に識別し、 2)スクリーンショット中の様々な要素の意味を理解し,その動作を画面上の対応する領域と正確に関連付ける。 これらのギャップを埋めるために、ユーザインターフェースのスクリーンショットを構造化要素に解析する包括的な方法である \textsc{OmniParser} を導入する。 まず、人気のあるWebページとアイコン記述データセットを用いて、対話可能なアイコン検出データセットをキュレートした。 これらのデータセットは、画面上の相互作用可能な領域を解析する検出モデルと、検出された要素の機能的セマンティクスを抽出するキャプションモデルである。 textsc{OmniParser}はScreenSpotベンチマークにおけるGPT-4Vのパフォーマンスを大幅に改善する。 Mind2Web と AITW ベンチマークでは、スクリーンショットのみを入力した \textsc{OmniParser} が、スクリーンショット以外の追加情報を必要とする GPT-4V ベースラインを上回っている。

The recent success of large vision language models shows great potential in driving the agent system operating on user interfaces. However, we argue that the power multimodal models like GPT-4V as a general agent on multiple operating systems across different applications is largely underestimated due to the lack of a robust screen parsing technique capable of: 1) reliably identifying interactable icons within the user interface, and 2) understanding the semantics of various elements in a screenshot and accurately associate the intended action with the corresponding region on the screen. To fill these gaps, we introduce \textsc{OmniParser}, a comprehensive method for parsing user interface screenshots into structured elements, which significantly enhances the ability of GPT-4V to generate actions that can be accurately grounded in the corresponding regions of the interface. We first curated an interactable icon detection dataset using popular webpages and an icon description dataset. These datasets were utilized to fine-tune specialized models: a detection model to parse interactable regions on the screen and a caption model to extract the functional semantics of the detected elements. \textsc{OmniParser} significantly improves GPT-4V's performance on ScreenSpot benchmark. And on Mind2Web and AITW benchmark, \textsc{OmniParser} with screenshot only input outperforms the GPT-4V baselines requiring additional information outside of screenshot.
翻訳日:2024-08-04 22:04:56 公開日:2024-08-01
# 文単位の音声要約: LM知識蒸留を用いたタスク,データセット,エンドツーエンドモデリング

Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation ( http://arxiv.org/abs/2408.00205v1 )

ライセンス: Link先を確認
Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Masato Mimura, Takatomo Kano, Atsunori Ogawa, Marc Delcroix, (参考訳) 本稿では,音声文書からテキスト要約を文単位に生成する,文単位の音声要約(Sen-SSum)という新しい手法を提案する。 Sen-SSumは、自動音声認識(ASR)のリアルタイム処理と、音声要約の簡潔さを組み合わせる。 このアプローチを探索するため,Sen-SSumにはMega-SSumとCSJ-SSumの2つのデータセットを提示する。 これらのデータセットを用いて、2種類のトランスフォーマーモデルを評価する。 1)ASRと強力なテキスト要約モデルを組み合わせたカスケードモデル、及び 2) 音声を直接テキスト要約に変換するエンド・ツー・エンド(E2E)モデル。 E2Eモデルは計算効率の良いモデルを開発するのに魅力があるが、カスケードモデルよりもパフォーマンスが悪くなっている。 そこで我々は,カスケードモデルにより生成された擬似サマリーを用いたE2Eモデルの知識蒸留を提案する。 本実験により, この知識蒸留は両データセットのE2Eモデルの性能を効果的に向上することが示された。

This paper introduces a novel approach called sentence-wise speech summarization (Sen-SSum), which generates text summaries from a spoken document in a sentence-by-sentence manner. Sen-SSum combines the real-time processing of automatic speech recognition (ASR) with the conciseness of speech summarization. To explore this approach, we present two datasets for Sen-SSum: Mega-SSum and CSJ-SSum. Using these datasets, our study evaluates two types of Transformer-based models: 1) cascade models that combine ASR and strong text summarization models, and 2) end-to-end (E2E) models that directly convert speech into a text summary. While E2E models are appealing to develop compute-efficient models, they perform worse than cascade models. Therefore, we propose knowledge distillation for E2E models using pseudo-summaries generated by the cascade models. Our experiments show that this proposed knowledge distillation effectively improves the performance of the E2E model on both datasets.
翻訳日:2024-08-04 22:04:56 公開日:2024-08-01
# 加法シュワルツプレコンディショナーの下でスパースグリッドでサンプリングするガウス過程

Gaussian Processes Sampling with Sparse Grids under Additive Schwarz Preconditioner ( http://arxiv.org/abs/2408.00206v1 )

ライセンス: Link先を確認
Haoyuan Chen, Rui Tuo, (参考訳) ガウス過程(GP)は非パラメトリックベイズモデリングにおいて広く使われ、様々な統計学や機械学習の応用において重要な役割を果たしている。 不確実な定量化の様々なタスクでは、GPのランダムなサンプルパスを生成することが興味深い。 GPサンプリングは高次元ガウス確率ベクトルを生成する必要があるため、コレスキー分解のような直接法が用いられる場合、計算的に困難である。 本稿では,GPモデルの前と後をランダムに実現するためのスケーラブルなアルゴリズムを提案する。 提案アルゴリズムは、スパースグリッドによる点近似と、計算複雑性を低減し、高速収束を保証する付加的なシュワルツプレコンディショナーを利用する。 提案手法の有効性と精度について, 実験と最近の研究との比較により検証した。

Gaussian processes (GPs) are widely used in non-parametric Bayesian modeling, and play an important role in various statistical and machine learning applications. In a variety tasks of uncertainty quantification, generating random sample paths of GPs is of interest. As GP sampling requires generating high-dimensional Gaussian random vectors, it is computationally challenging if a direct method, such as the Cholesky decomposition, is used. In this paper, we propose a scalable algorithm for sampling random realizations of the prior and posterior of GP models. The proposed algorithm leverages inducing points approximation with sparse grids, as well as additive Schwarz preconditioners, which reduce computational complexity, and ensure fast convergence. We demonstrate the efficacy and accuracy of the proposed method through a series of experiments and comparisons with other recent works.
翻訳日:2024-08-04 22:04:56 公開日:2024-08-01
# 人工知能を用いた新型コロナウイルスの予後 : システムレビューとメタ分析

Prognosis of COVID-19 using Artificial Intelligence: A Systematic Review and Meta-analysis ( http://arxiv.org/abs/2408.00208v1 )

ライセンス: Link先を確認
SaeedReza Motamedian, Sadra Mohaghegh, Elham Babadi Oregani, Mahrsa Amjadi, Parnian Shobeiri, Negin Cheraghi, Niusha Solouki, Nikoo Ahmadi, Hossein Mohammad-Rahimi, Yassine Bouchareb, Arman Rahmim, (参考訳) 目的: 人工知能(AI)技術は近年, いくつかの疾患の診断と予後に広く利用されている。 この研究は、新型コロナウイルスの予後のためのAIの使用に関する論文を同定し、評価し、合成する。 方法:Medline, Google Scholar, Scopus, Embase, Cochrane, ProQuest を用いて電子検索を行った。 CTや胸部X線画像を用いて、新型コロナウイルスの予後を決定するための機械学習や深層学習の手法を検討した。 偏極感度,曲線下の特異度領域,診断オッズ比を算出した。 結果: 重症度, 機械的換気, 集中治療室への入院, 死亡など, 予後に関連する諸問題について36項目を調査した。 例えば、Siamenseモデル、サポートベクターマシン、ランダムフォレスト、eXtreme Gradient Boosting、畳み込みニューラルネットワークなどである。 その結果, 死亡率71%, 88%, 67%の感度, 重症度評価, 換気の必要性が確認された。 以上の変数に対して69%,89%,89%の特異性が報告された。 結論:CTやCXR画像の放射線学的特徴を用いた新型コロナウイルス患者の予後診断に使用される機械学習と深層学習は,臨床医が患者を管理し,リソースをより効果的に割り当てるのに役立つ。 これらの研究は、患者の人口統計、臨床データ、実験室試験、放射線学的特徴を組み合わせることで、モデルの性能が向上することを示した。

Purpose: Artificial intelligence (AI) techniques have been extensively utilized for diagnosing and prognosis of several diseases in recent years. This study identifies, appraises and synthesizes published studies on the use of AI for the prognosis of COVID-19. Method: Electronic search was performed using Medline, Google Scholar, Scopus, Embase, Cochrane and ProQuest. Studies that examined machine learning or deep learning methods to determine the prognosis of COVID-19 using CT or chest X-ray images were included. Polled sensitivity, specificity area under the curve and diagnostic odds ratio were calculated. Result: A total of 36 articles were included; various prognosis-related issues, including disease severity, mechanical ventilation or admission to the intensive care unit and mortality, were investigated. Several AI models and architectures were employed, such as the Siamense model, support vector machine, Random Forest , eXtreme Gradient Boosting, and convolutional neural networks. The models achieved 71%, 88% and 67% sensitivity for mortality, severity assessment and need for ventilation, respectively. The specificity of 69%, 89% and 89% were reported for the aforementioned variables. Conclusion: Based on the included articles, machine learning and deep learning methods used for the prognosis of COVID-19 patients using radiomic features from CT or CXR images can help clinicians manage patients and allocate resources more effectively. These studies also demonstrate that combining patient demographic, clinical data, laboratory tests and radiomic features improves model performances.
翻訳日:2024-08-04 22:04:56 公開日:2024-08-01
# 長距離ブラインドアイリス認識のための先行埋め込み駆動型アーキテクチャ

A Prior Embedding-Driven Architecture for Long Distance Blind Iris Recognition ( http://arxiv.org/abs/2408.00210v1 )

ライセンス: Link先を確認
Qi Xiong, Xinman Zhang, Jun Shen, (参考訳) ブラインド虹彩画像は、長距離の虹彩認識過程における未知の劣化により、しばしば虹彩認識率を低下させる。 現在、この問題の解決策を提供する文献は少ない。 そこで本研究では,遠距離目視虹彩認識のための埋め込み駆動型アーキテクチャを提案する。 われわれはまずアイリス画像復元ネットワークIris-PPRGANを提案した。 ブラインドアイリスのテクスチャを効果的に復元するために、Iris-PPRGANは、プリミティブデコーダとして使用されるジェネレーティブ・アドバイサル・ネットワーク(GAN)と、エンコーダとして使用されるDNNとを含む。 アイリスの特徴をより効率的に抽出するために,InsightFace のボトルネックモジュール Insight-Iris を改良し,ロバストなアイリス分類器を提案する。 低画質のアイリス像はIris-PPRGANによって最初に復元され、その後、回復したアイリス像はInsight-Irisを介して認識される。 パブリックなCASIA-Iris-Distanceデータセットによる実験結果から,提案手法は最先端のブラインドアイリス修復法に対して,定量的にも定性的にも有意に優れており,特に,長距離アイリス画像の認識率は処理後90%に達し,復元のない画像に比べて約10ポイント向上したことが示された。

Blind iris images, which result from unknown degradation during the process of iris recognition at long distances, often lead to decreased iris recognition rates. Currently, little existing literature offers a solution to this problem. In response, we propose a prior embedding-driven architecture for long distance blind iris recognition. We first proposed a blind iris image restoration network called Iris-PPRGAN. To effectively restore the texture of the blind iris, Iris-PPRGAN includes a Generative Adversarial Network (GAN) used as a Prior Decoder, and a DNN used as the encoder. To extract iris features more efficiently, we then proposed a robust iris classifier by modifying the bottleneck module of InsightFace, which called Insight-Iris. A low-quality blind iris image is first restored by Iris-PPRGAN, then the restored iris image undergoes recognition via Insight-Iris. Experimental results on the public CASIA-Iris-distance dataset demonstrate that our proposed method significantly superior results to state-of-the-art blind iris restoration methods both quantitatively and qualitatively, Specifically, the recognition rate for long-distance blind iris images reaches 90% after processing with our methods, representing an improvement of approximately ten percentage points compared to images without restoration.
翻訳日:2024-08-04 22:04:56 公開日:2024-08-01
# Penzai + Treescope: モデルをデータとして解釈、視覚化、編集するためのツールキット

Penzai + Treescope: A Toolkit for Interpreting, Visualizing, and Editing Models As Data ( http://arxiv.org/abs/2408.00211v1 )

ライセンス: Link先を確認
Daniel D. Johnson, (参考訳) 今日の機械学習研究の多くは、トレーニング後のモデルの解釈、修正、視覚化を含む。 モデルを単純なデータ構造として表現することで、モデル操作を簡単にするためのニューラルネットワークライブラリであるPenzaiと、モデルインプット/アウトプットとモデル自体を視覚化可能なインタラクティブなビューアと配列ビジュアライザであるTreescopeを紹介します。 Penzaiモデルは宣言的コンビネータを使用して構築され、モデルオブジェクト自体の構造にモデルフォワードパスを公開し、各操作が意味論的に意味があることを保証するために名前付きxを使用する。 Penzaiのツリー編集セレクタシステムでは、モデルコンポーネントの挿入と置換が可能である。 修正されたモデルをTreescopeで視覚化することで、ユーザはすぐにフィードバックを受け取ることができる。 本稿では、PenzaiとTreescopeのモチベーションと主な特徴について述べるとともに、モデル設計者が明示的なフックを追加することなく、データ構造変換として様々な分析と介入を実現する方法について論じる。

Much of today's machine learning research involves interpreting, modifying or visualizing models after they are trained. I present Penzai, a neural network library designed to simplify model manipulation by representing models as simple data structures, and Treescope, an interactive pretty-printer and array visualizer that can visualize both model inputs/outputs and the models themselves. Penzai models are built using declarative combinators that expose the model forward pass in the structure of the model object itself, and use named axes to ensure each operation is semantically meaningful. With Penzai's tree-editing selector system, users can both insert and replace model components, allowing them to intervene on intermediate values or make other edits to the model structure. Users can then get immediate feedback by visualizing the modified model with Treescope. I describe the motivation and main features of Penzai and Treescope, and discuss how treating the model as data enables a variety of analyses and interventions to be implemented as data-structure transformations, without requiring model designers to add explicit hooks.
翻訳日:2024-08-04 22:04:56 公開日:2024-08-01
# フェデレーションラーニングにおけるロードバランシング

Load Balancing in Federated Learning ( http://arxiv.org/abs/2408.00217v1 )

ライセンス: Link先を確認
Alireza Javani, Zhiying Wang, (参考訳) Federated Learning(FL)は、複数のリモートデバイスに分散したデータからの学習を可能にし、通信効率とデータのプライバシを向上させる、分散機械学習フレームワークである。 限られた通信資源のため、各FLラウンドに参加するための装置のサブセットを選択するためにスケジューリングポリシーが適用されることが多い。 スケジューリングプロセスは、公正なワークロード分散の必要性、効率的なリソース利用、多数のエッジデバイスを持つ環境におけるスケーラビリティ、デバイス間の統計的に異質なデータなど、大きな課題に直面している。 本稿では,情報化時代に基づくポリシスケジューリングのためのロードメトリックを提案し,クライアント間のロードメトリックのばらつきを最小限に抑えて,上記の課題に対処する。 さらに、独立したクライアント決定によるネットワークサイズに関わらず、管理オーバーヘッドを排除しつつ、バランスの取れたワークロードの分散を保証する、分散化されたMarkovスケジューリングポリシーが提示される。 マルコフ連鎖モデルの最適パラメータを確立し、シミュレーションによりアプローチを検証する。 その結果, 負荷距離分散の低減は公平性を促進し, 作業効率を向上させるだけでなく, 学習モデルの収束率を向上させることが示唆された。

Federated Learning (FL) is a decentralized machine learning framework that enables learning from data distributed across multiple remote devices, enhancing communication efficiency and data privacy. Due to limited communication resources, a scheduling policy is often applied to select a subset of devices for participation in each FL round. The scheduling process confronts significant challenges due to the need for fair workload distribution, efficient resource utilization, scalability in environments with numerous edge devices, and statistically heterogeneous data across devices. This paper proposes a load metric for scheduling policies based on the Age of Information and addresses the above challenges by minimizing the load metric variance across the clients. Furthermore, a decentralized Markov scheduling policy is presented, that ensures a balanced workload distribution while eliminating the management overhead irrespective of the network size due to independent client decision-making. We establish the optimal parameters of the Markov chain model and validate our approach through simulations. The results demonstrate that reducing the load metric variance not only promotes fairness and improves operational efficiency, but also enhances the convergence rate of the learning models.
翻訳日:2024-08-04 22:04:56 公開日:2024-08-01
# 非有界損失関数を用いた適応量子生成訓練

Adaptive Quantum Generative Training using an Unbounded Loss Function ( http://arxiv.org/abs/2408.00218v1 )

ライセンス: Link先を確認
Kyle Sherbert, Jim Furches, Karunya Shirali, Sophia E. Economou, Carlos Ortiz Marrero, (参考訳) 本稿では,適応微分アセンブラ問題(ADAPT)を用いた生成量子学習アルゴリズムR\enyi-ADAPTを提案する。このフレームワークでは,損失関数の最小化が次数2の最大量子R\enyi分散である。 ランダムな2局所熱状態の学習により,この手法を他の最先端適応アルゴリズムと比較した。 最大12量子ビットのシステム上で数値実験を行い、線形目的関数を用いたアルゴリズムの学習と比較し、R'enyi-ADAPTが既存の手法と競合する浅い量子回路を構築することができることを示した。

We propose a generative quantum learning algorithm, R\'enyi-ADAPT, using the Adaptive Derivative-Assembled Problem Tailored ansatz (ADAPT) framework in which the loss function to be minimized is the maximal quantum R\'enyi divergence of order two, an unbounded function that mitigates barren plateaus which inhibit training variational circuits. We benchmark this method against other state-of-the-art adaptive algorithms by learning random two-local thermal states. We perform numerical experiments on systems of up to 12 qubits, comparing our method to learning algorithms that use linear objective functions, and show that R\'enyi-ADAPT is capable of constructing shallow quantum circuits competitive with existing methods, while the gradients remain favorable resulting from the maximal R\'enyi divergence loss function.
翻訳日:2024-08-04 22:04:56 公開日:2024-08-01
# ウエハスケール2層シリコンオン絶縁体からのシリコンダブルディスク光機械共振器

Silicon Double-Disk Optomechanical Resonators from Wafer-Scale Double-Layered Silicon-on-Insulator ( http://arxiv.org/abs/2408.00219v1 )

ライセンス: Link先を確認
Amy Navarathna, Benjamin J. Carey, James S. Bennett, Soroush Khademi, Warwick P. Bowen, (参考訳) WGM(Whispering Gallery Mode)は、ナノスケールにおける光学的および機械的自由度を同時に制御し測定するための有望な技術である。 センサーや量子トランスデューサなど、幅広い用途で利用できる可能性がある。 二重ディスクWGM共振器は、その周囲に強く相互作用するメカニカルモードとオプティカルモードを共局在させるが、特に高いオプトメカニカルカップリングのために魅力的である。 シリコン二重ディスクWGM共振器の大規模集積化は、これまで実証されていない。 本研究は,2層シリコンオン絶縁体ウェハの製造プロセスについて述べる。 集積デバイスは、10^5の順の光学的品質因子と、約15kHzの単一光子光学的カップリングを実験的に観測した。

Whispering gallery mode (WGM) optomechanical resonators are a promising technology for the simultaneous control and measurement of optical and mechanical degrees of freedom at the nanoscale. They offer potential for use across a wide range of applications such as sensors and quantum transducers. Double-disk WGM resonators, which host strongly interacting mechanical and optical modes co-localized around their circumference, are particularly attractive due to their high optomechanical coupling. Large-scale integrated fabrication of silicon double-disk WGM resonators has not previously been demonstrated. In this work we present a process for the fabrication of double-layer silicon-on-insulator wafers, which we then use to fabricate functional optomechanical double silicon disk resonators with on-chip optical coupling. The integrated devices present an experimentally observed optical quality factors of the order of 10^5 and a single-photon optomechanical coupling of approximately 15 kHz.
翻訳日:2024-08-04 22:04:56 公開日:2024-08-01
# ユーレアン表現におけるラプラシアンの存在

Persistent de Rham-Hodge Laplacians in the Eulerian representation ( http://arxiv.org/abs/2408.00220v1 )

ライセンス: Link先を確認
Zhe Su, Yiying Tong, Guo-Wei Wei, (参考訳) 近年、トポロジカルデータ分析(TDA)がデータサイエンスとエンジニアリングのトレンドとなっている。 しかし、TDAの鍵となる技術、すなわち永続ホモロジーは、その範囲を制限する点クラウドデータ上で定義される。 本研究では, 境界を持つ多様体上のTDA, あるいは体積データに対する, 略語として, 永続的 de Rham-Hodge Laplacian あるいは持続的 Hodge Laplacian (PHL) を提案する。 具体的には、進化的ド・ラム=ホッジ理論をラグランジュの定式化から、構造を包含するカルテ格子を通じてユーレリアの定式化に拡張し、点雲上の永続ラプラシアンを、適切な境界条件を持つ多様体の入れ子付き族上の永続(ド・ラム-)ホッジ・ラプラシアンに拡張した。 提案したPHLは,ボリュームデータの機械学習とディープラーニング予測を容易にする。 提案するPHLの原理的応用を実証するために,多様体や体積データに対する持続的ホッジラプラシアン学習(PHLL)アルゴリズムを提案する。 そこで本研究では,2つのベンチマークデータセットにおいて,タンパク質-リガンド結合親和性のPHLL予測を示す。 我々の数値実験はPHLLのパワーと約束を浮き彫りにした。

Recently, topological data analysis (TDA) has become a trending topic in data science and engineering. However, the key technique of TDA, i.e., persistent homology, is defined on point cloud data, which restricts its scope. In this work, we propose persistent de Rham-Hodge Laplacian, or persistent Hodge Laplacian (PHL) for abbreviation, for the TDA on manifolds with boundaries, or volumetric data. Specifically, we extended the evolutionary de Rham-Hodge theory from the Lagrangian formulation to the Eulerian formulation via structure-persevering Cartesian grids, and extended the persistent Laplacian on point clouds to persistent (de Rham-)Hodge Laplacian on nested families of manifolds with appropriate boundary conditions. The proposed PHL facilitates the machine learning and deep learning prediction of volumetric data. For a proof-of-principle application of the proposed PHL, we propose a persistent Hodge Laplacian learning (PHLL) algorithm for data on manifolds or volumetric data. To this end, we showcase the PHLL prediction of protein-ligand binding affinities in two benchmark datasets. Our numerical experiments highlight the power and promise of PHLL.
翻訳日:2024-08-04 22:04:56 公開日:2024-08-01
# multiGradICON: マルチモーダル医用画像登録のための基礎モデル

multiGradICON: A Foundation Model for Multimodal Medical Image Registration ( http://arxiv.org/abs/2408.00221v1 )

ライセンス: Link先を確認
Basar Demir, Lin Tian, Thomas Hastings Greer, Roland Kwitt, Francois-Xavier Vialard, Raul San Jose Estepar, Sylvain Bouix, Richard Jarrett Rushmore, Ebrahim Ebrahim, Marc Niethammer, (参考訳) 最新の医用画像登録手法は、ディープネットワークを用いて変形を予測する。 これらの手法は、最先端(SOTA)の登録精度を達成し、一般に高速である。 しかし、ディープラーニング(DL)アプローチは、従来の非深層学習に基づくアプローチとは対照的に、解剖学固有のアプローチである。 近年,UniGradICONという普遍的な深層登録手法が提案されている。 しかし、uniGradICONはモノモダル画像の登録に焦点を当てている。 そこで本研究では,医療画像のユニバーサル化に向けた第一歩として,マルチGradICONを開発した。 具体的には 1) モノモーダル*および*マルチモーダル登録に適したDL登録モデルを訓練することができる。 2 損失関数のランダム化は、マルチモーダル登録の精度を高めることができる。 3)マルチモーダルデータを用いたモデルのトレーニングは、マルチモーダル一般化に役立つ。 私たちのコードとマルチGradICONモデルはhttps://github.com/uncbiag/uniGradICON.comで利用可能です。

Modern medical image registration approaches predict deformations using deep networks. These approaches achieve state-of-the-art (SOTA) registration accuracy and are generally fast. However, deep learning (DL) approaches are, in contrast to conventional non-deep-learning-based approaches, anatomy-specific. Recently, a universal deep registration approach, uniGradICON, has been proposed. However, uniGradICON focuses on monomodal image registration. In this work, we therefore develop multiGradICON as a first step towards universal *multimodal* medical image registration. Specifically, we show that 1) we can train a DL registration model that is suitable for monomodal *and* multimodal registration; 2) loss function randomization can increase multimodal registration accuracy; and 3) training a model with multimodal data helps multimodal generalization. Our code and the multiGradICON model are available at https://github.com/uncbiag/uniGradICON.
翻訳日:2024-08-04 21:55:12 公開日:2024-08-01
# イオントラップQCCDアーキテクチャ上のリソースのスケーリングと割り当て

Scaling and assigning resources on ion trap QCCD architectures ( http://arxiv.org/abs/2408.00225v1 )

ライセンス: Link先を確認
Anabel Ovide, Daniele Cuomo, Carmen G. Almudever, (参考訳) イオントラップ技術は、長いデコヒーレンス時間と個々の量子ビットの正確な操作により量子情報処理の候補として大きな注目を集めており、量子技術分野の他の候補と区別されている。 しかし、トラップに追加の量子ビットを導入することでノイズや加熱効果が増加し、運用の忠実度が低下するなど、スケーラビリティは依然として課題である。 トラップ型量子電荷結合デバイス(QCCD)アーキテクチャは、複数のトラップを相互接続し、イオンをトラップ間で移動させるイオン遮断機構を採用することで、この制限に対処している。 この新しいアーキテクチャ設計では、量子ビットを効率よく割り当て、ルーティングし、スケジュール操作を行う量子アルゴリズムの新しいコンパイル技術を開発する必要がある。 コンパイラの目的は、イオンの動きを最小限に抑え、回路の実行時間を短縮し、高い忠実度を達成することである。 本稿では,従来の手法と比較して最大50倍の精度向上を図った,初期量子ビット配置のための新しい手法を提案する。 さらに、1次元線形アレイとリング構造という2つの異なるQCCDトポロジのスケーラビリティ解析を行う。 さらに,余剰容量(トラップ内の自由空間数)がアルゴリズム性能に与える影響を評価する。

Ion trap technologies have earned significant attention as potential candidates for quantum information processing due to their long decoherence times and precise manipulation of individual qubits, distinguishing them from other candidates in the field of quantum technologies. However, scalability remains a challenge, as introducing additional qubits into a trap increases noise and heating effects, consequently decreasing operational fidelity. Trapped-ion Quantum Charge-Coupled Device (QCCD) architectures have addressed this limitation by interconnecting multiple traps and employing ion shuttling mechanisms to transfer ions among traps. This new architectural design requires the development of novel compilation techniques for quantum algorithms, which efficiently allocate and route qubits, and schedule operations. The aim of a compiler is to minimize ion movements and, therefore, reduce the execution time of the circuit to achieve a higher fidelity. In this paper, we propose a novel approach for initial qubit placement, demonstrating enhancements of up to 50\% compared to prior methods. Furthermore, we conduct a scalability analysis on two distinct QCCD topologies: a 1D-linear array and a ring structure. Additionally, we evaluate the impact of the excess capacity -- i.e. the number of free spaces within a trap -- on the algorithm performance.
翻訳日:2024-08-04 21:55:12 公開日:2024-08-01
# 複数の長さの尺度にまたがる特徴の不変発見:顕微鏡および自律材料評価への応用

Invariant Discovery of Features Across Multiple Length Scales: Applications in Microscopy and Autonomous Materials Characterization ( http://arxiv.org/abs/2408.00229v1 )

ライセンス: Link先を確認
Aditya Raghavan, Utkarsh Pratiush, Mani Valleti, Richard Liu, Reece Emery, Hiroshi Funakubo, Yongtao Liu, Philip Rack, Sergei Kalinin, (参考訳) 物理イメージングは、凝縮物質物理学や化学から天文学まで、原子から宇宙までの長さのスケールにまたがる領域の基本的な特徴付け手法である。 画像は、原子結合、材料ミクロ構造、微構造進化や乱流などの動的現象に関する重要なデータをカプセル化している。 課題は、この情報を効果的に抽出し解釈することにある。 可変オートエンコーダ(VAE)は、画像データの変動の基本的な要因を特定する強力なツールとして登場し、複雑なデータセットから意味のあるパターンを抽出するための体系的なアプローチを提供している。 しかし、それらの応用における重要なハードルは、局所構造を反映した適切な記述子の定義と選択である。 ここでは、異なる長さスケールでサンプル化された記述子を用いて、VAEの漸進的なトレーニングに基づいて、スケール不変なVAEアプローチ(SI-VAE)を導入する。 SI-VAEは、システム内の変化のスケール依存因子の発見を可能にする。 本稿では, 強誘電体領域の画像を用いて, グラフェン中の電子ビーム誘起現象の映画化と, 複合図書館におけるトポグラフィーの進化について述べる。 このアプローチは、構造不適切発見を含む自動実験における意思決定を初期化するためにも使用することができ、幅広いイメージング手法に適用することができる。 このアプローチは普遍的であり、実験画像研究とシミュレーションの両方を含む空間的に解決されたデータに適用することができ、特に乱流やスケール不変変換フロントなどの現象の探索に有用である。

Physical imaging is a foundational characterization method in areas from condensed matter physics and chemistry to astronomy and spans length scales from atomic to universe. Images encapsulate crucial data regarding atomic bonding, materials microstructures, and dynamic phenomena such as microstructural evolution and turbulence, among other phenomena. The challenge lies in effectively extracting and interpreting this information. Variational Autoencoders (VAEs) have emerged as powerful tools for identifying underlying factors of variation in image data, providing a systematic approach to distilling meaningful patterns from complex datasets. However, a significant hurdle in their application is the definition and selection of appropriate descriptors reflecting local structure. Here we introduce the scale-invariant VAE approach (SI-VAE) based on the progressive training of the VAE with the descriptors sampled at different length scales. The SI-VAE allows the discovery of the length scale dependent factors of variation in the system. Here, we illustrate this approach using the ferroelectric domain images and generalize it to the movies of the electron-beam induced phenomena in graphene and topography evolution across combinatorial libraries. This approach can further be used to initialize the decision making in automated experiments including structure-property discovery and can be applied across a broad range of imaging methods. This approach is universal and can be applied to any spatially resolved data including both experimental imaging studies and simulations, and can be particularly useful for exploration of phenomena such as turbulence, scale-invariant transformation fronts, etc.
翻訳日:2024-08-04 21:55:12 公開日:2024-08-01
# 翻訳における損失:テキストと画像の拡散モデルにおける潜在概念の相違

Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2408.00230v1 )

ライセンス: Link先を確認
Juntu Zhao, Junyu Deng, Yixin Ye, Chongxuan Li, Zhijie Deng, Dequan Wang, (参考訳) テキストと画像の拡散モデルの進歩は、下流の実践的応用を広範囲に広げてきたが、そのようなモデルはテキストと画像のミスアライメント問題にしばしば遭遇した。 例えば「アイスコークスのティーカップ」というプロンプトが与えられた場合、既存のモデルでは、アイスコークスは通常、ティーカップの代わりにグラスカップと共起するため、アイスコークスのグラスカップが生成される。 このようなミスアライメントの根源は,テキスト・ツー・イメージ拡散モデルの潜在意味空間の混乱によるもので,それ故に「氷コークスのティーカップ」現象をラテント・コンセプト・ミスライメント(LC-Mis)と呼ぶ。 我々は大規模言語モデル(LLM)を活用してLC-Misの範囲を徹底的に調査し、拡散モデルの潜在意味をテキストプロンプトに整合させる自動パイプラインを開発する。 実験により,本手法の有効性を確認し,LC-Mis誤差を大幅に低減し,テキスト・画像拡散モデルの堅牢性と汎用性を向上させる。 私たちのコードとデータセットは、参照のためにオンラインで公開されています。

Advancements in text-to-image diffusion models have broadened extensive downstream practical applications, but such models often encounter misalignment issues between text and image. Taking the generation of a combination of two disentangled concepts as an example, say given the prompt "a tea cup of iced coke", existing models usually generate a glass cup of iced coke because the iced coke usually co-occurs with the glass cup instead of the tea one during model training. The root of such misalignment is attributed to the confusion in the latent semantic space of text-to-image diffusion models, and hence we refer to the "a tea cup of iced coke" phenomenon as Latent Concept Misalignment (LC-Mis). We leverage large language models (LLMs) to thoroughly investigate the scope of LC-Mis, and develop an automated pipeline for aligning the latent semantics of diffusion models to text prompts. Empirical assessments confirm the effectiveness of our approach, substantially reducing LC-Mis errors and enhancing the robustness and versatility of text-to-image diffusion models. Our code and dataset have been available online for reference.
翻訳日:2024-08-04 21:55:12 公開日:2024-08-01
# CDFGNN: キャッシュベースの分散フルバッチグラフニューラルネットワークのシステム設計

CDFGNN: a Systematic Design of Cache-based Distributed Full-Batch Graph Neural Network Training with Communication Reduction ( http://arxiv.org/abs/2408.00232v1 )

ライセンス: Link先を確認
Shuai Zhang, Zite Jiang, Haihang You, (参考訳) グラフニューラルネットワークトレーニングは、主にミニバッチとフルバッチのトレーニング方法に分類される。 ミニバッチトレーニング方法は、各イテレーションで元のグラフからサブグラフをサンプリングする。 このサンプリング操作は、余分な計算オーバーヘッドを導入し、トレーニング精度を低下させる。 一方、全バッチ学習法は、各反復における全ての頂点の特徴と対応する勾配を算出し、したがって収束精度が高い。 しかし、分散クラスタでは、頂点機能や勾配の頻繁なリモートアクセスによって通信オーバーヘッドが大きくなり、全体としてのトレーニング効率が制限される。 本稿では,キャッシュベースの分散フルバッチグラフニューラルネットワークトレーニングフレームワーク(CDFGNN)を紹介する。 本稿では,隣接する頂点の歴史的特徴や勾配をキャッシュすることで,リモート頂点アクセスを低減するための適応キャッシュ機構を提案する。 さらに、メッセージの定量化と階層型通信アーキテクチャのためのグラフ分割アルゴリズムの設計により、通信オーバーヘッドをさらに最適化する。 実験により、アダプティブキャッシュ機構により、平均63.14%のリモート頂点アクセスが削減された。 通信量子化と階層型GPアルゴリズムを組み合わせることで、CDFGNNは最先端の分散フルバッチトレーニングフレームワークを30.39%向上させる。 本結果は,CDFGNNが分散フルバッチGNNトレーニングタスクを高速化する大きな可能性を示唆している。

Graph neural network training is mainly categorized into mini-batch and full-batch training methods. The mini-batch training method samples subgraphs from the original graph in each iteration. This sampling operation introduces extra computation overhead and reduces the training accuracy. Meanwhile, the full-batch training method calculates the features and corresponding gradients of all vertices in each iteration, and therefore has higher convergence accuracy. However, in the distributed cluster, frequent remote accesses of vertex features and gradients lead to huge communication overhead, thus restricting the overall training efficiency. In this paper, we introduce the cached-based distributed full-batch graph neural network training framework (CDFGNN). We propose the adaptive cache mechanism to reduce the remote vertex access by caching the historical features and gradients of neighbor vertices. Besides, we further optimize the communication overhead by quantifying the messages and designing the graph partition algorithm for the hierarchical communication architecture. Experiments show that the adaptive cache mechanism reduces remote vertex accesses by 63.14% on average. Combined with communication quantization and hierarchical GP algorithm, CDFGNN outperforms the state-of-the-art distributed full-batch training frameworks by 30.39% in our experiments. Our results indicate that CDFGNN has great potential in accelerating distributed full-batch GNN training tasks.
翻訳日:2024-08-04 21:55:12 公開日:2024-08-01
# 経験的ベイズ結合マトリックス分解

Empirical Bayes Linked Matrix Decomposition ( http://arxiv.org/abs/2408.00237v1 )

ライセンス: Link先を確認
Eric F. Lock, (参考訳) 多様な分野における複数のアプリケーションのデータは、列や列にまたがる複数の行列として表すことができる。 これは分子生物学的研究において特に一般的であり、複数の分子「ミクス」技術は異なる特徴集合(例えば行列の行に対応する)と異なるサンプル集団(列に対応する)を捉えることができる。 これは、複数の行列で共有される、あるいは与えられた行列に特有の低次元信号を識別し分解する積分行列分解法(英語版)の多くの研究を動機付けている。 本稿では,任意の行や列集合上で共有信号に適合する柔軟性(二次元積分),推定信号の適切な縮小を導出する直感的なモデルベース目的関数,チューニングパラメータを含まない比較的効率的な推定アルゴリズムなど,既存の手法に対する実証的ベイズ的アプローチを提案する。 一般的な結果は、提案手法を含む幅広い手法群に対する基礎となる分解の特異性の条件を確立するものである。 欠落したデータを扱うシナリオでは、単一行列コンテキストで新しい反復的計算手法と、様々なリンクされた行列コンテキストで「ブロックワイズ」な計算法(行や列が欠落している場合)の強力なアプローチを記述します。 シミュレーションにより,低ランク信号の復号化,共有信号と特定信号の復号化,欠落データを正確に出力するなど,様々なシナリオで非常によく動作することを示す。 本手法は、乳癌組織および正常乳癌組織からの遺伝子発現およびmiRNAデータに適用され、変異を情報的に分解し、欠落したデータ計算のための代替戦略より優れている。

Data for several applications in diverse fields can be represented as multiple matrices that are linked across rows or columns. This is particularly common in molecular biomedical research, in which multiple molecular "omics" technologies may capture different feature sets (e.g., corresponding to rows in a matrix) and/or different sample populations (corresponding to columns). This has motivated a large body of work on integrative matrix factorization approaches that identify and decompose low-dimensional signal that is shared across multiple matrices or specific to a given matrix. We propose an empirical variational Bayesian approach to this problem that has several advantages over existing techniques, including the flexibility to accommodate shared signal over any number of row or column sets (i.e., bidimensional integration), an intuitive model-based objective function that yields appropriate shrinkage for the inferred signals, and a relatively efficient estimation algorithm with no tuning parameters. A general result establishes conditions for the uniqueness of the underlying decomposition for a broad family of methods that includes the proposed approach. For scenarios with missing data, we describe an associated iterative imputation approach that is novel for the single-matrix context and a powerful approach for "blockwise" imputation (in which an entire row or column is missing) in various linked matrix contexts. Extensive simulations show that the method performs very well under different scenarios with respect to recovering underlying low-rank signal, accurately decomposing shared and specific signals, and accurately imputing missing data. The approach is applied to gene expression and miRNA data from breast cancer tissue and normal breast tissue, for which it gives an informative decomposition of variation and outperforms alternative strategies for missing data imputation.
翻訳日:2024-08-04 21:55:12 公開日:2024-08-01
# サドル点問題に対する多重グレディ準ニュートン法

Multiple Greedy Quasi-Newton Methods for Saddle Point Problems ( http://arxiv.org/abs/2408.00241v1 )

ライセンス: Link先を確認
Minheng Xiao, Shi Bo, Zhizhong Wu, (参考訳) 本稿では,SCSCサドル点問題の解法として,Multiple Greedy Quasi-Newton (MGSR1-SP)法を提案する。 本手法は,これらの問題に固有の正方形不定値ヘッセン行列の近似を高め,反復グリーディ更新による安定性と効率を著しく向上させる。 MGSR1-SPの完全理論的解析を行い、その線形4次収束速度を示す。 AUCの最大化と逆偏差問題に対する数値実験は、最先端のアルゴリズムと比較して、我々の手法の収束率の向上を裏付けるものである。 これらの結果は、効率よく正確なヘッセン近似が不可欠である幅広い機械学習アプリケーションにおけるMGSR1-SPの性能向上の可能性を確認するものである。

This paper introduces the Multiple Greedy Quasi-Newton (MGSR1-SP) method, a novel approach to solving strongly-convex-strongly-concave (SCSC) saddle point problems. Our method enhances the approximation of the squared indefinite Hessian matrix inherent in these problems, significantly improving both stability and efficiency through iterative greedy updates. We provide a thorough theoretical analysis of MGSR1-SP, demonstrating its linear-quadratic convergence rate. Numerical experiments conducted on AUC maximization and adversarial debiasing problems, compared with state-of-the-art algorithms, underscore our method's enhanced convergence rate. These results affirm the potential of MGSR1-SP to improve performance across a broad spectrum of machine learning applications where efficient and accurate Hessian approximations are crucial.
翻訳日:2024-08-04 21:55:12 公開日:2024-08-01
# ゼロ知識証明の応用に関する調査研究

A Survey on the Applications of Zero-Knowledge Proofs ( http://arxiv.org/abs/2408.00243v1 )

ライセンス: Link先を確認
Ryan Lavin, Xuekai Liu, Hardhik Mohanty, Logan Norman, Giovanni Zaarour, Bhaskar Krishnamachari, (参考訳) ゼロ知識証明(ZKPs)は、計算整合性とプライバシ技術における革命的な進歩であり、基礎となるプライベートデータを明らかにすることなく、安全かつプライベートな情報の交換を可能にする。 ZKPは、ホモモルフィック暗号化やセキュアなマルチパーティ計算など、分散システムの他のプライバシに敏感な計算方法と比較して、普遍性と最小限のセキュリティ仮定の点で、独特な利点がある。 それらのアプリケーションは、ブロックチェーンのプライバシの強化から、計算タスクの機密性検証の促進まで、複数のドメインにまたがる。 この調査は、zk-SNARKSと呼ばれるZKPの関連性の高いサブセットに焦点を当てた、ZKPの技術的な作業の高レベルな概要から始まった。 ZKPのアルゴリズム的および理論的側面に関する以前の調査はあったが、我々の研究は、実用的側面のより広い視点を提供し、最近開発されたZKPの様々な領域における多くのユースケースを記述することで区別されている。 これらのアプリケーションドメインは、ブロックチェーンのプライバシ、スケーリング、ストレージ、相互運用性、投票、認証、タイムロック、マシンラーニングといった非ブロックチェーンアプリケーションにまたがる。 実践者と研究者の両方を対象とした調査では、ゼロ知識仮想マシン(zkVM)、ドメイン固有言語(DSL)、ライブラリ、フレームワーク、プロトコルのサポートなど、基礎的なコンポーネントとインフラストラクチャについても取り上げている。 我々は、ZKPを多くのアプリケーションにおける暗号の実践とデジタルプライバシの進歩の鍵となるものとして、今後の方向性に関する議論で締めくくった。

Zero-knowledge proofs (ZKPs) represent a revolutionary advance in computational integrity and privacy technology, enabling the secure and private exchange of information without revealing underlying private data. ZKPs have unique advantages in terms of universality and minimal security assumptions when compared to other privacy-sensitive computational methods for distributed systems, such as homomorphic encryption and secure multiparty computation. Their application spans multiple domains, from enhancing privacy in blockchain to facilitating confidential verification of computational tasks. This survey starts with a high-level overview of the technical workings of ZKPs with a focus on an increasingly relevant subset of ZKPs called zk-SNARKS. While there have been prior surveys on the algorithmic and theoretical aspects of ZKPs, our work is distinguished by providing a broader view of practical aspects and describing many recently-developed use cases of ZKPs across various domains. These application domains span blockchain privacy, scaling, storage, and interoperability, as well as non-blockchain applications like voting, authentication, timelocks, and machine learning. Aimed at both practitioners and researchers, the survey also covers foundational components and infrastructure such as zero-knowledge virtual machines (zkVM), domain-specific languages (DSLs), supporting libraries, frameworks, and protocols. We conclude with a discussion on future directions, positioning ZKPs as pivotal in the advancement of cryptographic practices and digital privacy across many applications.
翻訳日:2024-08-04 21:55:12 公開日:2024-08-01
# 群化FIRフィルタリングと注意シンク機構による構造空間モデルの構築

Enhanced Structured State Space Models via Grouped FIR Filtering and Attention Sink Mechanisms ( http://arxiv.org/abs/2408.00244v1 )

ライセンス: Link先を確認
Tian Meng, Yang Tao, Wuliang Yin, (参考訳) 構造化状態空間モデル (Structured State Space Models, SSM) は、トランスフォーマーアーキテクチャの魅力的な代替品として登場し、線形時間複雑性と様々なシーケンスモデリングタスクにおける優れたパフォーマンスを提供する。 それらの利点にもかかわらず、SSMは一連の連続行列乗算によって導入された感度のため、元のMamba-2の訓練困難に直面する。 本稿では,A-multiplicationsを複数のグループに分解し,FIR(Grouped Finite Impulse Response)フィルタリングによる位置エンコーディングを最適化することで,これらの課題を軽減できる高度なアーキテクチャを提案する。 この新たな構造は Grouped FIR-enhanced SSM (GFSSM) と呼ばれ、半分離行列を用いて効率的な計算を行う。 さらに、ストリーミング言語モデルで特定される「アテンションシンク」現象にインスパイアされ、拡張シーケンス上でのモデルの安定性と性能を高めるための同様のメカニズムを組み込んだ。 我々のアプローチは、SSMとTransformerアーキテクチャのギャップをさらに橋渡しし、スケーラブルで高性能なシーケンスモデリングのための実行可能なパスを提供する。

Structured State Space Models (SSMs) have emerged as compelling alternatives to Transformer architectures, offering linear-time complexity and superior performance in various sequence modeling tasks. Despite their advantages, SSMs like the original Mamba-2 face training difficulties due to the sensitivities introduced by the extended series of recurrent matrix multiplications. In this paper, we propose an advanced architecture that mitigates these challenges by decomposing A-multiplications into multiple groups and optimizing positional encoding through Grouped Finite Impulse Response (FIR) filtering. This new structure, denoted as Grouped FIR-enhanced SSM (GFSSM), employs semiseparable matrices for efficient computation. Furthermore, inspired by the "attention sink" phenomenon identified in streaming language models, we incorporate a similar mechanism to enhance the stability and performance of our model over extended sequences. Our approach further bridges the gap between SSMs and Transformer architectures, offering a viable path forward for scalable and high-performing sequence modeling.
翻訳日:2024-08-04 21:55:12 公開日:2024-08-01
# タスク適応:Few-shot行動認識のための画像モデルのタスク固有適応

Task-Adapter: Task-specific Adaptation of Image Models for Few-shot Action Recognition ( http://arxiv.org/abs/2408.00249v1 )

ライセンス: Link先を確認
Congqi Cao, Yueran Zhang, Yating Yu, Qinyi Lv, Lingtong Min, Yanning Zhang, (参考訳) 既存の動作認識は、主に訓練済みの画像モデルに微調整を施し、機能レベルで洗練された時間的アライメントモジュールを設計する。 しかし、訓練済みのモデルを完全に微調整するだけで、ビデオサンプルの不足により過度に適合する可能性がある。 また,十分に抽出された抽象的特徴のみに依存する場合,タスク固有情報の探索は不十分であると主張する。 本研究では,タスク固有適応法(Task-Adapter)を提案する。 提案したTask-Adapterをバックボーンの最後の数層に導入し、元のトレーニング済みモデルのパラメータを凍結しておくことで、完全な微調整によるオーバーフィッティング問題を軽減し、タスク固有のメカニズムを機能抽出のプロセスに前進させる。 各タスクアダプタでは、凍結した自己アテンション層を再利用して、与えられたタスク内で異なるビデオ間でタスク固有の自己アテンションを実行し、クラス間の識別情報とクラス内の共有情報の両方をキャプチャし、タスク固有の適応を促進し、クエリ機能とサポートプロトタイプ間のその後のメトリック測定を強化する。 実験結果から,提案したタスクアダプタが標準の4つのアクション認識データセットに対して有効であることを示す。 特に時間的挑戦型SSv2データセットでは,提案手法は最先端の手法よりも大きなマージンで優れている。

Existing works in few-shot action recognition mostly fine-tune a pre-trained image model and design sophisticated temporal alignment modules at feature level. However, simply fully fine-tuning the pre-trained model could cause overfitting due to the scarcity of video samples. Additionally, we argue that the exploration of task-specific information is insufficient when relying solely on well extracted abstract features. In this work, we propose a simple but effective task-specific adaptation method (Task-Adapter) for few-shot action recognition. By introducing the proposed Task-Adapter into the last several layers of the backbone and keeping the parameters of the original pre-trained model frozen, we mitigate the overfitting problem caused by full fine-tuning and advance the task-specific mechanism into the process of feature extraction. In each Task-Adapter, we reuse the frozen self-attention layer to perform task-specific self-attention across different videos within the given task to capture both distinctive information among classes and shared information within classes, which facilitates task-specific adaptation and enhances subsequent metric measurement between the query feature and support prototypes. Experimental results consistently demonstrate the effectiveness of our proposed Task-Adapter on four standard few-shot action recognition datasets. Especially on temporal challenging SSv2 dataset, our method outperforms the state-of-the-art methods by a large margin.
翻訳日:2024-08-04 21:55:12 公開日:2024-08-01
# 深層学習による軌道データからの自動車追従ダイナミクスの発見

Discovering Car-following Dynamics from Trajectory Data through Deep Learning ( http://arxiv.org/abs/2408.00251v1 )

ライセンス: Link先を確認
Ohay Angah, James Enouen, Xuegang, Ban, Yan Liu, (参考訳) 本研究は, 深層学習技術を用いて, 軌跡データから自動車追従力学の数学的表現を決定することを目的とする。 本稿では,変数交叉選択(VIS)法と統合された深部記号回帰(DSR)に基づく表現探索フレームワークを提案する。 探索学習プロセスでは、報酬関数を改善するために2つのペナルティ項が追加される。 一 類似すべき探索された表現の複雑さを規制する複雑さの罰 (ii) 変数の相互作用のペナルティは、表現探索がデータを最もよく記述できる変数の組み合わせに焦点を合わせるように促す。 本稿では,自動車追従力学モデルの学習における提案手法の性能について述べるとともに,その限界と今後の研究方向性について考察する。

This study aims to discover the governing mathematical expressions of car-following dynamics from trajectory data directly using deep learning techniques. We propose an expression exploration framework based on deep symbolic regression (DSR) integrated with a variable intersection selection (VIS) method to find variable combinations that encourage interpretable and parsimonious mathematical expressions. In the exploration learning process, two penalty terms are added to improve the reward function: (i) a complexity penalty to regulate the complexity of the explored expressions to be parsimonious, and (ii) a variable interaction penalty to encourage the expression exploration to focus on variable combinations that can best describe the data. We show the performance of the proposed method to learn several car-following dynamics models and discuss its limitations and future research directions.
翻訳日:2024-08-04 21:55:12 公開日:2024-08-01
# 時計遷移を伴うスピンアンサンブルにおける量子熱化とフロケット工学

Quantum thermalization and Floquet engineering in a spin ensemble with a clock transition ( http://arxiv.org/abs/2408.00252v1 )

ライセンス: Link先を確認
Mi Lei, Rikuto Fukumori, Chun-Ju Wu, Edwin Barnes, Sophia Economou, Joonhee Choi, Andrei Faraon, (参考訳) 量子多体相互作用の研究と制御は、量子科学および関連する新興技術にとって根本的に重要である。 光学的に対応可能な固体スピンは、ヒルベルト空間へのスケーラビリティのため、様々な量子多体現象を探索するための有望なプラットフォームを提供する。 しかし、大きなオンサイト障害と環境への望ましくない結合のため、固体スピン系の多体ダイナミクスを探索することはしばしば困難である。 ここでは, 数百万のイッテルビウム-171イオンの強い相互作用を持つアンサンブルを結晶中に含む, 光学的に対応可能な固体スピン系について検討する。 このプラットフォームは、双極子XYモデルと呼ばれる純粋な長距離スピン交換相互作用を引き起こす時計遷移を特徴としている。 この特徴を生かして、相互作用強度と障害との相対比を変化させ、XYモデルを他の多体ハミルトンモデルに動的にエンジニアリングし、周期駆動による物質の時間結晶相を実現することにより、量子熱化を研究する。 我々の研究結果は、希土類イオンのアンサンブルが多体物理学の多目的テストベッドとして機能し、量子技術の進歩に有用な洞察をもたらすことを示唆している。

Studying and controlling quantum many-body interactions is fundamentally important for quantum science and related emerging technologies. Optically addressable solid-state spins offer a promising platform for exploring various quantum many-body phenomena due to their scalability to a large Hilbert space. However, it is often challenging to probe many-body dynamics in solid-state spin systems due to large on-site disorder and undesired coupling to the environment. Here, we investigate an optically addressable solid-state spin system comprising a strongly interacting ensemble of millions of ytterbium-171 ions in a crystal. Notably, this platform features a clock transition that gives rise to pure long-range spin-exchange interactions, termed the dipolar XY model. Leveraging this unique feature, we investigate quantum thermalization by varying the relative ratio of interaction strength to disorder, dynamically engineering the XY model into other many-body Hamiltonian models, and realizing a time-crystalline phase of matter through periodic driving. Our findings indicate that an ensemble of rare-earth ions serves as a versatile testbed for many-body physics and offers valuable insights for advancing quantum technologies.
翻訳日:2024-08-04 21:55:12 公開日:2024-08-01
# LoopSparseGS: ループベースのスパースビューフレンドリーなガウススプレイティング

LoopSparseGS: Loop Based Sparse-View Friendly Gaussian Splatting ( http://arxiv.org/abs/2408.00254v1 )

ライセンス: Link先を確認
Zhenyu Bao, Guibiao Liao, Kaichen Zhou, Kanglin Liu, Qing Li, Guoping Qiu, (参考訳) 元の3Dガウススプラッティング(3DGS)によって達成された光現実的ノベルビュー合成(NVS)性能にもかかわらず、そのレンダリング品質はスパース入力ビューで著しく低下する。 この性能低下は, スパース入力から発生する初期点数が限られていること, 訓練過程の監督が不十分であること, 過大なガウス楕円体の正規化が不十分であることなどが主な原因である。 これらの問題に対処するために,ループベース3DGSフレームワークであるLoopSparseGSを提案する。 具体的には、ループベースのプログレッシブガウス初期化(PGI)戦略を提案し、トレーニングプロセス中にレンダリングされた擬似画像を用いて初期化点雲を反復的に密度化することができる。 次に、移動構造からの疎密で信頼性の高い深度と、窓面に密集した単分子深度を利用して、提案した深度調整規則化(DAR)を通して正確な幾何的監督を行う。 さらに,大小のガウス楕円体を扱うために,Sparse-Friended Smpling (SFS) 戦略を導入する。 4つのデータセットに関する総合的な実験により、LoopSparseGSは様々な画像解像度で、屋内、屋外、オブジェクトレベルのシーンにわたって、スパース・インプット・ノウ・ビュー・シンセサイザーのための既存の最先端の手法より優れていることが示された。

Despite the photorealistic novel view synthesis (NVS) performance achieved by the original 3D Gaussian splatting (3DGS), its rendering quality significantly degrades with sparse input views. This performance drop is mainly caused by the limited number of initial points generated from the sparse input, insufficient supervision during the training process, and inadequate regularization of the oversized Gaussian ellipsoids. To handle these issues, we propose the LoopSparseGS, a loop-based 3DGS framework for the sparse novel view synthesis task. In specific, we propose a loop-based Progressive Gaussian Initialization (PGI) strategy that could iteratively densify the initialized point cloud using the rendered pseudo images during the training process. Then, the sparse and reliable depth from the Structure from Motion, and the window-based dense monocular depth are leveraged to provide precise geometric supervision via the proposed Depth-alignment Regularization (DAR). Additionally, we introduce a novel Sparse-friendly Sampling (SFS) strategy to handle oversized Gaussian ellipsoids leading to large pixel errors. Comprehensive experiments on four datasets demonstrate that LoopSparseGS outperforms existing state-of-the-art methods for sparse-input novel view synthesis, across indoor, outdoor, and object-level scenes with various image resolutions.
翻訳日:2024-08-04 21:55:12 公開日:2024-08-01
# 深部モデル取引のための取り消し可能なバックドア

Revocable Backdoor for Deep Model Trading ( http://arxiv.org/abs/2408.00255v1 )

ライセンス: Link先を確認
Yiran Xu, Nan Zhong, Zhenxing Qian, Xinpeng Zhang, (参考訳) ディープモデルは多くの分野に適用され、新しい重要なデジタル製品になりつつある。 一方、以前の研究では、深いモデルがバックドア攻撃に弱いことが示されており、侵入されたモデルがトリガーが現れるとアタッカーに望まれる結果を返す。 バックドア攻撃は、ディープモデルの信頼性を著しく損なう。 本稿では、この深層モデルの弱さを強みにし、新しい無効化可能なバックドアと深層モデル取引シナリオを提案する。 具体的には、その性能を低下させることなく、より深いモデルを妥協することを目的としており、一方、有害なモデルを再トレーニングすることなく、容易に解毒することができる。 モデルの内部特徴マップを管理するために,特定のマスク行列を設計する。 これらのマスクマトリックスは、バックドアを不活性化するために使用することができる。 取り消し可能なバックドアは、ディープモデルトレーディングシナリオで採用することができる。 販売業者は、トライアル版として、取り消し可能なバックドアを備えたモデルを訓練する。 買い手は売り手に預金を支払い、ディープモデルの試用版を取得する。 購入者が試用版に満足すると、売り手は最終的な支払いを支払い、売り手はマスクマトリックスを購入者に送って取り消し可能なバックドアを回収する。 さまざまなデータセットやネットワークアーキテクチャによる、取り消し可能なバックドアの実現可能性と堅牢性を示します。

Deep models are being applied in numerous fields and have become a new important digital product. Meanwhile, previous studies have shown that deep models are vulnerable to backdoor attacks, in which compromised models return attacker-desired results when a trigger appears. Backdoor attacks severely break the trust-worthiness of deep models. In this paper, we turn this weakness of deep models into a strength, and propose a novel revocable backdoor and deep model trading scenario. Specifically, we aim to compromise deep models without degrading their performance, meanwhile, we can easily detoxify poisoned models without re-training the models. We design specific mask matrices to manage the internal feature maps of the models. These mask matrices can be used to deactivate the backdoors. The revocable backdoor can be adopted in the deep model trading scenario. Sellers train models with revocable backdoors as a trial version. Buyers pay a deposit to sellers and obtain a trial version of the deep model. If buyers are satisfied with the trial version, they pay a final payment to sellers and sellers send mask matrices to buyers to withdraw revocable backdoors. We demonstrate the feasibility and robustness of our revocable backdoor by various datasets and network architectures.
翻訳日:2024-08-04 21:55:12 公開日:2024-08-01
# 車両ネットワークにおけるモビリティを考慮したフェデレーション型自己教師型学習

Mobility-Aware Federated Self-supervised Learning in Vehicular Network ( http://arxiv.org/abs/2408.00256v1 )

ライセンス: Link先を確認
Xueying Gu, Qiong Wu, Pingyi Fan, Qiang Fan, (参考訳) Federated Learning(FL)は高度な分散機械学習アプローチであり、ロードサイドユニット(RSU)にすべてのデータをアップロードすることなく、モデルを複数のデバイスで同時にトレーニングすることで、各車両のプライバシを保護する。 これにより、FLは機密データや広く分散されたデータでシナリオを処理できる。 しかし、これらの分野では、ラベル作成コストがかなりの費用となりうることが知られており、特に車載ネットワークや新しいデータが常に出現するモバイルインターネット・オブ・モノ(MIoT)において、ラベルに依存するモデルは、これらの急速に発展する分野には適していない。 この問題に対処するために、自己教師型学習はラベルなしでトレーニングするための道を開く。 さらに, 画像がぼやけているため, 高速度の車両の場合, 単純な凝集は凝集モデルの精度に影響を与えるだけでなく, FLの収束速度も低下させる。 本稿では,ラベルを必要とせず,車載環境下での自己教師型学習のための事前学習段階として機能するFLSimCoという,画像ボケレベルからアグリゲーションへのFLアルゴリズムを提案する。 シミュレーションの結果,提案アルゴリズムは高速で安定な収束を示すことが示された。

Federated Learning (FL) is an advanced distributed machine learning approach, that protects the privacy of each vehicle by allowing the model to be trained on multiple devices simultaneously without the need to upload all data to a road side unit (RSU). This enables FL to handle scenarios with sensitive or widely distributed data. However, in these fields, it is well known that the labeling costs can be a significant expense, and models relying on labels are not suitable for these rapidly evolving fields especially in vehicular networks, or mobile internet of things (MIoT), where new data emerges constantly. To handle this issue, the self-supervised learning paves the way for training without labels. Additionally, for vehicles with high velocity, owing to blurred images, simple aggregation not only impacts the accuracy of the aggregated model but also reduces the convergence speed of FL. This paper proposes a FL algorithm based on image blur level to aggregation, called FLSimCo, which does not require labels and serves as a pre-training stage for self-supervised learning in the vehicular environment. Simulation results demonstrate that the proposed algorithm exhibits fast and stable convergence.
翻訳日:2024-08-04 21:55:12 公開日:2024-08-01
# RoCo:反復的オブジェクトマッチングとポーズ調整によるロバスト協調認識

RoCo:Robust Collaborative Perception By Iterative Object Matching and Pose Adjustment ( http://arxiv.org/abs/2408.00257v1 )

ライセンス: Link先を確認
Zhe Huang, Shuo Wang, Yongcai Wang, Wanting Li, Deying Li, Lei Wang, (参考訳) 複数の車両との協調自動運転は通常、複数のモードからのデータ融合を必要とする。 有効融合を確保するため、個々のモダリティのデータは、合理的に高い品質を維持しなければならない。 しかし,協調的な知覚では,モダリティに基づく物体検出の品質はエージェント間の相対的なポーズ誤差に非常に敏感である。 機能障害が発生し、協調的なパフォーマンスが大幅に低下します。 この問題に対処するために、反復的なオブジェクトマッチングとエージェントポーズ調整を行う新しい教師なしフレームワークであるRoCoを提案する。 我々の知識を最大限に活用するために、我々の研究は、協調認識におけるポーズ補正問題を、異なるエージェントによって検出される共通オブジェクトを確実に関連付けるオブジェクトマッチングタスクとしてモデル化する最初のものである。 そこで本研究では,関連するオブジェクトのアライメントエラーを最小限に抑えることで,エージェントのポーズを調整するグラフ最適化プロセスを提案し,調整されたエージェントのポーズに基づいてオブジェクトマッチングを再開する。 この工程は収束するまで反復的に行われる。 シミュレーションと実世界の両方のデータセットに関する実験的研究により、提案フレームワークのRoCoは、協調オブジェクト検出性能の観点から既存の関連手法を一貫して上回り、エージェントのポーズ情報が高レベルノイズである場合に非常に望ましいロバスト性を示すことが示された。 アブレーション研究は、その重要なパラメータと構成要素の影響を示すためにも提供される。 コードはhttps://github.com/HuangZhe885/RoCo.comで公開されている。

Collaborative autonomous driving with multiple vehicles usually requires the data fusion from multiple modalities. To ensure effective fusion, the data from each individual modality shall maintain a reasonably high quality. However, in collaborative perception, the quality of object detection based on a modality is highly sensitive to the relative pose errors among the agents. It leads to feature misalignment and significantly reduces collaborative performance. To address this issue, we propose RoCo, a novel unsupervised framework to conduct iterative object matching and agent pose adjustment. To the best of our knowledge, our work is the first to model the pose correction problem in collaborative perception as an object matching task, which reliably associates common objects detected by different agents. On top of this, we propose a graph optimization process to adjust the agent poses by minimizing the alignment errors of the associated objects, and the object matching is re-done based on the adjusted agent poses. This process is carried out iteratively until convergence. Experimental study on both simulated and real-world datasets demonstrates that the proposed framework RoCo consistently outperforms existing relevant methods in terms of the collaborative object detection performance, and exhibits highly desired robustness when the pose information of agents is with high-level noise. Ablation studies are also provided to show the impact of its key parameters and components. The code is released at https://github.com/HuangZhe885/RoCo.
翻訳日:2024-08-04 21:45:24 公開日:2024-08-01
# 参照誘導変換器を用いた画像デレイニングの改善

Improving Image De-raining Using Reference-Guided Transformers ( http://arxiv.org/abs/2408.00258v1 )

ライセンス: Link先を確認
Zihao Ye, Jaehoon Cho, Changjae Oh, (参考訳) 画像デレイニングは、コンピュータビジョンにおいて、視認性を改善し、屋外視覚システムの堅牢性を高めるための重要なタスクである。 近年のデライニング手法の進歩は目覚ましい成果を上げているが、高品質で視覚的なデライニング結果を生み出すことが課題である。 本稿では,レファレンスクリーンイメージをガイダンスとして,デレーニング結果を向上するトランスフォーマネットワークであるレファレンス誘導型デレーニングフィルタを提案する。 提案するモジュールの機能を活用して,既存の手法で切り離された画像をさらに洗練する。 提案手法を3つのデータセット上で検証し,既存の事前ベース,CNNベース,トランスフォーマーベースのアプローチにより,モジュールの性能を向上できることを示す。

Image de-raining is a critical task in computer vision to improve visibility and enhance the robustness of outdoor vision systems. While recent advances in de-raining methods have achieved remarkable performance, the challenge remains to produce high-quality and visually pleasing de-rained results. In this paper, we present a reference-guided de-raining filter, a transformer network that enhances de-raining results using a reference clean image as guidance. We leverage the capabilities of the proposed module to further refine the images de-rained by existing methods. We validate our method on three datasets and show that our module can improve the performance of existing prior-based, CNN-based, and transformer-based approaches.
翻訳日:2024-08-04 21:45:24 公開日:2024-08-01
# Clover-2:Regressive Lightweight Speculative Decodingのための正確な推論

Clover-2: Accurate Inference for Regressive Lightweight Speculative Decoding ( http://arxiv.org/abs/2408.00264v1 )

ライセンス: Link先を確認
Bin Xiao, Lujun Gui, Lei Su, Weipeng Chen, (参考訳) 大規模言語モデル(LLM)は、しばしば非効率に悩まされ、主に自動回帰復号化の要件と現代のGPUのアーキテクチャの相違に起因する。 近年,テキスト生成タスクの効率向上に注目が集まっている。 このアプローチでは、リカレントニューラルネットワーク(RNN)やシングルトランスフォーマーデコーダレイヤなどの軽量な回帰ドラフトモデルを使用して、シーケンシャル情報を活用して、潜在的なトークンを反復的に予測する。 具体的には、RNNのドラフトモデルは計算経済的だが精度が低い傾向があり、アテンションデコーダ層モデルは反対の特性を示す。 本稿では,最小の計算オーバーヘッドを維持しつつ,注目デコーダ層モデルと同等の精度を実現するために設計された,RNNベースのドラフトモデルであるClover-2を提案する。 Clover-2はモデルアーキテクチャを強化し、知識蒸留を取り入れてクローバーの精度を高め、全体的な効率を向上させる。 オープンソースのVicuna 7BとLLaMA3-Instruct 8Bモデルを用いて実験を行った。 その結果,Clover-2は様々なモデルアーキテクチャにまたがる既存の手法を超越し,その有効性と堅牢性を示した。

Large Language Models (LLMs) frequently suffer from inefficiencies, largely attributable to the discord between the requirements of auto-regressive decoding and the architecture of contemporary GPUs. Recently, regressive lightweight speculative decoding has garnered attention for its notable efficiency improvements in text generation tasks. This approach utilizes a lightweight regressive draft model, like a Recurrent Neural Network (RNN) or a single transformer decoder layer, leveraging sequential information to iteratively predict potential tokens. Specifically, RNN draft models are computationally economical but tend to deliver lower accuracy, while attention decoder layer models exhibit the opposite traits. This paper presents Clover-2, an advanced iteration of Clover, an RNN-based draft model designed to achieve comparable accuracy to that of attention decoder layer models while maintaining minimal computational overhead. Clover-2 enhances the model architecture and incorporates knowledge distillation to increase Clover's accuracy and improve overall efficiency. We conducted experiments using the open-source Vicuna 7B and LLaMA3-Instruct 8B models. The results demonstrate that Clover-2 surpasses existing methods across various model architectures, showcasing its efficacy and robustness.
翻訳日:2024-08-04 21:45:24 公開日:2024-08-01
# マルチモーダルMRI脳腫瘍分離のための3次元U-KAN実装

3D U-KAN Implementation for Multi-modal MRI Brain Tumor Segmentation ( http://arxiv.org/abs/2408.00273v1 )

ライセンス: Link先を確認
Tianze Tang, Yanbing Chen, Hai Shu, (参考訳) KAN(Kolmogorov-Arnold Network)層で強化されたU-NetベースのネットワークであるU-KANの、マルチモーダルMRIデータを用いた3次元脳腫瘍セグメント化への応用について検討する。 我々は,元の2次元U-KANモデルを3Dタスクに適用し,Squeeze-and-Excitationモジュールを組み込んだUKAN-SEという変種を導入する。 我々は、BraTS 2024データセットを用いて、U-KANとU-KAN-SEの性能を、U-Net、Attention U-Net、Swin UNETRといった既存の手法と比較した。 U-KANとUKAN-SEは約1060万のパラメータを持ち、U-NetとAtention U-Netのトレーニング時間の1/4とSwin UNETRの1/6しか必要とせず、これらのモデルをほとんどの評価指標で上回っている。 特にU-KAN-SEはU-KANをわずかに上回っている。

We explore the application of U-KAN, a U-Net based network enhanced with Kolmogorov-Arnold Network (KAN) layers, for 3D brain tumor segmentation using multi-modal MRI data. We adapt the original 2D U-KAN model to the 3D task, and introduce a variant called UKAN-SE, which incorporates Squeeze-and-Excitation modules for global attention. We compare the performance of U-KAN and UKAN-SE against existing methods such as U-Net, Attention U-Net, and Swin UNETR, using the BraTS 2024 dataset. Our results show that U-KAN and UKAN-SE, with approximately 10.6 million parameters, achieve exceptional efficiency, requiring only about 1/4 of the training time of U-Net and Attention U-Net, and 1/6 that of Swin UNETR, while surpassing these models across most evaluation metrics. Notably, UKAN-SE slightly outperforms U-KAN.
翻訳日:2024-08-04 21:45:24 公開日:2024-08-01
# QUITO: クエリ誘導コンテキスト圧縮によるロングコンテキスト推論の高速化

QUITO: Accelerating Long-Context Reasoning through Query-Guided Context Compression ( http://arxiv.org/abs/2408.00274v1 )

ライセンス: Link先を確認
Wenshan Wang, Yihang Wang, Yixing Fan, Huaming Liao, Jiafeng Guo, (参考訳) In-context Learning (ICL) は、大規模言語モデル(LLM)の成功の基礎となる。 近年,LLMの複雑度や計算コストを大幅に削減できるため,文脈圧縮への関心が高まっている。 本稿では,文脈に関する問題に注意を払って無駄な情報をフィルタリングする,新しいQuery-gUIded aTtention cOmpression(QUITO)手法を提案する。 具体的には,質問に対する文脈の注意分布を計算するためにトリガートークンを用いる。 分布に基づいて,コンテキスト長の予算制約を満たす3つの異なるフィルタリング手法を提案する。 本研究では,2つの広く利用されているデータセットであるNaturalQuestionsとASQAを用いてQUITOを評価する。 実験の結果,QUITO は様々なデータセットや下流 LLM で確立されたベースラインを著しく上回り,その有効性を実証した。 私たちのコードはhttps://github.com/Wenshansilvia/attention_compressor.comから入手可能です。

In-context learning (ICL) capabilities are foundational to the success of large language models (LLMs). Recently, context compression has attracted growing interest since it can largely reduce reasoning complexities and computation costs of LLMs. In this paper, we introduce a novel Query-gUIded aTtention cOmpression (QUITO) method, which leverages attention of the question over the contexts to filter useless information. Specifically, we take a trigger token to calculate the attention distribution of the context in response to the question. Based on the distribution, we propose three different filtering methods to satisfy the budget constraints of the context length. We evaluate the QUITO using two widely-used datasets, namely, NaturalQuestions and ASQA. Experimental results demonstrate that QUITO significantly outperforms established baselines across various datasets and downstream LLMs, underscoring its effectiveness. Our code is available at https://github.com/Wenshansilvia/attention_compressor.
翻訳日:2024-08-04 21:45:24 公開日:2024-08-01
# 量子古典力学における確率論的断熱学習

Provably Efficient Adiabatic Learning for Quantum-Classical Dynamics ( http://arxiv.org/abs/2408.00276v1 )

ライセンス: Link先を確認
Changnan Peng, Jin-Peng Liu, Gia-Wei Chern, Di Luo, (参考訳) 量子古典ハイブリッド力学は、量子と古典の両方の振る舞いを考える必要がある複雑なシステムを正確にシミュレートするために重要である。 しかし、古典的自由度と量子的自由度の間の結合とヒルベルト空間の指数的成長は重要な課題である。 現在の機械学習アプローチでは、そのようなダイナミクスを予測することは期待できるが、エラー境界、サンプルの複雑さ、一般化可能性については未知のままである。 本研究では,学習アルゴリズムを用いて量子古典的断熱力学を解析するための一般的な理論的枠組みを確立する。 量子情報理論に基づいて、対数的システムサイズサンプリングの複雑さと好適な時間スケーリング特性を備えた、証明可能な効率のよいAdiabatic Learning (PEAL)アルゴリズムを開発した。 我々は,ホルシュタインモデル上でPEALをベンチマークし,シングルパスダイナミクスとアンサンブルダイナミクスの観測値の予測と,ハミルトンの家系での移動学習の精度を示す。 我々のフレームワークとアルゴリズムは、量子古典力学の信頼性と効率的な学習のための新しい道を開く。

Quantum-classical hybrid dynamics is crucial for accurately simulating complex systems where both quantum and classical behaviors need to be considered. However, coupling between classical and quantum degrees of freedom and the exponential growth of the Hilbert space present significant challenges. Current machine learning approaches for predicting such dynamics, while promising, remain unknown in their error bounds, sample complexity, and generalizability. In this work, we establish a generic theoretical framework for analyzing quantum-classical adiabatic dynamics with learning algorithms. Based on quantum information theory, we develop a provably efficient adiabatic learning (PEAL) algorithm with logarithmic system size sampling complexity and favorable time scaling properties. We benchmark PEAL on the Holstein model, and demonstrate its accuracy in predicting single-path dynamics and ensemble dynamics observables as well as transfer learning over a family of Hamiltonians. Our framework and algorithm open up new avenues for reliable and efficient learning of quantum-classical dynamics.
翻訳日:2024-08-04 21:45:24 公開日:2024-08-01
# SIMDアーキテクチャ上の3つのテンソルレイアウトを用いた高性能Im2winと直接畳み込み

High Performance Im2win and Direct Convolutions using Three Tensor Layouts on SIMD Architectures ( http://arxiv.org/abs/2408.00278v1 )

ライセンス: Link先を確認
Xiang Fu, Xinpeng Zhang, Jixiang Ma, Peng Zhao, Shuai Lu, Xu T. Liu, (参考訳) 畳み込みはディープニューラルネットワークのコアコンポーネントであり、計算集約的で時間を要する。 テンソルデータレイアウトは、メモリアクセスと計算効率の点で、畳み込み操作に大きな影響を及ぼす。 しかし、畳み込みメソッドに関するSIMDアーキテクチャ上のデータレイアウトに関する包括的なパフォーマンス特性は、いまだに欠如している。 本稿では, NHWC, CHWN, CHWN8の3つの新しいデータレイアウトを提案する。 我々は、SIMDマシン上の最適化したim2win畳み込みとPyTorchのim2colベースの畳み込みを比較した。 実験の結果、新しいNHWCレイアウトとのim2winの畳み込みは、NCHWレイアウトよりも最大355%の性能向上を達成した。 また,Im2winと直接畳み込みの性能も大幅に向上した。 最適化した im2win と direct の畳み込みは, 機械の最大性能の95% と 94% をそれぞれ達成した。

Convolution is the core component within deep neural networks and it is computationally intensive and time consuming. Tensor data layouts significantly impact convolution operations in terms of memory access and computational efficiency. Yet, there is still a lack of comprehensive performance characterization on data layouts on SIMD architectures concerning convolution methods. This paper proposes three novel data layouts for im2win convolution: NHWC, CHWN, and CHWN8, and introduces a set of general optimization techniques for both direct and im2win convolutions. We compare the optimized im2win convolution with the direct convolution and PyTorch's im2col-based convolution across the aforementioned layouts on SIMD machines. The experiments demonstrated that the im2win convolution with the new NHWC layout achieved up to 355% performance speedup over NCHW layout. Our optimizations also significantly improve the performance of both im2win and direct convolutions. Our optimized im2win and direct convolutions achieved up to 95% and 94% of machine's theoretical peak performance, respectively.
翻訳日:2024-08-04 21:45:24 公開日:2024-08-01
# DMESA: あらゆるものをセグメンテーションすることで、全てを巧みにマッチさせる

DMESA: Densely Matching Everything by Segmenting Anything ( http://arxiv.org/abs/2408.00279v1 )

ライセンス: Link先を確認
Yesheng Zhang, Xu Zhao, (参考訳) 本稿では,Segment Anything Model (SAM) を用いた新しい特徴マッチング手法としてMESAとDMESAを提案する。 提案手法の重要な洞察は,SAMの高度な画像理解に基づいて,点マッチングに先立って暗黙的な領域マッチングを確立することである。 次に、情報領域マッチングと一貫した内部意味的マッチングは、密集した特徴比較を行え、正確な内点マッチングを容易にする。 特に、MESAはスパースマッチングフレームワークを採用し、まず新しいエリアグラフ(AG)を通してSAM結果から候補領域を取得する。 次に、候補間の領域マッチングをグラフエネルギー最小化として定式化し、AGから派生したグラフィカルモデルで解いた。 さらに,MESAの効率性問題に対処するため,DMESAを高密度なマッチングフレームワークとして提案する。 AGによって候補領域が特定されると、DMESAは密度の高いマッチング分布を生成することによって、領域マッチングを確立する。 これらの分布はガウス混合モデルを用いたオフザシェルフパッチマッチングから生成され、期待最大化により精製される。 繰り返し計算の少ないDMESAは、競争精度を維持しながら、MESAと比較して約5倍の速度向上を示す。 本手法は,屋内と屋外のシーンを含む5つのデータセットに対して広範に評価されている。 その結果,全データセットにまたがる5つの点マッチングベースラインに対して,本手法による一貫したパフォーマンス改善が示された。 さらに,提案手法は画像解像度の変動に対して,将来的な一般化とロバスト性の向上を示す。 コードはhttps://github.com/Easonyesheng/A2PM-MESAで公開されている。

We propose MESA and DMESA as novel feature matching methods, which utilize Segment Anything Model (SAM) to effectively mitigate matching redundancy. The key insight of our methods is to establish implicit-semantic area matching prior to point matching, based on advanced image understanding of SAM. Then, informative area matches with consistent internal semantic are able to undergo dense feature comparison, facilitating precise inside-area point matching. Specifically, MESA adopts a sparse matching framework and first obtains candidate areas from SAM results through a novel Area Graph (AG). Then, area matching among the candidates is formulated as graph energy minimization and solved by graphical models derived from AG. To address the efficiency issue of MESA, we further propose DMESA as its dense counterpart, applying a dense matching framework. After candidate areas are identified by AG, DMESA establishes area matches through generating dense matching distributions. The distributions are produced from off-the-shelf patch matching utilizing the Gaussian Mixture Model and refined via the Expectation Maximization. With less repetitive computation, DMESA showcases a speed improvement of nearly five times compared to MESA, while maintaining competitive accuracy. Our methods are extensively evaluated on five datasets encompassing indoor and outdoor scenes. The results illustrate consistent performance improvements from our methods for five distinct point matching baselines across all datasets. Furthermore, our methods exhibit promise generalization and improved robustness against image resolution variations. The code is publicly available at https://github.com/Easonyesheng/A2PM-MESA.
翻訳日:2024-08-04 21:45:24 公開日:2024-08-01
# 時間融合によるスケーラブルGPU加速SNNトレーニングに向けて

Towards Scalable GPU-Accelerated SNN Training via Temporal Fusion ( http://arxiv.org/abs/2408.00280v1 )

ライセンス: Link先を確認
Yanchen Li, Jiachun Li, Kebin Sun, Luziwei Leng, Ran Cheng, (参考訳) 脳の複雑な構造に基づいて、スパイキングニューラルネットワーク(SNN)は人工知能の変革的発展として登場し、生物学的ニューラルネットワークの複雑なダイナミクスを密にエミュレートしている。 SNNは特別なスパース計算ハードウェア上で有望な効率を示すが、その実践訓練は従来のGPUに依存していることが多い。 この依存は、従来のニューラルネットワーク(ANN)とは対照的な計算時間を長くし、SNN研究を進める上で大きなハードルとなる。 この課題を克服するために,GPUプラットフォーム上でのSNNの伝播ダイナミクスを高速化する新しい時間融合法を提案する。 本手法は,一元的学習シナリオと理想的条件の両方において広範な実験を行い,一元的および多元的GPUシステムの有効性と適応性を確認した。 既存のSNNライブラリ/実装に対してベンチマークを行い,NVIDIA A100 GPU上で5\times$から40\times$までの高速化を実現した。 公開されている実験コードはhttps://github.com/EMI-Group/snn-temporal-fusionで見ることができる。

Drawing on the intricate structures of the brain, Spiking Neural Networks (SNNs) emerge as a transformative development in artificial intelligence, closely emulating the complex dynamics of biological neural networks. While SNNs show promising efficiency on specialized sparse-computational hardware, their practical training often relies on conventional GPUs. This reliance frequently leads to extended computation times when contrasted with traditional Artificial Neural Networks (ANNs), presenting significant hurdles for advancing SNN research. To navigate this challenge, we present a novel temporal fusion method, specifically designed to expedite the propagation dynamics of SNNs on GPU platforms, which serves as an enhancement to the current significant approaches for handling deep learning tasks with SNNs. This method underwent thorough validation through extensive experiments in both authentic training scenarios and idealized conditions, confirming its efficacy and adaptability for single and multi-GPU systems. Benchmarked against various existing SNN libraries/implementations, our method achieved accelerations ranging from $5\times$ to $40\times$ on NVIDIA A100 GPUs. Publicly available experimental codes can be found at https://github.com/EMI-Group/snn-temporal-fusion.
翻訳日:2024-08-04 21:45:24 公開日:2024-08-01
# インデックス言語間でテキストから画像への生成バイアスをナビゲートする

Navigating Text-to-Image Generative Bias across Indic Languages ( http://arxiv.org/abs/2408.00283v1 )

ライセンス: Link先を確認
Surbhi Mittal, Arnav Sudan, Mayank Vatsa, Richa Singh, Tamar Glaser, Tal Hassner, (参考訳) 本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。 これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。 IndicTTIベンチマークを用いて、2つのオープンソース拡散モデルと2つの商用生成APIを備えた30のIndic言語の性能を総合的に評価する。 このベンチマークの主な目的は、これらのモデルにおけるIndic言語のサポートを評価し、改善が必要な領域を特定することである。 このベンチマークは、14億人以上の人々が話す30の言語の言語多様性を考慮し、TTIモデルの有効性の詳細な、洞察に富んだ分析を行うことを目的としている。 IndicTTIベンチマークのデータとコードはhttps://iab-rubric.org/resources/other-databases/indicttiでアクセスできる。

This research investigates biases in text-to-image (TTI) models for the Indic languages widely spoken across India. It evaluates and compares the generative performance and cultural relevance of leading TTI models in these languages against their performance in English. Using the proposed IndicTTI benchmark, we comprehensively assess the performance of 30 Indic languages with two open-source diffusion models and two commercial generation APIs. The primary objective of this benchmark is to evaluate the support for Indic languages in these models and identify areas needing improvement. Given the linguistic diversity of 30 languages spoken by over 1.4 billion people, this benchmark aims to provide a detailed and insightful analysis of TTI models' effectiveness within the Indic linguistic landscape. The data and code for the IndicTTI benchmark can be accessed at https://iab-rubric.org/resources/other-databases/indictti.
翻訳日:2024-08-04 21:45:24 公開日:2024-08-01
# Bailing-TTS:人間のような自発表現に向けた中国語方言音声合成

Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Human-like Spontaneous Representation ( http://arxiv.org/abs/2408.00284v1 )

ライセンス: Link先を確認
Xinhan Di, Zihao Chen, Yunming Liang, Junjie Zheng, Yihua Wang, Chaofan Ding, (参考訳) 大規模音声合成(TTS)モデルは近年大きな進歩を遂げているが、中国語の方言の世代では依然として不足している。 そこで本稿では,高品質な中国語方言を生成可能な大規模TSモデルであるBailing-TTSを提案する。 Bailing-TTSは中国語方言の音声生成の基礎モデルとして機能する。 まず,テキストトークンと音声トークンのアライメントを容易にするために,連続的半教師付き学習を提案する。 第二に、中国語の方言表現学習は、特定のトランスフォーマーアーキテクチャと多段階学習プロセスを用いて開発されている。 提案した新しいネットワークアーキテクチャとそれに対応する戦略により,Bailing-TTSは中国語の方言音声をテキストから効率よく生成することができる。 実験により、Bailing-TTSは人のような自然表現に向けて中国語の方言音声を生成することが示された。 読者は \url{https://c9412600.github.io/bltts_tech_report/index.html} でデモを聞くことを推奨されている。

Large-scale text-to-speech (TTS) models have made significant progress recently.However, they still fall short in the generation of Chinese dialectal speech. Toaddress this, we propose Bailing-TTS, a family of large-scale TTS models capable of generating high-quality Chinese dialectal speech. Bailing-TTS serves as a foundation model for Chinese dialectal speech generation. First, continual semi-supervised learning is proposed to facilitate the alignment of text tokens and speech tokens. Second, the Chinese dialectal representation learning is developed using a specific transformer architecture and multi-stage training processes. With the proposed design of novel network architecture and corresponding strategy, Bailing-TTS is able to generate Chinese dialectal speech from text effectively and efficiently. Experiments demonstrate that Bailing-TTS generates Chinese dialectal speech towards human-like spontaneous representation. Readers are encouraged to listen to demos at \url{https://c9412600.github.io/bltts_tech_report/index.html}.
翻訳日:2024-08-04 21:45:24 公開日:2024-08-01
# Diff3DETR:半教師付き3次元物体検出のためのエージェントベース拡散モデル

Diff3DETR:Agent-based Diffusion Model for Semi-supervised 3D Object Detection ( http://arxiv.org/abs/2408.00286v1 )

ライセンス: Link先を確認
Jiacheng Deng, Jiahao Lu, Tianzhu Zhang, (参考訳) 3次元物体検出は3次元シーンの理解に不可欠である。 現代の技術は、広範囲のアノテートされたトレーニングデータを必要とすることが多いが、ポイントクラウドのポイントワイズアノテーションを取得するのは時間と労力を要する。 半教師付き手法の最近の発展は、教師による学習フレームワークを用いて、未ラベルの点群に対する擬似ラベルを生成することにより、この問題を緩和しようとしている。 しかし、これらの擬似ラベルはしばしば多様性の欠如と品質の低下に悩まされる。 これらのハードルを克服するために,半教師付き3次元物体検出(Diff3DETR)のためのエージェントベース拡散モデルを提案する。 具体的には、エージェントベースのオブジェクトクエリ生成器は、サンプリング位置とコンテンツ埋め込みのバランスを保ちながら、動的シーンに効果的に適応するオブジェクトクエリを生成するように設計されている。 さらに、ボックス認識復調モジュールは、DDIM復調プロセスと変圧器デコーダの長距離注意を利用して、バウンディングボックスを漸進的に洗練する。 ScanNetとSUN RGB-Dデータセットの大規模な実験により、Diff3DETRは最先端の半教師付き3Dオブジェクト検出方法より優れていることが示された。

3D object detection is essential for understanding 3D scenes. Contemporary techniques often require extensive annotated training data, yet obtaining point-wise annotations for point clouds is time-consuming and laborious. Recent developments in semi-supervised methods seek to mitigate this problem by employing a teacher-student framework to generate pseudo-labels for unlabeled point clouds. However, these pseudo-labels frequently suffer from insufficient diversity and inferior quality. To overcome these hurdles, we introduce an Agent-based Diffusion Model for Semi-supervised 3D Object Detection (Diff3DETR). Specifically, an agent-based object query generator is designed to produce object queries that effectively adapt to dynamic scenes while striking a balance between sampling locations and content embedding. Additionally, a box-aware denoising module utilizes the DDIM denoising process and the long-range attention in the transformer decoder to refine bounding boxes incrementally. Extensive experiments on ScanNet and SUN RGB-D datasets demonstrate that Diff3DETR outperforms state-of-the-art semi-supervised 3D object detection methods.
翻訳日:2024-08-04 21:45:24 公開日:2024-08-01
# 教師なし領域適応におけるグラディエント調和

Gradient Harmonization in Unsupervised Domain Adaptation ( http://arxiv.org/abs/2408.00288v1 )

ライセンス: Link先を確認
Fuxiang Huang, Suqi Song, Lei Zhang, (参考訳) 教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインからラベルなしターゲットドメインへの知識の転送を意図している。 現在の多くの手法は、ドメインアライメントと分類タスクを同時に最適化することにより、分類とドメイン間の不変性を区別できる特徴表現の学習に重点を置いている。 しかしながら、これらの手法は、勾配ベースの最適化において、これらの2つのタスク間の固有の衝突を、しばしば見落としている。 本稿では、この問題を掘り下げ、GHとGH++を含むグラディエント・ハーモニゼーション(Gradient Harmonization)と呼ばれる2つの効果的なソリューションを導入し、ドメインアライメントと分類タスクの衝突を軽減する。 GHは、異なるタスク間の勾配角を斜めの角度から鋭角に変更することにより、衝突を解消し、2つのタスクを協調的にトレードオフする。 しかし、これは両方のタスクが元の最適化方向から逸脱する原因となる。 そこで本研究では,タスク間の勾配角を斜めの角度から垂直の角度に調整する改良型GH++を提案する。 これは紛争を解消するだけでなく、元々の勾配方向からのずれを最小限にする。 最後に、最適化の利便性と効率性のために、高調波勾配上の積分演算子を用いて、勾配調和戦略を動的に重み付き損失関数に進化させる。 特に、GH/GH++はUDAと直交しており、既存のほとんどのUDAモデルにシームレスに統合できる。 理論的な洞察と実験的分析により、提案手法は一般的なUDAベースラインを向上するだけでなく、最近の最先端モデルも改善することが示された。

Unsupervised domain adaptation (UDA) intends to transfer knowledge from a labeled source domain to an unlabeled target domain. Many current methods focus on learning feature representations that are both discriminative for classification and invariant across domains by simultaneously optimizing domain alignment and classification tasks. However, these methods often overlook a crucial challenge: the inherent conflict between these two tasks during gradient-based optimization. In this paper, we delve into this issue and introduce two effective solutions known as Gradient Harmonization, including GH and GH++, to mitigate the conflict between domain alignment and classification tasks. GH operates by altering the gradient angle between different tasks from an obtuse angle to an acute angle, thus resolving the conflict and trade-offing the two tasks in a coordinated manner. Yet, this would cause both tasks to deviate from their original optimization directions. We thus further propose an improved version, GH++, which adjusts the gradient angle between tasks from an obtuse angle to a vertical angle. This not only eliminates the conflict but also minimizes deviation from the original gradient directions. Finally, for optimization convenience and efficiency, we evolve the gradient harmonization strategies into a dynamically weighted loss function using an integral operator on the harmonized gradient. Notably, GH/GH++ are orthogonal to UDA and can be seamlessly integrated into most existing UDA models. Theoretical insights and experimental analyses demonstrate that the proposed approaches not only enhance popular UDA baselines but also improve recent state-of-the-art models.
翻訳日:2024-08-04 21:45:24 公開日:2024-08-01
# 量子確率における演算子回帰の演算子

Operator on Operator Regression in Quantum Probability ( http://arxiv.org/abs/2408.00289v1 )

ライセンス: Link先を確認
Suprio Bhar, Subhra Sankar Dhar, Soumalya Joardar, (参考訳) 本稿では、量子確率における演算子回帰に関する演算子を紹介する。 ここでの回帰モデルでは、応答と独立変数はある種の作用素値観測可能であり、それらは未知のスカラー係数($\beta$で示される)と線形に関連付けられ、エラーはランダム作用素である。 本研究では,実モデルも線形であり,観測可能な演算子の固有値対が観測されるという事実から,推定器の量子版($M$ estimator)の量子版を$\beta$で記述し,それらの量子版の大規模なサンプル挙動を導出する。

This article introduces operator on operator regression in quantum probability. Here in the regression model, the response and the independent variables are certain operator valued observables, and they are linearly associated with unknown scalar coefficient (denoted by $\beta$), and the error is a random operator. In the course of this study, we propose a quantum version of a class of estimators (denoted by $M$ estimator) of $\beta$, and the large sample behaviour of those quantum version of the estimators are derived, given the fact that the true model is also linear and the samples are observed eigenvalue pairs of the operator valued observables.
翻訳日:2024-08-04 21:45:24 公開日:2024-08-01
# グラフニューラルネットワークによる多モードパラメータ効率的なファインチューニング

Multi-Modal Parameter-Efficient Fine-tuning via Graph Neural Network ( http://arxiv.org/abs/2408.00290v1 )

ライセンス: Link先を確認
Bin Cheng, Jiaxuan Lu, (参考訳) 基礎モデルの出現に伴い、事前訓練と微調整が共通のパラダイムとなっている。 近年,学習可能なパラメータの数と性能のバランスが良くなったため,パラメータ効率の良い微調整が注目されている。 しかし、現在のパラメータ効率の高い微調整手法では、単一のモードしかモデル化せず、下流タスクにおける構造的知識の活用が欠如している。 そこで本研究では,グラフネットワークに基づくマルチモーダルパラメータ効率の微調整手法を提案する。 各画像はMLLM(Multi-modal large language model)に入力され、テキスト記述を生成する。 そして、画像と対応するテキスト記述を凍結画像エンコーダとテキストエンコーダで処理し、それぞれ画像特徴とテキスト特徴を生成する。 マルチモーダル特徴ノードの類似性に基づいてグラフを構築し、これらの特徴に関する知識と関係を各ノードから抽出する。 さらに、タスク学習中に忘れることの問題を緩和するため、損失関数にElastic Weight Consolidation (EWC)正規化が組み込まれている。 提案したモデルでは,OxfordPets,Flowers102,Food101の各データセットでそれぞれ4.45%,2.92%,0.23%の改善が達成されている。 コードはhttps://github.com/yunche0/GA-Net/tree/masterで公開されている。

With the advent of the era of foundation models, pre-training and fine-tuning have become common paradigms. Recently, parameter-efficient fine-tuning has garnered widespread attention due to its better balance between the number of learnable parameters and performance. However, some current parameter-efficient fine-tuning methods only model a single modality and lack the utilization of structural knowledge in downstream tasks. To address this issue, this paper proposes a multi-modal parameter-efficient fine-tuning method based on graph networks. Each image is fed into a multi-modal large language model (MLLM) to generate a text description. The image and its corresponding text description are then processed by a frozen image encoder and text encoder to generate image features and text features, respectively. A graph is constructed based on the similarity of the multi-modal feature nodes, and knowledge and relationships relevant to these features are extracted from each node. Additionally, Elastic Weight Consolidation (EWC) regularization is incorporated into the loss function to mitigate the problem of forgetting during task learning. The proposed model achieves test accuracies on the OxfordPets, Flowers102, and Food101 datasets that improve by 4.45%, 2.92%, and 0.23%, respectively. The code is available at https://github.com/yunche0/GA-Net/tree/master.
翻訳日:2024-08-04 21:45:24 公開日:2024-08-01
# RDP: マルチスケールスパリファイドサブスペースにおける顔の特徴保護のためのランク付き差分プライバシー

RDP: Ranked Differential Privacy for Facial Feature Protection in Multiscale Sparsified Subspace ( http://arxiv.org/abs/2408.00294v1 )

ライセンス: Link先を確認
Lu Ou, Shaolin Liao, Shihui Gao, Guandong Huang, Zheng Qi, (参考訳) アプリケーションの公開データベースで個人画像が広く共有されるようになると、顔認識システムは、ユーザーの顔画像にアクセスでき、顔認識システムに侵入できる潜在的な敵に侵入されるという真の脅威に直面します。 本稿では,Ranked Differential Privacy (RDP) と呼ばれるプライバシ予算への影響や重み付けされた特徴係数を考慮し,マルチスケールのスカラー化機能サブ空間における新たなプライバシ保護手法を提案する。 マルチスケールの特徴分解の後、幾何学的重ね合わせ法に従って、次元還元されたスカラー化特徴係数に軽量ラプラシアンノイズを付加する。 そして、RDPが差分プライバシーを満たすことを厳格に証明する。 その後、非線形ラグランジュ乗算器(LM)法は、所定の顔の特徴プライバシー予算に基づき、視覚的品質保護顔画像の有用性を衛生的ノイズで最大化する制約最適化問題を定式化する。 次に、非線形LM問題を解くための2つの手法を提案し、最適な雑音スケールパラメータを求める。 1)リアルタイムオンラインアプリケーションにおける同一平均雑音スケールパラメータを用いた解析正規化近似(NA)法 2) LM最適化グラディエントDescent (LMGD) 数値計算により, より正確なオフラインアプリケーションに対する反復更新により非線形解を求める。 実世界の2つのデータセットによる実験結果から,提案したRDPは,他の最先端手法よりも優れており,プライバシ予算0.2では,RDPのPSNR(Peak Signal-to-Noise Ratio)が,比較手法の最大PSNRよりも約10dB高い(10倍)。

With the widespread sharing of personal face images in applications' public databases, face recognition systems faces real threat of being breached by potential adversaries who are able to access users' face images and use them to intrude the face recognition systems. In this paper, we propose a novel privacy protection method in the multiscale sparsified feature subspaces to protect sensitive facial features, by taking care of the influence or weight ranked feature coefficients on the privacy budget, named "Ranked Differential Privacy (RDP)". After the multiscale feature decomposition, the lightweight Laplacian noise is added to the dimension-reduced sparsified feature coefficients according to the geometric superposition method. Then, we rigorously prove that the RDP satisfies Differential Privacy. After that, the nonlinear Lagrange Multiplier (LM) method is formulated for the constraint optimization problem of maximizing the utility of the visualization quality protected face images with sanitizing noise, under a given facial features privacy budget. Then, two methods are proposed to solve the nonlinear LM problem and obtain the optimal noise scale parameters: 1) the analytical Normalization Approximation (NA) method with identical average noise scale parameter for real-time online applications; and 2) the LM optimization Gradient Descent (LMGD) numerical method to obtain the nonlinear solution through iterative updating for more accurate offline applications. Experimental results on two real-world datasets show that our proposed RDP outperforms other state-of-the-art methods: at a privacy budget of 0.2, the PSNR (Peak Signal-to-Noise Ratio) of the RDP is about ~10 dB higher than (10 times as high as) the highest PSNR of all compared methods.
翻訳日:2024-08-04 21:35:40 公開日:2024-08-01
# 対向的クロスビュー再構成とインフォメーション・ブートネックを用いたコントラストグラフ表現学習

Contrastive Graph Representation Learning with Adversarial Cross-view Reconstruction and Information Bottleneck ( http://arxiv.org/abs/2408.00295v1 )

ライセンス: Link先を確認
Yuntao Shou, Haozhi Lan, Xiangyong Cao, (参考訳) グラフニューラルネットワーク(GNN)は、その強力な情報集約機能のために、広範な研究の注目を集めている。 GNNの成功にもかかわらず、そのほとんどは、少数の人気カテゴリによって引き起こされたグラフにおける人気バイアスの問題に悩まされている。 さらに、実際のグラフデータセットには、常に不正なノードラベルが含まれており、これはGNNが効果的なノード表現を学習することを妨げる。 グラフコントラスト学習(GCL)は、ノード分類タスクにおける上記の問題を解くのに有効であることが示されている。 既存のGCL手法の多くは、エッジとノードをランダムに削除して複数のコントラストビューを生成し、これらのコントラストビュー間の相互情報(MI)を最大化し、ノードの特徴表現を改善することで実装されている。 しかし、複数のコントラストビュー間の相互情報の最大化は、ノード分類タスクとは無関係に冗長な情報を学習させる可能性がある。 この問題に対処するために,ノード分類に有効なContrastive Graph Representation Learning with Adversarial Cross-view Reconstruction and Information Bottleneck (CGRL)を提案する。 さらに,情報ボトルネック理論を革新的にGCLに導入し,複数のコントラストビューにおいて冗長な情報を除去し,ノード分類に関する情報をできるだけ多く保持する。 さらに、元のビューにノイズの摂動を加え、ノード特徴表現のロバスト性を改善するために逆ビューを構築して拡張ビューを再構築する。 実世界の公開データセットに対する大規模な実験は、我々の手法が既存の最先端アルゴリズムを大幅に上回っていることを示している。

Graph Neural Networks (GNNs) have received extensive research attention due to their powerful information aggregation capabilities. Despite the success of GNNs, most of them suffer from the popularity bias issue in a graph caused by a small number of popular categories. Additionally, real graph datasets always contain incorrect node labels, which hinders GNNs from learning effective node representations. Graph contrastive learning (GCL) has been shown to be effective in solving the above problems for node classification tasks. Most existing GCL methods are implemented by randomly removing edges and nodes to create multiple contrasting views, and then maximizing the mutual information (MI) between these contrasting views to improve the node feature representation. However, maximizing the mutual information between multiple contrasting views may lead the model to learn some redundant information irrelevant to the node classification task. To tackle this issue, we propose an effective Contrastive Graph Representation Learning with Adversarial Cross-view Reconstruction and Information Bottleneck (CGRL) for node classification, which can adaptively learn to mask the nodes and edges in the graph to obtain the optimal graph structure representation. Furthermore, we innovatively introduce the information bottleneck theory into GCLs to remove redundant information in multiple contrasting views while retaining as much information as possible about node classification. Moreover, we add noise perturbations to the original views and reconstruct the augmented views by constructing adversarial views to improve the robustness of node feature representation. Extensive experiments on real-world public datasets demonstrate that our method significantly outperforms existing state-of-the-art algorithms.
翻訳日:2024-08-04 21:35:40 公開日:2024-08-01
# Head360:360度自由視点合成のためのパラメトリック3次元フルヘッド学習

Head360: Learning a Parametric 3D Full-Head for Free-View Synthesis in 360° ( http://arxiv.org/abs/2408.00296v1 )

ライセンス: Link先を確認
Yuxiao He, Yiyu Zhuang, Yanwen Wang, Yao Yao, Siyu Zhu, Xiaoyu Li, Qi Zhang, Xun Cao, Hao Zhu, (参考訳) 人間の頭部の360{\deg}パラメトリックモデルを作成するのは、非常に難しい作業です。 最近の進歩は、このようなパラメトリックヘッドモデルの構築に合成データを活用する効果を実証しているが、表現駆動アニメーション、ヘアスタイル編集、テキストベースの修正といった重要な領域では、その性能は依然として不十分である。 本稿では,アーティストが設計した高忠実度頭部のデータセットを構築し,新しいパラメトリック360{\degのレンダリング可能なパラメトリックヘッドモデルを提案する。 本手法は,従来のパラメトリック3次元メッシュモデルと付着した神経テクスチャで表される顔の動き・形状と顔の外観を分離する。 また,髪型と顔の外観を分解し,髪型の自由なスワッピングを可能にする訓練法を提案する。 一般化と忠実度の高い単一画像入力に基づく新しいインバージョンフィッティング法を提案する。 我々の知る限り、我々のモデルは、360{\deg}自由ビュー合成、画像ベースのフィッティング、外観編集、アニメーションを単一のモデルで実現した最初のパラメトリック3Dフルヘッドである。 実験により、パラメトリック空間では顔の動きや外観がうまく絡み合っていることが示され、SOTAのレンダリングとアニメーション品質が向上した。 コードとSynHead100データセットはhttps://nju-3dv.github.io/projects/Head360でリリースされる。

Creating a 360{\deg} parametric model of a human head is a very challenging task. While recent advancements have demonstrated the efficacy of leveraging synthetic data for building such parametric head models, their performance remains inadequate in crucial areas such as expression-driven animation, hairstyle editing, and text-based modifications. In this paper, we build a dataset of artist-designed high-fidelity human heads and propose to create a novel parametric 360{\deg} renderable parametric head model from it. Our scheme decouples the facial motion/shape and facial appearance, which are represented by a classic parametric 3D mesh model and an attached neural texture, respectively. We further propose a training method for decompositing hairstyle and facial appearance, allowing free-swapping of the hairstyle. A novel inversion fitting method is presented based on single image input with high generalization and fidelity. To the best of our knowledge, our model is the first parametric 3D full-head that achieves 360{\deg} free-view synthesis, image-based fitting, appearance editing, and animation within a single model. Experiments show that facial motions and appearances are well disentangled in the parametric space, leading to SOTA performance in rendering and animating quality. The code and SynHead100 dataset are released at https://nju-3dv.github.io/projects/Head360.
翻訳日:2024-08-04 21:35:40 公開日:2024-08-01
# EmoTalk3D:感情3次元トーキングヘッドの高忠実フリービュー合成

EmoTalk3D: High-Fidelity Free-View Synthesis of Emotional 3D Talking Head ( http://arxiv.org/abs/2408.00297v1 )

ライセンス: Link先を確認
Qianyun He, Xinya Ji, Yicheng Gong, Yuanxun Lu, Zhengyu Diao, Linjia Huang, Yao Yao, Siyu Zhu, Zhan Ma, Songcen Xu, Xiaofei Wu, Zixiao Zhang, Xun Cao, Hao Zhu, (参考訳) そこで本研究では,3次元音声頭部を制御可能な感情で合成する手法を提案する。 この分野では大きな進歩があったが、先行の方法は多視点の一貫性と感情的な表現力の欠如に悩まされている。 これらの問題に対処するために、校正されたマルチビュービデオ、感情アノテーション、フレームごとの3D幾何を含むEmoTalk3Dデータセットを収集する。 EmoTalk3Dデータセットのトレーニングにより,まず音声特徴量から忠実な3次元幾何列を予測し,その予測幾何から4次元ガウスアンで表される3次元音声ヘッドの出現を合成する「textit{`Speech-to-Geometry-to-Appearance'」マッピングフレームワークを提案する。 外観は、多視点ビデオから学び、自由視点のトーキングヘッドアニメーションをレンダリングするために融合された、標準的でダイナミックなガウスアンにさらに切り離されている。 さらに、本モデルにより、生成した音声の頭部における制御可能な感情を可能とし、広視野で表現することができる。 そこで本手法では,口輪や微妙な表情などの動的な表情を捉えながら,唇の動き生成におけるレンダリング品質と安定性の向上を示す。 実験により,高忠実度・感情制御可能な3次元音声頭部の創出におけるアプローチの有効性を実証した。 コードとEmoTalk3Dデータセットはhttps://nju-3dv.github.io/projects/EmoTalk3Dでリリースされる。

We present a novel approach for synthesizing 3D talking heads with controllable emotion, featuring enhanced lip synchronization and rendering quality. Despite significant progress in the field, prior methods still suffer from multi-view consistency and a lack of emotional expressiveness. To address these issues, we collect EmoTalk3D dataset with calibrated multi-view videos, emotional annotations, and per-frame 3D geometry. By training on the EmoTalk3D dataset, we propose a \textit{`Speech-to-Geometry-to-Appearance'} mapping framework that first predicts faithful 3D geometry sequence from the audio features, then the appearance of a 3D talking head represented by 4D Gaussians is synthesized from the predicted geometry. The appearance is further disentangled into canonical and dynamic Gaussians, learned from multi-view videos, and fused to render free-view talking head animation. Moreover, our model enables controllable emotion in the generated talking heads and can be rendered in wide-range views. Our method exhibits improved rendering quality and stability in lip motion generation while capturing dynamic facial details such as wrinkles and subtle expressions. Experiments demonstrate the effectiveness of our approach in generating high-fidelity and emotion-controllable 3D talking heads. The code and EmoTalk3D dataset are released at https://nju-3dv.github.io/projects/EmoTalk3D.
翻訳日:2024-08-04 21:35:40 公開日:2024-08-01
# 太字(たんりょう)

Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names ( http://arxiv.org/abs/2408.00298v1 )

ライセンス: Link先を確認
Ragav Sachdeva, Gyungin Shin, Andrew Zisserman, (参考訳) 視覚障害のある個人によるマンガのエンゲージメントは、本質的に視覚的な性質のため、大きな課題を呈している。 本稿では,アクセシビリティ向上をめざして,物語の一貫性の確保を重視した完全なマンガ章の対話文を生成することを目的とする。 これは識別に必要です。 一 言っていること、すなわち、各ページのテキストを検出して、本質的対非本質的とに分類し、 (二)そのことを言う者、すなわち、各対話をその話し手に帰属させながら、同一の文字をその章を通して一貫して名付けること。 以下に紹介する。 一 題名文字による高品質な章幅マンガ写本を作成でき、かつ、先行作品よりも話者ダイアリゼーションの精度が著しく高いモデル。 (ii)PopManga評価データセットの拡張。現在、音声バブル・テールボックスのアノテーション、対応するテールへのテキストの関連、本質的または非本質的なテキストの分類、各文字ボックスのアイデンティティを含む。 (三)76連載の11万文字を超える新キャラクタバンクデータセットで、合計で11.5万字の模範文字イメージと、それらが現れる章のリストを特徴とする。 コード、トレーニングされたモデル、および両方のデータセットは、https://github.com/ragavsachdeva/magi.comで見ることができる。

Enabling engagement of manga by visually impaired individuals presents a significant challenge due to its inherently visual nature. With the goal of fostering accessibility, this paper aims to generate a dialogue transcript of a complete manga chapter, entirely automatically, with a particular emphasis on ensuring narrative consistency. This entails identifying (i) what is being said, i.e., detecting the texts on each page and classifying them into essential vs non-essential, and (ii) who is saying it, i.e., attributing each dialogue to its speaker, while ensuring the same characters are named consistently throughout the chapter. To this end, we introduce: (i) Magiv2, a model that is capable of generating high-quality chapter-wide manga transcripts with named characters and significantly higher precision in speaker diarisation over prior works; (ii) an extension of the PopManga evaluation dataset, which now includes annotations for speech-bubble tail boxes, associations of text to corresponding tails, classifications of text as essential or non-essential, and the identity for each character box; and (iii) a new character bank dataset, which comprises over 11K characters from 76 manga series, featuring 11.5K exemplar character images in total, as well as a list of chapters in which they appear. The code, trained model, and both datasets can be found at: https://github.com/ragavsachdeva/magi
翻訳日:2024-08-04 21:35:40 公開日:2024-08-01
# 視覚的質問応答生成のためのフレキシブルな評価に向けて

Towards Flexible Evaluation for Generative Visual Question Answering ( http://arxiv.org/abs/2408.00300v1 )

ライセンス: Link先を確認
Huishan Ji, Qingyi Si, Zheng Lin, Weiping Wang, (参考訳) マルチモーダル言語モデルの急速な開発を通じて,その多モーダル理解能力の公平かつ正確な評価が重要である。 VQA(Visual Question Answering)は、発達したテストフィールドとして機能するが、Exact Matchの非フレキシブルパターンのようなVQA評価の制限は、MLLMが実際の能力を示すことを妨げ、リッチな応答を妨げる。 そこで本稿では,VQAデータセット上での制約のないオープンエンド応答を評価するためにセマンティクスに基づく評価手法を提案する。 VQAの特徴は,従来のセマンティックテキスト類似性(STS)タスクとは大きく異なり,その振る舞いを体系的に解析し,LCMベースのものを含む様々な評価指標のパフォーマンスを比較することで,アライメント,一貫性,一般化という3つの重要な特性と,それに対応するデータセット評価VQA評価手法(AVE)を提案する。 さらに,本論文では,VQA評価のユニークな特徴を基礎として,精巧な設計を施したセマンティックフレキシブルVQA評価器(SFVE)を提案する。 モデルに基づくVQA評価の有効性を検証し,既存のセマンティック評価手法をはるかに上回る評価手法の有効性を検証した。 提案手法はBERTライクなエンコーダとデコーダのみのLLMの両方に一般化される。

Throughout rapid development of multimodal large language models, a crucial ingredient is a fair and accurate evaluation of their multimodal comprehension abilities. Although Visual Question Answering (VQA) could serve as a developed test field, limitations of VQA evaluation, like the inflexible pattern of Exact Match, have hindered MLLMs from demonstrating their real capability and discourage rich responses. Therefore, this paper proposes the use of semantics-based evaluators for assessing unconstrained open-ended responses on VQA datasets. As characteristics of VQA have made such evaluation significantly different than the traditional Semantic Textual Similarity (STS) task, to systematically analyze the behaviour and compare the performance of various evaluators including LLM-based ones, we proposes three key properties, i.e., Alignment, Consistency and Generalization, and a corresponding dataset Assessing VQA Evaluators (AVE) to facilitate analysis. In addition, this paper proposes a Semantically Flexible VQA Evaluator (SFVE) with meticulous design based on the unique features of VQA evaluation. Experimental results verify the feasibility of model-based VQA evaluation and effectiveness of the proposed evaluator that surpasses existing semantic evaluators by a large margin. The proposed training scheme generalizes to both the BERT-like encoders and decoder-only LLM.
翻訳日:2024-08-04 21:35:40 公開日:2024-08-01
# ニューラルオクタヘドラル場--同時平滑化とシャープエッジ正則化に先立つオクタヘドラル

Neural Octahedral Field: Octahedral prior for simultaneous smoothing and sharp edge regularization ( http://arxiv.org/abs/2408.00303v1 )

ライセンス: Link先を確認
Ruichen Zheng, Tao Yu, (参考訳) 座標場としての距離関数のパラメータ化であるニューラル暗黙表現は、無向点雲からの表面再構成に取り組む上で有望な手がかりとなっている。 一貫した配向を強制するために、既存の手法は距離関数の勾配を正則化することに重点を置いており、例えば単位ノルムの勾配を制約したり、その発散を最小限にしたり、あるいはゼロ固有値に対応するヘッセンの固有ベクトルと整列させたりしている。 しかし、大きなスキャニングノイズの存在下では、ノイズ入力に過度に適合するか、過度に滑らかな再構成をもたらす傾向にある。 本研究では,ヘキサヘドラルメッシュリングに起源を持つオクサヘドラルフレームの球面調和表現を利用して,ニューラルフィールド,オクタヘドラルフィールドの新たな変種の下での表面再構成を導くことを提案する。 このような場は、制約が滑らかであるときに自動的に幾何学的特徴に近づき、クレーゼを補間すると自然に鋭い角度を保ちます。 暗黙の幾何学と共に八面体を同時に嵌め、滑らかにすることで、二元フィルタリングと類似して振舞い、鋭い縁を保ちながら円滑な再構築をもたらす。 純粋にポイントワイズに運用されているにもかかわらず、我々の手法は様々な実験において従来の手法やニューラルアプローチよりも優れており、通常の手法やデータに先行する手法と非常に競合する。 私たちの完全な実装は、https://github.com/Ankbzpx/frame-field.comで利用可能です。

Neural implicit representation, the parameterization of distance function as a coordinate neural field, has emerged as a promising lead in tackling surface reconstruction from unoriented point clouds. To enforce consistent orientation, existing methods focus on regularizing the gradient of the distance function, such as constraining it to be of the unit norm, minimizing its divergence, or aligning it with the eigenvector of Hessian that corresponds to zero eigenvalue. However, under the presence of large scanning noise, they tend to either overfit the noise input or produce an excessively smooth reconstruction. In this work, we propose to guide the surface reconstruction under a new variant of neural field, the octahedral field, leveraging the spherical harmonics representation of octahedral frames originated in the hexahedral meshing. Such field automatically snaps to geometry features when constrained to be smooth, and naturally preserves sharp angles when interpolated over creases. By simultaneously fitting and smoothing the octahedral field alongside the implicit geometry, it behaves analogously to bilateral filtering, resulting in smooth reconstruction while preserving sharp edges. Despite being operated purely pointwise, our method outperforms various traditional and neural approaches across extensive experiments, and is very competitive with methods that require normal and data priors. Our full implementation is available at: https://github.com/Ankbzpx/frame-field.
翻訳日:2024-08-04 21:35:40 公開日:2024-08-01
# ABC Align: 安全性と正確性のための大規模言語モデルアライメント

ABC Align: Large Language Model Alignment for Safety & Accuracy ( http://arxiv.org/abs/2408.00307v1 )

ライセンス: Link先を確認
Gareth Seneque, Lap-Hang Ho, Ariel Kuperman, Nafise Erfanian Saeedi, Jeffrey Molendijk, (参考訳) 大規模言語モデルのアライメント(LLM)は未解決の問題である。 人間の嗜好は高度に分散しており、個体群から多様な個体群まで、様々な抽象レベルで捉えられる。 組織的嗜好は、基準と原則によって表され、評判のリスクを軽減するか、立法義務を満たすために定義される。 本稿では,ABC Alignについて述べる。ABC Alignは,大手メディア組織の標準と嗜好をLCM自体に統合するための,LCMの新しいアライメント手法である。 合成データ生成、選好最適化、ポストトレーニングモデル量子化における最近のブレークスルーの上に構築された一連のデータとメソッドを組み合わせる。 我々の統一的なアプローチは、標準ベンチマークに対して測定されたように、バイアスを軽減し、推論能力を保ちながら精度を向上させる。

Alignment of Large Language Models (LLMs) remains an unsolved problem. Human preferences are highly distributed and can be captured at multiple levels of abstraction, from the individual to diverse populations. Organisational preferences, represented by standards and principles, are defined to mitigate reputational risk or meet legislative obligations. In this paper, we present ABC Align, a novel alignment methodology for LLMs that enables integration of the standards and preferences of a large media organisation into the LLM itself. We combine a set of data and methods that build on recent breakthroughs in synthetic data generation, preference optimisation, and post-training model quantisation. Our unified approach mitigates bias and improves accuracy, while preserving reasoning capability, as measured against standard benchmarks.
翻訳日:2024-08-04 21:35:40 公開日:2024-08-01
# オンライン強化学習のための一様確率分布を用いた連続行動空間の離散化

Discretizing Continuous Action Space with Unimodal Probability Distributions for On-Policy Reinforcement Learning ( http://arxiv.org/abs/2408.00309v1 )

ライセンス: Link先を確認
Yuanyang Zhu, Zhi Wang, Yuanheng Zhu, Chunlin Chen, Dongbin Zhao, (参考訳) オンライン強化学習では、連続制御のための離散化アクション空間は、容易に複数のモードを表現でき、最適化が容易である。 しかし、離散的な原子的作用の間の固有の順序を考慮せずに、離散的な作用数の爆発は望ましくない性質を持ち、政策勾配推定器に対して高い分散を誘導することができる。 本稿では、ポアソン確率分布を用いて離散的なポリシーを一元的に制約することで、この問題に対処する素直なアーキテクチャを提案する。 このユニモーダルアーキテクチャは、明示的なユニモーダル確率分布を用いて、基礎となる連続的な作用空間の連続性をよりよく活用することができる。 特にヒューマノイドのような複雑なタスクにおいて,一様確率分布を持つ離散的な政策が,政治的強化学習アルゴリズムにおいて,より高速な収束と高い性能をもたらすことを示すため,広範囲な実験を行った。 本稿では, 政策勾配推定器の分散に関する理論的解析を行い, 入念に設計した一助的個別政策が低い分散を保ち, 安定した学習過程をもたらすことを示唆する。

For on-policy reinforcement learning, discretizing action space for continuous control can easily express multiple modes and is straightforward to optimize. However, without considering the inherent ordering between the discrete atomic actions, the explosion in the number of discrete actions can possess undesired properties and induce a higher variance for the policy gradient estimator. In this paper, we introduce a straightforward architecture that addresses this issue by constraining the discrete policy to be unimodal using Poisson probability distributions. This unimodal architecture can better leverage the continuity in the underlying continuous action space using explicit unimodal probability distributions. We conduct extensive experiments to show that the discrete policy with the unimodal probability distribution provides significantly faster convergence and higher performance for on-policy reinforcement learning algorithms in challenging control tasks, especially in highly complex tasks such as Humanoid. We provide theoretical analysis on the variance of the policy gradient estimator, which suggests that our attentively designed unimodal discrete policy can retain a lower variance and yield a stable learning process.
翻訳日:2024-08-04 21:35:40 公開日:2024-08-01
# バッチによるオンライン線形プログラミング

Online Linear Programming with Batching ( http://arxiv.org/abs/2408.00310v1 )

ライセンス: Link先を確認
Haoran Xu, Peter W. Glynn, Yinyu Ye, (参考訳) オンライン線形プログラミング(OLP)をバッチ処理で研究する。 計画の地平線はK$バッチにカットされ、バッチ内に到着する顧客の決定は、関連するバッチの終了まで遅らせることができる。 バッチ処理なしでのOPPと比較して、決定を遅らせる能力は、後悔によって測定されるように、より良い運用パフォーマンスをもたらす。 興味のある2つの研究質問は以下の通りである: (1) 後悔の下位境界は$K$の関数である。 2) 後悔の少ない境界を達成できるアルゴリズムは何か? これらの質問は、顧客からの報酬の分配とリソース消費が有限である場合に、文献で分析されている。 これとは対照的に,資源消費に対する報酬の条件分布が連続している場合の質問を解析し,この条件下での回答が異なることを示す。 一種類のリソースしか存在せず、意思決定者が総顧客数を知っている場合、我々は、$O(\log K)$後悔の上限付きアルゴリズムを提案し、$Omega(\log K)$後悔下限付きアルゴリズムを提供する。 また,複数種類のリソースが存在する設定や,Poissonプロセスの後に顧客が到着する設定に対して,$O(\log K)$残念な上限を持つアルゴリズムを提案する。 これらの残念な上限と下限は計画の地平線の長さとは無関係であり、提案されたアルゴリズムはすべて、最初のバッチと最後のバッチにのみ到着する顧客の決定を遅らせる。 また、顧客の不注意を考慮に入れ、適切なバッチサイズを選択する方法を確立します。

We study Online Linear Programming (OLP) with batching. The planning horizon is cut into $K$ batches, and the decisions on customers arriving within a batch can be delayed to the end of their associated batch. Compared with OLP without batching, the ability to delay decisions brings better operational performance, as measured by regret. Two research questions of interest are: (1) What is a lower bound of the regret as a function of $K$? (2) What algorithms can achieve the regret lower bound? These questions have been analyzed in the literature when the distribution of the reward and the resource consumption of the customers have finite support. By contrast, this paper analyzes these questions when the conditional distribution of the reward given the resource consumption is continuous, and we show the answers are different under this setting. When there is only a single type of resource and the decision maker knows the total number of customers, we propose an algorithm with a $O(\log K)$ regret upper bound and provide a $\Omega(\log K)$ regret lower bound. We also propose algorithms with $O(\log K)$ regret upper bound for the setting in which there are multiple types of resource and the setting in which customers arrive following a Poisson process. All these regret upper and lower bounds are independent of the length of the planning horizon, and all the proposed algorithms delay decisions on customers arriving in only the first and the last batch. We also take customer impatience into consideration and establish a way of selecting an appropriate batch size.
翻訳日:2024-08-04 21:35:40 公開日:2024-08-01
# ゲノミクスへの変換:予測モデリングのためのレバレッジトランスフォーマ

Translating Imaging to Genomics: Leveraging Transformers for Predictive Modeling ( http://arxiv.org/abs/2408.00311v1 )

ライセンス: Link先を確認
Aiman Farooq, Deepak Mishra, Santanu Chaudhury, (参考訳) 本研究では,トランスモデルを用いた医用画像モダリティからゲノム情報を予測する新しい手法を提案する。 我々は、トランスフォーマーネットワークを利用して、画像とゲノムデータのギャップを埋めることを目指しており、CT/MRI画像からの正確なゲノムプロファイル予測を可能にしている。 現在、ほとんどの研究は、侵襲的手法を用いて得られる、関連性のための全スライド画像(WSI)の使用に依存している。 利用可能なCT/MRI画像のみを用いてゲノム配列を予測することを提案する。 提案手法はCT/MRI画像だけで複数のシーケンス間の関連を効率的に生成できる。 この研究は、正確でパーソナライズされた医療に非侵襲的な画像モダリティを使用することで、疾患や治療の理解を深める。

In this study, we present a novel approach for predicting genomic information from medical imaging modalities using a transformer-based model. We aim to bridge the gap between imaging and genomics data by leveraging transformer networks, allowing for accurate genomic profile predictions from CT/MRI images. Presently most studies rely on the use of whole slide images (WSI) for the association, which are obtained via invasive methodologies. We propose using only available CT/MRI images to predict genomic sequences. Our transformer based approach is able to efficiently generate associations between multiple sequences based on CT/MRI images alone. This work paves the way for the use of non-invasive imaging modalities for precise and personalized healthcare, allowing for a better understanding of diseases and treatment.
翻訳日:2024-08-04 21:35:40 公開日:2024-08-01
# テキスト認識型レコメンダシステムにおける逆テキスト書き換え

Adversarial Text Rewriting for Text-aware Recommender Systems ( http://arxiv.org/abs/2408.00312v1 )

ライセンス: Link先を確認
Sejoon Oh, Gaurav Verma, Srijan Kumar, (参考訳) テキスト認識レコメンデータシステムは、タイトルや記述などのリッチなテキスト機能を導入して、ユーザのためのアイテムレコメンデーションを生成する。 テキスト機能の使用は、コールドスタート問題を軽減するのに役立つため、このようなレコメンデーションシステムは注目を集めている。 しかし、アイテム記述への依存により、eコマースプラットフォーム上での敵対販売者による操作に対して、レコメンデーションシステムは脆弱である、と論じる。 本稿では,テキスト認識レコメンデータシステムに対する新たなテキスト書き換えフレームワークを提案することにより,このような操作の可能性を検討する。 本研究は,人的評価者から現実的と認識されつつも,販売者が不当に商品を上乗せするために書き直し攻撃を活用できることを実証する。 提案手法は,(1)攻撃性能向上のための2相微調整,(2)テキスト書き直し品質向上のためのテキスト書き直し学習,の2つのバリエーションについて検討する。 3つの異なるデータセットと4つの既存アプローチにまたがる実験では、提案されたテキスト書き換え攻撃に対する脆弱性を示すレコメンダシステムが示されている。 我々の研究は、リコメンデータシステムの堅牢性に関する既存の文献に加え、大規模自動テキスト生成の時代における新たな脆弱性の次元を強調した。

Text-aware recommender systems incorporate rich textual features, such as titles and descriptions, to generate item recommendations for users. The use of textual features helps mitigate cold-start problems, and thus, such recommender systems have attracted increased attention. However, we argue that the dependency on item descriptions makes the recommender system vulnerable to manipulation by adversarial sellers on e-commerce platforms. In this paper, we explore the possibility of such manipulation by proposing a new text rewriting framework to attack text-aware recommender systems. We show that the rewriting attack can be exploited by sellers to unfairly uprank their products, even though the adversarially rewritten descriptions are perceived as realistic by human evaluators. Methodologically, we investigate two different variations to carry out text rewriting attacks: (1) two-phase fine-tuning for greater attack performance, and (2) in-context learning for higher text rewriting quality. Experiments spanning 3 different datasets and 4 existing approaches demonstrate that recommender systems exhibit vulnerability against the proposed text rewriting attack. Our work adds to the existing literature around the robustness of recommender systems, while highlighting a new dimension of vulnerability in the age of large-scale automated text generation.
翻訳日:2024-08-04 21:35:40 公開日:2024-08-01
# 密度行列のパワーの軌跡を推定する「ランク」

Rank Is All You Need: Estimating the Trace of Powers of Density Matrices ( http://arxiv.org/abs/2408.00314v1 )

ライセンス: Link先を確認
Myeongjin Shin, Junseo Lee, Seungwoo Lee, Kabgyun Jeong, (参考訳) 同一の$k$密度行列(例えば$\text{Tr}(\rho^k)$)のパワーのトレースを推定することは、量子状態の非線形関数の計算、量子ギブス状態の作成、量子エラーの緩和など、多くのアプリケーションにとって重要なサブルーチンである。 量子アルゴリズムを短期量子デバイスに適合させるには、必要な量子ビットとゲートの数を減らすことが不可欠である。 The Newton-Girard method, we developed a algorithm that using $\mathcal{O}(r)$ qubits and $\mathcal{O}(r)$ multi-qubit gates, where $r$ is the rank of $\rho$。 我々は、$\{\text{Tr}(\rho^i)\}_{i=1}^r$の推定が、大きな$k > r$でパワーのトレースを推定するのに十分であることを証明した。 これらの利点により、我々のアルゴリズムは、短期量子プロセッサの能力に近いパワーのトレースを推定する。 M$は任意の観測可能であり、いくつかのアプリケーションでアルゴリズムの利点を示す。

Estimating the trace of powers of identical $k$ density matrices (i.e., $\text{Tr}(\rho^k)$) is a crucial subroutine for many applications such as calculating nonlinear functions of quantum states, preparing quantum Gibbs states, and mitigating quantum errors. Reducing the requisite number of qubits and gates is essential to fit a quantum algorithm onto near-term quantum devices. Inspired by the Newton-Girard method, we developed an algorithm that uses only $\mathcal{O}(r)$ qubits and $\mathcal{O}(r)$ multi-qubit gates, where $r$ is the rank of $\rho$. We prove that the estimation of $\{\text{Tr}(\rho^i)\}_{i=1}^r$ is sufficient for estimating the trace of powers with large $k > r$. With these advantages, our algorithm brings the estimation of the trace of powers closer to the capabilities of near-term quantum processors. We show that our results can be generalized for estimating $\text{Tr}(M\rho^k)$, where $M$ is an arbitrary observable, and demonstrate the advantages of our algorithm in several applications.
翻訳日:2024-08-04 21:35:40 公開日:2024-08-01
# ADBM: 信頼性のある逆流浄化のための逆流拡散ブリッジモデル

ADBM: Adversarial diffusion bridge model for reliable adversarial purification ( http://arxiv.org/abs/2408.00315v1 )

ライセンス: Link先を確認
Xiao Li, Wenxuan Sun, Huanran Chen, Qiongxiu Li, Yining Liu, Yingzhe He, Jie Shi, Xiaolin Hu, (参考訳) 近年,拡散型浄化法(DiffPure)は,敵の事例に対する効果的な防御法として認識されている。 しかし,DiffPureは,元来の訓練済み拡散モデルを用いて,逆方向の浄化を行う。 これは、ノイズ浄化性能とデータ回復品質との本質的にのトレードオフによるものである。 さらに、DiffPureに対する既存の評価の信頼性は、弱い適応攻撃に依存しているため疑わしい。 本研究では,Adversarial Diffusion Bridge Model(ADBM)を提案する。 ADBMは、拡散した反対データから元のクリーンな例への逆ブリッジを直接構築し、元の拡散モデルの浄化能力を高める。 様々なシナリオにおける理論的解析と実験的な検証を通じて、ADBMは優れた堅牢な防御機構であることが証明され、実用的な応用に大いに期待できる。

Recently Diffusion-based Purification (DiffPure) has been recognized as an effective defense method against adversarial examples. However, we find DiffPure which directly employs the original pre-trained diffusion models for adversarial purification, to be suboptimal. This is due to an inherent trade-off between noise purification performance and data recovery quality. Additionally, the reliability of existing evaluations for DiffPure is questionable, as they rely on weak adaptive attacks. In this work, we propose a novel Adversarial Diffusion Bridge Model, termed ADBM. ADBM directly constructs a reverse bridge from the diffused adversarial data back to its original clean examples, enhancing the purification capabilities of the original diffusion models. Through theoretical analysis and experimental validation across various scenarios, ADBM has proven to be a superior and robust defense mechanism, offering significant promise for practical applications.
翻訳日:2024-08-04 21:35:40 公開日:2024-08-01
# 弱伝導率による逐次推薦における損失関数の爆発的推定

Exploiting Preferences in Loss Functions for Sequential Recommendation via Weak Transitivity ( http://arxiv.org/abs/2408.00326v1 )

ライセンス: Link先を確認
Hyunsoo Chung, Jungtaek Kim, Hyungeun Jo, Hyungwon Choi, (参考訳) 最適化の目的の選択は、従来のインタラクションからユーザの意図の一般的なモデリングプロセスに影響を与えるため、レコメンデータシステムの設計において極めて重要である。 既存のアプローチは主に、ペアワイド、ポイントワイド、セットワイド損失関数の3つのカテゴリに従属する。 その効果にもかかわらず、そのような目的の批判的で共通の欠点は、残りの全ての項目を等しく否定的に考えながら、次の観測項目を一意の正と見なすことである。 このようなバイナリラベルの割り当ては、一般的に、前向きな項目のより高いレコメンデーションスコアを保証し、他の観測されていない項目間の好みの変化によって引き起こされる潜在的な構造を無視することに限定される。 この問題を軽減するために,スコア間の相対的な順序として,異なる選好レベルを明示的に活用する,オリジナル目的を拡張する新しい手法を提案する。 最後に,本手法の性能を基準目標よりも優れていることを示す。

A choice of optimization objective is immensely pivotal in the design of a recommender system as it affects the general modeling process of a user's intent from previous interactions. Existing approaches mainly adhere to three categories of loss functions: pairwise, pointwise, and setwise loss functions. Despite their effectiveness, a critical and common drawback of such objectives is viewing the next observed item as a unique positive while considering all remaining items equally negative. Such a binary label assignment is generally limited to assuring a higher recommendation score of the positive item, neglecting potential structures induced by varying preferences between other unobserved items. To alleviate this issue, we propose a novel method that extends original objectives to explicitly leverage the different levels of preferences as relative orders between their scores. Finally, we demonstrate the superior performance of our method compared to baseline objectives.
翻訳日:2024-08-04 21:35:40 公開日:2024-08-01
# OTAD:Agnostic Adversarial Attackのための最適輸送誘導ロバストモデル

OTAD: An Optimal Transport-Induced Robust Model for Agnostic Adversarial Attack ( http://arxiv.org/abs/2408.00329v1 )

ライセンス: Link先を確認
Kuo Gai, Sicong Wang, Shihua Zhang, (参考訳) ディープニューラルネットワーク(DNN)は、入力の小さな敵の摂動に弱いため、信頼性と堅牢性に大きな課題が生じる。 敵の訓練のような経験的手法は特定の攻撃に対して防御できるが、より強力な攻撃には弱いままである。 あるいは、リプシッツのネットワークは摂動を観測できないが、十分な表現力がないという証明された堅牢性を提供する。 両手法の利点を生かして,ローカルリプシッツ連続性を保ちながらトレーニングデータを正確に適合させることができる2段階の最適輸送誘導敵防衛(OTAD)モデルを設計する。 まず,DNNを最適輸送理論から導出した正規化器で訓練し,その特徴にデータをリンクする離散最適輸送マップを生成する。 写像の本質的正則性を活用することにより、凸積分問題(CIP)を解くことにより写像を補間し、局所リプシッツの性質を保証する。 OTADはResNetとTransformerの多様なアーキテクチャに拡張可能で、複雑なデータに適している。 効率的な計算のために、CIPはニューラルネットワークをトレーニングすることで解決できる。 OTADは、最適なトランスポートマップの規則性を通じて、信頼性とセキュアなディープラーニングシステムを開発するための新しい道を開く。 実証的な結果は、OTADがさまざまなデータセット上で、他の堅牢なモデルより優れていることを示している。

Deep neural networks (DNNs) are vulnerable to small adversarial perturbations of the inputs, posing a significant challenge to their reliability and robustness. Empirical methods such as adversarial training can defend against particular attacks but remain vulnerable to more powerful attacks. Alternatively, Lipschitz networks provide certified robustness to unseen perturbations but lack sufficient expressive power. To harness the advantages of both approaches, we design a novel two-step Optimal Transport induced Adversarial Defense (OTAD) model that can fit the training data accurately while preserving the local Lipschitz continuity. First, we train a DNN with a regularizer derived from optimal transport theory, yielding a discrete optimal transport map linking data to its features. By leveraging the map's inherent regularity, we interpolate the map by solving the convex integration problem (CIP) to guarantee the local Lipschitz property. OTAD is extensible to diverse architectures of ResNet and Transformer, making it suitable for complex data. For efficient computation, the CIP can be solved through training neural networks. OTAD opens a novel avenue for developing reliable and secure deep learning systems through the regularity of optimal transport maps. Empirical results demonstrate that OTAD can outperform other robust models on diverse datasets.
翻訳日:2024-08-04 21:25:51 公開日:2024-08-01
# 『パトリアーキー』も男性を苦しめている。あなたのモデルが痛むのか? : フェアネス・アセスメントに関する考察

"Patriarchy Hurts Men Too." Does Your Model Agree? A Discussion on Fairness Assumptions ( http://arxiv.org/abs/2408.00330v1 )

ライセンス: Link先を確認
Marco Favier, Toon Calders, (参考訳) 公正なML実践者のパイプラインは、一般的に3つのフェーズに分けられます。 1)公正度尺度を選択する。 2)この尺度を最小化するモデルを選択する。 3)データ上でのモデルの性能を最大化する。 グループフェアネスの文脈では、このアプローチはデータへのバイアスの導入方法に関する暗黙の仮定を曖昧にすることが多い。 例えば、二項分類において、最良のモデルが等値性を持ち、より良い性能を持つモデルであると仮定されることがしばしばある。 しかし、この信念はすでに偏見を導入したプロセスに特定の特性を課している。 より正確には、偏見過程が公正スコアの単調関数であり、感度属性のみに依存すると仮定している。 我々は、いくつかの暗黙の公平性の仮定に関して、この主張を正式に証明する。 つまり、より複雑な状況に対処可能なモデルを開発するためには、暗黙の仮定を識別し、拒否する必要があるということです。

The pipeline of a fair ML practitioner is generally divided into three phases: 1) Selecting a fairness measure. 2) Choosing a model that minimizes this measure. 3) Maximizing the model's performance on the data. In the context of group fairness, this approach often obscures implicit assumptions about how bias is introduced into the data. For instance, in binary classification, it is often assumed that the best model, with equal fairness, is the one with better performance. However, this belief already imposes specific properties on the process that introduced bias. More precisely, we are already assuming that the biasing process is a monotonic function of the fair scores, dependent solely on the sensitive attribute. We formally prove this claim regarding several implicit fairness assumptions. This leads, in our view, to two possible conclusions: either the behavior of the biasing process is more complex than mere monotonicity, which means we need to identify and reject our implicit assumptions in order to develop models capable of tackling more complex situations; or the bias introduced in the data behaves predictably, implying that many of the developed models are superfluous.
翻訳日:2024-08-04 21:25:51 公開日:2024-08-01
# DECIDER: モデル故障検出と説明の改善のための基礎モデル優先順位の活用

DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation ( http://arxiv.org/abs/2408.00331v1 )

ライセンス: Link先を確認
Rakshith Subramanyam, Kowshik Thopalli, Vivek Narayanaswamy, Jayaraman J. Thiagarajan, (参考訳) デプロイされた機械学習モデルが所定の入力でフェールする可能性があることを確実に検出することは、安全な操作を保証するために重要である。 本研究では,大規模な言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像分類モデルの故障検出手法であるDECIDER(Debiasing Classifiers to Identify Errors Reliably)を提案する。 DECIDER は LLM を用いてタスク関連コア属性を指定し、その視覚的特徴を VLM を用いてこれらのコア属性に整列させることで分類器の ‘debiased'' バージョンを構築し、元のモデルとデバイアスモデルの相違を計測することで潜在的な失敗を検出する。 DECIDERは、モデルが失敗するであろうサンプルを積極的に特定することに加えて、新しい属性・アブレーション戦略を通じて、失敗に対する人間解釈可能な説明を提供する。 サブポピュレーションシフト(spurious correlations、クラス不均衡)と共変量シフト(synthetic corruptions、ドメインシフトs)にまたがる様々なベンチマークにわたる広範な実験を通じて、DECIDERは一貫して最先端の失敗検出性能を達成し、全体のマシューズ相関係数と失敗と成功リコールの点において、ベースラインを著しく上回る。 私たちのコードは~\url{https://github.com/kowshikthopalli/DECIDER/}でアクセスできます。

Reliably detecting when a deployed machine learning model is likely to fail on a given input is crucial for ensuring safe operation. In this work, we propose DECIDER (Debiasing Classifiers to Identify Errors Reliably), a novel approach that leverages priors from large language models (LLMs) and vision-language models (VLMs) to detect failures in image classification models. DECIDER utilizes LLMs to specify task-relevant core attributes and constructs a ``debiased'' version of the classifier by aligning its visual features to these core attributes using a VLM, and detects potential failure by measuring disagreement between the original and debiased models. In addition to proactively identifying samples on which the model would fail, DECIDER also provides human-interpretable explanations for failure through a novel attribute-ablation strategy. Through extensive experiments across diverse benchmarks spanning subpopulation shifts (spurious correlations, class imbalance) and covariate shifts (synthetic corruptions, domain shifts), DECIDER consistently achieves state-of-the-art failure detection performance, significantly outperforming baselines in terms of the overall Matthews correlation coefficient as well as failure and success recall. Our codes can be accessed at~\url{https://github.com/kowshikthopalli/DECIDER/}
翻訳日:2024-08-04 21:25:51 公開日:2024-08-01
# ジャグリングにおける視力障害者のための視力に基づくウェアラブルステアリング支援

Vision-based Wearable Steering Assistance for People with Impaired Vision in Jogging ( http://arxiv.org/abs/2408.00332v1 )

ライセンス: Link先を確認
Xiaotong Liu, Binglu Wang, Zhijun Li, (参考訳) 屋外スポーツは、視覚障害者に挑戦します。 高速モビリティの需要は、視覚ベースのウェアラブルステアリング支援を開発するきっかけとなった。 広い適用性を確保するため,スポーツの代表的な環境である運動トラックに着目した。 われわれの取り組みは、知覚のスピードと正確性の向上、現実世界の計画適応性の向上、視覚障害のある人々への迅速かつ安全な支援に焦点をあてた。 そこで我々は,線路や障害物を同時に検出できる軽量マルチタスクネットワークを開発した。 さらに,運動トラックにおけるマルチタスク検出をサポートする既存のデータセットの制限により,1000枚の画像を含む新しいデータセット(MAT)を厳格に収集,注釈した。 計画では,曲線のサンプリングとスプラインの手法を統合し,曲線の計画課題に対処した。 一方,線路や障害物の位置を制約として利用し,現在の線路に沿って安全に視力障害のある人々を誘導した。 我々のシステムは組み込みデバイスであるJetson Orin NXにデプロイされている。 野外実験を通じて、異なるスポーツシナリオにおける適応性を実証し、平均速度1.34m/sで400mの自由移動を達成し、ジョギング中の普通の人のレベルを満たすのを手助けした。 MATデータセットはhttps://github.com/snoopy-l/MATから公開されています。

Outdoor sports pose a challenge for people with impaired vision. The demand for higher-speed mobility inspired us to develop a vision-based wearable steering assistance. To ensure broad applicability, we focused on a representative sports environment, the athletics track. Our efforts centered on improving the speed and accuracy of perception, enhancing planning adaptability for the real world, and providing swift and safe assistance for people with impaired vision. In perception, we engineered a lightweight multitask network capable of simultaneously detecting track lines and obstacles. Additionally, due to the limitations of existing datasets for supporting multi-task detection in athletics tracks, we diligently collected and annotated a new dataset (MAT) containing 1000 images. In planning, we integrated the methods of sampling and spline curves, addressing the planning challenges of curves. Meanwhile, we utilized the positions of the track lines and obstacles as constraints to guide people with impaired vision safely along the current track. Our system is deployed on an embedded device, Jetson Orin NX. Through outdoor experiments, it demonstrated adaptability in different sports scenarios, assisting users in achieving free movement of 400-meter at an average speed of 1.34 m/s, meeting the level of normal people in jogging. Our MAT dataset is publicly available from https://github.com/snoopy-l/MAT
翻訳日:2024-08-04 21:25:51 公開日:2024-08-01
# DistillGrasp: 透明物体の深度補完のための知識蒸留と特徴相関の統合

DistillGrasp: Integrating Features Correlation with Knowledge Distillation for Depth Completion of Transparent Objects ( http://arxiv.org/abs/2408.00337v1 )

ライセンス: Link先を確認
Yiheng Huang, Junhong Chen, Nick Michiels, Muhammad Asim, Luc Claesen, Wenyin Liu, (参考訳) 反射と屈折の視覚特性のため、RGB-Dカメラは透明物体の深度を正確に捉えることができず、不完全な深度マップに繋がる。 欠損点を埋めるために、近年の研究では、深度を再構築するために新しい視覚的特徴と複雑なネットワークを設計する傾向があるが、これらのアプローチは計算を著しく増加させ、異なる視覚的特徴の相関が問題である。 そこで本研究では,教師ブランチから学生ブランチへの知識を蒸留する,DistillGraspというネットワークを提案する。 具体的には、教師ブランチにおいて、RGBイメージをクエリとして活用する位置相関ブロック(PCB)を設計し、対応する値を検索し、モデルに2つの特徴間の正確な対応を確立し、透明な領域に転送する。 本稿では,RGB画像と深度マップの信頼性領域をそれぞれ一貫性に従って保持する一貫した特徴相関モジュール(CFCM)を提案する。 本研究は,教師ブランチから地域的特徴のみを学習する学生ブランチを回避するため,距離損失だけでなく,対象構造やエッジ情報も考慮した蒸留損失を考案する。 ClearGraspデータセット上で行った大規模な実験により、教師ネットワークは精度と一般化の観点から最先端の手法よりも優れており、学生ネットワークはより高速な48FPSで競争結果を得ることができた。 さらに,実世界のロボット把握システムの大幅な改良は,提案システムの有効性とロバスト性を示している。

Due to the visual properties of reflection and refraction, RGB-D cameras cannot accurately capture the depth of transparent objects, leading to incomplete depth maps. To fill in the missing points, recent studies tend to explore new visual features and design complex networks to reconstruct the depth, however, these approaches tremendously increase computation, and the correlation of different visual features remains a problem. To this end, we propose an efficient depth completion network named DistillGrasp which distillates knowledge from the teacher branch to the student branch. Specifically, in the teacher branch, we design a position correlation block (PCB) that leverages RGB images as the query and key to search for the corresponding values, guiding the model to establish correct correspondence between two features and transfer it to the transparent areas. For the student branch, we propose a consistent feature correlation module (CFCM) that retains the reliable regions of RGB images and depth maps respectively according to the consistency and adopts a CNN to capture the pairwise relationship for depth completion. To avoid the student branch only learning regional features from the teacher branch, we devise a distillation loss that not only considers the distance loss but also the object structure and edge information. Extensive experiments conducted on the ClearGrasp dataset manifest that our teacher network outperforms state-of-the-art methods in terms of accuracy and generalization, and the student network achieves competitive results with a higher speed of 48 FPS. In addition, the significant improvement in a real-world robotic grasping system illustrates the effectiveness and robustness of our proposed system.
翻訳日:2024-08-04 21:25:51 公開日:2024-08-01
# MAARS: リアルタイムシステムのセキュリティのためのマルチレートアタック対応ランダムスケジューリング

MAARS: Multi-Rate Attack-Aware Randomized Scheduling for Securing Real-time Systems ( http://arxiv.org/abs/2408.00341v1 )

ライセンス: Link先を確認
Arkaprava Sain, Sunandan Adhikary, Ipsita Koley, Soumyajit Dey, (参考訳) 現代のサイバー物理システム(CPS)は、通信ネットワークによって相互接続される多数の制御ユニットで構成されている。 各制御ユニットは、複数の安全クリティカルかつ非クリティカルなタスクをリアルタイムで実行する。 安全クリティカルなタスクの多くは、その安全性とパフォーマンス分析に役立つ決定論的タイミング動作を保証するために、固定サンプリング期間で実行される。 しかし、敵は安全クリティカルなタスクのこの決定論的行動を利用して、推論ベースの攻撃を起動することができる。 本稿では,このようなタイミング予測やスケジュールに基づく攻撃を防止し,最小限に抑え,制御ユニットを危険にさらすことを目的とする。 これは、安全クリティカルな制御タスクの戦略的に選択された実行率を切り替えて、パフォーマンスを損なわないようにする。 その後、制御タスクの複数の周期性に対して発生する有効なスケジュールを、実行時に切り替える新しいスケジュール脆弱性解析手法を提案する。 これらの戦略を利用することで、安全クリティカルなリアルタイムシステムに対するタイミング推論に基づく攻撃の成功率を最小限に抑える、プリエンプティブな固定優先度スケジューラのための新しいマルチレートアタック・アウェア・ランダム化スケジューリング(MAARS)フレームワークを導入する。 我々の知る限りでは、制御面とスケジューリング面の両方を保持するアタック意識を持つスケジュールランダム化手法を提案するのはこれが初めてである。 ハードウェア・イン・ループ(HiL)環境におけるいくつかの自動車ベンチマークにおいて,攻撃防止の観点からフレームワークの有効性を評価する。

Modern Cyber-Physical Systems (CPSs) consist of numerous control units interconnected by communication networks. Each control unit executes multiple safety-critical and non-critical tasks in real-time. Most of the safety-critical tasks are executed with a fixed sampling period to ensure deterministic timing behaviour that helps in its safety and performance analysis. However, adversaries can exploit this deterministic behaviour of safety-critical tasks to launch inference-based-based attacks on them. This paper aims to prevent and minimize the possibility of such timing inference or schedule-based attacks to compromise the control units. This is done by switching between strategically chosen execution rates of the safety-critical control tasks such that their performance remains unhampered. Thereafter, we present a novel schedule vulnerability analysis methodology to switch between valid schedules generated for these multiple periodicities of the control tasks in run time. Utilizing these strategies, we introduce a novel Multi-Rate Attack-Aware Randomized Scheduling (MAARS) framework for preemptive fixed-priority schedulers that minimize the success rate of timing-inference-based attacks on safety-critical real-time systems. To our knowledge, this is the first work to propose a schedule randomization method with attack awareness that preserves both the control and scheduling aspects. The efficacy of the framework in terms of attack prevention is finally evaluated on several automotive benchmarks in a Hardware-in-loop (HiL) environment.
翻訳日:2024-08-04 21:25:51 公開日:2024-08-01
# ヒューマノイド制御のための MuJoCo MPC:Humanoid Bench の評価

MuJoCo MPC for Humanoid Control: Evaluation on HumanoidBench ( http://arxiv.org/abs/2408.00342v1 )

ライセンス: Link先を確認
Moritz Meser, Aditya Bhatt, Boris Belousov, Jan Peters, (参考訳) 我々は最近, MuJoCo MPC を用いたヒューマノイドベンチ(HumanoidBench)に関するベンチマークを行った。 我々は,HumanoidBenchのスパース報酬関数が最適化された場合,望ましくない,非現実的な動作をもたらすことを見出した。 タスクのサブセットに対する現在の評価は、提案した報酬関数が、現実的な姿勢と滑らかな制御信号を維持しつつ、高いHumanoidBenchスコアを達成可能であることを示している。 私たちのコードは公開されており、MuJoCo MPCの一部となり、ロボットの行動の迅速なプロトタイピングを可能にします。

We tackle the recently introduced benchmark for whole-body humanoid control HumanoidBench using MuJoCo MPC. We find that sparse reward functions of HumanoidBench yield undesirable and unrealistic behaviors when optimized; therefore, we propose a set of regularization terms that stabilize the robot behavior across tasks. Current evaluations on a subset of tasks demonstrate that our proposed reward function allows achieving the highest HumanoidBench scores while maintaining realistic posture and smooth control signals. Our code is publicly available and will become a part of MuJoCo MPC, enabling rapid prototyping of robot behaviors.
翻訳日:2024-08-04 21:25:51 公開日:2024-08-01
# IN-Sight: 視線によるインタラクティブナビゲーション

IN-Sight: Interactive Navigation through Sight ( http://arxiv.org/abs/2408.00343v1 )

ライセンス: Link先を確認
Philipp Schoch, Fan Yang, Yuntao Ma, Stefan Leutenegger, Marco Hutter, Quentin Leboute, (参考訳) 現在の視覚ナビゲーションシステムは、しばしば環境を静的として扱い、障害物と適応的に相互作用する能力が欠如している。 この制限は、避けられない障害に遭遇する際のナビゲーション障害を引き起こす。 In-Sightは、自己教師付き経路計画の新しいアプローチであり、障害物との相互作用を通じてより効果的なナビゲーション戦略を実現する。 RGB-Dの観測を利用して、IN-Sightは移動可能性スコアを計算し、それらを意味マップに組み込むことで、複雑な迷路のような環境での長距離経路計画を容易にする。 障害物を正確にナビゲートするために、IN-Sightはローカルプランナーを使用し、表現学習技術を用いて異なるコストマップを命令的に訓練する。 このフレームワークは、最先端のフォトリアリスティックなIntel SPEARシミュレーター内でエンドツーエンドのトレーニングを行っている。 様々なシミュレーションシナリオとアブレーション研究において,IN-Sightの有効性を広範囲なベンチマークにより検証した。 さらに,ゼロショットシミュレートによる実世界の応用性を実証し,ロボットプラットフォームであるANYmalにプランナーを配置し,実環境における対話型ナビゲーションの実現可能性を示す。

Current visual navigation systems often treat the environment as static, lacking the ability to adaptively interact with obstacles. This limitation leads to navigation failure when encountering unavoidable obstructions. In response, we introduce IN-Sight, a novel approach to self-supervised path planning, enabling more effective navigation strategies through interaction with obstacles. Utilizing RGB-D observations, IN-Sight calculates traversability scores and incorporates them into a semantic map, facilitating long-range path planning in complex, maze-like environments. To precisely navigate around obstacles, IN-Sight employs a local planner, trained imperatively on a differentiable costmap using representation learning techniques. The entire framework undergoes end-to-end training within the state-of-the-art photorealistic Intel SPEAR Simulator. We validate the effectiveness of IN-Sight through extensive benchmarking in a variety of simulated scenarios and ablation studies. Moreover, we demonstrate the system's real-world applicability with zero-shot sim-to-real transfer, deploying our planner on the legged robot platform ANYmal, showcasing its practical potential for interactive navigation in real environments.
翻訳日:2024-08-04 21:25:51 公開日:2024-08-01
# 大規模ビデオ駆動Eコマースにおけるビデオ検索のためのニューラルグラフマッチング

Neural Graph Matching for Video Retrieval in Large-Scale Video-driven E-commerce ( http://arxiv.org/abs/2408.00346v1 )

ライセンス: Link先を確認
Houye Ji, Ye Tang, Zhaoxin Chen, Lixi Deng, Jun Hu, Lei Su, (参考訳) ショートビデオ産業の急速な発展に伴い、従来のeコマースは新しいパラダイムであるビデオ駆動型eコマースに遭遇した。 ダイナミックで視覚化されたアイテムの導入から、ビデオ駆動のeコマースは、消費者の信頼を刺激し、販売を促進する大きな可能性を秘めている。 本稿では,(1)ユーザ,アイテム,ビデオの不均一性をどう扱うか,という課題に直面する,ビデオ検索の課題に焦点をあてる。 (2) 利用者の理解を深めるために、アイテムとビデオの相補性をどう掘り下げるか? 本稿では,ビデオ駆動型電子商取引におけるユーザ・ビデオ・ユーザ・イテム相互作用の共存をモデル化し,ユーザの嗜好理解をグラフマッチング問題に革新的に還元する。 そこで本研究では,ノードレベルのグラフマッチングと優先レベルのグラフマッチングを主目的とする,新しい二レベルグラフマッチングネットワーク(GMN)を提案する。 ユーザが指定したノードレベルのグラフマッチングは、ビデオとアイテムのマッチングを目標とし、優先度レベルのグラフマッチングは、ビデオとアイテムの両方から抽出された複数のユーザの好みにマッチする。 提案したGMNは、一致したノードや好みを2レベルにまとめることで、ユーザ埋め込みを生成および改善することができる。 総合的な実験により、提案されたGMNは最先端のアプローチ(例えば、AUC+1.9%、CTR+7.15%)よりも大幅に改善された。 私たちはよく知られたビデオ駆動型Eコマースプラットフォームで開発し、毎日数億人のユーザーにサービスを提供しています。

With the rapid development of the short video industry, traditional e-commerce has encountered a new paradigm, video-driven e-commerce, which leverages attractive videos for product showcases and provides both video and item services for users. Benefitting from the dynamic and visualized introduction of items,video-driven e-commerce has shown huge potential in stimulating consumer confidence and promoting sales. In this paper, we focus on the video retrieval task, facing the following challenges: (1) Howto handle the heterogeneities among users, items, and videos? (2)How to mine the complementarity between items and videos for better user understanding? In this paper, we first leverage the dual graph to model the co-existing of user-video and user-item interactions in video-driven e-commerce and innovatively reduce user preference understanding to a graph matching problem. To solve it, we further propose a novel bi-level Graph Matching Network(GMN), which mainly consists of node- and preference-level graph matching. Given a user, node-level graph matching aims to match videos and items, while preference-level graph matching aims to match multiple user preferences extracted from both videos and items. Then the proposed GMN can generate and improve user embedding by aggregating matched nodes or preferences from the dual graph in a bi-level manner. Comprehensive experiments show the superiority of the proposed GMN with significant improvements over state-of-the-art approaches (e.g., AUC+1.9% and CTR+7.15%). We have developed it on a well-known video-driven e-commerce platform, serving hundreds of millions of users every day
翻訳日:2024-08-04 21:25:51 公開日:2024-08-01
# 医用画像セグメンテーションの促進:拡散変換器を用いた形態駆動学習

Advancing Medical Image Segmentation: Morphology-Driven Learning with Diffusion Transformer ( http://arxiv.org/abs/2408.00347v1 )

ライセンス: Link先を確認
Sungmin Kang, Jaeha Song, Jihie Kim, (参考訳) 医学画像の形態的構造を理解し,興味領域や異常領域を正確に区分することは診断を助ける重要な課題である。 しかし, 医用画像の特徴は明瞭なセグメンテーションを困難にしており, 高いコストと時間を要するラベル付け作業は, 粗い接地事実の表現に繋がる。 これらの問題に直面して,ノイズの存在下での頑健なセグメンテーションのための新しい拡散変圧器セグメンテーション(DTS)モデルを提案する。 本稿では,トランスフォーマアーキテクチャを応用した実験により,自己注意によるグローバルな依存性を捉えることで,支配的なデノナイズU-Netエンコーダに代わる方法を提案する。 さらに,k-neighborラベルの平滑化,逆境界注意,形態学学習による自己教師型学習を提案し,複雑な構造を識別する能力を向上させる。 画像の形態的表現を解析する本モデルでは,CT,MRI,病変画像など,様々な画像モダリティにおいて,従来のモデルよりも良好な結果が得られた。

Understanding the morphological structure of medical images and precisely segmenting the region of interest or abnormality is an important task that can assist in diagnosis. However, the unique properties of medical imaging make clear segmentation difficult, and the high cost and time-consuming task of labeling leads to a coarse-grained representation of ground truth. Facing with these problems, we propose a novel Diffusion Transformer Segmentation (DTS) model for robust segmentation in the presence of noise. We propose an alternative to the dominant Denoising U-Net encoder through experiments applying a transformer architecture, which captures global dependency through self-attention. Additionally, we propose k-neighbor label smoothing, reverse boundary attention, and self-supervised learning with morphology-driven learning to improve the ability to identify complex structures. Our model, which analyzes the morphological representation of images, shows better results than the previous models in various medical imaging modalities, including CT, MRI, and lesion images.
翻訳日:2024-08-04 21:25:51 公開日:2024-08-01
# 医用画像診断の安全性:AI耐性攻撃の詳細な分析

Securing the Diagnosis of Medical Imaging: An In-depth Analysis of AI-Resistant Attacks ( http://arxiv.org/abs/2408.00348v1 )

ライセンス: Link先を確認
Angona Biswas, MD Abdullah Al Nasim, Kishor Datta Gupta, Roy George, Abdur Rashid, (参考訳) 機械学習(ML)は、コンピュータ科学と統計学を医療問題に適用するために重要な資源を使用する、急速に発展する医学分野である。 MLの支持者たちは、膨大な、複雑で、不安定な医療データを扱う能力を誇示している。 機械学習分類器のインプットを意図的に生成することで、攻撃者が誤分類を引き起こすという一般的な知識である。 コンピュータビジョン応用の分野では、敵の例の研究が盛んに行われている。 医療システムは、それらが含むセキュリティや生命・死の考慮から非常に困難であると考えられており、パフォーマンスの正確性は非常に重要である。 近年の議論は、医療画像分析(MedIA)技術に対する敵対的な攻撃は、技術基盤と強力な金融インセンティブが伴うことによる可能性があることを示唆している。 診断は重要な決定の基盤となるため、医療用DNNタスクが敵の攻撃に対してどれほど強いかを評価することが不可欠である。 いくつかの初期の研究では、単純な敵対攻撃が考慮されている。 しかし、DNNはより危険で現実的な攻撃を受けやすい。 本稿では,医療画像と対策のためのDNNに対する最近提案された敵攻撃戦略について述べる。 本研究では, 敵画像攻撃, 検出技術について概説する。 また、これらのテクニックのさまざまな側面を包含し、将来改善されるニューラルネットワークの堅牢性を提案する。

Machine learning (ML) is a rapidly developing area of medicine that uses significant resources to apply computer science and statistics to medical issues. ML's proponents laud its capacity to handle vast, complicated, and erratic medical data. It's common knowledge that attackers might cause misclassification by deliberately creating inputs for machine learning classifiers. Research on adversarial examples has been extensively conducted in the field of computer vision applications. Healthcare systems are thought to be highly difficult because of the security and life-or-death considerations they include, and performance accuracy is very important. Recent arguments have suggested that adversarial attacks could be made against medical image analysis (MedIA) technologies because of the accompanying technology infrastructure and powerful financial incentives. Since the diagnosis will be the basis for important decisions, it is essential to assess how strong medical DNN tasks are against adversarial attacks. Simple adversarial attacks have been taken into account in several earlier studies. However, DNNs are susceptible to more risky and realistic attacks. The present paper covers recent proposed adversarial attack strategies against DNNs for medical imaging as well as countermeasures. In this study, we review current techniques for adversarial imaging attacks, detections. It also encompasses various facets of these techniques and offers suggestions for the robustness of neural networks to be improved in the future.
翻訳日:2024-08-04 21:25:51 公開日:2024-08-01
# 拡散モデルを用いた物体検出のための簡易バックグラウンド拡張法

A Simple Background Augmentation Method for Object Detection with Diffusion Model ( http://arxiv.org/abs/2408.00350v1 )

ライセンス: Link先を確認
Yuhang Li, Xin Dong, Chen Chen, Weiming Zhuang, Lingjuan Lyu, (参考訳) コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。 本研究では,オブジェクト検出やインスタンスのセグメンテーションといった下流タスクの恩恵を受けるために,データセットの多様性問題を改善することの課題に対処する。 本稿では、生成モデルの進歩、特に安定拡散のようなテキストから画像への合成技術を活用した、シンプルで効果的なデータ拡張手法を提案する。 提案手法は, 付加アノテーションを必要とせず, 既存のトレーニングデータを拡張するため, ラベル付き実画像のバリエーションの生成に重点を置いている。 背景強化は,特に,モデルの堅牢性や一般化能力を大幅に向上させる。 また、生成したコンテンツが既存のアノテーションに準拠していることを保証するために、プロンプトとマスクの調整方法についても検討する。 拡張手法の有効性はCOCOデータセットや他の重要なオブジェクト検出ベンチマークの総合的な評価を通じて検証され,様々なシナリオにおけるモデル性能の顕著な向上が示されている。 このアプローチはデータセット拡張の課題に対する有望な解決策を提供し、より正確で堅牢なコンピュータビジョンモデルの開発に寄与する。

In computer vision, it is well-known that a lack of data diversity will impair model performance. In this study, we address the challenges of enhancing the dataset diversity problem in order to benefit various downstream tasks such as object detection and instance segmentation. We propose a simple yet effective data augmentation approach by leveraging advancements in generative models, specifically text-to-image synthesis technologies like Stable Diffusion. Our method focuses on generating variations of labeled real images, utilizing generative object and background augmentation via inpainting to augment existing training data without the need for additional annotations. We find that background augmentation, in particular, significantly improves the models' robustness and generalization capabilities. We also investigate how to adjust the prompt and mask to ensure the generated content comply with the existing annotations. The efficacy of our augmentation techniques is validated through comprehensive evaluations of the COCO dataset and several other key object detection benchmarks, demonstrating notable enhancements in model performance across diverse scenarios. This approach offers a promising solution to the challenges of dataset enhancement, contributing to the development of more accurate and robust computer vision models.
翻訳日:2024-08-04 21:25:51 公開日:2024-08-01
# カジュアルビデオからアニマタブルな物体を再構成するための階層構造を有する神経骨

Hierarchically Structured Neural Bones for Reconstructing Animatable Objects from Casual Videos ( http://arxiv.org/abs/2408.00351v1 )

ライセンス: Link先を確認
Subin Jeon, In Cho, Minsu Kim, Woong Oh Cho, Seon Joo Kim, (参考訳) 任意のオブジェクトの3Dモデルの作成と操作を, カジュアルにキャプチャしたビデオを用いて行う新しいフレームワークを提案する。 我々の中核となる要素は、木構造骨で物体の動きをキャプチャする新しい構造変形モデルである。 階層構造は, その粒度に基づいて動きを分解し, 従来の構造知識を活用せずに, 部品間の相関関係を明らかにする。 さらに, 部位の運動, 中心, 部位の関連面を十分に覆い, 位置決めする骨の規則化も提案する。 骨内に所定の3Dポイントが配置されているかどうかを識別する骨占有機能によって達成される。 提案するコンポーネントと組み合わせることで,(1) 任意のオブジェクトのアニマタブルな3Dモデルが得られる,(2) ユーザは最小限のコストで直感的に3Dモデルを操作でき,(3) ユーザーは必要に応じてインタラクティブに制御ポイントを追加・削除することができる,というメリットが得られた。 実験により, 再構築品質, 解釈可能性, 操作性の向上など, 多様な事例に対するフレームワークの有効性が示された。 私たちのコードはhttps://github.com/subin6/HSNB.comで利用可能です。

We propose a new framework for creating and easily manipulating 3D models of arbitrary objects using casually captured videos. Our core ingredient is a novel hierarchy deformation model, which captures motions of objects with a tree-structured bones. Our hierarchy system decomposes motions based on the granularity and reveals the correlations between parts without exploiting any prior structural knowledge. We further propose to regularize the bones to be positioned at the basis of motions, centers of parts, sufficiently covering related surfaces of the part. This is achieved by our bone occupancy function, which identifies whether a given 3D point is placed within the bone. Coupling the proposed components, our framework offers several clear advantages: (1) users can obtain animatable 3D models of the arbitrary objects in improved quality from their casual videos, (2) users can manipulate 3D models in an intuitive manner with minimal costs, and (3) users can interactively add or delete control points as necessary. The experimental results demonstrate the efficacy of our framework on diverse instances, in reconstruction quality, interpretability and easier manipulation. Our code is available at https://github.com/subin6/HSNB.
翻訳日:2024-08-04 21:25:51 公開日:2024-08-01
# テキスト・トゥ・モーションのためのLDMによる自律的対向攻撃

Autonomous LLM-Enhanced Adversarial Attack for Text-to-Motion ( http://arxiv.org/abs/2408.00352v1 )

ライセンス: Link先を確認
Honglei Miao, Fan Ma, Ruijie Quan, Kun Zhan, Yi Yang, (参考訳) 深層生成モデルによって駆動される人間の動作生成は、魅力的な応用を可能にしているが、テキストからリアルな動きを生成できるテキスト・ツー・モーション(T2M)モデルが悪用された場合、セキュリティ上の懸念を引き起こす。 T2Mへの関心が高まりつつも、これらのモデルを敵対的攻撃から保護することに焦点を当てる手法はほとんどなく、既存のテキスト・ツー・イメージ・モデルは独自のモーション・ドメインでは不十分であることが証明されている。 本稿では,大規模言語モデル(LLM)を活用した自動フレームワークであるALRT-Motionを提案する。 事前定義されたルールによってプロンプトを変更する従来の方法とは異なり、ALRT-MotionはLLMの人間の動作に関する知識を使用して、微妙で強力な敵対的なテキスト記述を自律的に生成する。 LLMベースのエージェントを構築して敵のプロンプトを反復的に洗練・探索するアダプティブディスパッチモジュールと、エージェントの検索を誘導するために意味的に関連する動作情報を抽出するマルチモーダル情報コントラッシブモジュールとを含む。 このLLM駆動のアプローチを通じて、ALERT-Motionは、明らかな摂動を避けながら、被害者のモデルにクエリーを行い、的を絞った動作の出力を生成する。 一般的なT2Mモデルに対する評価は、ALERT-Motionが従来の手法よりも優れていることを示している。 このT2M敵攻撃の先駆的な研究は、モーションジェネレーション技術が進歩するにつれて防衛対策を開発する緊急性を強調し、安全で責任ある展開に関するさらなる研究を促している。

Human motion generation driven by deep generative models has enabled compelling applications, but the ability of text-to-motion (T2M) models to produce realistic motions from text prompts raises security concerns if exploited maliciously. Despite growing interest in T2M, few methods focus on safeguarding these models against adversarial attacks, with existing work on text-to-image models proving insufficient for the unique motion domain. In the paper, we propose ALERT-Motion, an autonomous framework leveraging large language models (LLMs) to craft targeted adversarial attacks against black-box T2M models. Unlike prior methods modifying prompts through predefined rules, ALERT-Motion uses LLMs' knowledge of human motion to autonomously generate subtle yet powerful adversarial text descriptions. It comprises two key modules: an adaptive dispatching module that constructs an LLM-based agent to iteratively refine and search for adversarial prompts; and a multimodal information contrastive module that extracts semantically relevant motion information to guide the agent's search. Through this LLM-driven approach, ALERT-Motion crafts adversarial prompts querying victim models to produce outputs closely matching targeted motions, while avoiding obvious perturbations. Evaluations across popular T2M models demonstrate ALERT-Motion's superiority over previous methods, achieving higher attack success rates with stealthier adversarial prompts. This pioneering work on T2M adversarial attacks highlights the urgency of developing defensive measures as motion generation technology advances, urging further research into safe and responsible deployment.
翻訳日:2024-08-04 21:25:51 公開日:2024-08-01
# 辞書順序の再定義:量子コンパイルのためのPauli文字列分割の最適化

Redefining Lexicographical Ordering: Optimizing Pauli String Decompositions for Quantum Compiling ( http://arxiv.org/abs/2408.00354v1 )

ライセンス: Link先を確認
Qunsheng Huang, David Winderl, Arianne Meijer-van de Griend, Richie Yeung, (参考訳) 量子コンピューティングにおいて、パウリ弦分解の効率的な最適化は、化学シミュレーションや量子機械学習など、多くの応用のための量子回路のコンパイルにおいて重要な側面である。 本稿では,従来の解よりもゲートが大幅に少ない回路を生じるトロッタ化時間進化演算子を合成するための新しいアルゴリズムを提案する。 我々の合成手順は、ターゲット量子コンピュータの量子ビット接続を考慮に入れている。 その結果、生成した量子回路はルーティングを必要とせず、結果の回路をターゲットデバイス上で実行するために追加のCNOTゲートは不要となる。 このアルゴリズムをPaulihedral と TKET と比較し,ランダム化回路と異なる分子アンサーゼに有意な改善が認められた。 また、ハミルトン対デフォルト順序の項の順序付けとベースライン法からの順序付けによってもたらされるトロッター誤差について検討し、平均的な手法ではトロッター誤差は増加しないと結論付けた。

In quantum computing, the efficient optimization of Pauli string decompositions is a crucial aspect for the compilation of quantum circuits for many applications, such as chemistry simulations and quantum machine learning. In this paper, we propose a novel algorithm for the synthesis of trotterized time-evolution operators that results in circuits with significantly fewer gates than previous solutions. Our synthesis procedure takes the qubit connectivity of a target quantum computer into account. As a result, the generated quantum circuit does not require routing, and no additional CNOT gates are needed to run the resulting circuit on a target device. We compare our algorithm against Paulihedral and TKET, and show a significant improvement for randomized circuits and different molecular ansatzes. We also investigate the Trotter error introduced by our ordering of the terms in the Hamiltonian versus default ordering and the ordering from the baseline methods and conclude that our method on average does not increase the Trotter error.
翻訳日:2024-08-04 21:25:51 公開日:2024-08-01
# DNTextSpotter:Denoising Trainingの改良による任意形状のシーンテキストスポッティング

DNTextSpotter: Arbitrary-Shaped Scene Text Spotting via Improved Denoising Training ( http://arxiv.org/abs/2408.00355v1 )

ライセンス: Link先を確認
Yu Xie, Qian Qiao, Jun Gao, Tianxiang Wu, Shaoyao Huang, Jiaqing Fan, Ziqiang Cao, Zili Wang, Yue Zhang, Jielei Zhang, Huyang Sun, (参考訳) Transformerアーキテクチャに基づくエンドツーエンドのテキストスポッティング手法は、より優れたパフォーマンスを示している。 これらの手法は、2部グラフマッチングアルゴリズムを用いて予測対象と実際の対象との1対1の最適マッチングを行う。 しかし、二部グラフマッチングの不安定性は、一貫性のない最適化目標につながる可能性があるため、モデルのトレーニング性能に影響を及ぼす。 既存の文献では、オブジェクト検出タスクにおける二部グラフマッチングの不安定性の問題を解決するために、Denoising Trainingを適用している。 残念ながら、これらのタスクは、分類よりも不規則な形状検出タスクやより複雑なテキスト認識タスクを実行する必要があるため、テキストスポッティングタスクに直接適用することはできない。 そこで本研究では,任意のテキストスポッティングのための新しいDenoising Training Method (DNTextSpotter)を提案する。 具体的には,ノイズのある部分の問合せを,ノイズのある位置の問合せとノイズのある内容問合せに分解する。 我々は、ベジエ中心曲線の4つのベジエ制御点を用いて、ノイズのある位置クエリを生成する。 ノイズコンテンツクエリでは,定位順のテキストの出力がコンテンツとの整合性に寄与しないことを考慮し,ノイズコンテンツクエリを初期化するマスク付き文字スライディング手法を用いて,テキストの内容と位置の整合性を支援する。 DNTextSpotterは概念的にはシンプルだが、4つのベンチマーク(Total-Text, SCUT-CTW1500, ICDAR15, Inverse-Text)で最先端の手法よりも優れており、特にInverse-Textデータセットのベストアプローチに対して11.3%向上している。

More and more end-to-end text spotting methods based on Transformer architecture have demonstrated superior performance. These methods utilize a bipartite graph matching algorithm to perform one-to-one optimal matching between predicted objects and actual objects. However, the instability of bipartite graph matching can lead to inconsistent optimization targets, thereby affecting the training performance of the model. Existing literature applies denoising training to solve the problem of bipartite graph matching instability in object detection tasks. Unfortunately, this denoising training method cannot be directly applied to text spotting tasks, as these tasks need to perform irregular shape detection tasks and more complex text recognition tasks than classification. To address this issue, we propose a novel denoising training method (DNTextSpotter) for arbitrary-shaped text spotting. Specifically, we decompose the queries of the denoising part into noised positional queries and noised content queries. We use the four Bezier control points of the Bezier center curve to generate the noised positional queries. For the noised content queries, considering that the output of the text in a fixed positional order is not conducive to aligning position with content, we employ a masked character sliding method to initialize noised content queries, thereby assisting in the alignment of text content and position. To improve the model's perception of the background, we further utilize an additional loss function for background characters classification in the denoising training part.Although DNTextSpotter is conceptually simple, it outperforms the state-of-the-art methods on four benchmarks (Total-Text, SCUT-CTW1500, ICDAR15, and Inverse-Text), especially yielding an improvement of 11.3% against the best approach in Inverse-Text dataset.
翻訳日:2024-08-04 21:16:03 公開日:2024-08-01
# DeliLaw: 大規模言語モデルに基づく中国の法律カウンセラーシステム

DeliLaw: A Chinese Legal Counselling System Based on a Large Language Model ( http://arxiv.org/abs/2408.00357v1 )

ライセンス: Link先を確認
Nan Xie, Yuelin Bai, Hengyuan Gao, Feiteng Fang, Qixuan Zhao, Zhijian Li, Ziqiang Xue, Liang Zhu, Shiwen Ni, Min Yang, (参考訳) 法律文書、法令、前例、その他の法律情報を検索するために設計された従来の法的検索システムは、特定の質問のセマンティックな理解が欠如しているため、満足のいく回答を与えることができない。 大規模言語モデル(LLM)は、さまざまな自然言語処理タスクにおいて優れた成果を上げています。 しかし、中国の法律分野では、法的な問題や法的な記事の厳密さが複雑化しているため、実際的な適用が十分であるような法的な大模型はいまだに存在しない。 本稿では,大規模言語モデルに基づく中国の法律カウンセリングシステムであるDeliLawについて述べる。 DeliLawは法的な検索モジュールとケース検索モジュールを統合し、モデル幻覚を克服する。 ユーザーはDeliLawシステム上で、専門家の法的質問や法的記事の検索、関連する判断事例などを対話モードで参照することができる。 加えて、DeliLawはカウンセリングのための英語の使用をサポートする。 システムのアドレスを提供する。 https://data.delilegal.com/lawQuestion。

Traditional legal retrieval systems designed to retrieve legal documents, statutes, precedents, and other legal information are unable to give satisfactory answers due to lack of semantic understanding of specific questions. Large Language Models (LLMs) have achieved excellent results in a variety of natural language processing tasks, which inspired us that we train a LLM in the legal domain to help legal retrieval. However, in the Chinese legal domain, due to the complexity of legal questions and the rigour of legal articles, there is no legal large model with satisfactory practical application yet. In this paper, we present DeliLaw, a Chinese legal counselling system based on a large language model. DeliLaw integrates a legal retrieval module and a case retrieval module to overcome the model hallucination. Users can consult professional legal questions, search for legal articles and relevant judgement cases, etc. on the DeliLaw system in a dialogue mode. In addition, DeliLaw supports the use of English for counseling. we provide the address of the system: https://data.delilegal.com/lawQuestion.
翻訳日:2024-08-04 21:16:03 公開日:2024-08-01
# 小型ReLUネットワークを用いた付加ファインチューニングのためのメモリ化能力

Memorization Capacity for Additive Fine-Tuning with Small ReLU Networks ( http://arxiv.org/abs/2408.00359v1 )

ライセンス: Link先を確認
Jy-yong Sohn, Dohyun Kwon, Seoyeon An, Kangwook Lee, (参考訳) 微調整された大規模な事前学習モデルは、機械学習アプリケーションでは一般的なプラクティスであるが、その数学的解析はほとんど探索されていない。 本稿では,記憶能力のレンズによる微調整について検討する。 私たちの新しい測定基準であるFine-Tuning Capacity(FTC)は、ニューラルネットワークが微調整できるサンプルの最大数、または同等に、微調整プロセスで考慮されたサンプルのうち、N$のラベルを任意に変更するために必要なニューロンの最小数として定義される。 基本的にFTCは、記憶能力の概念を微調整シナリオにまで拡張している。 我々は、微調整ネットワークを凍結事前訓練ネットワーク$f$と、微調整用に設計されたニューラルネットワーク$g$($m$ニューロンを含む)の総和として定義する追加的な微調整シナリオについて、FTCの分析を行う。 g$ が 2 層か 3 層のいずれかの ReLU ネットワークである場合、FTC 上では、厳密な上層と下層の境界が得られます。我々は、$N$ サンプルを 2 層ネットワーク用の $m=\Theta(N)$ ニューロンと、$m=\Theta(\sqrt{N})$ ニューロンで微調整できることを示します。 その結果,特殊ケースとして$N = K$の場合に,既知の記憶能力が回復することがわかった。

Fine-tuning large pre-trained models is a common practice in machine learning applications, yet its mathematical analysis remains largely unexplored. In this paper, we study fine-tuning through the lens of memorization capacity. Our new measure, the Fine-Tuning Capacity (FTC), is defined as the maximum number of samples a neural network can fine-tune, or equivalently, as the minimum number of neurons ($m$) needed to arbitrarily change $N$ labels among $K$ samples considered in the fine-tuning process. In essence, FTC extends the memorization capacity concept to the fine-tuning scenario. We analyze FTC for the additive fine-tuning scenario where the fine-tuned network is defined as the summation of the frozen pre-trained network $f$ and a neural network $g$ (with $m$ neurons) designed for fine-tuning. When $g$ is a ReLU network with either 2 or 3 layers, we obtain tight upper and lower bounds on FTC; we show that $N$ samples can be fine-tuned with $m=\Theta(N)$ neurons for 2-layer networks, and with $m=\Theta(\sqrt{N})$ neurons for 3-layer networks, no matter how large $K$ is. Our results recover the known memorization capacity results when $N = K$ as a special case.
翻訳日:2024-08-04 21:16:03 公開日:2024-08-01
# Rich-Resource Prior を用いた高精度自己監督単分子深さ推定

High-Precision Self-Supervised Monocular Depth Estimation with Rich-Resource Prior ( http://arxiv.org/abs/2408.00361v1 )

ライセンス: Link先を確認
Wencheng Han, Jianbing Shen, (参考訳) 自己監督単眼深度推定の分野では、高解像度入力や多フレーム入力などのリッチリソース入力を利用するモデルは、通常単一画像入力を使用するモデルよりもパフォーマンスがよい。 しかし、これらのリッチリソースインプットは必ずしも利用できない可能性があり、一般的なシナリオにおけるこれらのメソッドの適用性を制限する。 本稿では,推測フェーズにおいて単一入力画像のみを必要とするRich-Resource Prior Depth estimator (RPrDepth)を提案する。 具体的には、リッチリソースデータを事前情報として扱い、オフラインで参照機能として特徴を抽出する。 単一画像の深度を推定すると、リッチリソースの特徴から類似したピクセルを検索し、それらを事前情報として使用して深度を推定する。 実験結果から,本モデルは他のシングルイメージモデルよりも優れており,低解像度のシングルイメージ入力のみを用いて,リッチリソース入力モデルと同等あるいはそれ以上の性能が得られることが示された。

In the area of self-supervised monocular depth estimation, models that utilize rich-resource inputs, such as high-resolution and multi-frame inputs, typically achieve better performance than models that use ordinary single image input. However, these rich-resource inputs may not always be available, limiting the applicability of these methods in general scenarios. In this paper, we propose Rich-resource Prior Depth estimator (RPrDepth), which only requires single input image during the inference phase but can still produce highly accurate depth estimations comparable to rich resource based methods. Specifically, we treat rich-resource data as prior information and extract features from it as reference features in an offline manner. When estimating the depth for a single-image image, we search for similar pixels from the rich-resource features and use them as prior information to estimate the depth. Experimental results demonstrate that our model outperform other single-image model and can achieve comparable or even better performance than models with rich-resource inputs, only using low-resolution single-image input.
翻訳日:2024-08-04 21:16:03 公開日:2024-08-01
# ビデオトピックセグメンテーションのためのマルチモーダル融合とコヒーレンスモデリング

Multimodal Fusion and Coherence Modeling for Video Topic Segmentation ( http://arxiv.org/abs/2408.00365v1 )

ライセンス: Link先を確認
Hai Yu, Chong Deng, Qinglin Zhang, Jiaqing Liu, Qian Chen, Wen Wang, (参考訳) ビデオトピックセグメンテーション(VTS)タスクは、ビデオを理解不能で重複しないトピックに分割し、ビデオコンテンツの効率的な理解と特定のコンテンツへの迅速なアクセスを容易にする。 VTSは、下流の様々なビデオ理解タスクにも重要である。 浅い特徴や教師なしアプローチを用いた従来のVTS手法は、トピック遷移のニュアンスを正確に識別するのに苦労する。 近年,教師なしアプローチよりも映像アクションやシーンセグメンテーションにおいて,教師なしアプローチの方が優れたパフォーマンスを実現している。 本研究では,マルチモーダル融合とマルチモーダルコヒーレンスモデリングを徹底的に検討することにより,教師付きVTSを改善する。 具体的には,(1)クロスアテンションと専門家の混在を利用して異なるアーキテクチャを探索し,マルチモーダル融合を強化する。 2)マルチモーダルなアライメントと融合を一般的に強化するために,マルチモーダルなコントラスト学習を用いてモデルを事前学習し,微調整する。 (3) VTSタスクに適した新しい事前学習タスクと,VTSのマルチモーダルコヒーレンスモデリングを強化するためのファインチューニングタスクを提案する。 本研究は,教育ビデオのトピックセグメンテーションが学習体験の促進に重要な役割を担っていることを理由に,講義の形で,教育ビデオに対する提案されたアプローチを評価する。 さらに,既存の英語コーパスを拡張するため,大規模な中国語講義ビデオデータセットを導入し,VTSのさらなる研究を促進する。 英語と中国語の講義データセットを用いた実験により,我々のモデルは,教師なしベースラインと教師なしベースラインの競合に比べ,優れたVTS性能が得られることが示された。

The video topic segmentation (VTS) task segments videos into intelligible, non-overlapping topics, facilitating efficient comprehension of video content and quick access to specific content. VTS is also critical to various downstream video understanding tasks. Traditional VTS methods using shallow features or unsupervised approaches struggle to accurately discern the nuances of topical transitions. Recently, supervised approaches have achieved superior performance on video action or scene segmentation over unsupervised approaches. In this work, we improve supervised VTS by thoroughly exploring multimodal fusion and multimodal coherence modeling. Specifically, (1) we enhance multimodal fusion by exploring different architectures using cross-attention and mixture of experts. (2) To generally strengthen multimodality alignment and fusion, we pre-train and fine-tune the model with multimodal contrastive learning. (3) We propose a new pre-training task tailored for the VTS task, and a novel fine-tuning task for enhancing multimodal coherence modeling for VTS. We evaluate the proposed approaches on educational videos, in the form of lectures, due to the vital role of topic segmentation of educational videos in boosting learning experiences. Additionally, we introduce a large-scale Chinese lecture video dataset to augment the existing English corpus, promoting further research in VTS. Experiments on both English and Chinese lecture datasets demonstrate that our model achieves superior VTS performance compared to competitive unsupervised and supervised baselines.
翻訳日:2024-08-04 21:16:03 公開日:2024-08-01
# DiM-Gesture: 適応層正規化Mamba-2フレームワークによる音声合成

DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework ( http://arxiv.org/abs/2408.00370v1 )

ライセンス: Link先を確認
Fan Zhang, Naye Ji, Fuxing Gao, Bozuo Zhao, Jingmei Wu, Yanbing Jiang, Hui Du, Zhenqing Ye, Jiayang Zhu, WeiFan Zhong, Leyao Yan, Xiaomeng Ma, (参考訳) 音声駆動ジェスチャ生成は、人間の仮想生成における新興領域であり、現在の手法は、広範囲なメモリを必要とするトランスフォーマーベースのアーキテクチャを主に利用し、推論速度が遅いことが特徴である。 これらの制約に対応するために,Mambaをベースとしたアーキテクチャを用いて,生音声のみから高度にパーソナライズされた3Dフルボディジェスチャを作成するための,新しいエンドツーエンド生成モデルである‘textit{DiM-Gestures} を提案する。 このモデルは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合する。 抽出器は、MambaフレームワークとWavLM事前訓練モデルを利用して、暗黙的かつ連続的なファジィ特徴を自律的に導出し、特異な潜在特徴に統一する。 この機能はAdaLN Mamba-2によって処理され、すべてのトークンに対して均一な条件機構を実装し、ファジィ特徴と結果として生じるジェスチャーシーケンスの間の相互作用を堅牢にモデル化する。 この革新的なアプローチは、ジェスチャーの自然性を維持しながら、ジェスチャー音声同期において高い忠実性を保証する。 学習と推論に拡散モデルを用いることで,ZEGGSおよびBEATデータセットに対する広範囲な主観的および客観的評価を行った。 これらの評価は、現在の最先端手法と比較して、我々のモデルの性能向上を裏付け、メモリ使用量の最適化と推論速度の高速化を図りながら、DiTsアーキテクチャ(Persona-Gestors)と競合する結果を示す。

Speech-driven gesture generation is an emerging domain within virtual human creation, where current methods predominantly utilize Transformer-based architectures that necessitate extensive memory and are characterized by slow inference speeds. In response to these limitations, we propose \textit{DiM-Gestures}, a novel end-to-end generative model crafted to create highly personalized 3D full-body gestures solely from raw speech audio, employing Mamba-based architectures. This model integrates a Mamba-based fuzzy feature extractor with a non-autoregressive Adaptive Layer Normalization (AdaLN) Mamba-2 diffusion architecture. The extractor, leveraging a Mamba framework and a WavLM pre-trained model, autonomously derives implicit, continuous fuzzy features, which are then unified into a singular latent feature. This feature is processed by the AdaLN Mamba-2, which implements a uniform conditional mechanism across all tokens to robustly model the interplay between the fuzzy features and the resultant gesture sequence. This innovative approach guarantees high fidelity in gesture-speech synchronization while maintaining the naturalness of the gestures. Employing a diffusion model for training and inference, our framework has undergone extensive subjective and objective evaluations on the ZEGGS and BEAT datasets. These assessments substantiate our model's enhanced performance relative to contemporary state-of-the-art methods, demonstrating competitive outcomes with the DiTs architecture (Persona-Gestors) while optimizing memory usage and accelerating inference speed.
翻訳日:2024-08-04 21:16:03 公開日:2024-08-01
# 一貫性モデリングに基づく欠陥画像生成

Few-shot Defect Image Generation based on Consistency Modeling ( http://arxiv.org/abs/2408.00372v1 )

ライセンス: Link先を確認
Qingfeng Shi, Jing Wei, Fei Shen, Zhengtao Zhang, (参考訳) 画像生成は欠陥検出におけるラベル付きデータの不十分な問題を解決することができる。 ほとんどの欠陥生成手法は、複数の製品間の相違を考慮せずに単一の製品上でのみ訓練され、結果の品質と多様性が低下する。 これらの問題に対処するために,複数製品にわたる製品内背景の一貫性と製品間欠陥の整合性の両方をモデル化し,製品タイプや欠陥強度を制御するための一貫性の摂動方向を調整し,多様な欠陥画像生成を実現するための新しいテキスト誘導拡散手法であるDefectDiffuを提案する。 まず、テキストエンコーダを利用して、アンタングル化されていない統合アーキテクチャの背景、欠陥、融合部分の一貫性プロンプトを個別に提供し、それによって欠陥と通常のバックグラウンドをアンタングル化する。 第2に,2段階の摂動方向の摂動により欠陥画像を生成する二重自由戦略を提案し,摂動スケールを調整して製品タイプと欠陥強度を制御する。 さらに、DefectDiffuは、欠陥部分から横断アテンションマップを利用した欠陥マスクアノテーションを生成することができる。 最後に,小さな欠陥やマスクの発生品質を向上させるため,欠陥に対する注意力を高めるために適応的な注意力損失を提案する。 実験結果から,DefectDiffuは生成品質と多様性の観点から最先端の手法を超越し,下流欠陥性能を効果的に向上することが示された。 さらに、欠陥摂動方向を様々な製品間で伝達してゼロショット欠陥発生を実現することで、不十分なデータ問題に対処する上で非常に有益である。 コードはhttps://github.com/FFDD-diffusion/DefectDiffuで入手できる。

Image generation can solve insufficient labeled data issues in defect detection. Most defect generation methods are only trained on a single product without considering the consistencies among multiple products, leading to poor quality and diversity of generated results. To address these issues, we propose DefectDiffu, a novel text-guided diffusion method to model both intra-product background consistency and inter-product defect consistency across multiple products and modulate the consistency perturbation directions to control product type and defect strength, achieving diversified defect image generation. Firstly, we leverage a text encoder to separately provide consistency prompts for background, defect, and fusion parts of the disentangled integrated architecture, thereby disentangling defects and normal backgrounds. Secondly, we propose the double-free strategy to generate defect images through two-stage perturbation of consistency direction, thereby controlling product type and defect strength by adjusting the perturbation scale. Besides, DefectDiffu can generate defect mask annotations utilizing cross-attention maps from the defect part. Finally, to improve the generation quality of small defects and masks, we propose the adaptive attention-enhance loss to increase the attention to defects. Experimental results demonstrate that DefectDiffu surpasses state-of-the-art methods in terms of generation quality and diversity, thus effectively improving downstream defection performance. Moreover, defect perturbation directions can be transferred among various products to achieve zero-shot defect generation, which is highly beneficial for addressing insufficient data issues. The code are available at https://github.com/FFDD-diffusion/DefectDiffu.
翻訳日:2024-08-04 21:16:03 公開日:2024-08-01
# 協調運転における多視点データ統合によるコンフォーマル軌道予測

Conformal Trajectory Prediction with Multi-View Data Integration in Cooperative Driving ( http://arxiv.org/abs/2408.00374v1 )

ライセンス: Link先を確認
Xi Chen, Rahul Bhadani, Larry Head, (参考訳) 軌道予測に関する現在の研究は、主にエゴ車両の搭載センサーによって収集されたデータに依存している。 車両間通信 (V2V) や車両間通信 (V2I) などの接続技術が急速に進歩し, 無線ネットワークを介して, 代替ビューからの貴重な情報にアクセスできるようになる。 オルタナティブ・ビューからの情報の統合は、オクルージョンや限られた視野のような単一の視点に関連する固有の制限を克服する可能性がある。 本稿では,既存のシングルビューモデルを拡張してマルチビューデータをモデル化する新しいトラジェクトリ予測フレームワークであるV2INetを紹介する。 マルチビューデータを手動で融合したり、個別のトレーニング段階として定式化したりする従来のアプローチとは異なり、当社のモデルはエンドツーエンドのトレーニングをサポートし、柔軟性とパフォーマンスを両立させる。 さらに、予測されたマルチモーダル軌道は、ポストホック共形予測モジュールによって校正され、有効かつ効率的な信頼領域を得る。 実世界のV2IデータセットであるV2X-Seqを用いて,フレームワーク全体の評価を行った。 以上の結果から,FDE(Final Displacement Error)とMR(Miss Rate)において,単一GPUを用いた優れた性能を示した。 コードは: \url{https://github.com/xichennn/V2I_trajectory_prediction}で公開されている。

Current research on trajectory prediction primarily relies on data collected by onboard sensors of an ego vehicle. With the rapid advancement in connected technologies, such as vehicle-to-vehicle (V2V) and vehicle-to-infrastructure (V2I) communication, valuable information from alternate views becomes accessible via wireless networks. The integration of information from alternative views has the potential to overcome the inherent limitations associated with a single viewpoint, such as occlusions and limited field of view. In this work, we introduce V2INet, a novel trajectory prediction framework designed to model multi-view data by extending existing single-view models. Unlike previous approaches where the multi-view data is manually fused or formulated as a separate training stage, our model supports end-to-end training, enhancing both flexibility and performance. Moreover, the predicted multimodal trajectories are calibrated by a post-hoc conformal prediction module to get valid and efficient confidence regions. We evaluated the entire framework using the real-world V2I dataset V2X-Seq. Our results demonstrate superior performance in terms of Final Displacement Error (FDE) and Miss Rate (MR) using a single GPU. The code is publicly available at: \url{https://github.com/xichennn/V2I_trajectory_prediction}.
翻訳日:2024-08-04 21:16:03 公開日:2024-08-01
# 散乱波束の2次非局所シフト:Goos-HänchenとImbert-Fedorov効果で何が測定できるのか?

Second-order nonlocal shifts of scattered wave-packets: What can be measured by Goos-Hänchen and Imbert-Fedorov effects ? ( http://arxiv.org/abs/2408.00375v1 )

ライセンス: Link先を確認
K. Morawetz, (参考訳) 表面における任意のエネルギー分散を伴うウェーブパペットの散乱を解析した。 散乱シフトの2階まで拡大すると、既知のグース・アンチェンやイムベルト・フェドロフ空間オフセットに加えて、ウィグナー遅延時間、新しい運動量、周波数シフトが現れる。 さらに、散乱波パケットの幅も変更され、多重散乱によるパルスの縮小につながる可能性がある。 縦・横の誘電関数を特徴とする誘電体モデルでは、シフトを解析的に計算する。 Goos-H\ と Imbert-Fedorov シフトから、縦方向と横方向の誘電関数にアクセスできる。 散乱ビームに対する完全な配向結晶対称性軸は、イムベルト=フェドロフ効果を示さない。 等質材料には、グース・アンチェンとイムベルト・フェドロフ効果が欠如していることが判明した。 反対に、ウィグナー遅延時間と時間パルス幅の縮小は、ビーム幾何学に依存しない誘電関数にアクセスすることができる。

The scattering of wavepackets with arbitrary energy dispersion on surfaces has been analyzed. Expanding up to second order in scattering shifts, it is found that besides the known Goos-H\"anchen or Imbert-Fedorov spatial offset, as well as the Wigner delay time, new momentum and frequency shifts appear. Furthermore, the width of the scattered wave packet becomes modified as well, which can lead to a shrinking of pulses by multiple scattering. For a model of dielectric material characterized by a longitudinal and transverse dielectric function the shifts are calculated analytically. From the Goos-H\"anchen and Imbert-Fedorov shifts one can access the longitudinal and transversal dielectric function. Perfectly aligned crystal symmetry axes with respect to scattering beam shows no Imbert-Fedorov effect. It is found that the Goos-H\"anchen and Imbert-Fedorov effect are absent for homogeneous materials. Oppositely it is found that the Wigner delay time and the shrinking of the temporal pulse width allows to access the dielectric function independent on the beam geometry.
翻訳日:2024-08-04 21:16:03 公開日:2024-08-01
# 生成AIのための機械学習の限界と展望

On the Limitations and Prospects of Machine Unlearning for Generative AI ( http://arxiv.org/abs/2408.00376v1 )

ライセンス: Link先を確認
Shiji Zhou, Lianzhe Wang, Jiangnan Ye, Yongliang Wu, Heng Chang, (参考訳) Generative AI(GenAI)は、潜伏変数や他のデータモダリティから現実的で多様なデータサンプルを合成することを目的としており、自然言語、画像、オーディオ、グラフなど様々な領域で顕著な成果を上げている。 しかし、データプライバシ、セキュリティ、倫理に課題やリスクも生じている。 機械学習とは、特定のデータサンプルや、訓練されたモデルからの影響を除去または弱めるプロセスであり、他のデータやタスクのパフォーマンスに影響を与えることはない。 機械学習は従来の機械学習タスクに大きな効果を示したが、GenAIがより安全になり、人間の欲求に沿うようになるかどうかはまだ不明だ。 この目的のために,本研究では,GenAIの非学習的アプローチについて,詳細な議論を行う。 まず、GenAI上での機械学習タスクの問題を定式化し、その背景を紹介する。 その後、LLMと画像生成(拡散)モデルという2つの代表的な分野に着目し、GenAIモデルにおける機械学習の限界を体系的に検討した。 最後に、ベンチマーク、評価指標、ユーティリティ・アンラーニングのトレードオフの3つの側面から、この分野の今後の発展を熱心に提唱する。

Generative AI (GenAI), which aims to synthesize realistic and diverse data samples from latent variables or other data modalities, has achieved remarkable results in various domains, such as natural language, images, audio, and graphs. However, they also pose challenges and risks to data privacy, security, and ethics. Machine unlearning is the process of removing or weakening the influence of specific data samples or features from a trained model, without affecting its performance on other data or tasks. While machine unlearning has shown significant efficacy in traditional machine learning tasks, it is still unclear if it could help GenAI become safer and aligned with human desire. To this end, this position paper provides an in-depth discussion of the machine unlearning approaches for GenAI. Firstly, we formulate the problem of machine unlearning tasks on GenAI and introduce the background. Subsequently, we systematically examine the limitations of machine unlearning on GenAI models by focusing on the two representative branches: LLMs and image generative (diffusion) models. Finally, we provide our prospects mainly from three aspects: benchmark, evaluation metrics, and utility-unlearning trade-off, and conscientiously advocate for the future development of this field.
翻訳日:2024-08-04 21:16:03 公開日:2024-08-01
# ステインノーマライゼーションによる全スライド病基盤モデルの強化

Enhancing Whole Slide Pathology Foundation Models through Stain Normalization ( http://arxiv.org/abs/2408.00380v1 )

ライセンス: Link先を確認
Juseung Yun, Yi Hu, Jinhyung Kim, Jongseong Jang, Soonyoung Lee, (参考訳) 近年のデジタル病理学の発展により,ギガピクセル全スライド画像(WSI)から抽出したパッチの自己教師型学習を利用した基礎モデルが多数開発されている。 これらの自己教師型モデルから抽出された特徴は個々のWSIによってクラスタ化される傾向にあり、これはWSI固有の特徴崩壊と呼ばれる現象である。 この問題は、様々な下流タスクにおけるモデルの一般化能力と性能を制限する可能性がある。 この問題に対処するために,染色正規化を施したパッチをトレーニングした新しい基礎モデルであるStain Normalized Pathology Foundational Modelを紹介した。 Stain normalizationは、異なる研究所やスキャナーから生じる色の変化を低減し、モデルがより一貫性のある特徴を学習できるようにする。 Stain Normalized Pathology Foundational Modelは、合計34,795個のWSIから抽出された285,153,903個のパッチを用いて、The Cancer Genome Atlas (TCGA)とGenotype-Tissue Expression (GTEx)プロジェクトからのデータを組み合わせて訓練されている。 本実験により,Stain Normalized Pathology Foundational Modelは特徴崩壊問題を著しく軽減し,個々のWSI特性に過度に適合するのではなく,より一般化した特徴を学習したことを示す。 Stain Normalized Pathology Foundational Model と6つのダウンストリームタスクデータセットの最先端モデルを比較した結果,<name{} は使用した WSI の数とモデルパラメータ数に対して優れた性能を示した。 このことは、染色正規化の適用によりモデルの効率性と一般化能力が大幅に向上したことを示唆している。

Recent advancements in digital pathology have led to the development of numerous foundational models that utilize self-supervised learning on patches extracted from gigapixel whole slide images (WSIs). While this approach leverages vast amounts of unlabeled data, we have discovered a significant issue: features extracted from these self-supervised models tend to cluster by individual WSIs, a phenomenon we term WSI-specific feature collapse. This problem can potentially limit the model's generalization ability and performance on various downstream tasks. To address this issue, we introduce Stain Normalized Pathology Foundational Model, a novel foundational model trained on patches that have undergone stain normalization. Stain normalization helps reduce color variability arising from different laboratories and scanners, enabling the model to learn more consistent features. Stain Normalized Pathology Foundational Model is trained using 285,153,903 patches extracted from a total of 34,795 WSIs, combining data from The Cancer Genome Atlas (TCGA) and the Genotype-Tissue Expression (GTEx) project. Our experiments demonstrate that Stain Normalized Pathology Foundational Model significantly mitigates the feature collapse problem, indicating that the model has learned more generalized features rather than overfitting to individual WSI characteristics. We compared Stain Normalized Pathology Foundational Model with state-of-the-art models across six downstream task datasets, and our results show that \name{} achieves excellent performance relative to the number of WSIs used and the model's parameter count. This suggests that the application of stain normalization has substantially improved the model's efficiency and generalization capabilities.
翻訳日:2024-08-04 21:16:03 公開日:2024-08-01
# Qiboによるフルステートベクターシミュレーションを超えて

Beyond full statevector simulation with Qibo ( http://arxiv.org/abs/2408.00384v1 )

ライセンス: Link先を確認
Andrea Pasquale, Andrea Papaluca, Renato M. S. Farias, Matteo Robbiati, Edoardo Pedicillo, Stefano Carrazza, (参考訳) 本稿では,量子シミュレーション,ハードウェア制御,校正のためのオープンソースフレームワークであるQiboのバックエンドとして,最近追加された2つの新しい量子回路シミュレーションプロトコルを提案する。 フレームワークの現状をバージョン0.2.9として記述する。 詳しくは、クリフォードとテンソルネットワークのシミュレーションのための2つの新しいバックエンドを紹介し、最先端技術に対してベンチマークする。

In this proceedings, we present two new quantum circuit simulation protocols recently added as optional backends to Qibo, an open-source framework for quantum simulation, hardware control and calibration. We describe the current status of the framework as for version 0.2.9. In detail, the two new backends for Clifford and tensor networks simulation are presented and benchmarked against the state-of-the-art.
翻訳日:2024-08-04 21:16:03 公開日:2024-08-01
# 変圧器の後に何が起こるのか -- ディープラーニングのアイデアを結びつける選択的調査

What comes after transformers? -- A selective survey connecting ideas in deep learning ( http://arxiv.org/abs/2408.00386v1 )

ライセンス: Link先を確認
Johannes Schneider, (参考訳) トランスフォーマーは、エネルギー不効率から幻覚まで、数多くの欠点があるにもかかわらず、2017年以来、人工知能のデファクトスタンダードモデルとなっている。 トランスフォーマーの要素を改善する研究は、多くの進歩を遂げており、より一般的には、アーキテクチャ、レイヤ、最適化目標、最適化技術に関する多くの提案において、ディープラーニングが示される。 研究者にとって、こうした発展をより広いレベルで追跡することは困難である。 深層学習の基本的な理解をすでに持っている人たちに対して、これらの領域における多くの重要かつ最近の研究の概要を包括的に紹介する。 私たちが特に目指しているのは、トランスフォーマーや最近のディープラーニングの成功アイデアに対する、斬新な、潜在的に破壊的なアプローチです。 このような、影響力のある、最近の作品と新しいアイデアの総合的で統一された治療が、研究者がさまざまな深層学習領域の間に新しいつながりを形成するのに役立つことを願っている。 この10年で成功したイノベーションの鍵となる戦略をまとめた複数のパターンを特定し、議論すると同時に、星が昇ると見なされる作業も議論しています。 特に、状態空間モデルのような実証済みの手法を網羅する(部分的には)トランスフォーマーの改善の試みについて論じるとともに、最先端の結果が得られないにもかかわらず、将来有望と思われる深層学習における遠方的なアイデアについても論じる。 また,OpenAI の GPT シリーズや Meta の LLama モデル,Google の Gemini モデルファミリなど,最近の最先端モデルについても論じる。

Transformers have become the de-facto standard model in artificial intelligence since 2017 despite numerous shortcomings ranging from energy inefficiency to hallucinations. Research has made a lot of progress in improving elements of transformers, and, more generally, deep learning manifesting in many proposals for architectures, layers, optimization objectives, and optimization techniques. For researchers it is difficult to keep track of such developments on a broader level. We provide a comprehensive overview of the many important, recent works in these areas to those who already have a basic understanding of deep learning. Our focus differs from other works, as we target specifically novel, alternative potentially disruptive approaches to transformers as well as successful ideas of recent deep learning. We hope that such a holistic and unified treatment of influential, recent works and novel ideas helps researchers to form new connections between diverse areas of deep learning. We identify and discuss multiple patterns that summarize the key strategies for successful innovations over the last decade as well as works that can be seen as rising stars. Especially, we discuss attempts on how to improve on transformers covering (partially) proven methods such as state space models but also including far-out ideas in deep learning that seem promising despite not achieving state-of-the-art results. We also cover a discussion on recent state-of-the-art models such as OpenAI's GPT series and Meta's LLama models and, Google's Gemini model family.
翻訳日:2024-08-04 21:16:03 公開日:2024-08-01
# 量子格子ボルツマンアルゴリズムにおける非線形衝突作用素の分解

Decomposition of Nonlinear Collision Operator in Quantum Lattice Boltzmann Algorithm ( http://arxiv.org/abs/2408.00387v1 )

ライセンス: Link先を確認
Dinesh Kumar E, Steven H. Frankel, (参考訳) 本稿では,LB(Lattice Boltzmann)衝突作用素の2次非線形性に対処する量子アルゴリズムを提案する。 鍵となる考え方は、量子ビットのコヒーレンス時間内に粒子分布関数(PDF)に基づいて量子ゲートを構築することである。 したがって、作用素と状態ベクトルはどちらもPDFの線型関数であり、量子状態の進化によって得られるPDFは二次性を持つ。 この目的のために、$DmQn$格子モデルの衝突作用素を2(n+1)$作用素の積に分解する。 分解後、定数エントリを持つ$(n+1)$演算子はシミュレーションを通して変わらないが、残りの$(n+1)$は前のタイムステップの状態ベクトルに基づいて構築される。 また、そのような分解が一意ではないことを示す。 2階のカールマン線形化LBと比較して、本手法は回路幅を半減し、回路深さを指数律で減少させる。 提案手法は,1次元流れの不連続性と2次元コルモゴロフ様流れ試験により検証された。

We propose a quantum algorithm to tackle the quadratic nonlinearity in the Lattice Boltzmann (LB) collision operator. The key idea is to build the quantum gates based on the particle distribution functions (PDF) within the coherence time for qubits. Thus, both the operator and a state vector are linear functions of PDFs, and upon quantum state evolution, the resulting PDFs will have quadraticity. To this end, we decompose the collision operator for a $DmQn$ lattice model into a product of $2(n+1)$ operators, where $n$ is the number of lattice velocity directions. After decomposition, the $(n+1)$ operators with constant entries remain unchanged throughout the simulation, whereas the remaining $(n+1)$ will be built based on the statevector of the previous time step. Also, we show that such a decomposition is not unique. Compared to the second-order Carleman-linearized LB, the present approach reduces the circuit width by half and circuit depth by exponential order. The proposed algorithm has been verified through the one-dimensional flow discontinuity and two-dimensional Kolmogrov-like flow test cases.
翻訳日:2024-08-04 21:16:03 公開日:2024-08-01
# Deepfake Media Forensics:最先端技術と課題

Deepfake Media Forensics: State of the Art and Challenges Ahead ( http://arxiv.org/abs/2408.00388v1 )

ライセンス: Link先を確認
Irene Amerini, Mauro Barni, Sebastiano Battiato, Paolo Bestagini, Giulia Boato, Tania Sari Bonaventura, Vittoria Bruni, Roberto Caldelli, Francesco De Natale, Rocco De Nicola, Luca Guarnera, Sara Mandelli, Gian Luca Marcialis, Marco Micheletto, Andrea Montibeller, Giulia Orru', Alessandro Ortis, Pericle Perazzo, Davide Salvi, Stefano Tubaro, Claudia Melis Tonti, Massimo Villari, Domenico Vitulano, (参考訳) AIが生成する合成メディア、別名Deepfakesは、エンターテイメントからサイバーセキュリティまで、多くの領域に大きな影響を与えている。 Generative Adversarial Networks (GANs) と Diffusion Models (DMs) は、Deepfakesを作成するために使われる主要なフレームワークであり、非常に現実的で製造されたコンテンツを生成する。 これらの技術は新たな創造的可能性を開く一方で、潜在的に悪用される可能性があるため、倫理的およびセキュリティ上の大きなリスクをもたらす。 このような先進的なメディアの台頭は、インポスタバイアスとして知られる認知バイアスの発達につながった。 その結果、ディープフェイク検出は研究の重要な領域となり、特に畳み込みニューラルネットワーク(CNN)による機械学習技術による微妙な矛盾やアーティファクトの識別に重点を置いている。 法医学的ディープフェイク技術の研究は、検出、属性と認識、受動的認証、現実的なシナリオにおける検出、アクティブ認証の5つの主要な領域を含んでいる。 それぞれの領域は、合成メディアの起源の追跡や、その固有の特性の信頼性の調査など、特定の課題に取り組む。 本稿では,これらの課題に対処する主要なアルゴリズムについて,その利点,限界,今後の展望について検討する。

AI-generated synthetic media, also called Deepfakes, have significantly influenced so many domains, from entertainment to cybersecurity. Generative Adversarial Networks (GANs) and Diffusion Models (DMs) are the main frameworks used to create Deepfakes, producing highly realistic yet fabricated content. While these technologies open up new creative possibilities, they also bring substantial ethical and security risks due to their potential misuse. The rise of such advanced media has led to the development of a cognitive bias known as Impostor Bias, where individuals doubt the authenticity of multimedia due to the awareness of AI's capabilities. As a result, Deepfake detection has become a vital area of research, focusing on identifying subtle inconsistencies and artifacts with machine learning techniques, especially Convolutional Neural Networks (CNNs). Research in forensic Deepfake technology encompasses five main areas: detection, attribution and recognition, passive authentication, detection in realistic scenarios, and active authentication. Each area tackles specific challenges, from tracing the origins of synthetic media and examining its inherent characteristics for authenticity. This paper reviews the primary algorithms that address these challenges, examining their advantages, limitations, and future prospects.
翻訳日:2024-08-04 21:16:03 公開日:2024-08-01
# 部分群距離問題に対するゼロ知識証明

A Zero-Knowledge Proof of Knowledge for Subgroup Distance Problem ( http://arxiv.org/abs/2408.00395v1 )

ライセンス: Link先を確認
Cansu Betin Onur, (参考訳) 本研究では,ハミング計量における部分群距離問題の硬さに基づくゼロ知識同定手法を提案する。 提案したプロトコルは、SDZKP (Subgroup Distance Zero Knowledge Proof) と名付けられ、秘密を隠蔽するために暗号的にセキュアな擬似乱数生成器を使用し、堅牢なセキュリティ特性を保証するためにStern型アルゴリズムを使用している。

In this study, we introduce a novel zero-knowledge identification scheme based on the hardness of the subgroup distance problem in the Hamming metric. The proposed protocol, named Subgroup Distance Zero Knowledge Proof (SDZKP), employs a cryptographically secure pseudorandom number generator to mask secrets and utilizes a Stern-type algorithm to ensure robust security properties.
翻訳日:2024-08-04 21:05:55 公開日:2024-08-01
# 類似検索によるインコンテキスト例選択による低リソース機械翻訳の改善

In-Context Example Selection via Similarity Search Improves Low-Resource Machine Translation ( http://arxiv.org/abs/2408.00397v1 )

ライセンス: Link先を確認
Armel Zebaze, Benoît Sagot, Rachel Bawden, (参考訳) 生成型大規模言語モデル(LLM)がコンテキスト内学習を行う能力は、様々な自然言語処理タスクのモデルをどのように促進するかについて、多くの研究を巻き起こした。 本稿では,機械翻訳(MT)に焦点をあてる。 しかしながら、サンプルの選択方法に関する体系的な研究は発表されておらず、乱数選択に対する類似性に基づく選択の有用性について混合の結果が報告されている。 本稿では,複数のLLMと複数のテキスト内サンプル検索戦略について,多言語文の埋め込みの比較を行った。 言語資源のレベルが異なる(フランス語、ドイツ語、スワヒリ語、ウーロフ語)。 先に公表した結果と対照的に、特に低リソース言語方向において、文の埋め込み類似性がMTを改善することを示し、選択プールの多様性と品質のバランスを議論する。 また, LLM に基づく MT の評価における潜在的な問題を強調し,より適切な評価プロトコルを提案し, COMET メトリックを LLM の評価に適用する。 コードと出力はhttps://github.com/ArmelRandy/ICL-MTで無償公開されている。

The ability of generative large language models (LLMs) to perform in-context learning has given rise to a large body of research into how best to prompt models for various natural language processing tasks. In this paper, we focus on machine translation (MT), a task that has been shown to benefit from in-context translation examples. However no systematic studies have been published on how best to select examples, and mixed results have been reported on the usefulness of similarity-based selection over random selection. We provide a study covering multiple LLMs and multiple in-context example retrieval strategies, comparing multilingual sentence embeddings. We cover several language directions, representing different levels of language resourcedness (English into French, German, Swahili and Wolof). Contrarily to previously published results, we find that sentence embedding similarity can improve MT, especially for low-resource language directions, and discuss the balance between selection pool diversity and quality. We also highlight potential problems with the evaluation of LLM-based MT and suggest a more appropriate evaluation protocol, adapting the COMET metric to the evaluation of LLMs. Code and outputs are freely available at https://github.com/ArmelRandy/ICL-MT.
翻訳日:2024-08-04 21:05:55 公開日:2024-08-01
# 相互情報量を用いた不均質データにおける教師なしペアワイズ因果発見

Unsupervised Pairwise Causal Discovery on Heterogeneous Data using Mutual Information Measures ( http://arxiv.org/abs/2408.00399v1 )

ライセンス: Link先を確認
Alexandre Trilla, Nenad Mijatovic, (参考訳) 科学における基本的な課題は、この機能構造の知識であり、観察されたデータに明らかな関連が与えられた結果の正しい解釈につながるため、根底にある因果関係を決定することである。 この意味で、因果発見(Causal Discovery)は、構成変数の統計的性質を分析することによって、この問題に取り組む手法である。 本研究では,2変数,すなわちペアワイドあるいはバイバリアント設定のみを含む還元主義的アプローチに従うことにより,発見法の一般化可能性を実現する。 我々は,この真に探索的な試みとは正反対に,教師あり学習によって得られたことに基づいて,現在の(おそらく誤解を招く)ベースライン結果に疑問を呈する。 その結果、堅牢な相互情報測度を用いて教師なしの方法でこの問題にアプローチし、ソリューションの設計においてしばしば無視される様々な変数タイプの影響を観察する。 そこで本研究では,未知の環境下での将来の発見タスクの指針となる,新しい標準偏差のない結果を提示する。

A fundamental task in science is to determine the underlying causal relations because it is the knowledge of this functional structure what leads to the correct interpretation of an effect given the apparent associations in the observed data. In this sense, Causal Discovery is a technique that tackles this challenge by analyzing the statistical properties of the constituent variables. In this work, we target the generalizability of the discovery method by following a reductionist approach that only involves two variables, i.e., the pairwise or bi-variate setting. We question the current (possibly misleading) baseline results on the basis that they were obtained through supervised learning, which is arguably contrary to this genuinely exploratory endeavor. In consequence, we approach this problem in an unsupervised way, using robust Mutual Information measures, and observing the impact of the different variable types, which is oftentimes ignored in the design of solutions. Thus, we provide a novel set of standard unbiased results that can serve as a reference to guide future discovery tasks in completely unknown environments.
翻訳日:2024-08-04 21:05:55 公開日:2024-08-01
# DriveArena: 自動運転のためのクローズドループ生成シミュレーションプラットフォーム

DriveArena: A Closed-loop Generative Simulation Platform for Autonomous Driving ( http://arxiv.org/abs/2408.00415v1 )

ライセンス: Link先を確認
Xuemeng Yang, Licheng Wen, Yukai Ma, Jianbiao Mei, Xin Li, Tiantian Wei, Wenjie Lei, Daocheng Fu, Pinlong Cai, Min Dou, Botian Shi, Liang He, Yong Liu, Yu Qiao, (参考訳) 本稿では,実シナリオで走行するエージェントを駆動するために設計された,最初の高速閉ループシミュレーションシステムであるDriveArenaについて述べる。 DriveArenaはフレキシブルでモジュール化されたアーキテクチャを備えており、コアコンポーネントのシームレスな相互交換を可能にしている。 この強力なシナジーは、DriveArenaのシミュレートされた環境をナビゲートするために、現実世界の画像を処理できる任意の駆動エージェントに権限を与える。 エージェントは、ワールドドリーマーが生成した画像を通して周囲を知覚し、軌道を出力する。 これらの軌道はTraffic Managerに供給され、他の車両との現実的な相互作用を実現し、新しいシーンレイアウトを生成する。 最後に、最新のシーンレイアウトがWorld Dreamerにリレーされ、シミュレーションサイクルが持続する。 この反復的なプロセスは、非常に現実的な環境でクローズドループ探索を促進し、多様で困難なシナリオで駆動エージェントを開発し評価するための貴重なプラットフォームを提供する。 DriveArenaは、運転シミュレーションプラットフォームに生成画像データを活用する上で、飛躍的な進歩を示し、クローズドループ自動運転の洞察を開放している。 コードはGitHubでまもなく利用可能になる。 https://github.com/PJLab-ADG/DriveArena

This paper presented DriveArena, the first high-fidelity closed-loop simulation system designed for driving agents navigating in real scenarios. DriveArena features a flexible, modular architecture, allowing for the seamless interchange of its core components: Traffic Manager, a traffic simulator capable of generating realistic traffic flow on any worldwide street map, and World Dreamer, a high-fidelity conditional generative model with infinite autoregression. This powerful synergy empowers any driving agent capable of processing real-world images to navigate in DriveArena's simulated environment. The agent perceives its surroundings through images generated by World Dreamer and output trajectories. These trajectories are fed into Traffic Manager, achieving realistic interactions with other vehicles and producing a new scene layout. Finally, the latest scene layout is relayed back into World Dreamer, perpetuating the simulation cycle. This iterative process fosters closed-loop exploration within a highly realistic environment, providing a valuable platform for developing and evaluating driving agents across diverse and challenging scenarios. DriveArena signifies a substantial leap forward in leveraging generative image data for the driving simulation platform, opening insights for closed-loop autonomous driving. Code will be available soon on GitHub: https://github.com/PJLab-ADG/DriveArena
翻訳日:2024-08-04 21:05:55 公開日:2024-08-01
# ヒューマンフィードバックを用いた信頼性の高い広告画像生成に向けて

Towards Reliable Advertising Image Generation Using Human Feedback ( http://arxiv.org/abs/2408.00418v1 )

ライセンス: Link先を確認
Zhenbang Du, Wei Feng, Haohan Wang, Yaoyu Li, Jingsen Wang, Jian Li, Zheng Zhang, Jingjing Lv, Xin Zhu, Junsheng Jin, Junjie Shen, Zhangang Lin, Jingping Shao, (参考訳) 電子商取引の世界では、魅力的な広告画像が顧客を惹きつけるために重要である。 生成モデルは画像生成を自動化するが、顧客を誤解させ、検査にかなりの労力を要するような、サブスタンダードなイメージをしばしば生成する。 本論文は、利用可能な画像の生成率を高めることを目的としている。 まず、生成した画像を自動的に検査するマルチモーダル信頼フィードバックネットワーク(RFNet)を導入する。 RFNetをリカレントプロセス、Recurrent Generationに組み込むことで、より多くの利用可能な広告画像が得られる。 RFNet (RFFT) からのフィードバックを利用して, 一貫性条件正規化による微動拡散モデルを提案する。 これにより、生成画像の利用可能率が著しく増加し、リカレントジェネレーションにおける試行回数が減少し、視覚的魅力を犠牲にすることなく、高効率な生産プロセスが提供される。 また、人間によって注釈付けされた100万以上の生成した広告画像からなる信頼性フィードバック100万(RF1M)データセットを構築し、RFNetをトレーニングし、生成した画像の可用性を正確に評価し、人間のフィードバックを忠実に反映する。 一般的に,本手法は画像生成のための信頼性の高い手法である。

In the e-commerce realm, compelling advertising images are pivotal for attracting customer attention. While generative models automate image generation, they often produce substandard images that may mislead customers and require significant labor costs to inspect. This paper delves into increasing the rate of available generated images. We first introduce a multi-modal Reliable Feedback Network (RFNet) to automatically inspect the generated images. Combining the RFNet into a recurrent process, Recurrent Generation, results in a higher number of available advertising images. To further enhance production efficiency, we fine-tune diffusion models with an innovative Consistent Condition regularization utilizing the feedback from RFNet (RFFT). This results in a remarkable increase in the available rate of generated images, reducing the number of attempts in Recurrent Generation, and providing a highly efficient production process without sacrificing visual appeal. We also construct a Reliable Feedback 1 Million (RF1M) dataset which comprises over one million generated advertising images annotated by human, which helps to train RFNet to accurately assess the availability of generated images and faithfully reflect the human feedback. Generally speaking, our approach offers a reliable solution for advertising image generation.
翻訳日:2024-08-04 21:05:55 公開日:2024-08-01
# パノラマ活動認識のためのMPT-PAR:Mix-Parameters Transformer

MPT-PAR:Mix-Parameters Transformer for Panoramic Activity Recognition ( http://arxiv.org/abs/2408.00420v1 )

ライセンス: Link先を確認
Wenqing Gan, Yan Sun, Feiran Liu, Xiangfeng Luo, (参考訳) パノラマ活動認識タスクの目的は、密集した複雑な環境の中で、個々の行動、社会集団の活動、グローバルな活動を含む様々な粒度の行動を特定することである。 既存のメソッドは一般に、タスク固有の特徴をキャプチャするためにパラメータ非依存のモジュールを使うか、すべてのタスクに共通する特徴を得るためにパラメータ共有モジュールを使う。 しかし、しばしば、従来の方法がまだ気付かない粒度の異なるタスクの間には、強い相互関係と相補的な効果がある。 本稿では,各タスクの特徴とタスク間の相乗効果を同時に考慮したMPT-PARモデルを提案する。 さらに、時空間情報の重要性を強調し、時空間的関係強化モジュールとシーン表現学習モジュールを導入することで、時空間的情報の重要性を強調した。 提案手法は,JRDB-PARデータセットのF1総合スコアが47.5\%に達し,最先端の手法よりも優れていた。

The objective of the panoramic activity recognition task is to identify behaviors at various granularities within crowded and complex environments, encompassing individual actions, social group activities, and global activities. Existing methods generally use either parameter-independent modules to capture task-specific features or parameter-sharing modules to obtain common features across all tasks. However, there is often a strong interrelatedness and complementary effect between tasks of different granularities that previous methods have yet to notice. In this paper, we propose a model called MPT-PAR that considers both the unique characteristics of each task and the synergies between different tasks simultaneously, thereby maximizing the utilization of features across multi-granularity activity recognition. Furthermore, we emphasize the significance of temporal and spatial information by introducing a spatio-temporal relation-enhanced module and a scene representation learning module, which integrate the the spatio-temporal context of action and global scene into the feature map of each granularity. Our method achieved an overall F1 score of 47.5\% on the JRDB-PAR dataset, significantly outperforming all the state-of-the-art methods.
翻訳日:2024-08-04 21:05:55 公開日:2024-08-01
# 小分子薬物動態予測のための進化型自動機械学習に向けて

Towards Evolutionary-based Automated Machine Learning for Small Molecule Pharmacokinetic Prediction ( http://arxiv.org/abs/2408.00421v1 )

ライセンス: Link先を確認
Alex G. C. de Sá, David B. Ascher, (参考訳) 機械学習(ML)は、新薬開発に必要な小さな分子特性の予測を迅速化することによって、薬物発見に革命をもたらす。 これらの性質(吸収、分布、代謝、排他性(ADME)を含む)は、生物における薬物の経過、すなわち薬物の薬物動態の理解を提供するため、医薬品開発の初期段階において不可欠である。 しかしながら、既存のメソッドにはパーソナライズが欠如しており、手作業によるMLアルゴリズムやパイプラインに依存しているため、プロセスに非効率性とバイアスが生じる可能性がある。 これらの課題に対処するために,小分子特性の予測に特化して設計された新しい進化型自動ML法(AutoML)を提案する。 文法に基づく遺伝的プログラミングの利点を活用することで、AutoMLはアルゴリズムを自動選択し、入力分子データの特定の特性に合わせた予測パイプラインを設計することで、プロセスの合理化を図る。 結果は、AutoMLが多様なMLアルゴリズムを選択する上で有効であることを示し、その結果、従来のアプローチと比較して、同等または改善された予測性能が得られる。 ML駆動のパイプラインをパーソナライズすることで、薬物発見における小さな分子の研究を強化することを約束し、新しい治療薬の開発を加速するための貴重なツールを研究者に提供する。

Machine learning (ML) is revolutionising drug discovery by expediting the prediction of small molecule properties essential for developing new drugs. These properties -- including absorption, distribution, metabolism and excretion (ADME)-- are crucial in the early stages of drug development since they provide an understanding of the course of the drug in the organism, i.e., the drug's pharmacokinetics. However, existing methods lack personalisation and rely on manually crafted ML algorithms or pipelines, which can introduce inefficiencies and biases into the process. To address these challenges, we propose a novel evolutionary-based automated ML method (AutoML) specifically designed for predicting small molecule properties, with a particular focus on pharmacokinetics. Leveraging the advantages of grammar-based genetic programming, our AutoML method streamlines the process by automatically selecting algorithms and designing predictive pipelines tailored to the particular characteristics of input molecular data. Results demonstrate AutoML's effectiveness in selecting diverse ML algorithms, resulting in comparable or even improved predictive performances compared to conventional approaches. By offering personalised ML-driven pipelines, our method promises to enhance small molecule research in drug discovery, providing researchers with a valuable tool for accelerating the development of novel therapeutic drugs.
翻訳日:2024-08-04 21:05:55 公開日:2024-08-01
# アクティブラーニングのためのクロスドメインベンチマーク

A Cross-Domain Benchmark for Active Learning ( http://arxiv.org/abs/2408.00426v1 )

ライセンス: Link先を確認
Thorben Werner, Johannes Burchert, Maximilian Stubbemann, Lars Schmidt-Thieme, (参考訳) アクティブラーニング(AL)は、教師付き学習タスクのデータアノテーションコストを削減するためにラベル付けのための最も有益なサンプルを特定する。 ALリサーチは、文学からの持ち上げがあまり一般化せず、少数の実験しか行われていないという事実に悩まされている。 これらの障害を克服するために,コンピュータビジョン,自然言語処理,表型学習などのタスクを含む最初のアクティブ学習ベンチマークである \emph{CDALBench} を提案する。 さらに、効率的で欲求的なオラクルを提供することで、実験毎に50回のランで評価することができる。 AL研究の高度評価には,クロスドメインキャラクタと大量の繰り返しが不可欠であることを示す。 具体的には、特定のメソッドの優越性はドメインによって異なることを示し、クロスドメインベンチマークでアクティブラーニングを評価することが重要である。 さらに、大量のランを持つことが重要であることも示しています。 文献でしばしば行われるように3回の実行しか行わないため、特定のメソッドの優越性は特定の実行に強く依存する。 この効果は非常に強く、種によっては、確立されたメソッドのパフォーマンスでさえ、同じデータセットに対してランダムよりも大幅に改善され、さらに悪化する可能性がある。

Active Learning (AL) deals with identifying the most informative samples for labeling to reduce data annotation costs for supervised learning tasks. AL research suffers from the fact that lifts from literature generalize poorly and that only a small number of repetitions of experiments are conducted. To overcome these obstacles, we propose \emph{CDALBench}, the first active learning benchmark which includes tasks in computer vision, natural language processing and tabular learning. Furthermore, by providing an efficient, greedy oracle, \emph{CDALBench} can be evaluated with 50 runs for each experiment. We show, that both the cross-domain character and a large amount of repetitions are crucial for sophisticated evaluation of AL research. Concretely, we show that the superiority of specific methods varies over the different domains, making it important to evaluate Active Learning with a cross-domain benchmark. Additionally, we show that having a large amount of runs is crucial. With only conducting three runs as often done in the literature, the superiority of specific methods can strongly vary with the specific runs. This effect is so strong, that, depending on the seed, even a well-established method's performance can be significantly better and significantly worse than random for the same dataset.
翻訳日:2024-08-04 21:05:55 公開日:2024-08-01
# CARMIL:全スライド画像のための複数インスタンス学習モデルにおけるコンテキスト認識正規化

CARMIL: Context-Aware Regularization on Multiple Instance Learning models for Whole Slide Images ( http://arxiv.org/abs/2408.00427v1 )

ライセンス: Link先を確認
Thiziri Nait Saada, Valentina Di-Proietto, Benoit Schmauch, Katharina Von Loga, Lucas Fidon, (参考訳) マルチインスタンスラーニング(MIL)モデルは全スライド画像のがん予後に有効であることが証明された。 しかし、元のMILの定式化は、同じ画像のパッチが独立であると誤って仮定し、情報がネットワークを流れると空間的コンテキストが失われる。 がん細胞がクラスターを形成する傾向と腫瘍の空間的指標が存在することを考えると、文脈的知識を予測に組み込むことは特に重要である。 最先端の手法では、しばしば注意機構とグラフを組み合わせて空間的知識を捉える。 本稿では、この問題を正則化のレンズを通して解決する、新しい、そして超越的なアプローチを提案する。 空間知識を任意のMILモデルにシームレスに統合する多元的正規化スキームであるCARMIL(Context-Aware Regularization for Multiple Instance Learning)を提案する。 さらに、全スライド画像に適用された場合、MILモデルのコンテキスト認識性を定量化するための新しい一般的な指標を提示し、未探索のギャップを解消する。 グリオブラスト腫 (TCGA GBM) と大腸癌データ (TCGA COAD) の2つの生存解析課題について検討した。

Multiple Instance Learning (MIL) models have proven effective for cancer prognosis from Whole Slide Images. However, the original MIL formulation incorrectly assumes the patches of the same image to be independent, leading to a loss of spatial context as information flows through the network. Incorporating contextual knowledge into predictions is particularly important given the inclination for cancerous cells to form clusters and the presence of spatial indicators for tumors. State-of-the-art methods often use attention mechanisms eventually combined with graphs to capture spatial knowledge. In this paper, we take a novel and transversal approach, addressing this issue through the lens of regularization. We propose Context-Aware Regularization for Multiple Instance Learning (CARMIL), a versatile regularization scheme designed to seamlessly integrate spatial knowledge into any MIL model. Additionally, we present a new and generic metric to quantify the Context-Awareness of any MIL model when applied to Whole Slide Images, resolving a previously unexplored gap in the field. The efficacy of our framework is evaluated for two survival analysis tasks on glioblastoma (TCGA GBM) and colon cancer data (TCGA COAD).
翻訳日:2024-08-04 21:05:55 公開日:2024-08-01
# 効率的な屋内位置決めのためのチャネルシミュレータと半教師付き学習

Augmenting Channel Simulator and Semi- Supervised Learning for Efficient Indoor Positioning ( http://arxiv.org/abs/2408.00429v1 )

ライセンス: Link先を確認
Yupeng Li, Xinyu Ning, Shijian Gao, Yitong Liu, Zhi Sun, Qixing Wang, Jiangzhou Wang, (参考訳) 本研究は,屋内位置決めにおける労働集約的・資源消費的課題に,効率的なアプローチを提案することを目的としている。 提案手法は、ラベル付きとラベルなしの両方のチャネルデータを効果的に活用する、バイアス付き教師アルゴリズム(SSLB)による半教師付き学習(SSL)の導入を含む。 測定コストを削減するため、更新されたチャネルシミュレータ(UCHS)を用いてラベルなしデータを生成し、適応信頼度値で重み付けし、ハイパーパラメータのチューニングを簡素化する。 シミュレーションの結果,提案手法は既存のベンチマークと比べて測定オーバーヘッドとトレーニングコストを最小限に抑えつつ,優れた性能を実現し,室内位置決めに有用な実用的ソリューションを提供することが示された。

This work aims to tackle the labor-intensive and resource-consuming task of indoor positioning by proposing an efficient approach. The proposed approach involves the introduction of a semi-supervised learning (SSL) with a biased teacher (SSLB) algorithm, which effectively utilizes both labeled and unlabeled channel data. To reduce measurement expenses, unlabeled data is generated using an updated channel simulator (UCHS), and then weighted by adaptive confidence values to simplify the tuning of hyperparameters. Simulation results demonstrate that the proposed strategy achieves superior performance while minimizing measurement overhead and training expense compared to existing benchmarks, offering a valuable and practical solution for indoor positioning.
翻訳日:2024-08-04 21:05:55 公開日:2024-08-01
# ShellFuzzer: 文法ベースのShellインタープリタファジリング

ShellFuzzer: Grammar-based Fuzzing of Shell Interpreters ( http://arxiv.org/abs/2408.00433v1 )

ライセンス: Link先を確認
Riccardo Felici, Laura Pozzi, Carlo A. Furia, (参考訳) オペレーティングシステムにおける長年の人気と基本的な役割にもかかわらず、Unixシェルは学術研究の対象になることはめったにない。 特に、コンパイラテストの大幅な進歩にかかわらず、シェルインタプリタの障害や脆弱性を検出する自動テスト技術を適用する作業はほとんど行われていない。 この重要な欠点に対処するために、多数のシェルスクリプトを自動生成してUnixシェルインタプリタをテストするテクニックであるShellFuzzerを紹介します。 ShellFuzzerは文法ベースの生成と選択されたランダムな突然変異を組み合わせ、予測可能な特性を持つ多様なシェルプログラムを生成する。 実験的な評価では、ShellFuzzerは、mksh POSIX準拠のシェルの最新バージョンに影響を及ぼす8つの既知の問題を明らかにするシェルプログラムを生成しました。

Despite its long-standing popularity and fundamental role in an operating system, the Unix shell has rarely been a subject of academic research. In particular, regardless of the significant progress in compiler testing, there has been hardly any work applying automated testing techniques to detect faults and vulnerabilities in shell interpreters. To address this important shortcoming, we present ShellFuzzer: a technique to test Unix shell interpreters by automatically generating a large number of shell scripts. ShellFuzzer combines grammar-based generation with selected random mutations, so as to produce a diverse range of shell programs with predictable characteristics (e.g., valid according to the language standard, and free from destructive behavior). In our experimental evaluation, ShellFuzzer generated shell programs that exposed 8 previously unknown issues that affected a recent version of the mksh POSIX-compliant shell; the shell maintainers confirmed 7 of these issues, and addressed them in the latest revisions of the shell's open-source implementation.
翻訳日:2024-08-04 21:05:55 公開日:2024-08-01
# ソフトウェアセキュリティにおけるChatGPTの利用に関する質的研究: 知覚と実践性

A Qualitative Study on Using ChatGPT for Software Security: Perception vs. Practicality ( http://arxiv.org/abs/2408.00435v1 )

ライセンス: Link先を確認
M. Mehdi Kholoosi, M. Ali Babar, Roland Croft, (参考訳) 人工知能(AI)の進歩により、目覚ましい意味理解と精度で様々なタスクを実行できる大規模言語モデル(LLM)の開発が可能になった。 ChatGPTは、様々な知識集約タスクを補助する優れた能力によって、大きな注目を集めているLCMである。 工学的安全ソフトウェアの知識集約的な性質のため、ChatGPTの補助は、ソフトウェアの開発と進化の間、セキュリティ関連のタスクのために探索されることが期待されている。 ソフトウェアセキュリティを支える新技術としてのChatGPTの可能性を理解するために,我々は2つのアプローチを採用した。 当初我々は、セキュリティタスクにChatGPTを使用したことを調査し、Twitter上で彼らの見解を共有している人々の認識を分析するための実証的研究を行った。 セキュリティ実践者は、ChatGPTを脆弱性検出、情報検索、侵入テストなど、さまざまなソフトウェアセキュリティタスクに有用であると判断した。 第2に、現実世界の環境での託宣として展開する際の実用性調査を目的とした実験を設計した。 特に、脆弱性検出と、この顕著なソフトウェアセキュリティタスクの中で与えられたプロンプトに対するChatGPT出力の質的検証に焦点をあてた。 このタスクにおけるChatGPTからの応答は、我々の分析に基づいて、概ね一般的なセキュリティ情報で満たされており、業界での使用には適さないかもしれない。 データ漏洩を防止するために、私たちは、40の異なる脆弱性タイプと12のプログラミング言語を含む現実世界のプロジェクトからOpenAIデータ遮断日後にコンパイルされた脆弱性データセットに対して、この分析を行った。 本研究から得られた知見は,ソフトウェアセキュリティに特化したLSMの開発と評価を目的とした今後の研究に寄与する,と我々は主張する。

Artificial Intelligence (AI) advancements have enabled the development of Large Language Models (LLMs) that can perform a variety of tasks with remarkable semantic understanding and accuracy. ChatGPT is one such LLM that has gained significant attention due to its impressive capabilities for assisting in various knowledge-intensive tasks. Due to the knowledge-intensive nature of engineering secure software, ChatGPT's assistance is expected to be explored for security-related tasks during the development/evolution of software. To gain an understanding of the potential of ChatGPT as an emerging technology for supporting software security, we adopted a two-fold approach. Initially, we performed an empirical study to analyse the perceptions of those who had explored the use of ChatGPT for security tasks and shared their views on Twitter. It was determined that security practitioners view ChatGPT as beneficial for various software security tasks, including vulnerability detection, information retrieval, and penetration testing. Secondly, we designed an experiment aimed at investigating the practicality of this technology when deployed as an oracle in real-world settings. In particular, we focused on vulnerability detection and qualitatively examined ChatGPT outputs for given prompts within this prominent software security task. Based on our analysis, responses from ChatGPT in this task are largely filled with generic security information and may not be appropriate for industry use. To prevent data leakage, we performed this analysis on a vulnerability dataset compiled after the OpenAI data cut-off date from real-world projects covering 40 distinct vulnerability types and 12 programming languages. We assert that the findings from this study would contribute to future research aimed at developing and evaluating LLMs dedicated to software security.
翻訳日:2024-08-04 21:05:55 公開日:2024-08-01
# 高しきい値のマジックステート蒸留ルーチンの探索

A Search for High-Threshold Qutrit Magic State Distillation Routines ( http://arxiv.org/abs/2408.00436v1 )

ライセンス: Link先を確認
Shiroman Prakash, Rishabh Singhal, (参考訳) キューディット・マジック状態蒸留の最も達成可能なしきい値を決定することは、普遍的な量子計算に文脈性が十分かどうかという問題に直接関係している。 我々は, 奇妙な状態として知られる高対称性のクエット魔法状態に対して, 高閾値マジック状態蒸留ルーチンを探索する。 我々の探索は、最大23個のクォートビットを持つ$[[n,1]]_3$ qutrit安定化器符号の大規模なクラスをカバーし、キューディット安定化器符号の蒸留性能と重量列挙器との相関関係を定理により促進する。 11-qutritのGolayコード以外は、線形ノイズ抑制よりも優れた奇妙な状態を蒸留する$n<23$のクォートを持つコードは見つからなかった。 しかし、$n=23$の場合、600以上のCSSコードがあり、立方的ノイズ抑圧を伴う奇妙な状態を蒸留することができる。 これらの符号はいずれも 11-qutrit の Golay 符号のしきい値を超えないが、その存在は、大きな符号に対して、石英の奇妙な状態を蒸留する能力が幾らか汎用的であることを示唆している。

Determining the best attainable threshold for qudit magic state distillation is directly related to the question of whether or not contextuality is sufficient for universal quantum computation. We carry out a search for high-threshold magic state distillation routines for a highly-symmetric qutrit magic state known as the strange state. Our search covers a large class of $[[n,1]]_3$ qutrit stabilizer codes with up to 23 qutrits, and is facilitated by a theorem that relates the distillation performance of a qudit stabilizer code to its weight-enumerators. We could not find any code with $n<23$ qutrits that distills the strange state with better than linear noise suppression, other than the 11-qutrit Golay code. However, for $n=23$, we find over 600 CSS codes that can distill the qutrit strange state with cubic noise suppression. While none of these codes surpass the threshold of the 11-qutrit Golay code, their existence suggests that, for large codes, the ability to distill the qutrit strange state is somewhat generic.
翻訳日:2024-08-04 21:05:55 公開日:2024-08-01
# Tensor Kernel Machine を用いた高能率細管切削術

Efficient Patient Fine-Tuned Seizure Detection with a Tensor Kernel Machine ( http://arxiv.org/abs/2408.00437v1 )

ライセンス: Link先を確認
Seline J. S. de Rooij, Frederiek Wesel, Borbála Hunyadi, (参考訳) 近年のウェアラブルデバイスの開発は、これまで以上に正確で効率的な発作検出を重要視している。 発作検出の課題は、患者固有のモデルが通常、患者に依存しないモデルより優れていることである。 しかし、ウェアラブルデバイスでは、そのような患者固有のデータが利用可能になるまで、通常、患者に依存しないモデルから始まる。 従来のカーネルマシンでは必要なように,このデータを用いた新しい分類器を構築する必要がなくなるため,テンソルカーネルマシンを用いた転送学習手法を提案する。 本手法は, 患者非依存モデルの重みを患者固有のデータで効率的に更新することを可能にするために, 標準ポリエイド分解法を用いて圧縮形式で一次重みを学習する。 その結果, 患者固有のSVMモデルに比べ, 患者固有のモデルに比べて2倍, 患者に依存しないモデルに比べて10倍のモデルサイズで, 患者固有のSVMモデルよりも高い性能を示した。

Recent developments in wearable devices have made accurate and efficient seizure detection more important than ever. A challenge in seizure detection is that patient-specific models typically outperform patient-independent models. However, in a wearable device one typically starts with a patient-independent model, until such patient-specific data is available. To avoid having to construct a new classifier with this data, as required in conventional kernel machines, we propose a transfer learning approach with a tensor kernel machine. This method learns the primal weights in a compressed form using the canonical polyadic decomposition, making it possible to efficiently update the weights of the patient-independent model with patient-specific data. The results show that this patient fine-tuned model reaches as high a performance as a patient-specific SVM model with a model size that is twice as small as the patient-specific model and ten times as small as the patient-independent model.
翻訳日:2024-08-04 21:05:55 公開日:2024-08-01
# MonoMM:リアルタイムモノクロ3次元物体検出のためのマルチスケールマンバ拡張ネットワーク

MonoMM: A Multi-scale Mamba-Enhanced Network for Real-time Monocular 3D Object Detection ( http://arxiv.org/abs/2408.00438v1 )

ライセンス: Link先を確認
Youjia Fu, Zihao Xu, Junsong Fu, Huixia Xue, Shuqiu Tan, Lei Li, (参考訳) 近年, トランスを用いたモノクロ3次元物体検出技術の進歩は, 単一2次元画像から3次元特性を推定する際, 例外的な性能を示した。 しかし、既存のほとんどの手法はリソース集約型トランスフォーマーアーキテクチャに依存しており、長いシーケンスデータを扱う場合、計算効率と性能が大幅に低下する。 これらの課題に対処し、モノクロ3Dオブジェクト検出技術の進歩を図るために、リアルタイムモノクロ3Dオブジェクト検出のためのマルチスケール \textbf{M}amba-Enhanced Network であるMonoMMを提案する。 フォーカスド・マルチスケール・フュージョン(FMF)モジュール(Focused Multi-Scale Fusion, FMF)は、計算資源消費が低い異なるスケールから画像情報を効果的に保存し、保存することに焦点を当てるモジュールである。 情報フローを正確に調整することにより、FMFモジュールはモデル適応性とロバスト性を高め、画像の詳細を維持しながら変化を拡大する。 Depth-Aware Feature Enhancement Mamba (DMB) Module: 画像の特徴から融合した特徴を入力として利用し、深度情報と視覚情報をグローバルに統合するための新しい適応戦略を採用する。 この深度融合戦略は、深度推定の精度を向上するだけでなく、異なる視角と環境条件下でのモデル性能を向上させる。 さらに、MonoMMのモジュール化設計は、高い柔軟性とスケーラビリティを提供し、特定のアプリケーションのニーズに応じて調整と最適化を容易にする。 KITTIデータセットを用いた大規模な実験により,本手法は従来の単分子法よりも優れ,リアルタイム検出が可能であった。

Recent advancements in transformer-based monocular 3D object detection techniques have exhibited exceptional performance in inferring 3D attributes from single 2D images. However, most existing methods rely on resource-intensive transformer architectures, which often lead to significant drops in computational efficiency and performance when handling long sequence data. To address these challenges and advance monocular 3D object detection technology, we propose an innovative network architecture, MonoMM, a Multi-scale \textbf{M}amba-Enhanced network for real-time Monocular 3D object detection. This well-designed architecture primarily includes the following two core modules: Focused Multi-Scale Fusion (FMF) Module, which focuses on effectively preserving and fusing image information from different scales with lower computational resource consumption. By precisely regulating the information flow, the FMF module enhances the model adaptability and robustness to scale variations while maintaining image details. Depth-Aware Feature Enhancement Mamba (DMB) Module: It utilizes the fused features from image characteristics as input and employs a novel adaptive strategy to globally integrate depth information and visual information. This depth fusion strategy not only improves the accuracy of depth estimation but also enhances the model performance under different viewing angles and environmental conditions. Moreover, the modular design of MonoMM provides high flexibility and scalability, facilitating adjustments and optimizations according to specific application needs. Extensive experiments conducted on the KITTI dataset show that our method outperforms previous monocular methods and achieves real-time detection.
翻訳日:2024-08-04 21:05:55 公開日:2024-08-01
# モジュール受信ビームフォーミングの高速化とパワーアウェア学習

Rapid and Power-Aware Learned Optimization for Modular Receive Beamforming ( http://arxiv.org/abs/2408.00439v1 )

ライセンス: Link先を確認
Ohad Levy, Nir Shlezinger, (参考訳) マルチインプット・マルチアウトプット(MIMO)システムは無線通信技術において重要な役割を果たす。 スケーラブルなMIMOシステムを実現するために広く検討されているアプローチは、複数のモジュールから構成されるアーキテクチャで、それぞれ独自のビームフォーミング機能を備えている。 このようなモデルは、セルフリーの大規模なMIMOと部分的に接続されたハイブリッドMIMOアーキテクチャに対応している。 モジュールMIMOの実装における中核的な問題は、モジュールのビームパターンを迅速に設定し、その電力効率を維持する必要があることである。 これにより、コヒーレンス期間毎に繰り返し解決すべき制約付き最適化が困難になる。 そこで本研究では,データから学習して高速に動作するアップリンクモジュール型MIMOシステムにおいて,ビームフォーミングのための電力指向最適化アルゴリズムを提案する。 速度最大化の目標を運動量で投影した勾配上昇ステップを用いて,学習した最適化器を導出する。 次に、データを活用してオプティマイザのハイパーパラメータを調整し、その解釈可能な操作を完全に保ちながら、固定された少数のイテレーションで確実に動作できるようにします。 我々は,低分解能位相シフトと非活性化アナログ成分を用いたアーキテクチャの強化を通じて,学習用オプティマイザによって効率の良いビームフォーミングがいかに促進されるかを示す。 数値計算により,本手法は,モジュール型MIMO受信機を確実にチューニングするのに要するイテレーション数や計算遅延を著しく低減し,効率の良い設計とスループットのバランスを得られることを示す。

Multiple-input multiple-output (MIMO) systems play a key role in wireless communication technologies. A widely considered approach to realize scalable MIMO systems involves architectures comprised of multiple separate modules, each with its own beamforming capability. Such models accommodate cell-free massive MIMO and partially connected hybrid MIMO architectures. A core issue with the implementation of modular MIMO arises from the need to rapidly set the beampatterns of the modules, while maintaining their power efficiency. This leads to challenging constrained optimization that should be repeatedly solved on each coherence duration. In this work, we propose a power-oriented optimization algorithm for beamforming in uplink modular hybrid MIMO systems, which learns from data to operate rapidly. We derive our learned optimizer by tackling the rate maximization objective using projected gradient ascent steps with momentum. We then leverage data to tune the hyperparameters of the optimizer, allowing it to operate reliably in a fixed and small number of iterations while completely preserving its interpretable operation. We show how power efficient beamforming can be encouraged by the learned optimizer, via boosting architectures with low-resolution phase shifts and with deactivated analog components. Numerical results show that our learn-to-optimize method notably reduces the number of iterations and computation latency required to reliably tune modular MIMO receivers, and that it allows obtaining desirable balances between power efficient designs and throughput.
翻訳日:2024-08-04 20:56:07 公開日:2024-08-01
# マイクロサービスアーキテクチャにおけるイベント管理の課題に関する実証的研究

An Empirical Study on Challenges of Event Management in Microservice Architectures ( http://arxiv.org/abs/2408.00440v1 )

ライセンス: Link先を確認
Rodrigo Laigner, Ana Carolina Almeida, Wesley K. G. Assunção, Yongluan Zhou, (参考訳) マイクロサービスは、この10年で一般的なアーキテクチャスタイルとして現れました。 マイクロサービスは自己完結するように設計されているが、ビジネス機能を実現するために通信し、データと機能間の依存関係を作成する必要がある。 開発者は、非同期のイベントベースの通信を利用して、結合を減らしながら、そのような依存関係を満たす。 しかしながら、開発者はしばしば、非同期およびイベントベースのパラダイムの固有の課題に懐疑的であり、フラストレーションを招き、最終的にはマイクロサービスの採用を再考する。 さらに悪いことに、イベントベースのマイクロサービスの設計、実装、テスト、監視、トラブルシューティングといったプラクティスや課題に関する文献が不足しています。 このギャップを埋めるために、8000以上のStack Overflow質問のリポジトリマイニング調査に基づいて、マイクロサービスにおけるイベント管理プラクティスと課題の包括的評価を行う。 さらに、628の関連する質問をランダムにサンプリングし、課題の詳細な手作業による調査を行った。 開発者は、大きなイベントペイロード、イベントスキーマのモデリング、イベントフローの監査、イベントの処理の順序付けなど、多くの問題に直面している。 このことは、開発者は最先端の技術で十分に機能していないことを示唆している。 マイクロサービスにおけるイベント管理を前進させるために、開発者、テクノロジプロバイダ、研究者に実行可能な意味を提供します。

Microservices emerged as a popular architectural style over the last decade. Although microservices are designed to be self-contained, they must communicate to realize business capabilities, creating dependencies among their data and functionalities. Developers then resort to asynchronous, event-based communication to fulfill such dependencies while reducing coupling. However, developers are often oblivious to the inherent challenges of the asynchronous and event-based paradigm, leading to frustrations and ultimately making them reconsider the adoption of microservices. To make matters worse, there is a scarcity of literature on the practices and challenges of designing, implementing, testing, monitoring, and troubleshooting event-based microservices. To fill this gap, this paper provides the first comprehensive characterization of event management practices and challenges in microservices based on a repository mining study of over 8000 Stack Overflow questions. Moreover, 628 relevant questions were randomly sampled for an in-depth manual investigation of challenges. We find that developers encounter many problems, including large event payloads, modeling event schemas, auditing event flows, and ordering constraints in processing events. This suggests that developers are not sufficiently served by state-of-the-practice technologies. We provide actionable implications to developers, technology providers, and researchers to advance event management in microservices.
翻訳日:2024-08-04 20:56:07 公開日:2024-08-01
# Focus, Distinguish, Prompt: 効率的でフレキシブルなシーンテキスト検索のためのCLIPの公開

Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval ( http://arxiv.org/abs/2408.00441v1 )

ライセンス: Link先を確認
Gangyan Zeng, Yuan Zhang, Jin Wei, Dongbao Yang, Peng Zhang, Yiwen Gao, Xugong Qin, Yu Zhou, (参考訳) シーンテキスト検索は、画像ギャラリーからクエリテキストを含むすべての画像を見つけることを目的としている。 現在の取り組みでは、複雑なテキスト検出および/または認識プロセスを必要とする光学文字認識(OCR)パイプラインを採用する傾向があり、非効率で非フレキシブルな検索をもたらす。 そこで本研究では,OCRのないシーンテキスト検索のためのCLIP(Contrastive Language- Image Pre-Training)の本質的な可能性について検討する。 経験的分析により,CLIPのテキスト検索における主な課題は次のとおりであることがわかった。 1) テキスト知覚尺度の制限, 及び 2) 絡み合った視覚意味概念。 この目的のために、FDP(Focus, Distinguish, Prompt)と呼ばれる新しいモデルが開発されている。 FDPはまず、テキスト領域に注意を向け、隠れたテキスト知識を探索し、クエリテキストをコンテンツワードと関数ワードに分割して処理する。 実験の結果,FDPは既存の手法に比べて精度が向上し,予測速度が著しく向上することがわかった。 特にIIIT-STRベンチマークでは、FDPは最先端モデルの4.37%を4倍高速で上回っている。 さらに、フレーズレベルおよび属性対応シーンテキスト検索設定における追加実験は、FDPが様々な形式のクエリテキストを扱う上で特に有利であることを示す。 ソースコードはhttps://github.com/Gyann-z/FDPで公開されている。

Scene text retrieval aims to find all images containing the query text from an image gallery. Current efforts tend to adopt an Optical Character Recognition (OCR) pipeline, which requires complicated text detection and/or recognition processes, resulting in inefficient and inflexible retrieval. Different from them, in this work we propose to explore the intrinsic potential of Contrastive Language-Image Pre-training (CLIP) for OCR-free scene text retrieval. Through empirical analysis, we observe that the main challenges of CLIP as a text retriever are: 1) limited text perceptual scale, and 2) entangled visual-semantic concepts. To this end, a novel model termed FDP (Focus, Distinguish, and Prompt) is developed. FDP first focuses on scene text via shifting the attention to the text area and probing the hidden text knowledge, and then divides the query text into content word and function word for processing, in which a semantic-aware prompting scheme and a distracted queries assistance module are utilized. Extensive experiments show that FDP significantly enhances the inference speed while achieving better or competitive retrieval accuracy compared to existing methods. Notably, on the IIIT-STR benchmark, FDP surpasses the state-of-the-art model by 4.37% with a 4 times faster speed. Furthermore, additional experiments under phrase-level and attribute-aware scene text retrieval settings validate FDP's particular advantages in handling diverse forms of query text. The source code will be publicly available at https://github.com/Gyann-z/FDP.
翻訳日:2024-08-04 20:56:07 公開日:2024-08-01
# TEE技術の進化に関する実験的評価:SGX, SEV, TDXに基づく透明アプローチのベンチマーク

An Experimental Evaluation of TEE technology Evolution: Benchmarking Transparent Approaches based on SGX, SEV, and TDX ( http://arxiv.org/abs/2408.00443v1 )

ライセンス: Link先を確認
Luigi Coppolino, Salvatore D'Antonio, Davide Iasio, Giovanni Mazzeo, Luigi Romano, (参考訳) データ・イン・ユース(data-in-use)の保護は重要な優先事項であり、Trusted Execution Environment(TEE)技術は間違いなく最も有望なソリューションである。 複数のサーバサイドのTEE製品が長年にわたってリリースされ、いくつかの面で大きな違いを示している。 最初はIntel SGXで、プロセスベースのTEEプロテクションが特徴で、効率的なが使用が難しい。 SGXの制限は、特にGramine、Scoone、Occlumといったランタイムによって(部分的に)克服された。 主要なパラダイムシフトは後にAMD SEVによってもたらされ、VMベースのTEE保護により、レガシーアプリケーションのリフト・アンド・シフトデプロイを可能にした。 この新しいパラダイムは、TDXでしか実装されていない。 上記のTEEソリューションの脅威モデルは広く議論されているが、文献上はまだ徹底的な性能比較が不十分である。 本稿では,TDX,SEV,Gramine-SGX,Occlum-SGXの比較評価を行う。 計算オーバーヘッドとリソース使用量について,さまざまな運用シナリオと多様なレガシーアプリケーションを用いて検討する。 これにより,現実的な条件下での信頼性の高い性能評価を行う。 この記事の執筆時点では、TDXはまだ一般公開されていないことを強調しています。 したがって、TDXの評価は、この研究のユニークな特徴である。

Protection of data-in-use is a key priority, for which Trusted Execution Environment (TEE) technology has unarguably emerged as a, possibly the most, promising solution. Multiple server-side TEE offerings have been released over the years, exhibiting substantial differences with respect to several aspects. The first comer was Intel SGX, which featured Process-based TEE protection, an efficient yet difficult to use approach. Some SGX limitations were (partially) overcome by runtimes, notably: Gramine, Scone, and Occlum. A major paradigm shift was later brought by AMD SEV, with VM-based TEE protection, which enabled lift-and-shift deployment of legacy applications. This new paradigm has been implemented by Intel only recently, in TDX. While the threat model of the aforementioned TEE solutions has been widely discussed, a thorough performance comparison is still lacking in the literature. This paper provides a comparative evaluation of TDX, SEV, Gramine-SGX, and Occlum-SGX. We study computational overhead and resource usage, under different operational scenarios and using a diverse suite of legacy applications. By doing so, we provide a reliable performance assessment under realistic conditions. We explicitly emphasize that, at the time of writing, TDX was not yet available to the public. Thus, the evaluation of TDX is a unique feature of this study.
翻訳日:2024-08-04 20:56:07 公開日:2024-08-01
# 単語埋め込みからのオントロジー的関係

Ontological Relations from Word Embeddings ( http://arxiv.org/abs/2408.00444v1 )

ライセンス: Link先を確認
Mathieu d'Aquin, Emmanuel Nauer, (参考訳) BERTのような一般的なニューラルモデルから得られる単語埋め込みの類似性は、それらの単語の意味の意味的類似性の形で効果的に近似することが確実に示されている。 したがって、これらの埋め込みには、仮定のような存在論的関係を通じてそれらの意味を結び付けるのに十分な情報が含まれているのかどうか疑問に思うのは自然である。 もしそうなら、オントロジー(オントロジーマッチング、オントロジー進化など)だけでなく、ニューラルモデルに存在論的知識を統合する能力にも影響する、事前訓練されたモデルによって生成された単語埋め込みにカプセル化された情報に基づいて、用語を意味的に関連付けることのできる大きな知識モデルを構築することができる。 本稿では,いくつかの事前学習モデルによって生成された埋め込みを用いて,一般的な上層および一般オントロジーのクラスと特性の関係を予測できることを示す。 これらの埋め込みの上に単純なフィードフォワードアーキテクチャさえも、入力データに応じて様々な一般化能力を持つ有望な精度を実現することができることを示す。 これを実現するために、これらのモデルをさらに強化するために使用可能なデータセットを作成し、Webオントロジーから知識を統合するアプリケーションに新たな可能性を開く。

It has been reliably shown that the similarity of word embeddings obtained from popular neural models such as BERT approximates effectively a form of semantic similarity of the meaning of those words. It is therefore natural to wonder if those embeddings contain enough information to be able to connect those meanings through ontological relationships such as the one of subsumption. If so, large knowledge models could be built that are capable of semantically relating terms based on the information encapsulated in word embeddings produced by pre-trained models, with implications not only for ontologies (ontology matching, ontology evolution, etc.) but also on the ability to integrate ontological knowledge in neural models. In this paper, we test how embeddings produced by several pre-trained models can be used to predict relations existing between classes and properties of popular upper-level and general ontologies. We show that even a simple feed-forward architecture on top of those embeddings can achieve promising accuracies, with varying generalisation abilities depending on the input data. To achieve that, we produce a dataset that can be used to further enhance those models, opening new possibilities for applications integrating knowledge from web ontologies.
翻訳日:2024-08-04 20:56:07 公開日:2024-08-01
# DiscipLink:人間とAIの共同探索による学際的情報探索プロセスの展開

DiscipLink: Unfolding Interdisciplinary Information Seeking Process via Human-AI Co-Exploration ( http://arxiv.org/abs/2408.00447v1 )

ライセンス: Link先を確認
Chengbo Zheng, Yuanhao Zhang, Zeyu Huang, Chuhan Shi, Minrui Xu, Xiaojuan Ma, (参考訳) 学際的な研究は、研究者が様々な知識の分野の文学を探求することを要求することが多い。 しかし、未知の分野から非常に散らばった知識をナビゲートすることは、大きな課題となる。 本稿では,学際情報探索(IIS)における研究者と大規模言語モデル(LLM)の協調を支援する対話型システムであるDiscipLinkを紹介する。 ユーザの関心事に基づいて、DiscipLinkは、関連する研究分野の観点から探索的な質問を開始し、ユーザーはこれらの質問をさらにカスタマイズすることができる。 次にDiscipLinkは、ディシプリナ固有の用語によるクエリを自動的に拡張し、検索した論文からテーマを抽出し、論文と質問の関連性を強調することによって、選択した質問の下で論文を検索およびスクリーニングするユーザをサポートする。 本研究は, 対象内比較実験とオープンエンド探索研究から, ディシプリンクが, 学際境界を破滅させ, 様々な分野に散在する知識を統合する上で, 研究者を効果的に支援できることを明らかにする。 この知見は、情報探索の実践と学際的な研究の促進において、LCMを利用したツールの可能性を強調している。

Interdisciplinary studies often require researchers to explore literature in diverse branches of knowledge. Yet, navigating through the highly scattered knowledge from unfamiliar disciplines poses a significant challenge. In this paper, we introduce DiscipLink, a novel interactive system that facilitates collaboration between researchers and large language models (LLMs) in interdisciplinary information seeking (IIS). Based on users' topics of interest, DiscipLink initiates exploratory questions from the perspectives of possible relevant fields of study, and users can further tailor these questions. DiscipLink then supports users in searching and screening papers under selected questions by automatically expanding queries with disciplinary-specific terminologies, extracting themes from retrieved papers, and highlighting the connections between papers and questions. Our evaluation, comprising a within-subject comparative experiment and an open-ended exploratory study, reveals that DiscipLink can effectively support researchers in breaking down disciplinary boundaries and integrating scattered knowledge in diverse fields. The findings underscore the potential of LLM-powered tools in fostering information-seeking practices and bolstering interdisciplinary research.
翻訳日:2024-08-04 20:56:07 公開日:2024-08-01
# 量子と進化のアルゴリズムが互いにどのように助け合うか:2つの例

How quantum and evolutionary algorithms can help each other: two examples ( http://arxiv.org/abs/2408.00448v1 )

ライセンス: Link先を確認
Shailendra Bhandari, Stefano Nichele, Sergiy Denysov, Pedro G. Lind, (参考訳) 本稿では,2つの特定のタスクに焦点をあて,特定の目標を持つ量子回路を設計するためのバイオインスパイアされた進化的アルゴリズムの可能性について検討する。 最初のものは、確率的セルオートマトンを所定の規則で再現するために使用される人工生命のアイデアに動機付けられている。 異なる数の量子ゲートに対するセルオートマタの量子実装のロバスト性をテストする 第2のタスクは、量子コンピューティングの重要なリソースである高絡み合った量子状態を生成する量子回路のサンプリングを扱う。 特に、マイヤー・ワラッハの絡み合い尺度で定義される適合関数に関して、回路を最適化するために進化的アルゴリズムが用いられる。 探索と搾取の間の突然変異率のバランスをとることにより、最大5量子ビットの量子回路が絡み合っていることが実証された。 また、量子回路におけるゲート数のトレードオフと、ゲート配置が強い絡み合う状態につながることの計算コストについても論じる。 本研究は,量子回路の設計において重要な要素である回路の複雑さと性能とのトレードオフについて,さらなる知見を提供するものである。

We investigate the potential of bio-inspired evolutionary algorithms for designing quantum circuits with specific goals, focusing on two particular tasks. The first one is motivated by the ideas of Artificial Life that are used to reproduce stochastic cellular automata with given rules. We test the robustness of quantum implementations of the cellular automata for different numbers of quantum gates The second task deals with the sampling of quantum circuits that generate highly entangled quantum states, which constitute an important resource for quantum computing. In particular, an evolutionary algorithm is employed to optimize circuits with respect to a fitness function defined with the Mayer-Wallach entanglement measure. We demonstrate that, by balancing the mutation rate between exploration and exploitation, we can find entangling quantum circuits for up to five qubits. We also discuss the trade-off between the number of gates in quantum circuits and the computational costs of finding the gate arrangements leading to a strongly entangled state. Our findings provide additional insight into the trade-off between the complexity of a circuit and its performance, which is an important factor in the design of quantum circuits.
翻訳日:2024-08-04 20:56:07 公開日:2024-08-01
# Reenact Anything:Motion-Textual Inversionを用いたセマンティックビデオモーショントランスファー

Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion ( http://arxiv.org/abs/2408.00458v1 )

ライセンス: Link先を確認
Manuel Kansy, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber, (参考訳) 近年、ビデオ生成と編集のアプローチが大幅に改善されている。 いくつかのテクニックは外観の編集に重点を置いているが、アドレスの動きはほとんどない。 テキスト, トラジェクトリー, あるいはバウンディングボックスを用いた現在のアプローチは, 単純な動きに限られる。 さらに,テキスト・ツー・ビデオモデルではなく,事前学習した画像・ビデオモデルを提案する。 このアプローチにより、対象物やシーンの正確な外観や位置を保ち、動きから外見を遠ざけることができる。 動作テキストインバージョンと呼ばれるこの手法では、画像から映像へのモデルが、主に画像入力から外観を抽出するのに対し、テキスト/画像の埋め込みは、主に動きを制御している。 これにより、テキスト/画像埋め込みトークンを使用して動きを表現する。 フレームごとの複数のテキスト/画像埋め込みトークンを含むインフレーションされたモーションテキスト埋め込みを操作することにより、高時間運動粒度を実現する。 モーションリファレンスビデオに最適化されると、この埋め込みは様々なターゲット画像に適用され、意味論的に類似した動画を生成する。 本手法では,動作基準映像と対象画像の空間的アライメントは必要とせず,様々な領域にまたがって一般化し,フルボディや顔再現などの様々なタスクに適用することができる。 本研究では,本手法の有効性を実証的に実証し,既存の手法よりも優れていることを示す。

Recent years have seen a tremendous improvement in the quality of video generation and editing approaches. While several techniques focus on editing appearance, few address motion. Current approaches using text, trajectories, or bounding boxes are limited to simple motions, so we specify motions with a single motion reference video instead. We further propose to use a pre-trained image-to-video model rather than a text-to-video model. This approach allows us to preserve the exact appearance and position of a target object or scene and helps disentangle appearance from motion. Our method, called motion-textual inversion, leverages our observation that image-to-video models extract appearance mainly from the (latent) image input, while the text/image embedding injected via cross-attention predominantly controls motion. We thus represent motion using text/image embedding tokens. By operating on an inflated motion-text embedding containing multiple text/image embedding tokens per frame, we achieve a high temporal motion granularity. Once optimized on the motion reference video, this embedding can be applied to various target images to generate videos with semantically similar motions. Our approach does not require spatial alignment between the motion reference video and target image, generalizes across various domains, and can be applied to various tasks such as full-body and face reenactment, as well as controlling the motion of inanimate objects and the camera. We empirically demonstrate the effectiveness of our method in the semantic video motion transfer task, significantly outperforming existing methods in this context.
翻訳日:2024-08-04 20:56:07 公開日:2024-08-01
# 深紫外定常光波における回折分子物質波

Diffracting molecular matter-waves at deep-ultraviolet standing-light waves ( http://arxiv.org/abs/2408.00461v1 )

ライセンス: Link先を確認
Ksenija Simonović, Richard Ferstl, Alfredo Di Silvestro, Marcel Mayor, Lukas Martinetz, Klaus Hornberger, Benjamin A. Stickler, Christian Brand, Markus Arndt, (参考訳) 分子との物質波干渉法は、基本的な量子現象を示すことと、物理化学における量子強度測定への道を開くことからも興味深い。 このような実験における大きな課題の1つは、幅広い粒子に効率よく適用可能な物質波ビーム分割機構を確立することである。 従来, 可視光域における連続定常光は相格子として主に用いられ, パルス真空紫外光は光電離格子に利用されていた。 ここでは,光物理現象や光化学現象,緩和経路の多種多様さを考慮し,連続的かつ強烈な深紫外光(\rm >1 MW/cm^2$,$\rm 266\,nm$)光マスクの仕組みを探求する。 この相互作用における機構の理解が向上し、タンパク質干渉法や分子特性の分子波増強に対する新たな電位経路が開かれる。

Matter-wave interferometry with molecules is intriguing both because it demonstrates a fundamental quantum phenomenon and because it opens avenues to quantum-enhanced measurements in physical chemistry. One great challenge in such experiments is to establish matter-wave beam splitting mechanisms that are efficient and applicable to a wide range of particles. In the past, continuous standing light waves in the visible spectral range were used predominantly as phase gratings, while pulsed vacuum ultraviolet light found applications in photo-ionisation gratings. Here, we explore the regime of continuous, intense deep-ultraviolet ($\rm >1 MW/cm^2$, $\rm 266\,nm$) light masks, where a rich variety of photo-physical and photo-chemical phenomena and relaxation pathways must be considered. The improved understanding of the mechanisms in this interaction opens new potential pathways to protein interferometry and to matter-wave enhanced sensing of molecular properties.
翻訳日:2024-08-04 20:56:07 公開日:2024-08-01
# エッジデバイスのための効率的なLDM加速器の設計

Designing Efficient LLM Accelerators for Edge Devices ( http://arxiv.org/abs/2408.00462v1 )

ライセンス: Link先を確認
Jude Haris, Rappy Saha, Wenhao Hu, José Cano, (参考訳) LLM(Large Language Models)のオープンソース可用性の向上により、ネットワーク接続への依存を低減し、より多くのプライバシを提供するために、より多くのリソース制約のあるエッジデバイスにデプロイできるようになった。 しかし、LLMの高計算とメモリ要求により、リソース制約のあるエッジデバイス上での実行は困難で非効率である。 この問題に対処するため、LLM推論のための新しい効率的なエッジアクセラレータを設計することが重要である。 FPGAベースの加速器は、モデル固有の最適化とワット当たりの性能向上を可能にするため、再構成性のためにLLM加速に最適である。 しかし、FPGAベースのLLM用アクセラレータ(特にエッジデバイス)の作成と統合は、主に既存のFPGAプラットフォームにおけるLLMのハードウェア設計フローが限られているため、難しいことが証明されている。 この問題に対処するため,本研究では, SECDA 手法を用いて FPGA ベースの LLM アクセラレータを llama.cpp 推論フレームワーク向けに設計, 統合, 展開するプロセスの効率化を図る新しい設計プラットフォーム SECDA-LLM を提案する。 次に, LLMの浮動小数点量子化演算をブロックするMatMulアクセラレータを新たに構築することで, SECDA-LLMの潜在的なメリットを実証する。 PYNQ-Z1ボード上にデプロイされた初期アクセラレータ設計では,TinyLlamaモデル用のデュアルコアArm NEONベースのCPU実行に対して,トークン当たり1.7秒,ワードあたり約2秒)のレイテンシを11倍に削減しています。

The increase in open-source availability of Large Language Models (LLMs) has enabled users to deploy them on more and more resource-constrained edge devices to reduce reliance on network connections and provide more privacy. However, the high computation and memory demands of LLMs make their execution on resource-constrained edge devices challenging and inefficient. To address this issue, designing new and efficient edge accelerators for LLM inference is crucial. FPGA-based accelerators are ideal for LLM acceleration due to their reconfigurability, as they enable model-specific optimizations and higher performance per watt. However, creating and integrating FPGA-based accelerators for LLMs (particularly on edge devices) has proven challenging, mainly due to the limited hardware design flows for LLMs in existing FPGA platforms. To tackle this issue, in this paper we first propose a new design platform, named SECDA-LLM, that utilizes the SECDA methodology to streamline the process of designing, integrating, and deploying efficient FPGA-based LLM accelerators for the llama.cpp inference framework. We then demonstrate, through a case study, the potential benefits of SECDA-LLM by creating a new MatMul accelerator that supports block floating point quantized operations for LLMs. Our initial accelerator design, deployed on the PYNQ-Z1 board, reduces latency 1.7 seconds per token or ~2 seconds per word) by 11x over the dual-core Arm NEON-based CPU execution for the TinyLlama model.
翻訳日:2024-08-04 20:56:07 公開日:2024-08-01
# MLOpsに関する予備調査: 開発者の認識と採用に対する最初の視点

A Preliminary Investigation of MLOps: Initial Insights into Developer Perception and Adoption ( http://arxiv.org/abs/2408.00463v1 )

ライセンス: Link先を確認
Sergio Moreschi, David Hästbacka, Andrea Janes, Valentina Lenarduzzi, Davide Taibi, (参考訳) AIベースのソフトウェアの採用の加速は、信頼性、スケーラビリティ、倫理的コンプライアンスを保証するために、正確な開発ガイドラインを要求する。 MLOps(Machine Learning and Operations)ガイドラインがこの分野で主要な参照として現れ、ハイレベルな自動化ツールやアプリケーションの開発への道を開いた。 MLOpsガイドラインの導入にもかかわらず、その実装を取り巻く懐疑論の程度は依然として存在し、多くの企業で徐々に採用が進んでいる。 MLOpsに対する意識の欠如は、同じアプローチを意図せず、頻繁に採用する組織に、関連するベストプラクティスや原則に関する包括的な理解が欠如している場合もあります。 本研究の目的は,さまざまなビジネスコンテキストにおけるMLOps(あるいはそれに匹敵する)ガイドラインの実際の採用に関する洞察を得ることである。 この目的のために、MLOpsが企業でどのように採用され、認識されているかを理解するために、さまざまなビジネス環境を代表する実践者を調査しました。 この調査の結果は、これらのガイドラインの利点と課題、それらに関連する学習曲線、およびこれらの情報から導出できる今後のトレンドに関連する他の関連する側面にも光を当てた。 この研究は、MLOpsとその機械学習におけるイノベーションの次のフェーズへの影響について、より深い洞察を提供することを目的としている。 そうすることで、将来的にはより効率的で信頼性があり、クリエイティブなAIアプリケーションの基礎を築くことを目指しています。

The accelerated adoption of AI-based software demands precise development guidelines to guarantee reliability, scalability, and ethical compliance. MLOps (Machine Learning and Operations) guidelines have emerged as the principal reference in this field, paving the way for the development of high-level automated tools and applications. Despite the introduction of MLOps guidelines, there is still a degree of skepticism surrounding their implementation, with a gradual adoption rate across many companies. In certain instances, a lack of awareness about MLOps has resulted in organizations adopting similar approaches unintentionally, frequently without a comprehensive understanding of the associated best practices and principles. The objective of this study is to gain insight into the actual adoption of MLOps (or comparable) guidelines in different business contexts. To this end, we surveyed practitioners representing a range of business environments to understand how MLOps is adopted and perceived in their companies. The results of this survey also shed light on other pertinent aspects related to the advantages and challenges of these guidelines, the learning curve associated with them, and the future trends that can be derived from this information. This study aims to provide deeper insight into MLOps and its impact on the next phase of innovation in machine learning. By doing so, we aim to lay the foundation for more efficient, reliable, and creative AI applications in the future.
翻訳日:2024-08-04 20:56:07 公開日:2024-08-01
# 猫状態量子ビットにおける集団反転に対する最適ロバストショートカット

Optimally robust shortcuts to population inversion in cat-state qubits ( http://arxiv.org/abs/2408.00464v1 )

ライセンス: Link先を確認
Shao-Wei Xu, Zhong-Zheng Zhang, Yue-Ying Guo, Ye-Hong Chen, Yan Xia, (参考訳) フォトニックコヒーレント状態によって形成される立方体量子ビットは、フォールトトレラント量子コンピューティングを実現するための有望な候補である。 このような論理キュービットはバイアスノイズチャネルを持ち、ビットフリップエラーは他の全てのエラーに支配される。 そこで本論文では,キャット状態量子ビットにおけるほぼ完全な個体数逆転を実現するために,ショートカットの可逆性に対する制御手法を用いて,最適にロバストなプロトコルを提案する。 ルイス=リースフェルト不変量に基づくショートカットを構築し、高速で頑健な集団逆転に対する異なる種類の摂動に対する安定性について検討する。 数値シミュレーションにより,本プロトコルの系統的誤りに対して,集団逆転はほとんど無感であることが示された。 ビットフリップ制御のパラメータ不完全率が20\%$であっても、ターゲット状態の最終的な人口は$\geq 99\%$に達する。 最適に堅牢な制御は、フォールトトレラントでスケーラブルな量子計算のための実現可能な方法を提供する。

Cat-state qubits formed by photonic coherent states are a promising candidate for realizing fault-tolerant quantum computing. Such logic qubits have a biased noise channel that the bit-flip error dominates over all the other errors. In this manuscript, we propose an optimally robust protocol using the control method of shortcuts to adiabaticity to realize a nearly perfect population inversion in a cat-state qubit. We construct a shortcut based on the Lewis-Riesenfeld invariant and examine the stability versus different types of perturbations for the fast and robust population inversion. Numerical simulations demonstrate that the population inversion can be mostly insensitive to systematic errors in our protocol. Even when the parameter imperfection rate for bit-flip control is $20\%$, the final population of the target state can still reach $\geq 99\%$. The optimally robust control provides a feasible method for fault-tolerant and scalable quantum computation.
翻訳日:2024-08-04 20:56:07 公開日:2024-08-01
# オンライン線形計画法における頻繁な解法

Infrequent Resolving Algorithm for Online Linear Programming ( http://arxiv.org/abs/2408.00465v1 )

ライセンス: Link先を確認
Guokai Li, Zizhuo Wang, Jingwei Zhang, (参考訳) オンラインリニアプログラミング(OLP)は、オンラインオークション、ネットワーク収益管理、広告などの幅広い応用により、研究者と実践者の両方から大きな注目を集めている。 既存のOLPアルゴリズムは、LPベースアルゴリズムとLPフリーアルゴリズムの2つのカテゴリに分類される。 前者は典型的にはパフォーマンスの向上を保証し、常に後悔しても良いが、計算コストのかかる大量のLPを解く必要がある。 対照的に、LPフリーアルゴリズムは1次計算しか必要としないが、より悪い性能を誘導し、絶え間ないリフレッシュバウンドを欠いている。 本研究では, LP を時間的地平線上での O(\log\log T)$ 倍だけ解きながら, 常に後悔するアルゴリズムを提案することにより, 両極間のギャップを埋める。 さらに、LPをわずかに$M$回だけ解ける場合、$O\left(T^{(1/2+\epsilon)^{M-1}}\right)を許すアルゴリズムを提案する。 さらに、最初に到着確率が分かると、我々のアルゴリズムはLPs$O(\log\log T)$ times と $O\left(T^{(1/2+\epsilon)^{M}}\right)$ regret を LPs$M$ times で解くことで、絶え間ない後悔を保証できる。 提案アルゴリズムの効率性を示すために, 数値実験を行った。

Online linear programming (OLP) has gained significant attention from both researchers and practitioners due to its extensive applications, such as online auction, network revenue management and advertising. Existing OLP algorithms fall into two categories: LP-based algorithms and LP-free algorithms. The former one typically guarantees better performance, even offering a constant regret, but requires solving a large number of LPs, which could be computationally expensive. In contrast, LP-free algorithm only requires first-order computations but induces a worse performance, lacking a constant regret bound. In this work, we bridge the gap between these two extremes by proposing an algorithm that achieves a constant regret while solving LPs only $O(\log\log T)$ times over the time horizon $T$. Moreover, when we are allowed to solve LPs only $M$ times, we propose an algorithm that can guarantee an $O\left(T^{(1/2+\epsilon)^{M-1}}\right)$ regret. Furthermore, when the arrival probabilities are known at the beginning, our algorithm can guarantee a constant regret by solving LPs $O(\log\log T)$ times, and an $O\left(T^{(1/2+\epsilon)^{M}}\right)$ regret by solving LPs only $M$ times. Numerical experiments are conducted to demonstrate the efficiency of the proposed algorithms.
翻訳日:2024-08-04 20:56:07 公開日:2024-08-01
# 大変形状態のない3光子ラビ振動の発生

Generating three-photon Rabi oscillations without a large-detuning condition ( http://arxiv.org/abs/2408.00468v1 )

ライセンス: Link先を確認
Ke-Xiong Yan, Yuan Qiu, Yang Xiao, Ye-Hong Chen, Yan Xia, (参考訳) 量子ラビモデルでは、空洞磁場の素周波数が原子遷移周波数の約1/3であるときに3光子共鳴が起こることが知られている。 本書では, 変換可能な遷移周波数を有する人工原子を用いて, 1/3条件の欠如により共振も生成可能であることを示す。 このプロトコルを実現するために、変調周波数は実効ハミルトニアンにおける反回転相互作用を誘導するために空洞周波数に匹敵するべきである。 このようにして、3光子ラビの振動は小さなゆるやかな状態でも観測でき、高エネルギー状態の励起を避けることができる。 我々は、エネルギー分割の大きさと共鳴位置を決定する効果的なハミルトニアン(異方性ラビモデルハミルトニアンと同値)を導出する。 数値シミュレーションの結果、このプロトコルは3光子共鳴を発生させるだけでなく、検出可能な出力光子フラックスを持つことが示された。 我々は,このプロトコルをフォック状態源の実現と多粒子絡みの発生に活用できることを願っている。

It is well known that in the quantum Rabi model, a three-photon resonance occurs when the cavity field bare frequency is about 1/3 of the atomic transition frequency. In this manuscript, we show that the resonance can also be generated in the absence of the 1/3 condition by employing an artificial atom with tunable transition frequency. To realize the protocol, the modulation frequency should be comparable to the cavity frequency in order to induce a counter-rotating interaction in the effective Hamiltonian. In this way, three-photon Rabi oscillations can be observed in a small-detuning regime, thus avoiding the excitation of high-energy states. We derive an effective Hamiltonian (equivalent to the anisotropic Rabi model Hamiltonian) to determine the magnitude of the energy splitting and the resonance position. Numerical simulations results show that the protocol not only generates a three-photon resonance, but also has a detectable output photon flux. We hope the protocol can be exploited for the realization of Fock-state sources and the generation of multiparticle entanglement.
翻訳日:2024-08-04 20:56:07 公開日:2024-08-01
# テイラー展開近似による画像超解像と大域受容

Image Super-Resolution with Taylor Expansion Approximation and Large Field Reception ( http://arxiv.org/abs/2408.00470v1 )

ライセンス: Link先を確認
Jiancong Feng, Yuan-Gen Wang, Mingjie Li, Fengchuang Xing, (参考訳) 自己相似性技術は、低解像度画像の劣化タイプを正確に推定するため、ブラインド超解像(SR)においてブームとなっている。 しかし、自己相似性計算における高次元行列乗法は、膨大な計算コストを禁止的に消費する。 高次元アテンションマップは、Query と Key の行列乗法から導出され、続いてソフトマックス関数が導出される。 このソフトマックスは、クエリとキーの分離不能な行列の乗算を可能にし、計算の複雑さを単純化する上で大きな課題となる。 この問題に対処するために、まず、クエリとキーの行列乗法を分離する2階テイラー展開近似(STEA)を提案し、複雑さを$\mathcal{O}(N^2)$から$\mathcal{O}(N)$に縮める。 そこで我々は,STEAによる性能劣化を補うため,MLFR(Multi-scale large field reception)を設計した。 最後に,これら2つのコア設計を,ラボネットとリアルネットをそれぞれ構築することで,実験室と実世界のシナリオに適用する。 5つの合成データセットで行った大規模な実験結果から,我々のラボネットは質的,定量的な評価に新たなベンチマークを設定できた。 RealWorld38データセットでテストされたRealNetは、既存のメソッドよりも優れた視覚的品質を実現しています。 アブレーション研究は、ラボネットとリアルネットの両方のフレームワークに対するSTEAとMLFRの貢献をさらに検証する。

Self-similarity techniques are booming in blind super-resolution (SR) due to accurate estimation of the degradation types involved in low-resolution images. However, high-dimensional matrix multiplication within self-similarity computation prohibitively consumes massive computational costs. We find that the high-dimensional attention map is derived from the matrix multiplication between Query and Key, followed by a softmax function. This softmax makes the matrix multiplication between Query and Key inseparable, posing a great challenge in simplifying computational complexity. To address this issue, we first propose a second-order Taylor expansion approximation (STEA) to separate the matrix multiplication of Query and Key, resulting in the complexity reduction from $\mathcal{O}(N^2)$ to $\mathcal{O}(N)$. Then, we design a multi-scale large field reception (MLFR) to compensate for the performance degradation caused by STEA. Finally, we apply these two core designs to laboratory and real-world scenarios by constructing LabNet and RealNet, respectively. Extensive experimental results tested on five synthetic datasets demonstrate that our LabNet sets a new benchmark in qualitative and quantitative evaluations. Tested on the RealWorld38 dataset, our RealNet achieves superior visual quality over existing methods. Ablation studies further verify the contributions of STEA and MLFR towards both LabNet and RealNet frameworks.
翻訳日:2024-08-04 20:56:07 公開日:2024-08-01
# 複合パルスを用いた高忠実性絡み合った猫状態の調製

Preparation of high fidelity entangled cat states with composite pulses ( http://arxiv.org/abs/2408.00471v1 )

ライセンス: Link先を確認
Ge-Ge Gu, Dong-Sheng Li, Ye-Hong Chen, Bi-Hua Huang, Yan Xia, (参考訳) 本研究では, 複合パルスを用いた高忠実な絡み合った猫状態の調製のためのプロトコルを提案する。 物理モデルは2つのカーノンリニア共振器とキャビティを含む。 パラメータを適切に設計することにより、各Kerr非線形共振器を猫状態部分空間に閉じ込め、絡み合った猫状態を効率的に生成することができる。 複数の振幅と周波数を持つ複合2光子ドライブを導入し,パラメータエラーの有無で絡み合った猫の状態の忠実度を向上させる。 パラメトリック誤差とデコヒーレンスを考慮してプロトコルの性能を推定する。 数値シミュレーションの結果、このプロトコルはタイミング誤差やデチューニング誤差に敏感であり、デコヒーレンスに対して強い堅牢性を有することが示された。 このプロトコルが、安定な絡み合った猫の状態を調製する方法を提供することを願っている。

We propose a protocol for the preparation of high-fidelity entangled cat states with composite pulses. The physical model contains two Kerr-nonlinear resonators and a cavity. By properly designing the parameters, each Kerr-nonlinear resonator is confined in the cat-state subspace and the entangled cat states can be generated efficiently. We introduce composite two-photon drives with multiple amplitudes and frequencies to improve the fidelity of the entangled cat states in the presence of parameter errors. The performance of the protocol is estimated by taking into account the parametric errors and decoherence. Numerical simulation results show that the protocol is insensitive to timing error and detuning error, and has strong robustness to decoherence. We hope the protocol may provide a method for preparing stable entangled cat states.
翻訳日:2024-08-04 20:46:24 公開日:2024-08-01
# 説明性・解釈性のある音楽難読度推定に向けて:パラメーター効率のアプローチ

Towards Explainable and Interpretable Musical Difficulty Estimation: A Parameter-efficient Approach ( http://arxiv.org/abs/2408.00473v1 )

ライセンス: Link先を確認
Pedro Ramoneda, Vsevolod Eremenko, Alexandre D'Hooge, Emilia Parada-Cabaleiro, Xavier Serra, (参考訳) 音楽コレクションの整理には曲の難易度を推定することが重要である。 このプロセスは、教育者の役割を促進するために部分的に自動化できる。 それでも、一般的なディープラーニングモデルによる決定はほとんど理解できないため、音楽教育カリキュラムにおけるそのような技術の受容を損なう可能性がある。 シンボリックな音楽表現の難易度推定には説明可能な記述子を用いる。 さらに、パラメータ効率のよいホワイトボックスモデルにより、解釈可能な結果を提供しながら、過去の取り組みよりも優れています。 これらの理解可能な成果は、音楽教育で広く使われているルーブリックの機能をエミュレートする。 ピアノレパートリーで評価したアプローチでは,平均2乗誤差(MSE)が1.7で41.4%,精度が41.4%,精度が1.7であった。 本研究のベースラインを通じて,過去の研究を基に構築することで,音楽の難易度評価のための代替手段が提供され,説明と解釈が可能であることを示す。 これにより、音楽情報検索(MIR)コミュニティと音楽教育コミュニティとのより効果的なコミュニケーションを促進することを目指している。

Estimating music piece difficulty is important for organizing educational music collections. This process could be partially automatized to facilitate the educator's role. Nevertheless, the decisions performed by prevalent deep-learning models are hardly understandable, which may impair the acceptance of such a technology in music education curricula. Our work employs explainable descriptors for difficulty estimation in symbolic music representations. Furthermore, through a novel parameter-efficient white-box model, we outperform previous efforts while delivering interpretable results. These comprehensible outcomes emulate the functionality of a rubric, a tool widely used in music education. Our approach, evaluated in piano repertoire categorized in 9 classes, achieved 41.4% accuracy independently, with a mean squared error (MSE) of 1.7, showing precise difficulty estimation. Through our baseline, we illustrate how building on top of past research can offer alternatives for music difficulty assessment which are explainable and interpretable. With this, we aim to promote a more effective communication between the Music Information Retrieval (MIR) community and the music education one.
翻訳日:2024-08-04 20:46:24 公開日:2024-08-01
# 積分可能量子回路の一般化力学

Generalized hydrodynamics of integrable quantum circuits ( http://arxiv.org/abs/2408.00474v1 )

ライセンス: Link先を確認
Friedrich Hübner, Eric Vernier, Lorenzo Piroli, (参考訳) 量子回路は、時間差$\tau$の離散トロッターステップを実装することで、多体ハミルトンの連続時間力学をシミュレートすることができる。 しかし、$\tau$が十分に大きい場合、離散力学は元の進化と比べて質的な違いを示し、新しい特徴と多体効果を示す可能性がある。 この現象の興味深い例として、原型可積分モデルであるXXZハイゼンベルクスピン鎖の可積分トロッター化を考える。 大規模システムの2つのハーフを異なるマクロ状態に準備し、突然結合し、非自明な非平衡力学をもたらす、よく知られた分割プロトコルに焦点を当てる。 積分可能モデルの最近の結果に基づいて一般化流体力学(GHD)を適用することにより、入力された左右のキュービットが2つの異なる積状態で初期化される明示的な1次元量子回路設定の大規模記述を開発する。 本稿では,GHD方程式によって予測される現象論について考察する。 パラメータ空間のいくつかの位相において、量子回路の大規模力学は連続時間進化と定性的に異なることを示す。 特に、単一量子ビットの付加のような接合部の単一顕微鏡欠陥は、遅く出現する非平衡マクロ状態を変化させる可能性がある。

Quantum circuits make it possible to simulate the continuous-time dynamics of a many-body Hamiltonian by implementing discrete Trotter steps of duration $\tau$. However, when $\tau$ is sufficiently large, the discrete dynamics exhibit qualitative differences compared to the original evolution, potentially displaying novel features and many-body effects. We study an interesting example of this phenomenon, by considering the integrable Trotterization of a prototypical integrable model, the XXZ Heisenberg spin chain. We focus on the well-known bipartition protocol, where two halves of a large system are prepared in different macrostates and suddenly joined together, yielding non-trivial nonequilibrium dynamics. Building upon recent results and adapting the generalized hydrodynamics (GHD) of integrable models, we develop an exact large-scale description of an explicit one-dimensional quantum-circuit setting, where the input left and right qubits are initialized in two distinct product states. We explore the phenomenology predicted by the GHD equations, which depend on the Trotter step and the gate parameters. In some phases of the parameter space, we show that the quantum-circuit large-scale dynamics is qualitatively different compared to the continuous-time evolution. In particular, we find that a single microscopic defect at the junction, such as the addition of a single qubit, may change the nonequilibrium macrostate appearing at late time.
翻訳日:2024-08-04 20:46:24 公開日:2024-08-01
# HBot: 人体3D可視化に基づく中国の伝統医学における医療応用のためのチャットボット

HBot: A Chatbot for Healthcare Applications in Traditional Chinese Medicine Based on Human Body 3D Visualization ( http://arxiv.org/abs/2408.00481v1 )

ライセンス: Link先を確認
Bolin Zhang, Zhiwei Yi, Jiahao Wang, Dianbo Sui, Zhiying Tu, Dianhui Chu, (参考訳) 中国伝統医学(TCM)のユニークな診断・治療技術と臨床効果は、特に高齢者の一般的な慢性疾患のリハビリテーションにおいて、介護と医療の分野で重要な役割を担っている。 したがって、医療アプリケーションのためのTCMチャットボットの構築は、ユーザーが直接的かつ自然な方法でコンサルティングサービスを得るのに役立つ。 しかし、TCMに関わる接尾辞点 (acupoints) やメリディアンのような概念は、直感的に表示できないコンサルテーションに常に現れる。 この目的のために,3次元の人体モデルと知識グラフに基づく「textbf{h}ealthcare chat\textbf{bot}」(HBot)を開発した。 ユーザーとHBotの会話に特定のAcupointが関わると、3Dボディは対応するAcupointにジャンプしてハイライトする。 さらに、Hbotは、接点やナレッジカードを直感的に表示することで、TCMの指導プロセスを加速する訓練シナリオにも使用することができる。 デモビデオはhttps://www.youtube.com/watch? v=UhQhutSKkTU。 コードとデータセットはGiteeで公開されている。 https://gitee.com/plabrolin/interactive-3d-acup.git。

The unique diagnosis and treatment techniques and remarkable clinical efficacy of traditional Chinese medicine (TCM) make it play an important role in the field of elderly care and healthcare, especially in the rehabilitation of some common chronic diseases of the elderly. Therefore, building a TCM chatbot for healthcare application will help users obtain consultation services in a direct and natural way. However, concepts such as acupuncture points (acupoints) and meridians involved in TCM always appear in the consultation, which cannot be displayed intuitively. To this end, we develop a \textbf{h}ealthcare chat\textbf{bot} (HBot) based on a human body model in 3D and knowledge graph, which provides conversational services such as knowledge Q\&A, prescription recommendation, moxibustion therapy recommendation, and acupoint search. When specific acupoints are involved in the conversations between user and HBot, the 3D body will jump to the corresponding acupoints and highlight them. Moreover, Hbot can also be used in training scenarios to accelerate the teaching process of TCM by intuitively displaying acupuncture points and knowledge cards. The demonstration video is available at https://www.youtube.com/watch?v=UhQhutSKkTU . Our code and dataset are publicly available at Gitee: https://gitee.com/plabrolin/interactive-3d-acup.git
翻訳日:2024-08-04 20:46:24 公開日:2024-08-01
# 長期学習の体系的レビュー

A Systematic Review on Long-Tailed Learning ( http://arxiv.org/abs/2408.00483v1 )

ライセンス: Link先を確認
Chongsheng Zhang, George Almpanidis, Gaojuan Fan, Binquan Deng, Yanbo Zhang, Ji Liu, Aouaidjia Kamel, Paolo Soda, João Gama, (参考訳) ロングテールデータ(Long-tailed data)は、非常に多くのマイノリティ/テールクラスを持つ特殊なマルチクラスの不均衡データである。 長い尾の学習は、長い尾の分布を持つデータセット上で高性能なモデルを構築することを目的としており、これは全てのクラス、特にマイノリティ/テールクラスを高精度に識別することができる。 これは最先端の研究の方向性であり、ここ数年でかなりの研究努力を惹きつけてきた。 本稿では,長期視覚学習における最新の進歩を包括的に調査する。 まず,データバランシング,ニューラルアーキテクチャ,機能強化,ロジット調整,損失関数,ベルとホイッスル,ネットワーク最適化,ポストホック処理技術など,8つの異なる分野からなる,長期学習のための新しい分類法を提案する。 提案する分類学に基づいて,長期学習手法の体系的レビューを行い,それらの共通点と整合性の違いについて論じる。 また,不均衡学習と長期学習の違いも分析した。 最後に,本分野における今後の展望と今後の方向性について論じる。

Long-tailed data is a special type of multi-class imbalanced data with a very large amount of minority/tail classes that have a very significant combined influence. Long-tailed learning aims to build high-performance models on datasets with long-tailed distributions, which can identify all the classes with high accuracy, in particular the minority/tail classes. It is a cutting-edge research direction that has attracted a remarkable amount of research effort in the past few years. In this paper, we present a comprehensive survey of latest advances in long-tailed visual learning. We first propose a new taxonomy for long-tailed learning, which consists of eight different dimensions, including data balancing, neural architecture, feature enrichment, logits adjustment, loss function, bells and whistles, network optimization, and post hoc processing techniques. Based on our proposed taxonomy, we present a systematic review of long-tailed learning methods, discussing their commonalities and alignable differences. We also analyze the differences between imbalance learning and long-tailed learning approaches. Finally, we discuss prospects and future directions in this field.
翻訳日:2024-08-04 20:46:24 公開日:2024-08-01
# マスク注意特徴強調とラベル相関学習によるマルチラベル下水道管欠陥認識

Multi-label Sewer Pipe Defect Recognition with Mask Attention Feature Enhancement and Label Correlation Learning ( http://arxiv.org/abs/2408.00489v1 )

ライセンス: Link先を確認
Xin Zuo, Yu Sheng, Jifeng Shen, Yongwei Shan, (参考訳) 複数の欠陥カテゴリの存在、および実質的なクラス不均衡問題の存在は、下水道パイプライン欠陥の検出を著しく損なう。 この問題を解決するために,マスク注意誘導特徴強調とラベル相関学習に基づくマルチラベルパイプ欠陥認識手法を提案する。 提案手法は,Swer-MLトレーニングデータセットの1/16しか使用せず,フルデータセット上のF2測定値の11.87\%を超えながら,モデルの優位性も証明できる。 本研究の主な貢献は、より正確な下水道パイプライン条件評価のために、下水道管画像の複数の欠陥を特定し、配置するためのより効率的なモデルの開発である。 さらに,クラスアクティベーションマップを用いることで,画像中の複数の欠陥カテゴリを正確に特定し,強力なモデル解釈可能性を示す。 私たちのコードは、 \href{https://github.com/shengyu27/MA-Q2L}{\textcolor{black}{https://github.com/shengyu27/MA-Q2Lで利用可能です。 ※

The coexistence of multiple defect categories as well as the substantial class imbalance problem significantly impair the detection of sewer pipeline defects. To solve this problem, a multi-label pipe defect recognition method is proposed based on mask attention guided feature enhancement and label correlation learning. The proposed method can achieve current approximate state-of-the-art classification performance using just 1/16 of the Sewer-ML training dataset and exceeds the current best method by 11.87\% in terms of F2 metric on the full dataset, while also proving the superiority of the model. The major contribution of this study is the development of a more efficient model for identifying and locating multiple defects in sewer pipe images for a more accurate sewer pipeline condition assessment. Moreover, by employing class activation maps, our method can accurately pinpoint multiple defect categories in the image which demonstrates a strong model interpretability. Our code is available at \href{https://github.com/shengyu27/MA-Q2L}{\textcolor{black}{https://github.com/shengyu27/MA-Q2L.}
翻訳日:2024-08-04 20:46:24 公開日:2024-08-01
# アウト・オブ・ディストリビューション・レコメンデーションのための因果拡散によるグラフ表現学習

Graph Representation Learning via Causal Diffusion for Out-of-Distribution Recommendation ( http://arxiv.org/abs/2408.00490v1 )

ライセンス: Link先を確認
Chu Zhao, Enneng Yang, Yuliang Liang, Pengxiang Lan, Yuting Liu, Jianzhe Zhao, Guibing Guo, Xingwei Wang, (参考訳) グラフニューラルネットワーク(GNN)ベースのレコメンデーションアルゴリズムは通常、トレーニングとテストデータは独立かつ同一に分散されたIID(IID)空間から引き出されると仮定する。 しかし、この仮定は、アウト・オブ・ディストリビューション(OOD)データの存在でしばしば失敗し、パフォーマンスが大幅に低下する。 本研究では,環境共同設立者(例:COVID-19パンデミック)がGNNモデルに不安定な相関関係を生じさせ,OODデータへの一般化を阻害する構造因果モデル(SCM)を構築した。 そこで本研究では,OODレコメンデーションのための因果拡散(CausalDiffRec)を用いたグラフ表現学習手法を提案する。 本手法は, 環境要因を排除し, 不変グラフ表現を学習することにより, OODデータに対するモデルの一般化を促進する。 具体的には,実際の環境分布を推定するためにバックドア調整と変分推論を用い,環境共同設立者の影響を排除した。 この推論分布は、拡散過程の逆相における表現学習を誘導し、不変表現を学ぶための事前知識として使用される。 さらに、CausalDiffRecの目的関数の最適化が環境不変グラフ表現の学習を促進することの証明を理論的導出し、分散シフト下での勧告における優れた一般化性能を実現する。 OODデータの一般化におけるCausalDiffRecの有効性を検証するとともに、平均的な改善は食品では10.69%、クアイレックでは18.83%、Yelp2018では22.41%、ドゥバンデータセットでは11.65%である。

Graph Neural Networks (GNNs)-based recommendation algorithms typically assume that training and testing data are drawn from independent and identically distributed (IID) spaces. However, this assumption often fails in the presence of out-of-distribution (OOD) data, resulting in significant performance degradation. In this study, we construct a Structural Causal Model (SCM) to analyze interaction data, revealing that environmental confounders (e.g., the COVID-19 pandemic) lead to unstable correlations in GNN-based models, thus impairing their generalization to OOD data. To address this issue, we propose a novel approach, graph representation learning via causal diffusion (CausalDiffRec) for OOD recommendation. This method enhances the model's generalization on OOD data by eliminating environmental confounding factors and learning invariant graph representations. Specifically, we use backdoor adjustment and variational inference to infer the real environmental distribution, thereby eliminating the impact of environmental confounders. This inferred distribution is then used as prior knowledge to guide the representation learning in the reverse phase of the diffusion process to learn the invariant representation. In addition, we provide a theoretical derivation that proves optimizing the objective function of CausalDiffRec can encourage the model to learn environment-invariant graph representations, thereby achieving excellent generalization performance in recommendations under distribution shifts. Our extensive experiments validate the effectiveness of CausalDiffRec in improving the generalization of OOD data, and the average improvement is up to 10.69% on Food, 18.83% on KuaiRec, 22.41% on Yelp2018, and 11.65% on Douban datasets.
翻訳日:2024-08-04 20:46:24 公開日:2024-08-01
# GalleryGPT: 大規模マルチモーダルモデルによる絵画の分析

GalleryGPT: Analyzing Paintings with Large Multimodal Models ( http://arxiv.org/abs/2408.00491v1 )

ライセンス: Link先を確認
Yi Bin, Wenhao Shi, Yujuan Ding, Zhiqiang Hu, Zheng Wang, Yang Yang, See-Kiong Ng, Heng Tao Shen, (参考訳) 美術品の分析は、個人の審美性を豊かにし、批判的思考能力を促進することができる芸術鑑賞のための重要かつ基本的な技術である。 芸術の理解は、その主観的な性質、多様な解釈、複雑な視覚要素のために困難であり、美術史、文化的背景、美学の専門知識を必要とする。 しかし、データ収集とモデル能力に制限されている従来のアートワークは、主に分類、検索、その他の単純なタスクに焦点を当てており、AIの目標とは程遠い。 本稿では,大規模マルチモーダルモデルの顕著な知覚と生成能力に触発された包括的分析を更に進める。 具体的には,まず,美術作品の段落分析,すなわち絵画の視覚的特徴に着目し,より包括的な芸術作品の理解を定式化するタスクを提案する。 フォーマルな分析研究を支援するために,約19kの絵画画像と50kの分析段落を備えた大規模データセットPaintingFormを収集した。 さらに我々は,LLaVAアーキテクチャをベースとしたGalleryGPTと呼ばれる,絵画解析のための優れた大規模マルチモーダルモデルを導入する。 我々は、モデルの性能を評価するために、複数のデータセットをまたいだフォーマルな分析生成とゼロショット実験を行う。 その結果,強力なベースラインLMMと比較して優れた性能向上を示し,アート解析と一般化の優れた能力を示した。 https://github.com/steven640pixel/GalleryGPT。

Artwork analysis is important and fundamental skill for art appreciation, which could enrich personal aesthetic sensibility and facilitate the critical thinking ability. Understanding artworks is challenging due to its subjective nature, diverse interpretations, and complex visual elements, requiring expertise in art history, cultural background, and aesthetic theory. However, limited by the data collection and model ability, previous works for automatically analyzing artworks mainly focus on classification, retrieval, and other simple tasks, which is far from the goal of AI. To facilitate the research progress, in this paper, we step further to compose comprehensive analysis inspired by the remarkable perception and generation ability of large multimodal models. Specifically, we first propose a task of composing paragraph analysis for artworks, i.e., painting in this paper, only focusing on visual characteristics to formulate more comprehensive understanding of artworks. To support the research on formal analysis, we collect a large dataset PaintingForm, with about 19k painting images and 50k analysis paragraphs. We further introduce a superior large multimodal model for painting analysis composing, dubbed GalleryGPT, which is slightly modified and fine-tuned based on LLaVA architecture leveraging our collected data. We conduct formal analysis generation and zero-shot experiments across several datasets to assess the capacity of our model. The results show remarkable performance improvements comparing with powerful baseline LMMs, demonstrating its superb ability of art analysis and generalization. \textcolor{blue}{The codes and model are available at: https://github.com/steven640pixel/GalleryGPT.
翻訳日:2024-08-04 20:46:24 公開日:2024-08-01
# 人間とコンピュータビジョンのための説明可能な感情デコーディング

Explainable Emotion Decoding for Human and Computer Vision ( http://arxiv.org/abs/2408.00493v1 )

ライセンス: Link先を確認
Alessio Borriero, Martina Milazzo, Matteo Diano, Davide Orsenigo, Maria Chiara Villa, Chiara Di Fazio, Marco Tamietto, Alan Perotti, (参考訳) 現代の機械学習(ML)は、様々な研究分野を著しく進歩させてきたが、MLモデルの不透明な性質は、いくつかの領域で採用を妨げる。 説明可能なAI(XAI)は、MLモデルの内部決定プロセスを理解するための追加情報を提供することによって、この問題に対処する。 神経科学の分野では、帰属に基づくXAI技術で脳のデコードのためのMLモデルを強化することは、どの脳領域が与えられたタスクに関連しているかを強調できることを意味しており、ドメインの専門家に貴重な洞察を提供する。 本稿では,機能的磁気共鳴イメージング(fMRI)と映画フレームに基づく2つのMLモデルの訓練と説明を行う。 我々は、"Forrest Gump" 映画、感情アノテーション、およびアイトラッキングデータを見ている被験者の機能的磁気共鳴イメージング(fMRI)スキャンを含む、"StudyForrest"データセットを活用する。 人間の視覚では、MLタスクはfMRIデータを感情的なアノテーションと結びつけることであり、説明はラベルと強く相関している脳領域を強調する。 一方、コンピュータビジョンでは、入力データは映画フレームであり、説明はピクセルレベルのヒートマップである。 CVモデルと脳領域の活性化について,人間の注意(視線追跡による)とXAI塩分濃度を相互に関連づけて分析した。 本稿では、人間の視覚とコンピュータビジョンの並列解析が、神経科学のコミュニティ(アロケーション理論)とMLのコミュニティ(畳み込みモデルの生物学的妥当性)の両方に有用な情報を提供する方法を示す。

Modern Machine Learning (ML) has significantly advanced various research fields, but the opaque nature of ML models hinders their adoption in several domains. Explainable AI (XAI) addresses this challenge by providing additional information to help users understand the internal decision-making process of ML models. In the field of neuroscience, enriching a ML model for brain decoding with attribution-based XAI techniques means being able to highlight which brain areas correlate with the task at hand, thus offering valuable insights to domain experts. In this paper, we analyze human and Computer Vision (CV) systems in parallel, training and explaining two ML models based respectively on functional Magnetic Resonance Imaging (fMRI) and movie frames. We do so by leveraging the "StudyForrest" dataset, which includes functional Magnetic Resonance Imaging (fMRI) scans of subjects watching the "Forrest Gump" movie, emotion annotations, and eye-tracking data. For human vision the ML task is to link fMRI data with emotional annotations, and the explanations highlight the brain regions strongly correlated with the label. On the other hand, for computer vision, the input data is movie frames, and the explanations are pixel-level heatmaps. We cross-analyzed our results, linking human attention (obtained through eye-tracking) with XAI saliency on CV models and brain region activations. We show how a parallel analysis of human and computer vision can provide useful information for both the neuroscience community (allocation theory) and the ML community (biological plausibility of convolutional models).
翻訳日:2024-08-04 20:46:24 公開日:2024-08-01
# SegStitch:ロバストかつ効率的な医用画像分割のための多次元変換器

SegStitch: Multidimensional Transformer for Robust and Efficient Medical Imaging Segmentation ( http://arxiv.org/abs/2408.00496v1 )

ライセンス: Link先を確認
Shengbo Tan, Zeyu Zhang, Ying Cai, Daji Ergu, Lin Wu, Binbin Hu, Pengzhang Yu, Yang Zhao, (参考訳) 画像診断は病変の自動認識と解析において重要な役割を担っている。 最先端の手法、特にトランスフォーマーを利用する手法は、スケーラビリティと一般化性において優れた性能のため、3Dセマンティックセグメンテーションにおいて顕著に採用されている。 しかし、局所的な特徴や計算の複雑さが無視されているため、普通の視覚変換器は困難に直面する。 まず、変換器とODEブロックを分解する革新的なアーキテクチャであるSegStitchを提案しました。 3Dボリューム全体をインプットとして扱う代わりに、軸パッチを適用し、セマンティック一貫性を確保するためにパッチワイズクエリをカスタマイズします。 さらに, BTCVおよびACDCデータセットに対する広範な実験を行い, 最先端手法と比較して, mDSCでそれぞれ11.48%と6.71%の改善を実現した。 最後に,提案手法によりパラメータ数を36.7%削減し,FLOPSを10.7%削減した。 この進歩は,本手法を現実臨床に適応させる有望な可能性を秘めている。 コードはhttps://github.com/goblin327/SegStitchで入手できる。

Medical imaging segmentation plays a significant role in the automatic recognition and analysis of lesions. State-of-the-art methods, particularly those utilizing transformers, have been prominently adopted in 3D semantic segmentation due to their superior performance in scalability and generalizability. However, plain vision transformers encounter challenges due to their neglect of local features and their high computational complexity. To address these challenges, we introduce three key contributions: Firstly, we proposed SegStitch, an innovative architecture that integrates transformers with denoising ODE blocks. Instead of taking whole 3D volumes as inputs, we adapt axial patches and customize patch-wise queries to ensure semantic consistency. Additionally, we conducted extensive experiments on the BTCV and ACDC datasets, achieving improvements up to 11.48% and 6.71% respectively in mDSC, compared to state-of-the-art methods. Lastly, our proposed method demonstrates outstanding efficiency, reducing the number of parameters by 36.7% and the number of FLOPS by 10.7% compared to UNETR. This advancement holds promising potential for adapting our method to real-world clinical practice. The code will be available at https://github.com/goblin327/SegStitch
翻訳日:2024-08-04 20:46:24 公開日:2024-08-01
# 映像の接触同定における自己監督モデルの有効性

How Effective are Self-Supervised Models for Contact Identification in Videos ( http://arxiv.org/abs/2408.00498v1 )

ライセンス: Link先を確認
Malitha Gunawardhana, Limalka Sadith, Liel David, Daniel Harari, Muhammad Haris Khan, (参考訳) 自己監視学習(SSL)モデルによるビデオコンテンツの探索は、この領域に固有の複雑な課題とユニークな機会の両方を強調する、ダイナミックな研究分野を明らかにした。 研究の活発化にもかかわらず、ビデオ内の物理的接触を検出するSSLモデルの能力は、特に線形探索による下流監視やフル微調整といった手法の有効性について、まだ明らかになっていない。 この研究は、8つの異なる畳み込みニューラルネットワーク(CNN)ベースのビデオSSLモデルを使用することで、このギャップを埋めることを目的としている。 Some-Something v2 (SSv2) と Epic-Kitchen (EK-100) データセットは、UCF101 と HMDB51 の有望な結果と、SSv2 と EK-100 の限定的な事前評価により、これらのアプローチを評価するために選ばれた。 さらに、これらのデータセットは多様な環境とシナリオを備えており、ビデオベースのモデルの堅牢性と正確性をテストするのに不可欠である。 本手法では, 物理接触認識における各モデルの有効性だけでなく, 下流作業における動作認識の性能についても検討する。 これにより、複雑な動的視覚情報を解釈するSSLモデルの適応性に関する貴重な洞察が貢献される。

The exploration of video content via Self-Supervised Learning (SSL) models has unveiled a dynamic field of study, emphasizing both the complex challenges and unique opportunities inherent in this area. Despite the growing body of research, the ability of SSL models to detect physical contacts in videos remains largely unexplored, particularly the effectiveness of methods such as downstream supervision with linear probing or full fine-tuning. This work aims to bridge this gap by employing eight different convolutional neural networks (CNNs) based video SSL models to identify instances of physical contact within video sequences specifically. The Something-Something v2 (SSv2) and Epic-Kitchen (EK-100) datasets were chosen for evaluating these approaches due to the promising results on UCF101 and HMDB51, coupled with their limited prior assessment on SSv2 and EK-100. Additionally, these datasets feature diverse environments and scenarios, essential for testing the robustness and accuracy of video-based models. This approach not only examines the effectiveness of each model in recognizing physical contacts but also explores the performance in the action recognition downstream task. By doing so, valuable insights into the adaptability of SSL models in interpreting complex, dynamic visual information are contributed.
翻訳日:2024-08-04 20:46:24 公開日:2024-08-01
# 統計分析でサイバー犯罪者の一貫性を解き明かす

To Change Or To Stick: Unveiling The Consistency Of Cyber Criminal Signatures Through Statistical Analysis ( http://arxiv.org/abs/2408.00499v1 )

ライセンス: Link先を確認
Ronan Mouchoux, François Moerman, (参考訳) 本研究は,サイバー空間における犯罪署名の存在を明白に明らかにし,その存在を統計的証拠を通じて初めて検証した。 2007年から2020年にかけての17,000以上の記事の広範なコーパスから抽出されたAdvanced Persistent ThreatsのModus OperandiにA prioriアルゴリズムを適用することで、高度なサイバー犯罪者が活用する永続的パターンを強調した。 本研究は,サイバー攻撃における現時点の人間の行動理解における重要なギャップを埋める,先進的なサイバー犯罪に関連するユニークな署名の存在を検証するものである。 この重要な研究は、サイバーセキュリティと計算犯罪学における全く新しい学術的交差点の基礎となる。

This study unveils the elusive presence of criminal signatures in cyberspace, validating for the first time their existence through statistical evidence. By applying the A priori algorithm to the modus operandi of Advanced Persistent Threats, extracted from an extensive corpus of over 17,000 articles spanning 2007 to 2020, we highlight the enduring patterns leveraged by sophisticated cyber criminals. Our findings verify the existence of unique signatures associated with advanced cybercriminals, bridging a crucial gap in current understanding of human behavior in cyber-attacks. This pivotal research sets the foundation for an entirely new academic intersection in cybersecurity and computational criminology.
翻訳日:2024-08-04 20:46:24 公開日:2024-08-01
# ルーツキットのように見えると、ルーツキットのように見える:カーネルレベルの反熱システムに対する批判的検証

If It Looks Like a Rootkit and Deceives Like a Rootkit: A Critical Examination of Kernel-Level Anti-Cheat Systems ( http://arxiv.org/abs/2408.00500v1 )

ライセンス: Link先を確認
Christoph Dorner, Lukas Daniel Klausner, (参考訳) オンラインゲームにおけるサイバーセキュリティの重要な側面として,カーネルレベルのアンチチートシステムがルートキットの性質を反映する程度を体系的に評価し,保護ソフトウェアと潜在的侵入ソフトウェアを区別することの重要性を強調した。 ルートキットの定義(ルートキットと単純なカーネルレベルのアプリケーションとを区別する)を確立し、そのようなソフトウェアを評価するためのメトリクスを定義した後、我々は4つのカーネルレベルのアンチチートソリューションを紹介した。 我々は、これらのタイプのソフトウェアの内部動作をレイアウトし、以前に確立した定義に従って評価し、倫理的考察と、そのようなプログラムが導入したプライバシー侵害の可能性について議論する。 我々の分析は、ルートキットのような振る舞いを示し、システムのプライバシーと整合性を脅かす4つのアンチチートソリューションのうちの2つを示している。 本稿では,ゲームセキュリティとソフトウェア工学の分野における研究者や開発者に重要な洞察を与え,効果的なアンチチート機構とユーザプライバシの交差を慎重に検討する情報開発プラクティスの必要性を強調した。

Addressing a critical aspect of cybersecurity in online gaming, this paper systematically evaluates the extent to which kernel-level anti-cheat systems mirror the properties of rootkits, highlighting the importance of distinguishing between protective and potentially invasive software. After establishing a definition for rootkits (making distinctions between rootkits and simple kernel-level applications) and defining metrics to evaluate such software, we introduce four widespread kernel-level anti-cheat solutions. We lay out the inner workings of these types of software, assess them according to our previously established definitions, and discuss ethical considerations and the possible privacy infringements introduced by such programs. Our analysis shows two of the four anti-cheat solutions exhibiting rootkit-like behaviour, threatening the privacy and the integrity of the system. This paper thus provides crucial insights for researchers and developers in the field of gaming security and software engineering, highlighting the need for informed development practices that carefully consider the intersection of effective anti-cheat mechanisms and user privacy.
翻訳日:2024-08-04 20:46:24 公開日:2024-08-01
# IBMの量子コンピュータ上でのポーリ文字列の交換による量子プログラムテスト

Quantum Program Testing Through Commuting Pauli Strings on IBM's Quantum Computers ( http://arxiv.org/abs/2408.00501v1 )

ライセンス: Link先を確認
Asmar Muqeet, Shaukat Ali, Paolo Arcaini, (参考訳) 量子コンピューティングの最も有望な応用は、特に物理学シミュレーション、量子化学、ファイナンスといった分野において、探索と最適化のタスクを解くことに集中している。 しかし、現在の量子ソフトウェアテスト手法は、工業的文脈に適用した場合、実用的な制限に直面します。 (i)業界に最も関係のある量子プログラムには適用されない。 (ii)プログラムの完全な仕様が必要で、通常はこれらのプログラムでは利用できない。 第三に、IBMのような主要な業界アクターが現在採用しているエラー軽減手法と互換性がない。 これらの課題に対処するために、新しい量子ソフトウェアテスティングアプローチであるQOPSを提案する。 QOPSは、異なる量子プログラムとの互換性を改善するために、パウリ文字列に基づいた新しいテストケースの定義を導入した。 QOPSはまた、IBMのEstimator APIのような産業用APIと直接統合できる新しいテストオラクルを導入し、実際のノイズの多い量子コンピュータでのテストにエラー軽減手法を利用することができる。 パウリ弦の可換性を利用して、完全なプログラム仕様を持つことの要求を緩和し、QOPSは産業環境で複雑な量子プログラムをテストするのに実用的である。 我々は、194,982個の実量子プログラム上でQOPSを実証的に評価し、完全F1スコア、精度、リコールによる最先端技術と比較して、テストアセスメントにおける効果的な性能を実証した。 さらに,IBMの3つの実量子コンピュータの性能を評価することにより,QOPSの産業応用性を検証する。

The most promising applications of quantum computing are centered around solving search and optimization tasks, particularly in fields such as physics simulations, quantum chemistry, and finance. However, the current quantum software testing methods face practical limitations when applied in industrial contexts: (i) they do not apply to quantum programs most relevant to the industry, (ii) they require a full program specification, which is usually not available for these programs, and (iii) they are incompatible with error mitigation methods currently adopted by main industry actors like IBM. To address these challenges, we present QOPS, a novel quantum software testing approach. QOPS introduces a new definition of test cases based on Pauli strings to improve compatibility with different quantum programs. QOPS also introduces a new test oracle that can be directly integrated with industrial APIs such as IBM's Estimator API and can utilize error mitigation methods for testing on real noisy quantum computers. We also leverage the commuting property of Pauli strings to relax the requirement of having complete program specifications, making QOPS practical for testing complex quantum programs in industrial settings. We empirically evaluate QOPS on 194,982 real quantum programs, demonstrating effective performance in test assessment compared to the state-of-the-art with a perfect F1-score, precision, and recall. Furthermore, we validate the industrial applicability of QOPS by assessing its performance on IBM's three real quantum computers, incorporating both industrial and open-source error mitigation methods.
翻訳日:2024-08-04 20:46:24 公開日:2024-08-01
# 字幕から完全買収まで、翻訳でハックされた

Hacked in Translation -- from Subtitles to Complete Takeover ( http://arxiv.org/abs/2408.00502v1 )

ライセンス: Link先を確認
Omri Herscovici, Omer Gull, (参考訳) Check Pointの研究者たちは、世界中の数百万のユーザーを脅かす新たな攻撃ベクトルを明らかにした。 悪意のあるサブタイトルファイルを作成し、被害者のメディアプレーヤーによってダウンロードされることにより、攻撃者はVLC、Kodi(XBMC)、Popcorn-Time、strem.ioなど、多くの人気のあるストリーミングプラットフォームにある脆弱性を通じて、あらゆる種類のデバイスを完全にコントロールすることができる。 現在、脆弱性のあるソフトウェアを運用しているビデオプレーヤーやストリーマーは約2億と見積もっています。 本研究は,ユーザのメディアプレーヤがオンラインレポジトリから映画の字幕を自動的に読み込むと,サイバー攻撃が完全に見落とされてしまう新たな攻撃ベクトルを明らかにする。 これらのサブタイトルリポジトリは、実際には、ユーザまたはメディアプレーヤによって信頼できるソースとして扱われる。我々の研究は、それらのリポジトリを操作でき、攻撃者の悪意のあるサブタイトルに高いスコアを与えることができることも明らかにし、その結果、特定のサブタイトルがユーザに提供される。 この方法は、ユーザ側で意図的なアクションをほとんど、あるいはまったく必要とせず、より危険なものにします。 セキュリティ会社やユーザーが広く認識している従来のアタックベクターとは異なり、映画のサブタイトルは良質なテキストファイル以上のものと見なされる。 つまり、ユーザやアンチウイルスソフトウェア、その他のセキュリティソリューションは、本当の性質を評価しようとせず、数百万のユーザがこのリスクにさらされている。

Check Point researchers revealed a new attack vector which threatens millions of users worldwide - attack by subtitles. By crafting malicious subtitle files, which are then downloaded by a victim's media player, attackers can take complete control over any type of device via vulnerabilities found in many popular streaming platforms, including VLC, Kodi (XBMC), Popcorn-Time and strem.io. We estimate there are approximately 200 million video players and streamers that currently run the vulnerable software, making this one of the most widespread, easily accessed and zero-resistance vulnerability reported in recent years. Our research reveals a new possible attack vector, using a completely overlooked technique in which the cyberattack is delivered when movie subtitles are automatically loaded from online repositories by the user's media player. These subtitles repositories are, in practice, treated as a trusted source by the user or media player; our research also reveals that those repositories can be manipulated and be made to award the attacker's malicious subtitles a high score, which results in those specific subtitles being served to the user. This method requires little or no deliberate action on the part of the user, making it all the more dangerous. Unlike traditional attack vectors, which security firms and users are widely aware of, movie subtitles are perceived as nothing more than benign text files. This means users, Anti-Virus software, and other security solutions vet them without trying to assess their real nature, leaving millions of users exposed to this risk.
翻訳日:2024-08-04 20:46:24 公開日:2024-08-01
# ブロック操作: 構成一般化を改善するためにモジュールルーティングを使用する

Block-Operations: Using Modular Routing to Improve Compositional Generalization ( http://arxiv.org/abs/2408.00508v1 )

ライセンス: Link先を確認
Florian Dietz, Dietrich Klakow, (参考訳) ニューラルネットワークにおける構成一般化の低さは、効率的なルーティングの学習の難しさによって引き起こされるという仮説を考察する。 この問題を解決するために,ネットワーク内のすべてのアクティベーションテンソルを一様サイズのブロックに分割し,帰納的バイアスを用いてモジュラールーティングとこれらのブロックの修正を促進するブロック操作の概念を提案する。 この概念に基づいて、フィードフォワードニューラルネットワーク(FNN)を強化する新しいアーキテクチャコンポーネントであるMultiplexerを紹介する。 我々は,Multiplexersが強い構成一般化を示すことを実験的に確認した。 FNNもトランスフォーマーもヒューリスティックな近似しか学べなかったが、合成タスクと現実タスクの両方において、我々のモデルはタスクの背後にあるプロセスを学ぶことができた。 ブロック操作の原則を他の既存アーキテクチャの改善に活用するための今後の取り組みとして提案する。

We explore the hypothesis that poor compositional generalization in neural networks is caused by difficulties with learning effective routing. To solve this problem, we propose the concept of block-operations, which is based on splitting all activation tensors in the network into uniformly sized blocks and using an inductive bias to encourage modular routing and modification of these blocks. Based on this concept we introduce the Multiplexer, a new architectural component that enhances the Feed Forward Neural Network (FNN). We experimentally confirm that Multiplexers exhibit strong compositional generalization. On both a synthetic and a realistic task our model was able to learn the underlying process behind the task, whereas both FNNs and Transformers were only able to learn heuristic approximations. We propose as future work to use the principles of block-operations to improve other existing architectures.
翻訳日:2024-08-04 20:36:37 公開日:2024-08-01
# VecAug:Cohort Augmentation を併用したカモフラージュの発見

VecAug: Unveiling Camouflaged Frauds with Cohort Augmentation for Enhanced Detection ( http://arxiv.org/abs/2408.00513v1 )

ライセンス: Link先を確認
Fei Xiao, Shaofeng Cai, Gang Chen, H. V. Jagadish, Beng Chin Ooi, Meihui Zhang, (参考訳) 不正検出は、絶え間なく進化する不正パターンとラベル付きデータの不足を特徴とする、困難なタスクを提示する。 既存の手法は主にグラフベースのアプローチやシーケンスベースのアプローチに依存している。 グラフベースのアプローチは、共有エンティティを通じてユーザを接続して構造情報をキャプチャするが、これらの接続をディスラプトしたり操作したりできる詐欺師には弱いままである。 対照的に、シーケンスベースのアプローチは、ユーザの行動パターンを分析し、改ざんに対する堅牢性を提供するが、類似したユーザ間のインタラクションを見落としている。 維持医療におけるコホート分析に触発された本研究では,個人化されたコホート情報を用いた対象ユーザの表現学習を強化することで,これらの課題に対処する新しいコホート強化学習フレームワークであるVecAugを紹介する。 そこで本研究では,まず,目標ユーザ毎のタスク固有のコホートを検索する,自動コホート識別のためのベクトルバーンイン手法を提案する。 そして,コホート情報を完全に活用するために,対象ユーザ表現を増強するための注意深いコホート集約手法を導入する。 また,このようなコホート強化の堅牢性を向上させるために,負のコホート隣人を遠ざけ,集約したコホート情報を校正するラベル付きコホート隣人分離機構を提案する。 このコホート情報を対象のユーザ表現と統合することにより、VecAugは拡張対象モデルのモデリング能力と一般化能力を高める。 私たちのフレームワークは柔軟で、既存の不正検出モデルとシームレスに統合できます。 我々は,Eコマースプラットフォーム上でフレームワークをデプロイし,不正検出データセットを3つ評価し,その結果,VecAugはAUCで最大2.48倍,R@P$_{0.9}$で22.5倍の精度でベースモデルの検出性能を向上し,最先端の手法を著しく上回ることを示した。

Fraud detection presents a challenging task characterized by ever-evolving fraud patterns and scarce labeled data. Existing methods predominantly rely on graph-based or sequence-based approaches. While graph-based approaches connect users through shared entities to capture structural information, they remain vulnerable to fraudsters who can disrupt or manipulate these connections. In contrast, sequence-based approaches analyze users' behavioral patterns, offering robustness against tampering but overlooking the interactions between similar users. Inspired by cohort analysis in retention and healthcare, this paper introduces VecAug, a novel cohort-augmented learning framework that addresses these challenges by enhancing the representation learning of target users with personalized cohort information. To this end, we first propose a vector burn-in technique for automatic cohort identification, which retrieves a task-specific cohort for each target user. Then, to fully exploit the cohort information, we introduce an attentive cohort aggregation technique for augmenting target user representations. To improve the robustness of such cohort augmentation, we also propose a novel label-aware cohort neighbor separation mechanism to distance negative cohort neighbors and calibrate the aggregated cohort information. By integrating this cohort information with target user representations, VecAug enhances the modeling capacity and generalization capabilities of the model to be augmented. Our framework is flexible and can be seamlessly integrated with existing fraud detection models. We deploy our framework on e-commerce platforms and evaluate it on three fraud detection datasets, and results show that VecAug improves the detection performance of base models by up to 2.48\% in AUC and 22.5\% in R@P$_{0.9}$, outperforming state-of-the-art methods significantly.
翻訳日:2024-08-04 20:36:37 公開日:2024-08-01
# ニューラルネットワークを用いた低出力振動による産業4.0の予測保守

Low-Power Vibration-Based Predictive Maintenance for Industry 4.0 using Neural Networks: A Survey ( http://arxiv.org/abs/2408.00516v1 )

ライセンス: Link先を確認
Alexandru Vasilache, Sven Nitzsche, Daniel Floegel, Tobias Schuermann, Stefan von Dosky, Thomas Bierweiler, Marvin Mußler, Florian Kälber, Soeren Hohmann, Juergen Becker, (参考訳) 産業用スマートセンサー4.0の進歩は、低出力の予測保守と状態監視に十分な機会を提供する。 しかし、この分野の伝統的なアプローチはクラウドでの処理に依存しており、エネルギーとストレージのコストが高い。 本稿では,予測保守のための振動センサデータの低消費電力オンデバイス計算のためのニューラルネットワークの可能性について検討する。 我々は、データセット、データ前処理、ネットワークアーキテクチャ、ハードウェア実装を分析し、振動に基づく予測保守のためのスパイキングニューラルネットワーク(SNN)と人工ニューラルネットワーク(ANN)に関する文献をレビューする。 この結果から,予測保守作業におけるニューラルネットワーク評価に十分な標準ベンチマークデータセットは存在しないことが示唆された。 さらに、周波数領域変換は、一般に前処理に使用される。 SNNは主に浅いフィードフォワードアーキテクチャを使用し、ANNはより広い範囲のモデルとより深いネットワークを探索する。 最後に、低消費電力の予測保守アプリケーションのためのニューラルネットワークのハードウェア実装に関する将来の研究の必要性と、標準化されたベンチマークデータセットの開発を強調した。

The advancements in smart sensors for Industry 4.0 offer ample opportunities for low-powered predictive maintenance and condition monitoring. However, traditional approaches in this field rely on processing in the cloud, which incurs high costs in energy and storage. This paper investigates the potential of neural networks for low-power on-device computation of vibration sensor data for predictive maintenance. We review the literature on Spiking Neural Networks (SNNs) and Artificial Neuronal Networks (ANNs) for vibration-based predictive maintenance by analyzing datasets, data preprocessing, network architectures, and hardware implementations. Our findings suggest that no satisfactory standard benchmark dataset exists for evaluating neural networks in predictive maintenance tasks. Furthermore frequency domain transformations are commonly employed for preprocessing. SNNs mainly use shallow feed forward architectures, whereas ANNs explore a wider range of models and deeper networks. Finally, we highlight the need for future research on hardware implementations of neural networks for low-power predictive maintenance applications and the development of a standardized benchmark dataset.
翻訳日:2024-08-04 20:36:37 公開日:2024-08-01
# 曲面時空における量子場の量子情報の伝送

Transmission of quantum information through quantum fields in curved spacetimes ( http://arxiv.org/abs/2408.00518v1 )

ライセンス: Link先を確認
Michael Kasprzak, Erickson Tjoa, (参考訳) 我々は、Unruh-DeWitt検出器形式を用いて、任意の曲線時空における量子容量の理論的最大値を達成することができる、相対論的量子場を介する2つの局所量子ビット系間の相対論的量子通信チャネルを構築する。 代数量子場理論の手法を用いて、場の相関関数と波動方程式の因果プロパゲータの観点から純粋に量子通信チャネルの量子容量を表現する。 したがって、結果として生じる量子チャネル、すなわち量子容量は、明らかに微分同相不変であり、時空の因果構造を尊重し、背景幾何学、位相、および場のヒルベルト空間(準自由)表現の詳細な部分から独立である。

We construct a relativistic quantum communication channel between two localized qubit systems, mediated by a relativistic quantum field, that can achieve the theoretical maximum for the quantum capacity in arbitrary curved spacetimes using the Unruh-DeWitt detector formalism. Using techniques from algebraic quantum field theory, we express the quantum capacity of the quantum communication channel purely in terms of the correlation functions of the field and the causal propagator for the wave equation. Consequently, the resulting quantum channel, and hence the quantum capacity, are by construction manifestly diffeomorphism-invariant, respect the causal structure of spacetime, and are independent of the details of the background geometry, topology, and the choice of Hilbert space (quasifree) representations of the field.
翻訳日:2024-08-04 20:36:37 公開日:2024-08-01
# コードエンコーディングとコード理解支援のための新しいアプローチ

A new approach for encoding code and assisting code understanding ( http://arxiv.org/abs/2408.00521v1 )

ライセンス: Link先を確認
Mengdan Fan, Wei Zhang, Haiyan Zhao, Zhi Jin, (参考訳) 一部の企業(例えば、Microsoft ResearchやGoogle DeepMind)は、計画の欠如、ワーキングメモリ、バックトラック、推論スキルの欠如で表される、GPTの自動回帰パラダイムの次のワード予測の制限を発見した。 GPTは,タスクやアウトプットをグローバルに理解することなく,次の単語を生成する局所的かつ欲求的なプロセスに依存しており,コード理解に関する特殊な実証的研究を通じて,上記の制限を確認した。 我々は、画像生成(Dalle2, Sora)とタンパク質構造生成(AlphaFold3)への拡散技術の適用の成功にインスパイアされた、次のワード予測パラダイムを超えて、コード理解のための新しいパラダイムを提案します。これは、自己回帰的制約のない画像生成(Dalle2, Sora)とタンパク質構造生成(AlphaFold3)への拡散技術の適用に触発され、自然言語を模倣した形式でコードをエンコードする代わりに、画像とタンパク質構造の両方を模倣したグローバル情報のメモリを備えた異質な画像パラダイムとしてコードをエンコードします。そして、SoraのCLIPのテキスト-imageエンコードモデルを参照します。 この研究は、自己回帰的な制限を避けるために、新しいパラダイムの下で拡散テクニックを使用したコード生成に関する将来の研究の基盤となる。

Some companies(e.g., Microsoft Research and Google DeepMind) have discovered some of the limitations of GPTs autoregressive paradigm next-word prediction, manifested in the model lack of planning, working memory, backtracking, and reasoning skills. GPTs rely on a local and greedy process of generating the next word, without a global understanding of the task or the output.We have confirmed the above limitations through specialized empirical studies of code comprehension. Although GPT4 is good at producing fluent and coherent text, it cannot handle complex logic and generate new code that haven not been seen, and it relies too much on the formatting of the prompt to generate the correct code.We propose a new paradigm for code understanding that goes beyond the next-word prediction paradigm, inspired by the successful application of diffusion techniques to image generation(Dalle2, Sora) and protein structure generation(AlphaFold3), which have no autoregressive constraints.Instead of encoding the code in a form that mimics natural language, we encode the code as a heterogeneous image paradigm with a memory of global information that mimics both images and protein structures.We then refer to Sora's CLIP upstream text-to-image encoder model to design a text-to-code encoder model that can be applied to various downstream code understanding tasks.The model learns the global understanding of code under the new paradigm heterogeneous image, connects the encoding space of text and code, and encodes the input of text into the vector of code most similar to it.Using self-supervised comparative learning on 456,360 text-code pairs, the model achieved a zero-shot prediction of new data. This work is the basis for future work on code generation using diffusion techniques under a new paradigm to avoid autoregressive limitations.
翻訳日:2024-08-04 20:36:37 公開日:2024-08-01
# LLMエージェントによるテキスト・ツー・イメージのジェイルブレイク

Jailbreaking Text-to-Image Models with LLM-Based Agents ( http://arxiv.org/abs/2408.00523v1 )

ライセンス: Link先を確認
Yingkai Dong, Zheng Li, Xiangtao Meng, Ning Yu, Shanqing Guo, (参考訳) 近年の進歩により,大規模言語モデル(LLM)を用いた自律エージェントによるタスク解決機能が大幅に向上した。 しかし、ほとんどのLLMベースのエージェントは、対話、プログラミング、または特殊なドメインに焦点を当てており、生成的AI安全タスクに対処する際のギャップを残している。 これらのギャップは主に、LLM幻覚による課題と明確なガイドラインの欠如によるものである。 本稿では,ジェネレーティブAIモデルを対象とした効率的なファジングワークフローを統合した,高度なLLMベースのマルチエージェントフレームワークであるAtlasを提案し,特に安全フィルタ付きテキスト・ツー・イメージ(T2I)モデルに対するジェイルブレイク攻撃に焦点を当てた。 Atlasは視覚言語モデル(VLM)を使用して、プロンプトがT2Iモデルの安全フィルタをトリガーするかどうかを評価する。 その後、LLMとVLMの両方と反復的に協調し、フィルタをバイパスする別のプロンプトを生成する。 Atlasはまた、マルチエージェント通信、インコンテキスト学習(ICL)メモリ機構、およびチェーン・オブ・シント(COT)アプローチを活用することで、攻撃シナリオにおけるLLMの推論能力を向上させる。 我々の評価は、マルチモーダル安全フィルタを備えたブラックボックス設定で、Atlasがいくつかの最先端のT2Iモデルをジェイルブレイクすることに成功していることを示している。 さらにAtlasは、クエリ効率と生成された画像の品質の両方において、既存の方法よりも優れています。

Recent advancements have significantly improved automated task-solving capabilities using autonomous agents powered by large language models (LLMs). However, most LLM-based agents focus on dialogue, programming, or specialized domains, leaving gaps in addressing generative AI safety tasks. These gaps are primarily due to the challenges posed by LLM hallucinations and the lack of clear guidelines. In this paper, we propose Atlas, an advanced LLM-based multi-agent framework that integrates an efficient fuzzing workflow to target generative AI models, specifically focusing on jailbreak attacks against text-to-image (T2I) models with safety filters. Atlas utilizes a vision-language model (VLM) to assess whether a prompt triggers the T2I model's safety filter. It then iteratively collaborates with both LLM and VLM to generate an alternative prompt that bypasses the filter. Atlas also enhances the reasoning abilities of LLMs in attack scenarios by leveraging multi-agent communication, in-context learning (ICL) memory mechanisms, and the chain-of-thought (COT) approach. Our evaluation demonstrates that Atlas successfully jailbreaks several state-of-the-art T2I models in a black-box setting, which are equipped with multi-modal safety filters. In addition, Atlas outperforms existing methods in both query efficiency and the quality of the generated images.
翻訳日:2024-08-04 20:36:37 公開日:2024-08-01
# 情報融合によるヒト脳の階層的感情領域の同定

Identifying the Hierarchical Emotional Areas in the Human Brain Through Information Fusion ( http://arxiv.org/abs/2408.00525v1 )

ライセンス: Link先を確認
Zhongyu Huang, Changde Du, Chaozhuo Li, Kaicheng Fu, Huiguang He, (参考訳) 感情の脳の基盤は一貫して注目を集めており、この最先端のトピックを探求する多くの研究が注目されている。 しかし、これらの研究で用いられる手法は、通常は2つの脳領域間の相互関係をモデル化するだけであり、同時に複数の脳領域間の相互作用と情報融合を無視する。 従来の手法の限界を克服するため,脳領域間の相互作用と情報融合を最大化する方法について,詳細な理論的解析を行った。 本分析の結果に基づいて,マルチソース情報融合とグラフ機械学習手法を用いて,人間の脳の階層的感情領域を特定することを提案する。 包括的実験により、低レベルから高レベルまで同定された階層的な感情領域は、主に感情知覚の基本的なプロセス、基本的な心理的操作の構築、これらの操作の調整と統合を促進することが明らかとなった。 全体として、我々の研究は、心理学的構成主義者の仮説に基づいて、特定の感情の基礎となる脳のメカニズムについて独自の洞察を与えている。

The brain basis of emotion has consistently received widespread attention, attracting a large number of studies to explore this cutting-edge topic. However, the methods employed in these studies typically only model the pairwise relationship between two brain regions, while neglecting the interactions and information fusion among multiple brain regions$\unicode{x2014}$one of the key ideas of the psychological constructionist hypothesis. To overcome the limitations of traditional methods, this study provides an in-depth theoretical analysis of how to maximize interactions and information fusion among brain regions. Building on the results of this analysis, we propose to identify the hierarchical emotional areas in the human brain through multi-source information fusion and graph machine learning methods. Comprehensive experiments reveal that the identified hierarchical emotional areas, from lower to higher levels, primarily facilitate the fundamental process of emotion perception, the construction of basic psychological operations, and the coordination and integration of these operations. Overall, our findings provide unique insights into the brain mechanisms underlying specific emotions based on the psychological constructionist hypothesis.
翻訳日:2024-08-04 20:36:37 公開日:2024-08-01
# 効率的な探索的景観解析のためのヒルベルト曲線

Hilbert curves for efficient exploratory landscape analysis neighbourhood sampling ( http://arxiv.org/abs/2408.00526v1 )

ライセンス: Link先を確認
Johannes J. Pienaar, Anna S. Bosman, Katherine M. Malan, (参考訳) ランドスケープ分析は,ランドスケープ特性の客観的(あるいは適合性)に基づいて最適化問題を特徴づけることを目的としている。 問題探索空間は典型的にサンプリングされ,サンプルに基づいて様々な景観特徴を推定する。 特に顕著な特徴の1つは、サンプルが連続するサンプルポイント間の局所的な関係が保存されるように、近隣のソリューションのシーケンスである必要がある情報内容である。 このような空間的相関のあるサンプルを生成して検索空間のカバレッジを向上することは困難である。 したがって, 探索空間が良好な未順序標本を得るのが一般的であり, 次いで, 近傍近傍などの順序付けアルゴリズムを適用して, 連続点間の距離を最小化する。 しかし、最寄りのアルゴリズムは高次元では計算が禁じられるため、より効率的な代替手段が必要である。 本研究では,高品質な秩序試料を効率よく得られる方法として,ヒルベルト空間充填曲線を提案する。 ヒルベルト曲線はフラクタル曲線の特別な場合であり、空間的に相関したサンプルを提供しながら、有界探索空間の均一なカバレッジを保証する。 本研究では,Hilbert曲線をサンプルとして有効性について検討し,製造後順序付けによるラテンハイパーキューブサンプリングと比較して,計算コストのごく一部で有意な特徴を抽出できることを発見した。 さらに, ヒルベルト曲線を順序付け戦略として用いて, 抽出した特徴の塩分濃度を犠牲にすることなく, 近傍の順序付けよりもはるかに高速に試料を注文できることを見出した。

Landscape analysis aims to characterise optimisation problems based on their objective (or fitness) function landscape properties. The problem search space is typically sampled, and various landscape features are estimated based on the samples. One particularly salient set of features is information content, which requires the samples to be sequences of neighbouring solutions, such that the local relationships between consecutive sample points are preserved. Generating such spatially correlated samples that also provide good search space coverage is challenging. It is therefore common to first obtain an unordered sample with good search space coverage, and then apply an ordering algorithm such as the nearest neighbour to minimise the distance between consecutive points in the sample. However, the nearest neighbour algorithm becomes computationally prohibitive in higher dimensions, thus there is a need for more efficient alternatives. In this study, Hilbert space-filling curves are proposed as a method to efficiently obtain high-quality ordered samples. Hilbert curves are a special case of fractal curves, and guarantee uniform coverage of a bounded search space while providing a spatially correlated sample. We study the effectiveness of Hilbert curves as samplers, and discover that they are capable of extracting salient features at a fraction of the computational cost compared to Latin hypercube sampling with post-factum ordering. Further, we investigate the use of Hilbert curves as an ordering strategy, and find that they order the sample significantly faster than the nearest neighbour ordering, without sacrificing the saliency of the extracted features.
翻訳日:2024-08-04 20:36:37 公開日:2024-08-01
# 動的局所反発を用いた3次元剛性マップの脳年齢予測のためのコントラスト学習

Contrastive Learning with Dynamic Localized Repulsion for Brain Age Prediction on 3D Stiffness Maps ( http://arxiv.org/abs/2408.00527v1 )

ライセンス: Link先を確認
Jakob Träuble, Lucy Hiscox, Curtis Johnson, Carola-Bibiane Schönlieb, Gabriele Kaminski Schierle, Angelica Aviles-Rivero, (参考訳) 神経画像学の分野では、脳の老化の複雑さを解明し、神経変性状態の早期の指標を指摘するために、正確な脳年齢予測が重要である。 近年の自己教師型学習の進歩、特に対照的な学習は、複雑なデータセットを扱う際により堅牢性を示す。 しかしながら、現在のアプローチは、医療画像のシナリオでよく見られる、一様でない分散データにまたがる一般化において不足することが多い。 このギャップを埋めるために、我々は、サンプルの局所的な近傍に焦点をあてて、トレーニングプロセス中に動的に適応する、新しい対照的な損失を導入する。 また, 従来の構造的特徴に留まらず, 脳の硬さを取り入れ, 年齢による変化に敏感であることから, 未発見の機械的特性を取り入れた。 本研究は,脳の年齢を予測するために,様々な臨床研究から収集された剛性マップを用いて,自己教師型学習を脳の機械的特性に適用した最初の例である。 我々のアプローチは、ダイナミックな局所的損失を特徴とし、既存の最先端手法を一貫して上回り、優れたパフォーマンスを示し、脳老化研究における新たな方向性を示す。

In the field of neuroimaging, accurate brain age prediction is pivotal for uncovering the complexities of brain aging and pinpointing early indicators of neurodegenerative conditions. Recent advancements in self-supervised learning, particularly in contrastive learning, have demonstrated greater robustness when dealing with complex datasets. However, current approaches often fall short in generalizing across non-uniformly distributed data, prevalent in medical imaging scenarios. To bridge this gap, we introduce a novel contrastive loss that adapts dynamically during the training process, focusing on the localized neighborhoods of samples. Moreover, we expand beyond traditional structural features by incorporating brain stiffness, a mechanical property previously underexplored yet promising due to its sensitivity to age-related changes. This work presents the first application of self-supervised learning to brain mechanical properties, using compiled stiffness maps from various clinical studies to predict brain age. Our approach, featuring dynamic localized loss, consistently outperforms existing state-of-the-art methods, demonstrating superior performance and laying the way for new directions in brain aging research.
翻訳日:2024-08-04 20:36:37 公開日:2024-08-01
# 有限次元量子システムにおける離散時間量子ウォークのロバスト実装

Robust Implementation of Discrete-time Quantum Walks in Any Finite-dimensional Quantum System ( http://arxiv.org/abs/2408.00530v1 )

ライセンス: Link先を確認
Biswayan Nandi, Sandipan Singha, Ankan Datta, Amit Saha, and Amlan Chakrabarti, (参考訳) 量子ウォークは特定の量子アルゴリズムを加速し、量子処理の普遍的なパラダイムとして機能することを示した。 離散時間量子ウォーク(DTQW)モデルは、その離散性から、回路実装において最も適した選択肢の1つである。 しかしながら、現在の実装のほとんどは多層量子回路が特徴であり、計算コストが増加し、現在の量子コンピュータ上での信頼性の高い実行時間ステップの数が顕著に減少する。 NISQ時代には量子コンピュータは十分にスケーラブルではないので、我々はまた、アンシラフリーフロンティアゾーンに閉じこめなければならない。 そこで本研究では, 量子ビットシステムにおける提案手法を用いて, ゲート数および回路深さに関する回路コストを, 最先端のインクリメント・デクリメント・アプローチと比較して半分削減することに成功している。 さらに,提案手法の工学的卓越性に対して,アキン効率の有限次元量子系にDTQWを実装した。 アンシラを必要とせずに効率的に量子ウォークを実装できるようにするため,マルチキュービットゲートを分解するための中間Qudit手法を取り入れた。 実験の結果は、ほんの数ステップの領域を超えて重要であり、量子コンピュータへの信頼性のある実装と利用の基礎を築いた。

Research has shown that quantum walks can accelerate certain quantum algorithms and act as a universal paradigm for quantum processing. The discrete-time quantum walk (DTQW) model, owing to its discrete nature, stands out as one of the most suitable choices for circuit implementation. Nevertheless, most current implementations are characterized by extensive, multi-layered quantum circuits, leading to higher computational expenses and a notable decrease in the number of confidently executable time steps on current quantum computers. Since quantum computers are not scalable enough in this NISQ era, we also must confine ourselves to the ancilla-free frontier zone. Therefore, in this paper, we have successfully cut down the circuit cost concerning gate count and circuit depth by half through our proposed methodology in qubit systems as compared to the state-of-the-art increment-decrement approach. Furthermore, for the engineering excellence of our proposed approach, we implement DTQW in any finite-dimensional quantum system with akin efficiency. To ensure an efficient implementation of quantum walks without requiring ancilla, we have incorporated an intermediate qudit technique for decomposing multi-qubit gates. Experimental outcomes hold significance far beyond the realm of just a few time steps, laying the groundwork for dependable implementation and utilization on quantum computers.
翻訳日:2024-08-04 20:36:37 公開日:2024-08-01
# ReSi: 表現類似度尺度の総合ベンチマーク

ReSi: A Comprehensive Benchmark for Representational Similarity Measures ( http://arxiv.org/abs/2408.00531v1 )

ライセンス: Link先を確認
Max Klabunde, Tassilo Wald, Tobias Schumacher, Klaus Maier-Hein, Markus Strohmaier, Florian Lemmerich, (参考訳) ニューラルネットワークの異なる表現の類似性を測定することは、機械学習コミュニティにとって基本的な課題であり、オープンな研究課題である。 本稿では, 類似度を適切に定義した根拠に基づく表現類似度評価のための, 初めての総合的ベンチマークを提案する。 表現類似性(ReSi)ベンチマークは、 一 類似度対策の精巧な6つの試験 (ii)類似度対策23 (三)11のニューラルネットワークアーキテクチャ、及び (iv)グラフ、言語、ビジョンドメインにまたがる6つのデータセット。 このベンチマークは、新しい探索とニューラルアーキテクチャの応用を可能にする表現的類似性に関するいくつかの重要な研究の道を開く。 本稿では,ReSiベンチマークの有用性を,ニューラルネットワークアーキテクチャ,実世界のデータセット,類似度測定実験により実証する。 ベンチマークのすべてのコンポーネントは公開されており、研究結果の体系的な再現と生産を容易にする。 ベンチマークは拡張可能で、将来の研究がさらに強化される可能性がある。 ReSiベンチマークは,ニューラルアーキテクチャの表現を体系的に評価し,新しい表現方法を検討することを目的とした,将来の研究を触媒する健全なプラットフォームとして機能すると考えている。

Measuring the similarity of different representations of neural architectures is a fundamental task and an open research challenge for the machine learning community. This paper presents the first comprehensive benchmark for evaluating representational similarity measures based on well-defined groundings of similarity. The representational similarity (ReSi) benchmark consists of (i) six carefully designed tests for similarity measures, (ii) 23 similarity measures, (iii) eleven neural network architectures, and (iv) six datasets, spanning over the graph, language, and vision domains. The benchmark opens up several important avenues of research on representational similarity that enable novel explorations and applications of neural architectures. We demonstrate the utility of the ReSi benchmark by conducting experiments on various neural network architectures, real world datasets and similarity measures. All components of the benchmark are publicly available and thereby facilitate systematic reproduction and production of research results. The benchmark is extensible, future research can build on and further expand it. We believe that the ReSi benchmark can serve as a sound platform catalyzing future research that aims to systematically evaluate existing and explore novel ways of comparing representations of neural architectures.
翻訳日:2024-08-04 20:36:37 公開日:2024-08-01
# The Monetisation of Toxicity: Analysing YouTube Content Creators and Controversy-Driven Engagement

The Monetisation of Toxicity: Analysing YouTube Content Creators and Controversy-Driven Engagement ( http://arxiv.org/abs/2408.00534v1 )

ライセンス: Link先を確認
Thales Bertaglia, Catalina Goanta, Adriana Iamnitchi, (参考訳) YouTubeは、デジタル文化において重要な役割を果たすソーシャルメディアプラットフォームであり、コンテンツクリエーターの中核をなす。 これらのクリエーターは、しばしば関与を促進するために議論の的となっている行動に関わり、毒性を育む。 本稿では, 論争, 毒性, 収益化の関連性に着目し, 論争を巻き起こす内容の定量的分析を行う。 16,349本の動画と1億5500万以上のコメントを含む、Redditの議論から抽出された20の議論のあるYouTubeチャンネルからなるキュレートされたデータセットを紹介します。 ビデオ記述からアフィリエイトマーケティングや直接販売など,さまざまなモデルへの収益化の手がかりを,URLやキーワードのリストを用いて特定し,分類する。 さらに、これらのビデオにおけるコメントの毒性を測定するために、機械学習モデルをトレーニングします。 以上の結果から,有毒なコメントは高いエンゲージメントと相関するが,収益化に悪影響を及ぼすことが明らかとなった。 また, 有毒度が高いにもかかわらず, 収益化戦略の著しい変化も観察された。 本稿では、有毒度を測定する機械学習モデルとして、キュレートされたデータセット、分類された収益化のためのURLとキーワードのリストを紹介し、YouTube上での論争、エンゲージメント、および収益化の複雑な関係を理解するための重要なステップである。 収益化の手がかりの検出と分類に使用されるリストはhttps://github.com/thalesbertaglia/toxmon.comで公開されている。

YouTube is a major social media platform that plays a significant role in digital culture, with content creators at its core. These creators often engage in controversial behaviour to drive engagement, which can foster toxicity. This paper presents a quantitative analysis of controversial content on YouTube, focusing on the relationship between controversy, toxicity, and monetisation. We introduce a curated dataset comprising 20 controversial YouTube channels extracted from Reddit discussions, including 16,349 videos and more than 105 million comments. We identify and categorise monetisation cues from video descriptions into various models, including affiliate marketing and direct selling, using lists of URLs and keywords. Additionally, we train a machine learning model to measure the toxicity of comments in these videos. Our findings reveal that while toxic comments correlate with higher engagement, they negatively impact monetisation, indicating that controversy-driven interaction does not necessarily lead to financial gain. We also observed significant variation in monetisation strategies, with some creators showing extensive monetisation despite high toxicity levels. Our study introduces a curated dataset, lists of URLs and keywords to categorise monetisation, a machine learning model to measure toxicity, and is a significant step towards understanding the complex relationship between controversy, engagement, and monetisation on YouTube. The lists used for detecting and categorising monetisation cues are available on https://github.com/thalesbertaglia/toxmon.
翻訳日:2024-08-04 20:36:37 公開日:2024-08-01
# 高精細データセットの高精細・高精細・高精細映像符号化・復号化

High-Quality, ROS Compatible Video Encoding and Decoding for High-Definition Datasets ( http://arxiv.org/abs/2408.00538v1 )

ライセンス: Link先を確認
Jian Li, Bowen Xu, Sören Schwertfeger, (参考訳) ロボットデータセットは科学的ベンチマークやアルゴリズムの開発において重要であり、例えば、同時局所化とマッピング(SLAM)がある。 現代のロボットデータセットは、高解像度と高フレームレートのビデオデータを備えている。 データセットの保存と共有は、特に複数のカメラがデータセットに使用される場合、非常にコストがかかります。 したがって、このビデオデータを圧縮形式で保存することが不可欠である。 本稿では,ロボット・データセットにおける最新のビデオエンコーダの利用について検討する。 ROS 1 と ROS 2 フレームワーク内で mp4 ビデオを再生し、同期再生をシミュレーション時間でサポートするソフトウェアを提供する。 さらに、異なるエンコーダとそれらの設定を評価し、その結果のサイズ、品質、エンコード時間の観点から最適な構成を求める。 この作業を通じて、適切なストレージ制約下で、高品質なビデオデータセットを保存および共有することが可能であることを示す。

Robotic datasets are important for scientific benchmarking and developing algorithms, for example for Simultaneous Localization and Mapping (SLAM). Modern robotic datasets feature video data of high resolution and high framerates. Storing and sharing those datasets becomes thus very costly, especially if more than one camera is used for the datasets. It is thus essential to store this video data in a compressed format. This paper investigates the use of modern video encoders for robotic datasets. We provide a software that can replay mp4 videos within ROS 1 and ROS 2 frameworks, supporting the synchronized playback in simulated time. Furthermore, the paper evaluates different encoders and their settings to find optimal configurations in terms of resulting size, quality and encoding time. Through this work we show that it is possible to store and share even highest quality video datasets within reasonable storage constraints.
翻訳日:2024-08-04 20:36:37 公開日:2024-08-01
# 間欠的なセミワークマスク - LLMのための新しいマスクパラダイム

Intermittent Semi-working Mask: A New Masking Paradigm for LLMs ( http://arxiv.org/abs/2408.00539v1 )

ライセンス: Link先を確認
Mingcong Lu, Jiangcai Zhu, Wang Hao, Zheng Li, Shusheng Zhang, Kailai Shao, Chao Chen, Nan Li, Feng Wang, Xin Lu, (参考訳) マルチターン対話は人間と大規模言語モデル(LLM)の間の重要な対話手法であり、会話が複数ラウンドにわたって延び、LLMの高世代品質と低レイテンシを維持することが課題である。 メインストリーム LLM は、因果 LLM と接頭辞 LLM の2つのカテゴリに分類することができる。 いくつかの研究は、プレフィックスLLMは、プレフィックスシーケンスに対する双方向の注意のおかげで、多ターン対話やコンテキスト内学習のような歴史的文脈に大きく依存するシナリオにおいて、因果関係よりも優れていることを示した。 しかし、プレフィックスLLMは、マルチターン対話データセットに固有の非効率なトレーニング問題を持っている。 さらに、プレフィックスLLMのアテンションメカニズムにより、対話ラウンド間でキーバリューキャッシュ(KVキャッシュ)を再利用できず、生成遅延を低減できる。 本稿では,この問題を解決するため,ISM(Intermittent Semi-working Mask)と呼ばれる新しいマスキング手法を提案する。 具体的には,対話履歴における問合せと回答に対して,双方向と一方向を交互に注目する。 このようにして、ISMは、プレフィックスLLMの高品質な維持と、因果LLMの低生成遅延を同時に維持することができる。 大規模な実験は、我々のISMが大きなパフォーマンスを達成していることを示している。

Multi-turn dialogues are a key interaction method between humans and Large Language Models (LLMs), as conversations extend over multiple rounds, keeping LLMs' high generation quality and low latency is a challenge. Mainstream LLMs can be grouped into two categories based on masking strategy: causal LLM and prefix LLM. Several works have demonstrated that prefix LLMs tend to outperform causal ones in scenarios that heavily depend on historical context such as multi-turn dialogues or in-context learning, thanks to their bidirectional attention on prefix sequences. However, prefix LLMs have an inherent inefficient training problem in multi-turn dialogue datasets. In addition, the attention mechanism of prefix LLM makes it unable to reuse Key-Value Cache (KV Cache) across dialogue rounds to reduce generation latency. In this paper, we propose a novel masking scheme called Intermittent Semi-working Mask (ISM) to address these problems. Specifically, we apply alternate bidirectional and unidirectional attention on queries and answers in the dialogue history. In this way, ISM is able to maintain the high quality of prefix LLM and low generation latency of causal LLM, simultaneously. Extensive experiments illustrate that our ISM achieves significant performance.
翻訳日:2024-08-04 20:36:37 公開日:2024-08-01
# モノの人工知能のエネルギーコスト

The Energy Cost of Artificial Intelligence of Things Lifecycle ( http://arxiv.org/abs/2408.00540v1 )

ライセンス: Link先を確認
Shih-Kai Chou, Jernej Hribar, Mihael Mohorčič, Carolina Fortuna, (参考訳) 既存のIoT(Internet of Things)と組み合わせた人工知能(AI)によって、さまざまな経済分野におけるより合理化された自律的な操作が可能になる。 その結果、AI技術が中心となるAIoT(Artificial Intelligence of Things)のパラダイムは、より複雑なニューラルネットワークアーキテクチャで重要になる可能性のある、追加のエネルギーと炭素コストを示唆している。 いくつかのAIoTコンポーネントのエネルギーとカーボンフットプリント(CF)をよりよく理解するために、非常に最近の研究では、従来のメトリクスを使用している。 しかしながら、これらの指標は推論のエネルギー効率面を捉えるように設計されていない。 本稿では,AIoTシステムのライフサイクルの全体的エネルギーコストを把握するために,AIoTライフサイクルのエネルギーコスト(eCAL)という新たな指標を提案する。 我々は、AIoTライフサイクルに関わる個々のコンポーネントにおけるデータ操作の複雑さを分析して、AIoTシステムのeCALを決定するための新しい方法論を考案し、全体およびビット当たりのエネルギー消費を導出する。 eCALでは、モデルが良くなるほど、それが使われるほど、推論のエネルギー効率が良くなることを示す。 例えば、100ドルの推論を行うeCALは、1000ドルの推論よりも1.43ドル高い。 また,各国におけるエネルギー消費と炭素強度(CI)に基づいて,同等のCO$_{2}$排出量を算出し,AIoTシステムのCFを評価する。 2023年の再生可能データを用いて分析したところ、AIoTシステムをドイツに展開すると、後者は低CIエネルギー源を使用するため、フィンランドよりも4.62ドル高いCO$2$が発生することがわかった。

Artificial intelligence (AI)coupled with existing Internet of Things (IoT) enables more streamlined and autonomous operations across various economic sectors. Consequently, the paradigm of Artificial Intelligence of Things (AIoT) having AI techniques at its core implies additional energy and carbon costs that may become significant with more complex neural architectures. To better understand the energy and Carbon Footprint (CF) of some AIoT components, very recent studies employ conventional metrics. However, these metrics are not designed to capture energy efficiency aspects of inference. In this paper, we propose a new metric, the Energy Cost of AIoT Lifecycle (eCAL) to capture the overall energy cost of inference over the lifecycle of an AIoT system. We devise a new methodology for determining eCAL of an AIoT system by analyzing the complexity of data manipulation in individual components involved in the AIoT lifecycle and derive the overall and per bit energy consumption. With eCAL we show that the better a model is and the more it is used, the more energy efficient an inference is. For an example AIoT configuration, eCAL for making $100$ inferences is $1.43$ times higher than for $1000$ inferences. We also evaluate the CF of the AIoT system by calculating the equivalent CO$_{2}$ emissions based on the energy consumption and the Carbon Intensity (CI) across different countries. Using 2023 renewable data, our analysis reveals that deploying an AIoT system in Germany results in emitting $4.62$ times higher CO$_2$ than in Finland, due to latter using more low-CI energy sources.
翻訳日:2024-08-04 20:36:37 公開日:2024-08-01
# 低コストBlu-ray光ピックアップユニットを用いたNV中心からの単一光子放射の測定

Using low-cost Blu-Ray Optical Pickup Units for Measurement of Single Photon Emission from NV-Centers ( http://arxiv.org/abs/2408.00541v1 )

ライセンス: Link先を確認
Simon Klug, Jonas Homrighausen, Peter Glösekötter, Andreas W. Schell, Markus Gregor, (参考訳) 本研究は, ナノダイヤモンド中の単一窒素空孔中心から放出される単一光子を, 低コストで回収する方法を提案する。 顕微鏡目的物やピエゾ翻訳段階などの共焦点レーザー走査顕微鏡の従来の構成部品を2つの安価なブルーレイ光ピックアップユニットに置き換える。 ハンベリー・ブラウンとツイツは単一の光子放出を識別するために用いられる。 提案手法は安価で単純であり、量子技術のエントリーレベルから単一光子の研究を減らしている。 これにより、学校での学生実験や実証実験が可能になり、量子光の効率的な源は、確立された産業プロセスと互換性のある標準コンポーネントから作成できることを示す。

This work presents a cost-effective method for collecting single photons emitted from single nitrogen-vacancy centers in nanodiamonds. Conventional components of a confocal laser-scanning microscope, such as microscope objectives and the piezo translation stages, are replaced by two affordable Blu-ray optical pickup units. A Hanbury Brown and Twiss setup is used to identify single photon emission. The proposed approach is inexpensive and simple and lowers the entry-level to single photon research for quantum technologies. This enables student lab experiments or demonstration experiments at schools and shows that efficient sources of quantum light can be made from standard components compatible with established industry processes.
翻訳日:2024-08-04 20:26:35 公開日:2024-08-01
# テキスト・画像拡散モデルによるブラジル古典書の挿絵化

Illustrating Classic Brazilian Books using a Text-To-Image Diffusion Model ( http://arxiv.org/abs/2408.00544v1 )

ライセンス: Link先を確認
Felipe Mahlow, André Felipe Zanella, William Alberto Cruz Castañeda, Regilene Aparecida Sarzi-Ribeiro, (参考訳) 近年、ジェネレーティブ・人工知能(GenAI)は、テキスト、聴覚、視覚、画像生成といった多様なモダリティを含む複雑なタスクに対処する上で、大きな変革を遂げている。 このスペクトルの中で、テキスト・トゥ・イメージ(TTI)モデルは、芸術的創造から現実的な顔合成への応用、コンピュータビジョン、画像処理、マルチモーダルタスクの大幅な進歩を示す、多彩で美的な構成を生成するための、恐ろしいアプローチとして現れてきた。 潜在拡散モデル(LDM)の出現は、AI能力の領域におけるパラダイムシフトを表している。 本稿は、文学作品の描写に安定拡散 LDM を用いることの可能性について考察する。 この調査のために7冊のブラジル古典書がケーススタディとして選ばれている。 目的は、この試みの実用性を確認し、読者の体験を増補し、豊かにするイラストを作成する際の安定拡散の可能性を評価することである。 特徴的かつ文脈的に関連する画像を生成する能力や、複雑な文学的描写の本質を忠実に捉えるのに欠点を含む欠点など、有益な側面を概説する。 本研究では,この先駆的な技術の応用において直面する可能性と課題を解明し,文学的文脈におけるAI生成図面の有効性と有効性を総合的に評価することを目的とする。

In recent years, Generative Artificial Intelligence (GenAI) has undergone a profound transformation in addressing intricate tasks involving diverse modalities such as textual, auditory, visual, and pictorial generation. Within this spectrum, text-to-image (TTI) models have emerged as a formidable approach to generating varied and aesthetically appealing compositions, spanning applications from artistic creation to realistic facial synthesis, and demonstrating significant advancements in computer vision, image processing, and multimodal tasks. The advent of Latent Diffusion Models (LDMs) signifies a paradigm shift in the domain of AI capabilities. This article delves into the feasibility of employing the Stable Diffusion LDM to illustrate literary works. For this exploration, seven classic Brazilian books have been selected as case studies. The objective is to ascertain the practicality of this endeavor and to evaluate the potential of Stable Diffusion in producing illustrations that augment and enrich the reader's experience. We will outline the beneficial aspects, such as the capacity to generate distinctive and contextually pertinent images, as well as the drawbacks, including any shortcomings in faithfully capturing the essence of intricate literary depictions. Through this study, we aim to provide a comprehensive assessment of the viability and efficacy of utilizing AI-generated illustrations in literary contexts, elucidating both the prospects and challenges encountered in this pioneering application of technology.
翻訳日:2024-08-04 20:26:35 公開日:2024-08-01
# 最大カーネルエントロピーによる埋め込み分布の学習

Learning to Embed Distributions via Maximum Kernel Entropy ( http://arxiv.org/abs/2408.00549v1 )

ライセンス: Link先を確認
Oleksii Kachaiev, Stefano Recanatesi, (参考訳) 経験的データは、確率分布の集合からのサンプルと見なされることが多い。 カーネルメソッドは、これらの分布を分類する学習の自然なアプローチとして現れてきた。 分散間で多くのカーネルが提案されているが、カーネルメソッドを分散回帰タスクに適用することは、主に適切なカーネルを選択することは簡単ではないため、依然として困難である。 驚いたことに、データ依存のディストリビューションカーネルを学ぶという問題はほとんど注目を集めていない。 本稿では,確率測度埋め込みの空間におけるエントロピー最大化の原理に基づく,データ依存分散カーネルの教師なし学習のための新しい目的を提案する。 本研究の目的は,我々の目的によって誘導される潜伏埋め込み空間の理論的性質を検証し,その幾何学的構造が下流の識別課題の解決に適していることを示すことである。 最後に,学習したカーネルの性能を異なるモードで示す。

Empirical data can often be considered as samples from a set of probability distributions. Kernel methods have emerged as a natural approach for learning to classify these distributions. Although numerous kernels between distributions have been proposed, applying kernel methods to distribution regression tasks remains challenging, primarily because selecting a suitable kernel is not straightforward. Surprisingly, the question of learning a data-dependent distribution kernel has received little attention. In this paper, we propose a novel objective for the unsupervised learning of data-dependent distribution kernel, based on the principle of entropy maximization in the space of probability measure embeddings. We examine the theoretical properties of the latent embedding space induced by our objective, demonstrating that its geometric structure is well-suited for solving downstream discriminative tasks. Finally, we demonstrate the performance of the learned kernel across different modalities.
翻訳日:2024-08-04 20:26:35 公開日:2024-08-01
# 大規模視覚言語モデルにおける多言語幻覚の緩和

Mitigating Multilingual Hallucination in Large Vision-Language Models ( http://arxiv.org/abs/2408.00550v1 )

ライセンス: Link先を確認
Xiaoye Qu, Mingyang Song, Wei Wei, Jianfeng Dong, Yu Cheng, (参考訳) LVLM(Large Vision-Language Models)は、様々なタスクにおいて顕著な能力を示してきたが、幻覚的な問題に悩まされ、入力された画像クエリ対に対して、モデルが妥当で不正確な答えを生成する。 この幻覚現象は、英語以外の言語で画像を検索する際にさらに深刻であるが、LVLMにおける幻覚を緩和するための既存の方法は、英語のシナリオのみを考慮している。 本稿では,LVLMにおけるこの重要な多言語幻覚を緩和するための最初の試みを行う。 徹底的な実験分析により,LVLMの多言語幻覚は多言語能力の欠如やマルチモーダル能力の欠如から生じるシステム的問題であることがわかった。 そこで本研究では,LVLMのための2段階多言語幻覚除去(MHR)フレームワークを提案する。 多言語リソースの複雑な手動アノテーションに頼る代わりに、LVLMの本質的な機能を完全に活用し、各画像クエリー入力に対して複数の応答を生成し、各言語に対する幻覚認識ペアを識別する新しい言語間アライメント手法を提案する。 これらのデータペアは最終的に直接選好最適化に使用され、LVLMが非幻覚応答を好むように促される。 実験結果から,LVLMの幻覚発生が著しく低下することが示唆された。 特に,拡張多言語POPEベンチマークでは,13言語で平均19.0%の精度向上を実現しています。 コードとモデルの重み付けはhttps://github.com/ssmisya/MHRで確認できる。

While Large Vision-Language Models (LVLMs) have exhibited remarkable capabilities across a wide range of tasks, they suffer from hallucination problems, where models generate plausible yet incorrect answers given the input image-query pair. This hallucination phenomenon is even more severe when querying the image in non-English languages, while existing methods for mitigating hallucinations in LVLMs only consider the English scenarios. In this paper, we make the first attempt to mitigate this important multilingual hallucination in LVLMs. With thorough experiment analysis, we found that multilingual hallucination in LVLMs is a systemic problem that could arise from deficiencies in multilingual capabilities or inadequate multimodal abilities. To this end, we propose a two-stage Multilingual Hallucination Removal (MHR) framework for LVLMs, aiming to improve resistance to hallucination for both high-resource and low-resource languages. Instead of relying on the intricate manual annotations of multilingual resources, we fully leverage the inherent capabilities of the LVLM and propose a novel cross-lingual alignment method, which generates multiple responses for each image-query input and then identifies the hallucination-aware pairs for each language. These data pairs are finally used for direct preference optimization to prompt the LVLMs to favor non-hallucinating responses. Experimental results show that our MHR achieves a substantial reduction in hallucination generation for LVLMs. Notably, on our extended multilingual POPE benchmark, our framework delivers an average increase of 19.0% in accuracy across 13 different languages. Our code and model weights are available at https://github.com/ssmisya/MHR
翻訳日:2024-08-04 20:26:35 公開日:2024-08-01
# アクティブ検索機能を有する大規模視覚言語モデルにおける幻覚の緩和

Alleviating Hallucination in Large Vision-Language Models with Active Retrieval Augmentation ( http://arxiv.org/abs/2408.00555v1 )

ライセンス: Link先を確認
Xiaoye Qu, Qiyuan Chen, Wei Wei, Jishuo Sun, Jianfeng Dong, (参考訳) 画像理解における大きな視覚言語モデル(LVLM)の顕著な能力にもかかわらず、これらのモデルはしばしば、幻覚(Heroucination)として知られるプラウシブルかつ事実的に誤りな応答を生成するが、近年は、外的知識資源から情報を取得することでLLMを増強することが、幻覚を緩和するための有望な解決策として証明されている。 さらに、LVLMに移行した場合、モデルの幻覚度がさらに悪化することがあるが、研究ギャップと反直観的現象によって、我々は、3つの重要な次元を組み込むことで幻覚に対処するための新しい枠組みであるアクティブ検索型大規模視覚言語モデル(ARA)を導入する。 一 画像の固有階層構造に基づいて検索対象を判別すること。 (2)最も有効な検索手法をピンポイントし、信頼性の高い検索結果をフィルタリングする。 三 高確実性の期間における不要な検索を回避しつつ、低確実性のエピソードと一致するように検索プロセスをタイミングづける。 幻覚の低減におけるARAモデルの有効性を評価するために,4つのベンチマークで広く使用されているLVLMモデル (LLaVA-1.5, Qwen-VL, mPLUG-Owl2) を用いて検討した。 実験により, 適応した検索機構とタイミングを加味することにより, 幻覚の問題を効果的に緩和できることが示唆された。 本研究は,より効率的な検索と最小限の検索発生を伴う幻覚の低減のために,LVLMに検索増強を適用する方法について,より深い知見を提供することができることを期待する。

Despite the remarkable ability of large vision-language models (LVLMs) in image comprehension, these models frequently generate plausible yet factually incorrect responses, a phenomenon known as hallucination.Recently, in large language models (LLMs), augmenting LLMs by retrieving information from external knowledge resources has been proven as a promising solution to mitigate hallucinations.However, the retrieval augmentation in LVLM significantly lags behind the widespread applications of LVLM. Moreover, when transferred to augmenting LVLMs, sometimes the hallucination degree of the model is even exacerbated.Motivated by the research gap and counter-intuitive phenomenon, we introduce a novel framework, the Active Retrieval-Augmented large vision-language model (ARA), specifically designed to address hallucinations by incorporating three critical dimensions: (i) dissecting the retrieval targets based on the inherent hierarchical structures of images. (ii) pinpointing the most effective retrieval methods and filtering out the reliable retrieval results. (iii) timing the retrieval process to coincide with episodes of low certainty, while circumventing unnecessary retrieval during periods of high certainty. To assess the capability of our proposed ARA model in reducing hallucination, we employ three widely used LVLM models (LLaVA-1.5, Qwen-VL, and mPLUG-Owl2) across four benchmarks. Our empirical observations suggest that by utilizing fitting retrieval mechanisms and timing the retrieval judiciously, we can effectively mitigate the hallucination problem. We hope that this study can provide deeper insights into how to adapt the retrieval augmentation to LVLMs for reducing hallucinations with more effective retrieval and minimal retrieval occurrences.
翻訳日:2024-08-04 20:26:35 公開日:2024-08-01
# 少数のショットを含む高品質QAOAパラメータのエンドツーエンドプロトコル

End-to-End Protocol for High-Quality QAOA Parameters with Few Shots ( http://arxiv.org/abs/2408.00557v1 )

ライセンス: Link先を確認
Tianyi Hao, Zichang He, Ruslan Shaydulin, Jeffrey Larson, Marco Pistoia, (参考訳) 量子近似最適化アルゴリズム (QAOA) は組合せ最適化のための量子ヒューリスティックであり、いくつかの問題に対して最先端の古典的解法よりも優れたスケールを証明されている。 ある問題の場合、QAOAのパフォーマンスはパラメータの選択に大きく依存します。 平均ケース最適パラメータは多くのケースで利用可能であるが、特定のインスタンスに対してこれらのパラメータを微調整することで有意義な性能向上が得られる。 しかし、このタスクは、回路実行数(ショット)が限られている場合、特に困難である。 本研究では,複数のパラメータ設定と微調整技術を組み合わせたエンドツーエンドプロトコルを開発する。 大規模数値実験を用いて、ショット制限設定のためのプロトコルを最適化し、最も単純な内部モデル(線形)を持つオプティマイザが最適であることを示す。 最大32ドルの量子ビットと5ドルのQAOAレイヤを使用して、捕捉されたイオンプロセッサ上に最適化されたパイプラインを実装し、このパイプラインが少量のハードウェアノイズに対して堅牢であることを示す。 我々の知る限り、これらはトラップイオンプロセッサ上でのQAOAパラメータチューニングの最大の実証である。

The quantum approximate optimization algorithm (QAOA) is a quantum heuristic for combinatorial optimization that has been demonstrated to scale better than state-of-the-art classical solvers for some problems. For a given problem instance, QAOA performance depends crucially on the choice of the parameters. While average-case optimal parameters are available in many cases, meaningful performance gains can be obtained by fine-tuning these parameters for a given instance. This task is especially challenging, however, when the number of circuit executions (shots) is limited. In this work, we develop an end-to-end protocol that combines multiple parameter settings and fine-tuning techniques. We use large-scale numerical experiments to optimize the protocol for the shot-limited setting and observe that optimizers with the simplest internal model (linear) perform best. We implement the optimized pipeline on a trapped-ion processor using up to $32$ qubits and $5$ QAOA layers, and we demonstrate that the pipeline is robust to small amounts of hardware noise. To the best of our knowledge, these are the largest demonstrations of QAOA parameter tuning on a trapped-ion processor.
翻訳日:2024-08-04 20:26:35 公開日:2024-08-01
# MUFASA:レーダ物体検出のための空間認識型多視点融合適応ネットワーク

MUFASA: Multi-View Fusion and Adaptation Network with Spatial Awareness for Radar Object Detection ( http://arxiv.org/abs/2408.00565v1 )

ライセンス: Link先を確認
Xiangyuan Peng, Miao Tang, Huawei Sun, Kay Bierzynski, Lorenzo Servadei, Robert Wille, (参考訳) 近年、レーダー物体検出に基づくアプローチは、LiDARと比較して悪天候下での堅牢性から、自律走行システムにおいて大きな進歩を遂げている。 しかし、レーダポイント雲の広がりは、正確な物体検出を達成する上での課題を生じさせ、効果的で包括的な特徴抽出技術の重要性を強調している。 そこで本研究では,レーダポイント雲の包括的特徴抽出手法を提案する。 本研究ではまず,プラグイン・アンド・プレイモジュールであるGeoSPAを用いて,検出ネットワークの能力を向上させる。 ラロンデの特徴を利用して局所的な幾何学的パターンを探索する。 さらに、分散マルチビューアテンションメカニズムであるDEMVAは、データセット全体にわたる共有情報と各フレームのグローバル情報を統合するように設計されている。 この2つのモジュールを用いて,特徴抽出の改良によりオブジェクト検出性能を向上させるMUFASAを提案する。 このアプローチは、VoDとTJ4DRaDSetデータセットで評価され、その有効性を示す。 特に、VoDデータセット上のレーダベース手法のmAPは50.24%である。

In recent years, approaches based on radar object detection have made significant progress in autonomous driving systems due to their robustness under adverse weather compared to LiDAR. However, the sparsity of radar point clouds poses challenges in achieving precise object detection, highlighting the importance of effective and comprehensive feature extraction technologies. To address this challenge, this paper introduces a comprehensive feature extraction method for radar point clouds. This study first enhances the capability of detection networks by using a plug-and-play module, GeoSPA. It leverages the Lalonde features to explore local geometric patterns. Additionally, a distributed multi-view attention mechanism, DEMVA, is designed to integrate the shared information across the entire dataset with the global information of each individual frame. By employing the two modules, we present our method, MUFASA, which enhances object detection performance through improved feature extraction. The approach is evaluated on the VoD and TJ4DRaDSet datasets to demonstrate its effectiveness. In particular, we achieve state-of-the-art results among radar-based methods on the VoD dataset with the mAP of 50.24%.
翻訳日:2024-08-04 20:26:35 公開日:2024-08-01
# 連続可変QKDにおける情報和解のためのオープンソースライブラリ

An Open-Source Library for Information Reconciliation in Continuous-Variable QKD ( http://arxiv.org/abs/2408.00569v1 )

ライセンス: Link先を確認
Erdem Eray Cil, Laurent Schmalen, (参考訳) 本稿では,連続可変量子鍵分布(CV-QKD)システムのための,使いやすいオープンソースソフトウェアライブラリを提案する。 C++で記述されたこのライブラリは、情報和解の重要なタスクを単純化し、ノイズにもかかわらず両方の通信相手が同じ秘密鍵を共有することを保証する。 多次元の和解、エラー修正、データの整合性チェックのためのモジュールを含む、包括的なツールセットを提供する。 このライブラリは、ユーザのフレンドリさを念頭に設計されており、エラー訂正の複雑さを隠蔽し、エラー訂正コードの知識のないユーザでもアクセスできるようにする。

This paper presents an easy-to-use open-source software library for continuous-variable quantum key distribution (CV-QKD) systems. The library, written in C++, simplifies the crucial task of information reconciliation, ensuring that both communicating parties share the same secret key despite the noise. It offers a comprehensive set of tools, including modules for multidimensional reconciliation, error correction, and data integrity checks. Designed with user-friendliness in mind, the library hides the complexity of error correction, making it accessible even to users without knowledge of error-correcting codes.
翻訳日:2024-08-04 20:26:35 公開日:2024-08-01
# メタラーニングによる量子アニーリングの有効性の解析

Analyzing the Effectiveness of Quantum Annealing with Meta-Learning ( http://arxiv.org/abs/2408.00570v1 )

ライセンス: Link先を確認
Riccardo Pellini, Maurizio Ferrari Dacrema, (参考訳) 近年、量子コンピューティングの分野は大きな人気を集めており、多くの論文が多くのタスクに対処する上での有効性について研究している。 特に量子アニーリング(QA)は準拘束的二項最適化(QUBO)問題に対するメタヒューリスティックな解法である。 古典的解法の場合と同様、QAの有効性はタスク自体に依存することが知られているが、QAで解くのが難しい問題の特徴であるかどうかについては、まだ明確には分かっていない。 本研究では,メタ学習モデルに基づくQAの有効性を検討するための新しい手法を提案する。 そのために、まず10種類の最適化問題の5万以上のインスタンスからなるデータセットを構築しました。 それらの特徴を説明するために100以上の特徴のセットを定義し、QAと3つの古典的解法を用いてそれらを解決する。 今後の研究のために、このデータセットをオンラインで公開します。 次に、複数のメタモデルをトレーニングして、QAがそのインスタンスを効果的に解決するかどうかを予測し、それらを用いて、QAの有効性に最も強い影響を与える特徴を探索する。 その結果,QAの有効性を正確に予測し,方法論を検証できることが示唆された。 さらに、バイアスとカップリング項を表す問題係数の分布は、良い解を見つける確率を特定するのに非常に有益であるが、これらの係数の密度だけでは不十分である。 提案手法は,QAの有効性の理解を深めるために,特定の次元を探索したり,QAの特定の性質に適した新しいQUBOの定式化を開発することによって,新たな研究方向を開くことを可能にする。 さらに、提案手法は柔軟であり、他の量子または古典的解法の研究に拡張または使用することができる。

The field of Quantum Computing has gathered significant popularity in recent years and a large number of papers have studied its effectiveness in tackling many tasks. We focus in particular on Quantum Annealing (QA), a meta-heuristic solver for Quadratic Unconstrained Binary Optimization (QUBO) problems. It is known that the effectiveness of QA is dependent on the task itself, as is the case for classical solvers, but there is not yet a clear understanding of which are the characteristics of a problem that makes it difficult to solve with QA. In this work, we propose a new methodology to study the effectiveness of QA based on meta-learning models. To do so, we first build a dataset composed of more than five thousand instances of ten different optimization problems. We define a set of more than a hundred features to describe their characteristics, and solve them with both QA and three classical solvers. We publish this dataset online for future research. Then, we train multiple meta-models to predict whether QA would solve that instance effectively and use them to probe which are the features with the strongest impact on the effectiveness of QA. Our results indicate that it is possible to accurately predict the effectiveness of QA, validating our methodology. Furthermore, we observe that the distribution of the problem coefficients representing the bias and coupling terms is very informative to identify the probability of finding good solutions, while the density of these coefficients alone is not enough. The methodology we propose allows to open new research directions to further our understanding of the effectiveness of QA, by probing specific dimensions or by developing new QUBO formulations that are better suited for the particular nature of QA. Furthermore, the proposed methodology is flexible and can be extended or used to study other quantum or classical solvers.
翻訳日:2024-08-04 20:26:35 公開日:2024-08-01
# 過パラメータ化物理インフォームニューラルネットワークにおける自然勾配の収束解析

Convergence Analysis of Natural Gradient Descent for Over-parameterized Physics-Informed Neural Networks ( http://arxiv.org/abs/2408.00573v1 )

ライセンス: Link先を確認
Xianliang Xu, Ting Du, Wang Kong, Ye Li, Zhongyi Huang, (参考訳) 勾配降下(GD)や確率勾配降下(SGD)のような一階法はニューラルネットワークのトレーニングに有効であることが証明されている。 過パラメータ化の設定では、ランダムに初期化された(確率的な)勾配勾配が二次損失関数の線形収束速度で大域最適解に収束することを示す一連の研究がある。 しかし, 2層ニューラルネットワークの学習におけるGDの学習速度は, サンプルサイズとグラムマトリックスに依存しないため, 学習過程が遅い。 本稿では,$L^2$回帰問題に対して,学習率が$\mathcal{O}(\lambda_0/n^2)$から$\mathcal{O}(1/\|\bm{H}^{\infty}\|_2)$に改善できることを示し,GDはより高速な収束率を享受できることを示す。 さらに,2層式物理情報ニューラルネットワーク(PINN)の学習におけるGDの手法を一般化し,学習率に類似した改善を示す。 学習率の向上はグラマー行列にやや依存するが、グラマー行列の非依存固有値のため、実際には十分に小さく設定する必要がある。 さらに重要なことに、収束率はグラム行列の最小固有値に依存し、収束が遅くなる。 本研究では,2層PINNのトレーニングにおいて,自然勾配降下(NGD)の収束解析を行う。 学習率は$\mathcal{O}(1)$であり、この時点で収束率はグラム行列とは独立であることを示す。

First-order methods, such as gradient descent (GD) and stochastic gradient descent (SGD) have been proven effective in training neural networks. In the setting of over-parameterization, there is a line of work demonstrating that randomly initialized (stochastic) gradient descent converges to a globally optimal solution at a linear convergence rate for the quadratic loss function. However, the learning rate of GD in training two-layer neural networks has a poor dependence on the sample size and the Gram matrix, resulting in a slow training process. In this paper, we show that for the $L^2$ regression problems, the learning rate can be improved from $\mathcal{O}(\lambda_0/n^2)$ to $\mathcal{O}(1/\|\bm{H}^{\infty}\|_2)$, which implies that GD enjoys a faster convergence rate. Moreover, we further generalize the method for GD in training two-layer Physics-Informed Neural Networks (PINNs), showing a similar improvement for the learning rate. Although the improved learning rate depends mildly on the Gram matrix, we still need to set it small enough in practice due to the agnostic eigenvalues of the Gram matrix. More importantly, the convergence rate relies on the least eigenvalue of the Gram matrix, leading to slow convergence. In this work, we provide the convergence analysis of natural gradient descent (NGD) in training two-layer PINNs. We show that the learning rate can be $\mathcal{O}(1)$ and at this time, the convergence rate is independent of the Gram matrix.
翻訳日:2024-08-04 20:26:35 公開日:2024-08-01
# 非Verbis、Sed Rebus: 大規模言語モデルはイタリアのリバスの弱体化

Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses ( http://arxiv.org/abs/2408.00584v1 )

ライセンス: Link先を確認
Gabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza, (参考訳) リバス(Rebus)とは、画像や文字の集合から隠されたフレーズを識別するために、制約付き多段階推論を必要とするパズルである。 そこで本研究では,イタリア語に対する言語化リバスの大規模なコレクションを導入し,最先端の大規模言語モデルのリバス解決能力を評価する。 LLaMA-3やGPT-4oのような汎用システムは、このタスクでは性能が良くないが、アドホックな微調整によりモデルの性能が向上しているようだ。 しかし、トレーニングによるパフォーマンス向上は、記憶化によって大きく動機づけられていることがわかった。 この結果から,大規模な言語モデルの言語的習熟度と逐次的指示追従能力を評価する上で,リバス解決は依然として困難なテストベッドであることが示唆された。

Rebuses are puzzles requiring constrained multi-step reasoning to identify a hidden phrase from a set of images and letters. In this work, we introduce a large collection of verbalized rebuses for the Italian language and use it to assess the rebus-solving capabilities of state-of-the-art large language models. While general-purpose systems such as LLaMA-3 and GPT-4o perform poorly on this task, ad-hoc fine-tuning seems to improve models' performance. However, we find that performance gains from training are largely motivated by memorization. Our results suggest that rebus solving remains a challenging test bed to evaluate large language models' linguistic proficiency and sequential instruction-following skills.
翻訳日:2024-08-04 20:26:35 公開日:2024-08-01
# 深層学習を用いた心エコー図の局所的品質推定

Regional quality estimation for echocardiography using deep learning ( http://arxiv.org/abs/2408.00591v1 )

ライセンス: Link先を確認
Gilles Van De Vyver, Svein-Erik Måsøy, Håvard Dalen, Bjørnar Leangen Grenne, Espen Holte, Sindre Hellum Olaisen, John Nyberg, Andreas Østvik, Lasse Løvstakken, Erik Smistad, (参考訳) 心臓超音波画像の画質の自動推定は、オペレーターを誘導し、臨床測定の精度を確保するのに有用である。 過去の研究はしばしば、心エコー図の視線精度と画質の区別に失敗する。 さらに、過去の研究では、その実用性を制限する、グローバルな画像品質の値しか提供していない。 本研究では,画像品質を推定する3つの手法を開発し,比較した。 1) 拡張コントラスト-ノイズ比(gCNR)のような古典的画素ベースメトリクスは、心筋セグメントを興味領域として、左室ルーメンを背景として、U-Netセグメンテーションを用いて取得する。 2)Bモード画像からのコヒーレンスを予測するU-Netモデルから得られた局所画像のコヒーレンス 3)各領域の質をエンドツーエンドで直接予測する深層畳み込みネットワーク。 3人の経験者による手動画像品質アノテーションに対する各手法の評価を行った。 その結果, gCNR測定値が低かったこと, \r{ho} = 0.24 のアノテーションとのスピアマン相関が示された。 エンド・ツー・エンドの学習モデルは、最良の結果を得る: \r{ho} = 0.69 であり、これはサーバ間の相関である \r{ho} = 0.63 に匹敵する。 最後に、r{ho} = 0.58 のコヒーレンスに基づく手法は古典的メトリクスよりも優れ、エンドツーエンドのアプローチよりも一般的である。

Automatic estimation of cardiac ultrasound image quality can be beneficial for guiding operators and ensuring the accuracy of clinical measurements. Previous work often fails to distinguish the view correctness of the echocardiogram from the image quality. Additionally, previous studies only provide a global image quality value, which limits their practical utility. In this work, we developed and compared three methods to estimate image quality: 1) classic pixel-based metrics like the generalized contrast-to-noise ratio (gCNR) on myocardial segments as region of interest and left ventricle lumen as background, obtained using a U-Net segmentation 2) local image coherence derived from a U-Net model that predicts coherence from B-Mode images 3) a deep convolutional network that predicts the quality of each region directly in an end-to-end fashion. We evaluate each method against manual regional image quality annotations by three experienced cardiologists. The results indicate poor performance of the gCNR metric, with Spearman correlation to the annotations of \r{ho} = 0.24. The end-to-end learning model obtains the best result, \r{ho} = 0.69, comparable to the inter-observer correlation, \r{ho} = 0.63. Finally, the coherence-based method, with \r{ho} = 0.58, outperformed the classical metrics and is more generic than the end-to-end approach.
翻訳日:2024-08-04 20:26:35 公開日:2024-08-01
# 多モード速度制御による単一モデルにおける点雲形状と属性の学習圧縮

Learned Compression of Point Cloud Geometry and Attributes in a Single Model through Multimodal Rate-Control ( http://arxiv.org/abs/2408.00599v1 )

ライセンス: Link先を確認
Michael Rudolph, Aron Riemenschneider, Amr Rizk, (参考訳) ポイントクラウド圧縮は、必要となるストリーミングデータレートを大幅に削減するため、ボリュームマルチメディアを体験するために不可欠である。 点属性、特に色は、幾何学的表現を超えた損失圧縮の課題を拡張し、テクスチャと幾何学の合同的な再構成を達成する。 State-of-the-artメソッドは、それらを個別に圧縮する幾何学と属性を分離する。 これは計算コストがかかり、各モダリティに対してエンコーダとデコーダが必要となる。 さらに、属性圧縮法は符号化と復号のための同じ幾何学を必要とするため、エンコーダはデコーダ側の幾何再構成を入力ステップとしてエミュレートし、属性を投影し圧縮する。 本研究では,単一適応オートエンコーダモデルを用いて幾何学と属性の連成圧縮を学習し,両モードをエントロピー符号化した潜在空間に埋め込む手法を提案する。 このテクニックの鍵となるのは、両方のモダリティの望ましい品質をモデルに条件付けすることで、レート、属性品質、および幾何学的品質のトレードオフを探すことを置き換えることで、モデルのアンサンブルをトレーニングする必要をなくすことである。 エンコーディング中の重要なポイントクラウド領域を区別し、また、ユーザ中心ストリーミングに対するビュー依存圧縮を可能にし、条件付けがポイントワイズであり、局所的な品質とレート変動を可能にする。 本評価では, 関連圧縮法と比較して複雑性を低減しつつ, 形状と属性の最先端圧縮法に匹敵する性能を示した。

Point cloud compression is essential to experience volumetric multimedia as it drastically reduces the required streaming data rates. Point attributes, specifically colors, extend the challenge of lossy compression beyond geometric representation to achieving joint reconstruction of texture and geometry. State-of-the-art methods separate geometry and attributes to compress them individually. This comes at a computational cost, requiring an encoder and a decoder for each modality. Additionally, as attribute compression methods require the same geometry for encoding and decoding, the encoder emulates the decoder-side geometry reconstruction as an input step to project and compress the attributes. In this work, we propose to learn joint compression of geometry and attributes using a single, adaptive autoencoder model, embedding both modalities into a unified latent space which is then entropy encoded. Key to the technique is to replace the search for trade-offs between rate, attribute quality and geometry quality, through conditioning the model on the desired qualities of both modalities, bypassing the need for training model ensembles. To differentiate important point cloud regions during encoding or to allow view-dependent compression for user-centered streaming, conditioning is pointwise, which allows for local quality and rate variation. Our evaluation shows comparable performance to state-of-the-art compression methods for geometry and attributes, while reducing complexity compared to related compression methods.
翻訳日:2024-08-04 20:26:35 公開日:2024-08-01
# AutoPV: 太陽光発電の電力予測モデルを自動的に設計する

AutoPV: Automatically Design Your Photovoltaic Power Forecasting Model ( http://arxiv.org/abs/2408.00601v1 )

ライセンス: Link先を確認
Dayin Chen, Xiaodan Shi, Mingkun Jiang, Haoran Zhang, Dongxiao Zhang, Yuntian Chen, Jinyue Yan, (参考訳) 太陽光発電発電予測(PVPF)は、太陽エネルギーの効率的な利用を可能にする時系列予測(TSF)において重要な分野である。 機械学習とディープラーニングの進歩により、PVPFタスクに様々なモデルが適用されている。 しかしながら,特定のPVPFタスクに対して最適な予測アーキテクチャを構築することは,クロスドメイン知識と多大な労働コストを必要とするため,依然として困難である。 この課題に対処するために,ニューラルアーキテクチャサーチ(NAS)技術に基づくPVPFモデルの自動探索と構築のための新しいフレームワークであるAutoPVを紹介する。 我々は、最先端(SOTA)TSFモデルと典型的なPVPF深層学習モデルから様々なデータ処理技術を取り入れたNAS検索空間を開発した。 オートPVの有効性は、中国の大慶太陽光発電所のデータセットを用いて、多種多様なPVPFタスクで評価される。 実験により,AutoPVは比較的短時間で予測アーキテクチャ構築プロセスを完了でき,新たに構築されたアーキテクチャはSOTA事前定義されたモデルよりも優れていることが示された。 この研究は、NASをTSF問題に適用する際のギャップを埋め、非専門家や業界が効果的なPVPFモデルを自動的に設計するのを支援する。

Photovoltaic power forecasting (PVPF) is a critical area in time series forecasting (TSF), enabling the efficient utilization of solar energy. With advancements in machine learning and deep learning, various models have been applied to PVPF tasks. However, constructing an optimal predictive architecture for specific PVPF tasks remains challenging, as it requires cross-domain knowledge and significant labor costs. To address this challenge, we introduce AutoPV, a novel framework for the automated search and construction of PVPF models based on neural architecture search (NAS) technology. We develop a brand new NAS search space that incorporates various data processing techniques from state-of-the-art (SOTA) TSF models and typical PVPF deep learning models. The effectiveness of AutoPV is evaluated on diverse PVPF tasks using a dataset from the Daqing Photovoltaic Station in China. Experimental results demonstrate that AutoPV can complete the predictive architecture construction process in a relatively short time, and the newly constructed architecture is superior to SOTA predefined models. This work bridges the gap in applying NAS to TSF problems, assisting non-experts and industries in automatically designing effective PVPF models.
翻訳日:2024-08-04 20:26:35 公開日:2024-08-01
# ASL-DVSにおけるCSNNを用いたイベントベースのデータ処理と分類

Using CSNNs to Perform Event-based Data Processing & Classification on ASL-DVS ( http://arxiv.org/abs/2408.00611v1 )

ライセンス: Link先を確認
Ria Patel, Sujit Tripathy, Zachary Sublett, Seoyoung An, Riya Patel, (参考訳) バイオインスパイアされた視覚センシングとニューロモーフィックコンピューティングの進歩は、現実世界の応用で様々な高効率なバイオインスパイアされたソリューションの開発に繋がった。 注目すべきアプリケーションは、イベントベースのカメラとスパイクニューラルネットワーク(SNN)を統合して、非同期でスパースなイベントベースのシーケンスを処理することで、処理が困難になる。 本稿では,ASL-DVSジェスチャデータセットの空間的および時間的関係を学習するために,スペーシングニューロンの畳み込み操作と繰り返し特性を利用する畳み込みスパイキングニューラルネットワーク(CSNN)アーキテクチャを開発する。 ASL-DVSジェスチャーデータセットは、アメリカ手話(ASL)から24文字(A〜Y、記号の性質上J、Zを除く)を表示する際に手振りを含むニューロモルフィックデータセットである。 ASL-DVSデータセットの事前処理したサブセットの分類を行い、文字記号を識別し、100\%のトレーニング精度を得た。 具体的には、学習速度0.0005、バッチサイズ25(合計20バッチ)、200イテレーション、10エポックを使用して、Google Cloudのコンピューティングプラットフォームでトレーニングすることで実現した。

Recent advancements in bio-inspired visual sensing and neuromorphic computing have led to the development of various highly efficient bio-inspired solutions with real-world applications. One notable application integrates event-based cameras with spiking neural networks (SNNs) to process event-based sequences that are asynchronous and sparse, making them difficult to handle. In this project, we develop a convolutional spiking neural network (CSNN) architecture that leverages convolutional operations and recurrent properties of a spiking neuron to learn the spatial and temporal relations in the ASL-DVS gesture dataset. The ASL-DVS gesture dataset is a neuromorphic dataset containing hand gestures when displaying 24 letters (A to Y, excluding J and Z due to the nature of their symbols) from the American Sign Language (ASL). We performed classification on a pre-processed subset of the full ASL-DVS dataset to identify letter signs and achieved 100\% training accuracy. Specifically, this was achieved by training in the Google Cloud compute platform while using a learning rate of 0.0005, batch size of 25 (total of 20 batches), 200 iterations, and 10 epochs.
翻訳日:2024-08-04 20:26:35 公開日:2024-08-01
# 下流バイアス軽減が必要なのは

Downstream bias mitigation is all you need ( http://arxiv.org/abs/2408.00612v1 )

ライセンス: Link先を確認
Arkadeep Baksi, Rahul Singh, Tarun Joshi, (参考訳) トランスフォーマーベースのアーキテクチャと大規模言語モデル(LLM)の出現は、自然言語処理(NLP)モデルの性能を大幅に向上させた。 これらのLSMは、Webや他のソースからの膨大なデータのコーパスに基づいて訓練されているため、データから転送される可能性のある有害な偏見に対して大きな懸念が持たれている。 多くのアプリケーションにおいて、これらの事前訓練されたLLMはタスク固有のデータセットに基づいて微調整され、バイアスにさらに寄与する。 本稿では,LLMが事前学習中に吸収するバイアスの程度と,微調整後のタスク固有行動について検討する。 微調整前, 事前学習したLDMに対する制御的介入は, 分類器のバイアス低下に最小限の影響を及ぼすことがわかった。 しかし、ドメイン固有のデータセットに存在するバイアスは、はるかに大きな役割を果たすため、この段階でそれらを緩和することは、より大きな影響を与える。 事前トレーニングは重要ですが、モデルが事前トレーニングされた後に、微調整データセットにおける共起率のわずかな変化でさえ、モデルのバイアスに大きな影響を与えます。

The advent of transformer-based architectures and large language models (LLMs) have significantly advanced the performance of natural language processing (NLP) models. Since these LLMs are trained on huge corpuses of data from the web and other sources, there has been a major concern about harmful prejudices that may potentially be transferred from the data. In many applications, these pre-trained LLMs are fine-tuned on task specific datasets, which can further contribute to biases. This paper studies the extent of biases absorbed by LLMs during pre-training as well as task-specific behaviour after fine-tuning. We found that controlled interventions on pre-trained LLMs, prior to fine-tuning, have minimal effect on lowering biases in classifiers. However, the biases present in domain-specific datasets play a much bigger role, and hence mitigating them at this stage has a bigger impact. While pre-training does matter, but after the model has been pre-trained, even slight changes to co-occurrence rates in the fine-tuning dataset has a significant effect on the bias of the model.
翻訳日:2024-08-04 20:16:43 公開日:2024-08-01
# ジェネレーティブAIサプライチェーンにおけるフェアユースを解き放つ:体系化された文献レビュー

Unlocking Fair Use in the Generative AI Supply Chain: A Systematized Literature Review ( http://arxiv.org/abs/2408.00613v1 )

ライセンス: Link先を確認
Amruta Mahuli, Asia Biega, (参考訳) 生成的AI(GenAI)ステークホルダーの目標と期待の体系化を通じて、この研究は、GenAIサプライラインへの貢献において、異なる利害関係者がどのような価値を見出すかを明らかにする。 この評価により、GenAI企業によって提唱された公正利用が、科学と芸術の振興を目的とした著作権法の進歩を訓練するかどうかを理解することができる。 フェアユース議論の有効性と有効性を評価しながら、研究者や政策立案者にとって今後の研究のギャップと潜在的な道のりを明らかにする。

Through a systematization of generative AI (GenAI) stakeholder goals and expectations, this work seeks to uncover what value different stakeholders see in their contributions to the GenAI supply line. This valuation enables us to understand whether fair use advocated by GenAI companies to train model progresses the copyright law objective of promoting science and arts. While assessing the validity and efficacy of the fair use argument, we uncover research gaps and potential avenues for future works for researchers and policymakers to address.
翻訳日:2024-08-04 20:16:43 公開日:2024-08-01
# 教師なし3次元物体検出のための不確かさを意識したバウンディングボックス

Harnessing Uncertainty-aware Bounding Boxes for Unsupervised 3D Object Detection ( http://arxiv.org/abs/2408.00619v1 )

ライセンス: Link先を確認
Ruiyang Zhang, Hu Zhang, Hang Yu, Zhedong Zheng, (参考訳) 教師なしの3Dオブジェクト検出は、LiDARポイントのようなラベル付けされていない生データから興味のあるオブジェクトを識別することを目的としている。 最近のアプローチでは、クラスタリングアルゴリズムから擬似3Dバウンディングボックス(3D bbox)を採用してモデルトレーニングを初期化し、擬似ラベルと訓練されたモデルの両方を反復的に更新する。 しかし、偽のボックスには必然的にノイズが含まれており、そのような不正確なアノテーションは最終モデルに蓄積され、性能を損なう。 そこで, 疑似bboxの悪影響を軽減するために, 新たな不確実性認識フレームワークを導入する。 特に,本手法は,不確実性推定と不確実性正則化という2つの主成分から構成される。 1) 不確実性推定フェーズでは, 予備検出枝を主検出器の横に組み込む。 一次検出器と補助検出器の間の予測格差を利用して、位置、形状、方向を含むボックス座標レベルでの不確かさを推定する。 2) 評価された不確実性に基づき, 各3次元ボックス座標を適応的に調整し, モデルトレーニングを正規化する。 不確実性の高い擬似bbox座標に対しては、比較的低い損失重みを割り当てる。 実験により、提案手法はノイズの多い擬似ボックスに対して堅牢であることが確認され、既存の手法と比較してnuScenesとLyftが大幅に改善され、AP$_{BEV}$が6.9%、AP$_{3D}$が2.5%、AP$_{BEV}$が2.2%、AP$_{3D}$が1.0%となった。

Unsupervised 3D object detection aims to identify objects of interest from unlabeled raw data, such as LiDAR points. Recent approaches usually adopt pseudo 3D bounding boxes (3D bboxes) from clustering algorithm to initialize the model training, and then iteratively updating both pseudo labels and the trained model. However, pseudo bboxes inevitably contain noises, and such inaccurate annotation accumulates to the final model, compromising the performance. Therefore, in an attempt to mitigate the negative impact of pseudo bboxes, we introduce a new uncertainty-aware framework. In particular, Our method consists of two primary components: uncertainty estimation and uncertainty regularization. (1) In the uncertainty estimation phase, we incorporate an extra auxiliary detection branch alongside the primary detector. The prediction disparity between the primary and auxiliary detectors is leveraged to estimate uncertainty at the box coordinate level, including position, shape, orientation. (2) Based on the assessed uncertainty, we regularize the model training via adaptively adjusting every 3D bboxes coordinates. For pseudo bbox coordinates with high uncertainty, we assign a relatively low loss weight. Experiment verifies that the proposed method is robust against the noisy pseudo bboxes, yielding substantial improvements on nuScenes and Lyft compared to existing techniques, with increases of 6.9% in AP$_{BEV}$ and 2.5% in AP$_{3D}$ on nuScenes, and 2.2% in AP$_{BEV}$ and 1.0% in AP$_{3D}$ on Lyft.
翻訳日:2024-08-04 20:16:43 公開日:2024-08-01
# 大型エンコーダのビジョンは常に改善されているか?

Are Bigger Encoders Always Better in Vision Large Models? ( http://arxiv.org/abs/2408.00620v1 )

ライセンス: Link先を確認
Bozhou Li, Hao Liang, Zimo Meng, Wentao Zhang, (参考訳) 近年,マルチモーダル大規模言語モデル (MLLM) は実世界の応用において大きな可能性を示している。 マルチモーダル情報の理解能力と、その固有の強力な認知と推論能力によって、彼らは急速に発展している。 MLLMのうち、視覚言語モデル(VLM)は視覚情報を理解する能力において際立っている。 しかし、現在の主流パラダイム下でのVLMのスケーリング傾向は、広く研究されていない。 より大きなモデルをトレーニングすることで、よりよいパフォーマンスを達成できるかどうかはまだ不明です。 この問題に対処するため,我々はMLLMの事前学習段階について実験を行った。 異なるエンコーダサイズと大きな言語モデル(LLM)サイズを用いて実験を行った。 以上の結果から,エンコーダのサイズが大きくなるだけではVLMの性能が向上するとは限らないことが示唆された。 さらに,LLMのバックボーンパラメータサイズとデータ品質が事前学習結果に及ぼす影響を解析した。 さらに,LLMとVLMのスケーリング法則の違いについても検討した。

In recent years, multimodal large language models (MLLMs) have shown strong potential in real-world applications. They are developing rapidly due to their remarkable ability to comprehend multimodal information and their inherent powerful cognitive and reasoning capabilities. Among MLLMs, vision language models (VLM) stand out for their ability to understand vision information. However, the scaling trend of VLMs under the current mainstream paradigm has not been extensively studied. Whether we can achieve better performance by training even larger models is still unclear. To address this issue, we conducted experiments on the pretraining stage of MLLMs. We conduct our experiment using different encoder sizes and large language model (LLM) sizes. Our findings indicate that merely increasing the size of encoders does not necessarily enhance the performance of VLMs. Moreover, we analyzed the effects of LLM backbone parameter size and data quality on the pretraining outcomes. Additionally, we explored the differences in scaling laws between LLMs and VLMs.
翻訳日:2024-08-04 20:16:43 公開日:2024-08-01
# SynesLM: 言語モデルと合成データを用いた音声視覚音声認識と翻訳のための統一的アプローチ

SynesLM: A Unified Approach for Audio-visual Speech Recognition and Translation via Language Model and Synthetic Data ( http://arxiv.org/abs/2408.00624v1 )

ライセンス: Link先を確認
Yichen Lu, Jiaqi Song, Xuankai Chang, Hengwei Bian, Soumi Maiti, Shinji Watanabe, (参考訳) 本稿では,音声視覚自動音声認識(AV-ASR)と視覚支援音声・機械翻訳(VST/VMT)の3つのマルチモーダル言語理解タスクを実行できる統一モデルであるSynesLMを提案する。 音声信号の視覚的手がかりとしての唇の動きに焦点を当てた以前の研究とは異なり、我々の研究は、物体や行動など、フレーム全体のより一般的な視覚情報を探究する。 さらに、合成画像データを用いて、画像と音声データの相関性を高める。 我々は、SynesLMをHow2データセットと比較し、マルチタスクフレームワークを維持しながら、AV-ASR専用のSOTAモデルと同等のパフォーマンスを示す。 注目すべきは、ゼロショットのAV-ASRでは、SynesLMはワードエラー率(WER)をVisSpeechデータセットで43.4%から39.4%に下げることでSOTAのパフォーマンスを達成したことである。 さらに, VSTとVMTでは, BLEUスコアが37.2から43.5, VMTでは54.4から54.8に向上した。

In this work, we present SynesLM, an unified model which can perform three multimodal language understanding tasks: audio-visual automatic speech recognition(AV-ASR) and visual-aided speech/machine translation(VST/VMT). Unlike previous research that focused on lip motion as visual cues for speech signals, our work explores more general visual information within entire frames, such as objects and actions. Additionally, we use synthetic image data to enhance the correlation between image and speech data. We benchmark SynesLM against the How2 dataset, demonstrating performance on par with state-of-the-art (SOTA) models dedicated to AV-ASR while maintaining our multitasking framework. Remarkably, for zero-shot AV-ASR, SynesLM achieved SOTA performance by lowering the Word Error Rate (WER) from 43.4% to 39.4% on the VisSpeech Dataset. Furthermore, our results in VST and VMT outperform the previous results, improving the BLEU score to 43.5 from 37.2 for VST, and to 54.8 from 54.4 for VMT.
翻訳日:2024-08-04 20:16:43 公開日:2024-08-01
# コヒーレント吸収器後処理とパターンカウント推定器を用いた量子マルコフ鎖の推定

Estimating quantum Markov chains using coherent absorber post-processing and pattern counting estimator ( http://arxiv.org/abs/2408.00626v1 )

ライセンス: Link先を確認
Federico Girotti, Alfred Godley, Mădălin Guţă, (参考訳) 本稿では、コヒーレント量子吸収器を用いて出力を量子後処理する量子マルコフ連鎖の1次元動的パラメータを推定する2つのステップ戦略を提案する。 我々は、推定器が大きな出力サイズの極限で量子Cram\'{e}-Rao境界に達するという強い理論的および数値的な証拠を提供する。 出力演算子のシフトテンソル積の平均として構築された変換不変モード(TIM)の漸近理論を二項パターンでラベル付けした。 多くの場合、TIMはボゾン代数を形成し、出力状態は系と吸収子パラメータのミスマッチに線形に依存するTIMの結合コヒーレント状態に近づく。 さらに、漸近的な状態においては、TIMは出力状態の完全な量子フィッシャー情報をキャプチャする。 TIMsの二次構造を直接探索することは現実的とは思えないが、標準逐次測定はすべてのTIMs演算子の有効関節測定であり、実際に、測定軌跡から抽出された異なる2値パターンの数が、期待される結合ポアソン分布を持つことを示す。 J. Phys の非置換null 方法論とともに。 A: 数学。 Theor 57 245304 2024 これは、パターンの総数のみに依存する計算効率の良い推定器を提供する。 これにより、連続時間力学における同様の推定戦略の道が開かれ、Physの結果が拡大される。 X 13 031012 2023年。

We propose a two step strategy for estimating one-dimensional dynamical parameters of a quantum Markov chain, which involves quantum post-processing the output using a coherent quantum absorber and a "pattern counting'' estimator computed as a simple additive functional of the outcomes trajectory produced by sequential, identical measurements on the output units. We provide strong theoretical and numerical evidence that the estimator achieves the quantum Cram\'{e}-Rao bound in the limit of large output size. Our estimation method is underpinned by an asymptotic theory of translationally invariant modes (TIMs) built as averages of shifted tensor products of output operators, labelled by binary patterns. For large times, the TIMs form a bosonic algebra and the output state approaches a joint coherent state of the TIMs whose amplitude depends linearly on the mismatch between system and absorber parameters. Moreover, in the asymptotic regime the TIMs capture the full quantum Fisher information of the output state. While directly probing the TIMs' quadratures seems impractical, we show that the standard sequential measurement is an effective joint measurement of all the TIMs number operators; indeed, we show that counts of different binary patterns extracted from the measurement trajectory have the expected joint Poisson distribution. Together with the displaced-null methodology of J. Phys. A: Math. Theor. 57 245304 2024 this provides a computationally efficient estimator which only depends on the total number of patterns. This opens the way for similar estimation strategies in continuous-time dynamics, expanding the results of Phys. Rev. X 13, 031012 2023.
翻訳日:2024-08-04 20:16:43 公開日:2024-08-01
# スナップショット圧縮イメージングの強化:クロススキャンと局所強調による空間スペクトル状態空間モデル

Empowering Snapshot Compressive Imaging: Spatial-Spectral State Space Model with Across-Scanning and Local Enhancement ( http://arxiv.org/abs/2408.00629v1 )

ライセンス: Link先を確認
Wenzhe Tian, Haijin Zeng, Yin-Ping Zhao, Yongyong Chen, Zhen Wang, Xuelong Li, (参考訳) Snapshot Compressive Imaging (SCI)は、CNNやTransformerのようなデコードアルゴリズムを使って、圧縮された測定値からハイパースペクトル画像(HSI)を再構成する。 既存のCNNとTransformerベースの手法は有効であることが証明されているが、CNNは長距離依存の不十分なモデリングによって制限されている。 最近のMambaモデルは、いくつかの視覚的タスクにおいてCNNやTransformerベースのアーキテクチャよりも優れた性能を示しているが、これらのモデルは空間次元とスペクトル次元の両方において局所的な類似性を十分に活用していない。 さらに、SSMの長い系列モデリング能力は、まだ探索されていないHSI再構成のための多くのスペクトル帯域の処理に有利である可能性がある。 本稿では,Across-Scanning and Local Enhancement(ASLE-SSM)と呼ばれる状態空間モデルを提案する。 具体的には、大域的および局所的な受容場のバランスをとるために空間次元の局所走査を導入し、次いで、近接するスペクトルバンドとピクセルの局所類似性を生かして再構成プロセスを導くために、空間スペクトル局所立方体に基づくクロススキャン手法を提案する。 これら2つの走査機構は、追加コストなしでグローバルな視点のバランスをとりながら、HSIの局所的な特徴を抽出する。 実験結果から,ASLE-SSMは既存の最先端手法よりも優れており,推定速度はTransformerベースのMSTより2.4倍速く,パラメータの0.12(M)を節約でき,計算コストとパラメータ数が最も低い。

Snapshot Compressive Imaging (SCI) relies on decoding algorithms such as CNN or Transformer to reconstruct the hyperspectral image (HSI) from its compressed measurement. Although existing CNN and Transformer-based methods have proven effective, CNNs are limited by their inadequate modeling of long-range dependencies, while Transformer ones face high computational costs due to quadratic complexity. Recent Mamba models have demonstrated superior performance over CNN and Transformer-based architectures in some visual tasks, but these models have not fully utilized the local similarities in both spatial and spectral dimensions. Moreover, the long-sequence modeling capability of SSM may offer an advantage in processing the numerous spectral bands for HSI reconstruction, which has not yet been explored. In this paper, we introduce a State Space Model with Across-Scanning and Local Enhancement, named ASLE-SSM, that employs a Spatial-Spectral SSM for global-local balanced context encoding and cross-channel interaction promoting. Specifically, we introduce local scanning in the spatial dimension to balance the global and local receptive fields, and then propose our across-scanning method based on spatial-spectral local cubes to leverage local similarities between adjacent spectral bands and pixels to guide the reconstruction process. These two scanning mechanisms extract the HSI's local features while balancing the global perspective without any additional costs. Experimental results illustrate ASLE-SSM's superiority over existing state-of-the-art methods, with an inference speed 2.4 times faster than Transformer-based MST and saving 0.12 (M) of parameters, achieving the lowest computational cost and parameter count.
翻訳日:2024-08-04 20:16:43 公開日:2024-08-01
# DisTrack:オンラインソーシャルネットワークにおける半自動誤情報追跡ツール

DisTrack: a new Tool for Semi-automatic Misinformation Tracking in Online Social Networks ( http://arxiv.org/abs/2408.00633v1 )

ライセンス: Link先を確認
Guillermo Villar-Rodríguez, Álvaro Huertas-García, Alejandro Martín, Javier Huertas-Tato, David Camacho, (参考訳) 紹介:本記事では,オンラインソーシャルネットワーク(OSN)内の誤情報を追跡し解析するための方法論とツールであるDisTrackを紹介する。 DisTrackは、自然言語処理(NLP)ソーシャル・ネットワーク・アナリティクス(SNA)とグラフ視覚化を組み合わせることで、誤情報の拡散に対抗するように設計されている。 主な目的は、誤情報を検出し、伝播を追跡し、発信元を特定し、ネットワーク内の様々なアクターの影響を評価することである。 メソッド: DisTrackのアーキテクチャには、キーワード検索、意味的類似性評価、グラフ生成技術など、さまざまな方法論が組み込まれている。 これらの手法は、誤報の監視、既知の虚偽のクレームとの整合性に基づくコンテンツの分類、詳細なグラフによる拡散カスケードの可視化を総合的に促進する。 このツールは、デジタル環境に散在する誤報のダイナミックな性質を捉え、分析するために調整されている。 結果: DisTrackの有効性は,ロシアとウクライナの紛争に関する不信/憎悪スピーチ,反ワクチンの誤報,虚偽の物語という,異なるテーマに焦点を当てた3つのケーススタディを通じて実証された。 これらの研究は、偽造と偽造とを区別するDisTrackの能力を示し、偽情報の進化をその発端から追跡している。 結論:この研究は、偽情報分析の分野でDisTrackが貴重なツールであることを確認した。 異なる種類の誤報を効果的に区別し、時間とともにその発達を辿る。 DisTrackは、デジタル空間における誤情報を理解し、戦うための包括的なアプローチを提供することによって、オンライン社会環境における偽情報の影響を軽減するために働く研究者や実践者にとって、不可欠な資産であることを証明している。

Introduction: This article introduces DisTrack, a methodology and a tool developed for tracking and analyzing misinformation within Online Social Networks (OSNs). DisTrack is designed to combat the spread of misinformation through a combination of Natural Language Processing (NLP) Social Network Analysis (SNA) and graph visualization. The primary goal is to detect misinformation, track its propagation, identify its sources, and assess the influence of various actors within the network. Methods: DisTrack's architecture incorporates a variety of methodologies including keyword search, semantic similarity assessments, and graph generation techniques. These methods collectively facilitate the monitoring of misinformation, the categorization of content based on alignment with known false claims, and the visualization of dissemination cascades through detailed graphs. The tool is tailored to capture and analyze the dynamic nature of misinformation spread in digital environments. Results: The effectiveness of DisTrack is demonstrated through three case studies focused on different themes: discredit/hate speech, anti-vaccine misinformation, and false narratives about the Russia-Ukraine conflict. These studies show DisTrack's capabilities in distinguishing posts that propagate falsehoods from those that counteract them, and tracing the evolution of misinformation from its inception. Conclusions: The research confirms that DisTrack is a valuable tool in the field of misinformation analysis. It effectively distinguishes between different types of misinformation and traces their development over time. By providing a comprehensive approach to understanding and combating misinformation in digital spaces, DisTrack proves to be an essential asset for researchers and practitioners working to mitigate the impact of false information in online social environments.
翻訳日:2024-08-04 20:16:43 公開日:2024-08-01
# 一階および二階量子相転移における有限温度での開量子系の駆動

Driving of an open quantum system at finite temperature across first- and second-order quantum phase transitions ( http://arxiv.org/abs/2408.00635v1 )

ライセンス: Link先を確認
Felipe Matus, Pavel Cejnar, (参考訳) 非零温度でのクビットの開完全連結系は、制御パラメータの空間内の様々な経路に沿って有限時間間隔で駆動される。 この駆動は、第1次および第2次量子相遷移の有限サイズ前駆体を、分解された基底状態から絡み合った基底状態への遷移に導いており、最終パラメータ点における系の複雑な基底状態の最大忠実度を準備することを目的としている。 駆動中、システムは一定の温度で熱浴に結合され、その力学は階層的運動方程式によって非摂動的に決定される。 量子相転移に伴うパラメータ領域における熱浴の存在と、地表面に影響を及ぼす回避交差の特定のパターンと、励起状態とが相まって、ターゲット地表面状態の生成精度が著しく向上する可能性が示唆された。

An open fully connected system of qubits at nonzero temperature is driven within a finite time interval along various paths in the space of its control parameters. The driving leads across finite-size precursors of the first- and second-order quantum phase transition from factorized to entangled ground-state phases, aiming at the preparation of the complex ground state of the system at the final parameter point with maximal fidelity. During the drive, the system is coupled to a heat bath with a constant temperature, the dynamics being determined in a nonpertubative way by the method of Hierarchical Equations of Motion. It is shown that the presence of the heat bath in combination with specific patterns of avoided crossings affecting the ground and excited states in the parameter region around the quantum phase transition may considerably improve the fidelity of preparation of the target ground state.
翻訳日:2024-08-04 20:16:43 公開日:2024-08-01
# MRIを用いた脳腫瘍画像からの医用画像分類における深層学習

Deep Learning in Medical Image Classification from MRI-based Brain Tumor Images ( http://arxiv.org/abs/2408.00636v1 )

ライセンス: Link先を確認
Xiaoyi Liu, Zhuoyue Wang, (参考訳) 脳腫瘍は世界で最も致命的な病気の1つである。 磁気共鳴イメージング(MRI)は、脳腫瘍を検出する最も効果的な方法の1つである。 MRIスキャンによる脳腫瘍の正確な検出は、多くの命を救う可能性があり、疾患の初期段階におけるより良い意思決定を促進するため、非常に重要である。 以上より, グリオーマ, 悪性腫瘍, 下垂体腫瘍, 髄膜腫の4種類のMRI画像がデータベースから収集された。 本研究は脳腫瘍分類の予測に焦点をあてる。 4つの事前学習モデル(MobileNet、EfficientNet-B0、ResNet-18、VGG16)と1つの新しいモデルであるMobileNet-BTを含む5つのモデルが提案されている。

Brain tumors are among the deadliest diseases in the world. Magnetic Resonance Imaging (MRI) is one of the most effective ways to detect brain tumors. Accurate detection of brain tumors based on MRI scans is critical, as it can potentially save many lives and facilitate better decision-making at the early stages of the disease. Within our paper, four different types of MRI-based images have been collected from the database: glioma tumor, no tumor, pituitary tumor, and meningioma tumor. Our study focuses on making predictions for brain tumor classification. Five models, including four pre-trained models (MobileNet, EfficientNet-B0, ResNet-18, and VGG16) and one new model, MobileNet-BT, have been proposed for this study.
翻訳日:2024-08-04 20:16:43 公開日:2024-08-01
# Conditional VAEによる特徴分布のキャプチャによるプライバシ保護データセット

Privacy-preserving datasets by capturing feature distributions with Conditional VAEs ( http://arxiv.org/abs/2408.00639v1 )

ライセンス: Link先を確認
Francesco Di Salvo, David Tafler, Sebastian Doerrich, Christian Ledig, (参考訳) 大規模かつ十分に注釈付けされたデータセットは、ディープラーニングアプリケーションを前進させるのに不可欠だが、単一のエンティティによって取得するコストや不可能がしばしばある。 医療分野を含む多くの分野において、これらの課題に対処するためには、データ共有に依存するアプローチが重要になっている。 データセットのサイズと多様性の増大には有効だが、データ共有は重要なプライバシー上の懸念を提起する。 通常、k-匿名性パラダイムに基づく匿名化手法は、しばしばデータの多様性を保たず、モデルの堅牢性に影響を及ぼす。 本研究では,大規模な事前学習型視覚基盤モデルから抽出した特徴ベクトルに基づいて,条件付き変分オートエンコーダ(CVAE)を用いた新しい手法を提案する。 ファンデーションモデルは、様々な領域にまたがる複雑なパターンを効果的に検出し、表現し、CVAEは、与えられたデータ分布の埋め込み空間を忠実に捉え、多様でプライバシーを尊重し、潜在的に有界な合成特徴ベクトルを生成する(サンプル)。 提案手法は, 医用領域と自然画像領域の両方において従来の手法よりも優れており, サンプルプライバシーを維持しながら, データセットの多様性と摂動に対する堅牢性が高い。 これらの結果は、データスカースおよびプライバシに敏感な環境におけるディープラーニングアプリケーションに大きな影響を与える生成モデルの可能性を強調している。 ソースコードはhttps://github.com/francescodisalvo05/cvae-anonymization で公開されている。

Large and well-annotated datasets are essential for advancing deep learning applications, however often costly or impossible to obtain by a single entity. In many areas, including the medical domain, approaches relying on data sharing have become critical to address those challenges. While effective in increasing dataset size and diversity, data sharing raises significant privacy concerns. Commonly employed anonymization methods based on the k-anonymity paradigm often fail to preserve data diversity, affecting model robustness. This work introduces a novel approach using Conditional Variational Autoencoders (CVAEs) trained on feature vectors extracted from large pre-trained vision foundation models. Foundation models effectively detect and represent complex patterns across diverse domains, allowing the CVAE to faithfully capture the embedding space of a given data distribution to generate (sample) a diverse, privacy-respecting, and potentially unbounded set of synthetic feature vectors. Our method notably outperforms traditional approaches in both medical and natural image domains, exhibiting greater dataset diversity and higher robustness against perturbations while preserving sample privacy. These results underscore the potential of generative models to significantly impact deep learning applications in data-scarce and privacy-sensitive environments. The source code is available at https://github.com/francescodisalvo05/cvae-anonymization .
翻訳日:2024-08-04 20:16:43 公開日:2024-08-01
# AMAES: 3D-Native Segmentationのための公開脳MRIデータに基づく追加のマスク付きオートエンコーダ

AMAES: Augmented Masked Autoencoder Pretraining on Public Brain MRI Data for 3D-Native Segmentation ( http://arxiv.org/abs/2408.00640v1 )

ライセンス: Link先を確認
Asbjørn Munk, Jakob Ambsdorf, Sebastian Llambias, Mads Nielsen, (参考訳) 本研究では,3次元セマンティックセグメンテーションモデルの自己教師付き事前学習が大規模・ドメイン固有データセットに与える影響について検討した。 我々は、公開資料から44,756個の脳MRIボリュームのデータセットであるBRAINS-45Kを紹介し、最新セグメンテーションアーキテクチャをシンプルに最適化し、新しい拡張戦略と組み合わせることで、最新のセグメンテーションアーキテクチャを事前訓練するための多くの設計選択を再考する。 結果として得られるAMAESフレームワークは、マスク付きイメージモデリングとインテンシティベースの拡張リバーサルに基づいており、メモリ使用量、ランタイム、微調整パフォーマンスのバランスをとる。 人気の高いU-Netと最近のMedNeXtアーキテクチャをバックボーンとして、単一シーケンス、低リソース設定、ドメイン外一般化の3つの課題に対する事前学習の効果を評価した。 その結果、AMAESを用いて提案したデータセットの事前学習は、評価事例の大部分においてセグメンテーション性能を著しく向上させ、大規模なデータセットを事前学習しているにもかかわらず、拡張によるモデルの事前訓練は有益であることがわかった。 結果の再生のためのコードとモデルチェックポイント、およびBRAINS-45Kデータセットは、 \url{https://github.com/asbjrnmunk/amaes}で利用可能である。

This study investigates the impact of self-supervised pretraining of 3D semantic segmentation models on a large-scale, domain-specific dataset. We introduce BRAINS-45K, a dataset of 44,756 brain MRI volumes from public sources, the largest public dataset available, and revisit a number of design choices for pretraining modern segmentation architectures by simplifying and optimizing state-of-the-art methods, and combining them with a novel augmentation strategy. The resulting AMAES framework is based on masked-image-modeling and intensity-based augmentation reversal and balances memory usage, runtime, and finetuning performance. Using the popular U-Net and the recent MedNeXt architecture as backbones, we evaluate the effect of pretraining on three challenging downstream tasks, covering single-sequence, low-resource settings, and out-of-domain generalization. The results highlight that pretraining on the proposed dataset with AMAES significantly improves segmentation performance in the majority of evaluated cases, and that it is beneficial to pretrain the model with augmentations, despite pretraing on a large-scale dataset. Code and model checkpoints for reproducing results, as well as the BRAINS-45K dataset are available at \url{https://github.com/asbjrnmunk/amaes}.
翻訳日:2024-08-04 20:16:43 公開日:2024-08-01
# 生成的・コントラスト的自己スーパービジョンによるEthereumフラッド検出の強化

Enhancing Ethereum Fraud Detection via Generative and Contrastive Self-supervision ( http://arxiv.org/abs/2408.00641v1 )

ライセンス: Link先を確認
Chenxiang Jin, Jiajun Zhou, Chenxuan Xie, Shanqing Yu, Qi Xuan, Xiaoniu Yang, (参考訳) Ethereumにおける不正行為の急増は、ブロックチェーンエコシステムの健全な発展を妨げ、規制の強化を必要としている。 しかし、Ethereumトランザクション環境におけるアカウント間相互作用の頻度とインタラクションタイプを含む複数の不均衡は、データマイニングベースの不正検出研究に重大な課題をもたらす。 そこで我々はまず,Ethereumにおけるインタラクション動作を洗練するためのメタインタラクションの概念を提案し,それに基づいて,メタIFD(Meta-IFD)という2つの自己スーパービジョン拡張Ethereum不正検出フレームワークを提案する。 この枠組みは、当初は、アカウントのインタラクション機能を増強する生成的なセルフスーパービジョン機構を導入し、その後、さまざまな行動パターンを区別するコントラスト的なセルフスーパービジョン機構を導入し、最終的には、アカウントの行動表現を特徴づけ、マルチビューインタラクション機能学習を通じて潜在的な不正リスクをマイニングする。 実Ethereumデータセットに対する大規模な実験は、Ponziスキームやフィッシング詐欺といった一般的なEthereum不正行為を検出する上で、我々のフレームワークの有効性と優位性を示している。 さらに、生成モジュールはEthereumデータの相互作用分布の不均衡を効果的に軽減し、対照的なモジュールは異なる振る舞いパターンを識別するフレームワークの能力を著しく向上させる。 ソースコードは近いうちにGitHubでリリースされる予定だ。

The rampant fraudulent activities on Ethereum hinder the healthy development of the blockchain ecosystem, necessitating the reinforcement of regulations. However, multiple imbalances involving account interaction frequencies and interaction types in the Ethereum transaction environment pose significant challenges to data mining-based fraud detection research. To address this, we first propose the concept of meta-interactions to refine interaction behaviors in Ethereum, and based on this, we present a dual self-supervision enhanced Ethereum fraud detection framework, named Meta-IFD. This framework initially introduces a generative self-supervision mechanism to augment the interaction features of accounts, followed by a contrastive self-supervision mechanism to differentiate various behavior patterns, and ultimately characterizes the behavioral representations of accounts and mines potential fraud risks through multi-view interaction feature learning. Extensive experiments on real Ethereum datasets demonstrate the effectiveness and superiority of our framework in detecting common Ethereum fraud behaviors such as Ponzi schemes and phishing scams. Additionally, the generative module can effectively alleviate the interaction distribution imbalance in Ethereum data, while the contrastive module significantly enhances the framework's ability to distinguish different behavior patterns. The source code will be released on GitHub soon.
翻訳日:2024-08-04 20:16:43 公開日:2024-08-01
# 視覚・言語共同学習による説明可能な顔行動単位認識に向けて

Towards End-to-End Explainable Facial Action Unit Recognition via Vision-Language Joint Learning ( http://arxiv.org/abs/2408.00644v1 )

ライセンス: Link先を確認
Xuri Ge, Junchen Fu, Fuhai Chen, Shan An, Nicu Sebe, Joemon M. Jose, (参考訳) 顔面行動符号化システム (FACS) で定義された顔面行動単位 (AUs) は、顔の状態解析における多種多様な応用により、大きな研究関心を集めている。 現在の主流のFAU認識モデルは、AU認識の精度と対応するAU状態の説明を見渡すことのみに焦点を当てる、顕著な制限がある。 本稿では,統合マルチモーダルタスクの統合によるAU表現能力と言語解釈性の向上を目的とした,説明可能なFAU認識のためのエンドツーエンドの視覚・言語共同学習ネットワーク(VL-FAU)を提案する。 具体的には、VL-FAUは言語モデルを組み合わせて、FAU認識を最適化する際に、きめ細かい局所的な筋の記述と、グローバルな顔の記述を生成する。 これにより、グローバルな顔表現とその局所的なAU表現は、異なるAUと異なる被験者の間でより高い識別性が得られる。 さらに、マルチレベルのAU表現学習を用いて、マルチスケール複合顔幹機能に基づくAU個々の注意認識表現能力を向上させる。 DISFAとBP4D AUデータセットの大規模な実験により、提案手法は、ほとんどのメトリクスにおける最先端の手法よりも優れた性能を実現することが示された。 さらに、主流のFAU認識法と比較して、VL-FAUはAUの予測による局所的およびグローバルレベルの解釈可能性言語記述を提供することができる。

Facial action units (AUs), as defined in the Facial Action Coding System (FACS), have received significant research interest owing to their diverse range of applications in facial state analysis. Current mainstream FAU recognition models have a notable limitation, i.e., focusing only on the accuracy of AU recognition and overlooking explanations of corresponding AU states. In this paper, we propose an end-to-end Vision-Language joint learning network for explainable FAU recognition (termed VL-FAU), which aims to reinforce AU representation capability and language interpretability through the integration of joint multimodal tasks. Specifically, VL-FAU brings together language models to generate fine-grained local muscle descriptions and distinguishable global face description when optimising FAU recognition. Through this, the global facial representation and its local AU representations will achieve higher distinguishability among different AUs and different subjects. In addition, multi-level AU representation learning is utilised to improve AU individual attention-aware representation capabilities based on multi-scale combined facial stem feature. Extensive experiments on DISFA and BP4D AU datasets show that the proposed approach achieves superior performance over the state-of-the-art methods on most of the metrics. In addition, compared with mainstream FAU recognition methods, VL-FAU can provide local- and global-level interpretability language descriptions with the AUs' predictions.
翻訳日:2024-08-04 20:16:43 公開日:2024-08-01
# Token Interdependency Parsing (Tipping) -- 高速かつ正確なログ解析

Token Interdependency Parsing (Tipping) -- Fast and Accurate Log Parsing ( http://arxiv.org/abs/2408.00645v1 )

ライセンス: Link先を確認
Shayan Hashemi, Mika Mäntylä, (参考訳) 過去10年間で、ソフトウェアへの適応が著しく増加し、ログデータの生産が急増し、手動のログ分析が現実的でなくなり、自動化されたメソッドの必要性が確立された。 逆に、ほとんどの自動分析ツールは、ログテンプレートをパラメータから分離するように設計されたコンポーネントを含んでいる。 本稿では,高速かつ正確なログパーサ「Tipping」を導入することを目的とする。 タイピングには、ルールベースのトークンライザ、相互依存トークングラフ、強く接続されたコンポーネント、および迅速でスケーラブルで正確なログ解析を保証するためのさまざまなテクニックが組み合わされている。 さらに、Tippingは並列化されており、線形効率に近い複数の処理コア上で動作することができる。 我々は、異常検出の精度、性能、下流タスクの観点から、他の最先端のログパーサに対してティッピングを評価した。 その結果,Tipは評価において,既存の手法よりも精度や性能に優れていたことがわかった。 より深く、Tippingはラップトップマシンで20秒以内に1100万行のログを解析できる。 さらに,従来のIpLomアルゴリズムの並列化バージョンを再実装し,並列処理の効果を実証した。 ログのボリュームと複雑性の増大が続く中、ソフトウェアエンジニアリングコミュニティは、大量のログを高精度で効率的に処理できる自動ログ分析ツールを需要に沿うようにする必要がある。 タイピングの堅牢性、汎用性、効率性、スケーラビリティは、現代の自動ログ分析タスクにとって実行可能なツールとなります。

In the last decade, an impressive increase in software adaptions has led to a surge in log data production, making manual log analysis impractical and establishing the necessity for automated methods. Conversely, most automated analysis tools include a component designed to separate log templates from their parameters, commonly referred to as a "log parser". This paper aims to introduce a new fast and accurate log parser, named "Tipping". Tipping combines rule-based tokenizers, interdependency token graphs, strongly connected components, and various techniques to ensure rapid, scalable, and precise log parsing. Furthermore, Tipping is parallelized and capable of running on multiple processing cores with close to linear efficiency. We evaluated Tipping against other state-of-the-art log parsers in terms of accuracy, performance, and the downstream task of anomaly detection. Accordingly, we found that Tipping outperformed existing methods in accuracy and performance in our evaluations. More in-depth, Tipping can parse 11 million lines of logs in less than 20 seconds on a laptop machine. Furthermore, we re-implemented a parallelized version of the past IpLom algorithm to demonstrate the effect of parallel processing, and it became the second-fastest parser. As logs keep growing in volume and complexity, the software engineering community needs to ensure automated log analysis tools keep up with the demand, being capable of efficiently handling massive volumes of logs with high accuracy. Tipping's robustness, versatility, efficiency, and scalability make it a viable tool for the modern automated log analysis task.
翻訳日:2024-08-04 20:16:43 公開日:2024-08-01
# 量子環境の熱力学的役割-熱浴から作業用貯留層まで-

Thermodynamic Roles of Quantum Environments: From Heat Baths to Work Reservoirs ( http://arxiv.org/abs/2408.00649v1 )

ライセンス: Link先を確認
Alessandra Colla, Heinz-Peter Breuer, (参考訳) 量子熱力学における環境は通常、熱浴の役割を担う。 これらの浴槽はマルコフ性であり、システムに弱い結合を持ち、熱状態で初期化される。 これらの性質の1つが欠如している場合、標準的な量子熱力学は、環境との相互作用によって生じる系の熱力学特性を扱うのにもはや適していない。 最近提案された、任意のカップリングと非マルコフ効果に有効であるオープンシステム量子熱力学の枠組みを用いて、ファノ・アンダーソン・ハミルトニアンによって記述された全く同じモデルにおいて、環境は3つの異なる熱力学的役割をとることができる。 環境の正確な役割は結合の強さと構造、および初期状態によって決定される。 後者はまた、開放系の長時間の挙動を規定し、置換された環境モードが存在する場合、初期熱状態と非平衡定常状態に対する熱平衡をもたらす。

Environments in quantum thermodynamics usually take the role of heat baths. These baths are Markovian, weakly coupled to the system, and initialized in a thermal state. Whenever one of these properties is missing, standard quantum thermodynamics is no longer suitable to treat the thermodynamic properties of the system that result from the interaction with the environment. Using a recently proposed framework for open system quantum thermodynamics which is valid for arbitrary couplings and non-Markovian effects, we show that within the very same model, described by a Fano-Anderson Hamiltonian, the environment can take three different thermodynamic roles: a standard heat bath, exchanging only heat with the system, a work reservoir, exchanging only work, and a hybrid environment, providing both types of energy exchange. The exact role of the environment is determined by the strength and structure of the coupling, and by its initial state. The latter also dictates the long time behaviour of the open system, leading to thermal equilibrium for an initial thermal state and to a nonequilibrium steady state when there are displaced environmental modes.
翻訳日:2024-08-04 20:06:59 公開日:2024-08-01
# 合成重み付きネットワークに対するディリクレ確率ブロックモデル

A Dirichlet stochastic block model for composition-weighted networks ( http://arxiv.org/abs/2408.00651v1 )

ライセンス: Link先を確認
Iuliia Promskaia, Adrian O'Hagan, Michael Fop, (参考訳) ネットワークデータは、システムの個々のエンティティが相互に相互作用したり、接続されたりする様々なアプリケーションで観測される。 クラスタリングは、ネットワーク分析において一般的なタスクであり、ネットワークの他の部分とのインタラクションの方法で類似性を示すノードのグループを見つける。 しかし、ほとんどのクラスタリング手法は、エッジを送信または受信する個々のノードの容量の違いを無視して、元の形式でエンティティ間の接続の強度を使用する。 これは多くの場合、ノードの能力に大きく影響されるクラスタリングソリューションにつながる。 これを解決する方法の1つは、接続の強度を絶対項ではなく相対項で分析し、各エッジウェイトを各ノードの送信(または受信)能力の比率として表すことである。 しかし、これは既存のクラスタリングメソッドが扱えない追加のモデリング制約を引き起こす。 本研究では,ディリクレ混合を用いた合成重みベクトルの直接モデリングに基づく合成重み付きネットワークの確率的ブロックモデルを提案する。 推論は、ネットワークの各ノードの完全なデータ確率を、残りのノードの固定クラスタラベルの関数として表現する、動作独立仮定を用いた分類期待最大化アルゴリズムの拡張によって実装される。 モデル選択基準は、クラスタ数の選択を支援するために導出される。 このモデルはシミュレーション研究を用いて検証され,Erasmus交換プログラムのネットワークデータと,ロンドン市における自転車共有ネットワークで実証された。

Network data are observed in various applications where the individual entities of the system interact with or are connected to each other, and often these interactions are defined by their associated strength or importance. Clustering is a common task in network analysis that involves finding groups of nodes displaying similarities in the way they interact with the rest of the network. However, most clustering methods use the strengths of connections between entities in their original form, ignoring the possible differences in the capacities of individual nodes to send or receive edges. This often leads to clustering solutions that are heavily influenced by the nodes' capacities. One way to overcome this is to analyse the strengths of connections in relative rather than absolute terms, expressing each edge weight as a proportion of the sending (or receiving) capacity of the respective node. This, however, induces additional modelling constraints that most existing clustering methods are not designed to handle. In this work we propose a stochastic block model for composition-weighted networks based on direct modelling of compositional weight vectors using a Dirichlet mixture, with the parameters determined by the cluster labels of the sender and the receiver nodes. Inference is implemented via an extension of the classification expectation-maximisation algorithm that uses a working independence assumption, expressing the complete data likelihood of each node of the network as a function of fixed cluster labels of the remaining nodes. A model selection criterion is derived to aid the choice of the number of clusters. The model is validated using simulation studies, and showcased on network data from the Erasmus exchange program and a bike sharing network for the city of London.
翻訳日:2024-08-04 20:06:59 公開日:2024-08-01
# 軽量光貯留層計算による多変量市場指標の多段階予測

Enhancing Multistep Prediction of Multivariate Market Indices Using Weighted Optical Reservoir Computing ( http://arxiv.org/abs/2408.00652v1 )

ライセンス: Link先を確認
Fang Wang, Ting Bu, Yuping Huang, (参考訳) 重み付き光貯水池計算システムを用いて,革新的な株価指数予測手法を提案し,実験的に実証した。 我々は、マクロ経済データと技術指標を組み合わせた基本的な市場データを構築し、株式市場のより広い振る舞いを捉える。 提案手法は,線形回帰,決定木,長期記憶を含むニューラルネットワークアーキテクチャなどの最先端手法よりも高い性能を示す。 限られたデータにもかかわらず、市場の高ボラティリティと非線形な振る舞いをうまく捉え、リアルタイム、並列、多次元のデータ処理と予測に大きな可能性を秘めている。

We propose and experimentally demonstrate an innovative stock index prediction method using a weighted optical reservoir computing system. We construct fundamental market data combined with macroeconomic data and technical indicators to capture the broader behavior of the stock market. Our approach shows significant higher performance than state-of-the-art methods such as linear regression, decision trees, and neural network architectures including long short-term memory. It captures well the market's high volatility and nonlinear behaviors despite limited data, demonstrating great potential for real-time, parallel, multi-dimensional data processing and predictions.
翻訳日:2024-08-04 20:06:59 公開日:2024-08-01
# SF3D:UVアンラッピングとイルミネーションを併用した高速3次元メッシュ再構成

SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement ( http://arxiv.org/abs/2408.00653v1 )

ライセンス: Link先を確認
Mark Boss, Zixuan Huang, Aaryaman Vasishta, Varun Jampani, (参考訳) SF3Dは,単一画像から0.5秒で高速かつ高品質なテクスチャ化されたオブジェクトメッシュ再構成手法である。 既存のほとんどのアプローチとは異なり、SF3Dはメッシュ生成のために明示的にトレーニングされており、頂点色に頼るのではなく、迅速にテクスチャ生成を可能にする高速なUVアンラッピング技術が組み込まれている。 また, 3Dメッシュの視覚的品質を高めるために, 材料パラメータと正規マップの予測も行う。 さらに、SF3Dは喜びのステップを統合して、低周波照明効果を効果的に除去し、再構成メッシュを新しい照明条件で容易に使用できるようにする。 実験では、既存の技術よりもSF3Dの方が優れた性能を示す。 プロジェクトページ: https://stable-fast-3d.github.io

We present SF3D, a novel method for rapid and high-quality textured object mesh reconstruction from a single image in just 0.5 seconds. Unlike most existing approaches, SF3D is explicitly trained for mesh generation, incorporating a fast UV unwrapping technique that enables swift texture generation rather than relying on vertex colors. The method also learns to predict material parameters and normal maps to enhance the visual quality of the reconstructed 3D meshes. Furthermore, SF3D integrates a delighting step to effectively remove low-frequency illumination effects, ensuring that the reconstructed meshes can be easily used in novel illumination conditions. Experiments demonstrate the superior performance of SF3D over the existing techniques. Project page: https://stable-fast-3d.github.io
翻訳日:2024-08-04 20:06:59 公開日:2024-08-01
# SentenceVAE:大規模言語モデルの次文予測による高速・長期・高精度推論

SentenceVAE: Faster, Longer and More Accurate Inference with Next-sentence Prediction for Large Language Models ( http://arxiv.org/abs/2408.00655v1 )

ライセンス: Link先を確認
Hongjun An, Yifan Chen, Xiaozhen Qiao, Zhe Sun, Xuelong Li, (参考訳) 現代の大規模言語モデル (LLM) は、主に推論に次世代の予測手法を用いており、処理速度を著しく損なう。 本稿では,LLMの推論効率を向上させることを目的とした,次世代予測と呼ばれる新しい推論手法を提案する。 本稿では,エンコーダとデコーダからなる小型モデルであるSentenceVAEを紹介する。 エンコーダは文内の情報を単一のトークンに効果的に凝縮し、デコーダは圧縮されたデータを元のセンテンシャル形式に再構成する。 LLMの入力層と出力層にSentenceVAEを組み込むことで,文ごとの推論手法を用いて,推論速度を著しく高速化するSentence-level LLM(SLLM)を開発する。 SentenceVAEはまた、テキストを文にセグメント化することで、元のセマンティックコンテンツの完全性を維持し、推論速度を高めながら正確性を維持する。 従来のLLMと比較して、SLLMは等価コンテキスト長よりも少ないトークンを処理し、セルフアテンション計算のメモリ要求を大幅に低減し、より長いコンテキストの処理を容易にする。 実験の結果,提案手法は推定速度を204~365%向上し,PPLを46~75%削減し,メモリオーバーヘッドを86~91%削減できることがわかった。 このアプローチの利点はモデルパラメータの増加とともにさらに増幅される。

Contemporary large language models (LLMs) predominantly utilize a next-token prediction method for inference, which significantly impedes their processing speed. In this paper, we introduce a novel inference methodology termed next-sentence prediction, aimed at enhancing the inference efficiency of LLMs. We present SentenceVAE, a tiny model consisting of an encoder and a decoder. The encoder effectively condenses the information within a sentence into a singular token, while the decoder reconstructs this compressed data back into its original sentential form. By integrating SentenceVAE into the input and output layers of LLMs, we develop Sentence-level LLMs (SLLMs) that employ a sentence-by-sentence inference approach, markedly accelerating inference speeds. SentenceVAE also maintains the integrity of the original semantic content by segmenting the text into sentences, thereby preserving accuracy while boosting inference speeds. Compared to traditional LLMs, SLLMs process fewer tokens over equivalent context lengths, significantly reducing memory demands for Self-Attention computations and facilitating the handling of longer contexts. Our experimental findings reveal that this method can increase inference speeds by 204~365%, reduce perplexity (PPL) to 46~75% of its original metric, and decrease memory overhead by 86~91% for the same context length. The advantages of this approach are further amplified with increases in model parameters.
翻訳日:2024-08-04 20:06:59 公開日:2024-08-01
# スパースオートエンコーダを用いたディエンタングリングDense Embeddings

Disentangling Dense Embeddings with Sparse Autoencoders ( http://arxiv.org/abs/2408.00657v1 )

ライセンス: Link先を確認
Charles O'Neill, Christine Ye, Kartheik Iyer, John F. Wu, (参考訳) スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。 本研究では,大言語モデルからの密接なテキスト埋め込みに対するSAEの最初の応用の1つを提示する。 計算機科学と天文学から抽象化された420,000以上の科学論文の埋め込みに関するSAEの訓練により、結果として得られたスパース表現が、解釈可能性を提供しながら意味的忠実性を維持することを示す。 我々はこれらの学習された特徴を分析し、異なるモデル能力にわたってそれらの振る舞いを探索し、様々な抽象レベルで関連する概念を表現する「機能家族」を識別する新しい方法を導入する。 提案手法の実用性を実証するために,これらの解釈可能な特徴を用いてセマンティック検索を正確に制御し,クエリセマンティクスのきめ細かい制御を可能にする方法を示す。 この研究は、密埋め込みのセマンティックリッチネスとスパース表現の解釈可能性の間のギャップを埋める。 埋め込み、訓練されたスパースオートエンコーダ、インタプリタ機能、そしてそれらを探索するためのWebアプリなどをオープンソースにしています。

Sparse autoencoders (SAEs) have shown promise in extracting interpretable features from complex neural networks. We present one of the first applications of SAEs to dense text embeddings from large language models, demonstrating their effectiveness in disentangling semantic concepts. By training SAEs on embeddings of over 420,000 scientific paper abstracts from computer science and astronomy, we show that the resulting sparse representations maintain semantic fidelity while offering interpretability. We analyse these learned features, exploring their behaviour across different model capacities and introducing a novel method for identifying ``feature families'' that represent related concepts at varying levels of abstraction. To demonstrate the practical utility of our approach, we show how these interpretable features can be used to precisely steer semantic search, allowing for fine-grained control over query semantics. This work bridges the gap between the semantic richness of dense embeddings and the interpretability of sparse representations. We open source our embeddings, trained sparse autoencoders, and interpreted features, as well as a web app for exploring them.
翻訳日:2024-08-04 20:06:59 公開日:2024-08-01
# マイクロ粒子アレイのニューロモルフィック検出と冷却

Neuromorphic detection and cooling of microparticle arrays ( http://arxiv.org/abs/2408.00661v1 )

ライセンス: Link先を確認
Yugang Ren, Benjamin Siegel, Ronghao Yin, Muddassar Rashid, James Millen, (参考訳) 真空中で浮遊する微小物体は、その低散逸運動と量子レベルでの制御の可能性により、精密センシングのためのエキサイティングなプラットフォームである。 このようなセンサーの配列は、ノイズキャンセル、方向性、感度の向上、量子状態において相関と絡み合いを利用する可能性がある。 我々は、単一イベントベースカメラによるニューロモルフィック検出を用いて、浮動小球のアレイの動きを記録する。 本稿では,3つの物体の運動を同時に冷却するリアルタイムフィードバックを実装することで,マルチ粒子制御のための最初の真にスケーラブルな手法を提案する。

Micro-objects levitated in a vacuum are an exciting platform for precision sensing due to their low dissipation motion and the potential for control at the quantum level. Arrays of such sensors would allow noise cancellation, directionality, increased sensitivity and in the quantum regime the potential to exploit correlation and entanglement. We use neuromorphic detection via a single event-based camera to record the motion of an array of levitated microspheres. We present the first truly scalable method for multiparticle control by implementing real-time feedback to cool the motion of three objects simultaneously.
翻訳日:2024-08-04 20:06:59 公開日:2024-08-01
# シングルパスにおける複数の知識グラフのアライメント

Aligning Multiple Knowledge Graphs in a Single Pass ( http://arxiv.org/abs/2408.00662v1 )

ライセンス: Link先を確認
Yaming Yang, Zhe Wang, Ziyu Guan, Wei Zhao, Weigang Lu, Xinyan Huang, (参考訳) エンティティアライメント(EA)は、異なる知識グラフ(KG)にまたがる同等のエンティティを識別することであり、これらのKGをより包括的なものにするのに役立つ。 従来のEAメソッドは主に、一対のKGの整合性に重点を置いており、私たちの知る限り、既存のEAメソッドでは、複数の(2つ以上の)KGの整合性を考慮していません。 この研究ギャップを埋めるために,本研究では,複数のKGの整合性に関する新たな課題について検討し,その解決を目的としたMultiEAというフレームワークを提案する。 まず、すべての候補KGのエンティティを共有KGエンコーダによって共通の特徴空間に埋め込む。 次に,事前整合したエンティティ間の距離を最小化する3つのアライメント戦略について検討する。 特に,高次類似性を取り入れたアライメント性能向上のための新しい推論拡張手法を提案する。 最後に、MultiEAの有効性を検証するために、2つの新しい実世界のベンチマークデータセットを構築し、それらを広範囲に実験する。 その結果,MultiEAは1回のパスで複数のKGを効果的かつ効率的にアライメントできることがわかった。

Entity alignment (EA) is to identify equivalent entities across different knowledge graphs (KGs), which can help fuse these KGs into a more comprehensive one. Previous EA methods mainly focus on aligning a pair of KGs, and to the best of our knowledge, no existing EA method considers aligning multiple (more than two) KGs. To fill this research gap, in this work, we study a novel problem of aligning multiple KGs and propose an effective framework named MultiEA to solve the problem. First, we embed the entities of all the candidate KGs into a common feature space by a shared KG encoder. Then, we explore three alignment strategies to minimize the distances among pre-aligned entities. In particular, we propose an innovative inference enhancement technique to improve the alignment performance by incorporating high-order similarities. Finally, to verify the effectiveness of MultiEA, we construct two new real-world benchmark datasets and conduct extensive experiments on them. The results show that our MultiEA can effectively and efficiently align multiple KGs in a single pass.
翻訳日:2024-08-04 20:06:59 公開日:2024-08-01
# AutoM3L: 大規模言語モデルによる自動マルチモーダル機械学習フレームワーク

AutoM3L: An Automated Multimodal Machine Learning Framework with Large Language Models ( http://arxiv.org/abs/2408.00665v1 )

ライセンス: Link先を確認
Daqin Luo, Chengjian Feng, Yuxuan Nong, Yiqing Shen, (参考訳) Automated Machine Learning (AutoML)は、マシンラーニングモデルのトレーニングを合理化する、有望なアプローチを提供する。 しかしながら、既存のAutoMLフレームワークは、多くの場合、無制限のシナリオに制限され、広範な手動設定を必要とする。 近年のLLM(Large Language Models)の進歩は、推論、対話、コード生成における例外的な能力を示し、より自動化され、ユーザフレンドリーなフレームワークを開発する機会を提示している。 この目的のために,LLMをコントローラとして活用してマルチモーダルトレーニングパイプラインを自動構築する,革新的なマルチモーダル機械学習フレームワークであるAutoM3Lを紹介した。 AutoM3Lはデータモダリティを理解し、ユーザ要求に基づいて適切なモデルを選択し、自動化と対話性を提供する。 手動の機能エンジニアリングとハイパーパラメータ最適化の必要性をなくすことで、当社のフレームワークはユーザエンゲージメントを簡素化し、ディレクティブによるカスタマイズを可能にし、従来のルールベースのAutoMLアプローチの制限に対処します。 分類,レグレッション,検索タスクにまたがる6つの多様なマルチモーダルデータセットにおけるAutoM3Lの性能と,非モーダルデータセットの包括的集合を評価する。 その結果,従来のルールベースのAutoML手法と比較して,AutoM3Lは競争力や性能に優れていた。 さらに、ユーザ調査では、ルールベースのAutoMLメソッドと比較して、私たちのフレームワークのユーザフレンドリさとユーザビリティを強調しています。

Automated Machine Learning (AutoML) offers a promising approach to streamline the training of machine learning models. However, existing AutoML frameworks are often limited to unimodal scenarios and require extensive manual configuration. Recent advancements in Large Language Models (LLMs) have showcased their exceptional abilities in reasoning, interaction, and code generation, presenting an opportunity to develop a more automated and user-friendly framework. To this end, we introduce AutoM3L, an innovative Automated Multimodal Machine Learning framework that leverages LLMs as controllers to automatically construct multimodal training pipelines. AutoM3L comprehends data modalities and selects appropriate models based on user requirements, providing automation and interactivity. By eliminating the need for manual feature engineering and hyperparameter optimization, our framework simplifies user engagement and enables customization through directives, addressing the limitations of previous rule-based AutoML approaches. We evaluate the performance of AutoM3L on six diverse multimodal datasets spanning classification, regression, and retrieval tasks, as well as a comprehensive set of unimodal datasets. The results demonstrate that AutoM3L achieves competitive or superior performance compared to traditional rule-based AutoML methods. Furthermore, a user study highlights the user-friendliness and usability of our framework, compared to the rule-based AutoML methods.
翻訳日:2024-08-04 20:06:59 公開日:2024-08-01
# ユニタリ群を超えた低深さ・コンパクト・エラー耐性フォトニックマトリクス-ベクトル乗法

Low-depth, compact and error-tolerant photonic matrix-vector multiplication beyond the unitary group ( http://arxiv.org/abs/2408.00669v1 )

ライセンス: Link先を確認
S. A. Fldzhyan, M. Yu. Saygin, S. S. Straupe, (参考訳) 大規模プログラマブルフォトニック回路は、行列ベクトル乗算のための高速かつエネルギー効率の高い手段を提供する情報処理の新たな可能性を開く。 本稿では, フォトニックニューラルネットワーク, 反復方程式解法, 量子サンプリング器で通常必要とされる, 単項変換行列を実装可能なフォトニック回路のアーキテクチャを提案する。 我々のアーキテクチャでは、従来の設計で使用されていた大きめの完全連結ミキシングブロックではなく、小型の低深さビームスプリッターメッシュを利用しており、平面集積フォトニクス技術との互換性が向上している。 我々のアーキテクチャで設計されたフォトニック回路は、標準回路よりも奥行きが低く、ハードウェアエラーに非常に耐性があることが示されている。

Large-scale programmable photonic circuits are opening up new possibilities for information processing providing fast and energy-efficient means for matrix-vector multiplication. Here, we introduce a novel architecture of photonic circuits capable of implementing non-unitary transfer matrices, usually required by photonic neural networks, iterative equation solvers or quantum samplers. Our architecture exploits compact low-depth beam-splitter meshes rather than bulky fully connected mixing blocks used in previous designs, making it more compatible with planar integrated photonics technology. We have shown that photonic circuits designed with our architecture have lower depth than their standard counterparts and are extremely tolerant to hardware errors.
翻訳日:2024-08-04 20:06:59 公開日:2024-08-01
# ExpertAF: 専門家によるビデオからのアクション可能なフィードバック

ExpertAF: Expert Actionable Feedback from Video ( http://arxiv.org/abs/2408.00672v1 )

ライセンス: Link先を確認
Kumar Ashutosh, Tushar Nagarajan, Georgios Pavlakos, Kris Kitani, Kristen Grauman, (参考訳) 新たなスキルを学んだり、現在のスキルレベルを改善するためには、フィードバックが不可欠です。 しかし、現在のビデオのスキル評価手法は、スコアのみを提供し、デモを比較することで、ユーザーに異なることをする責任を負う。 本研究では,バスケットボールやサッカーなどの身体活動を行う人の映像から,アクション可能なフィードバックを生成する新しい手法を提案する。 提案手法は,映像のデモンストレーションとそれに伴う3Dボディポーズを取り,(1)人が何をしているか,何を改善できるかを記述したフリーフォームな専門家コメントと,(2)必要な補正を組み込んだビジュアルエキスパートデモを生成する。 本稿では,Ego-Exo4Dの熟練した活動のビデオと専門家による解説を,強力な言語モデルとともに活用して,このタスクのための弱教師付きトレーニングデータセットを作成する方法を紹介し,コーチングフィードバックを推論するマルチモーダルビデオ言語モデルを考案する。 提案手法は,マルチモーダル入力の組み合わせを解析し,フルスペクトル,実用的なコーチング -- 専門家の解説,専門家のビデオ検索,そして最初の専門家のポーズ生成 -- を出力する。

Feedback is essential for learning a new skill or improving one's current skill-level. However, current methods for skill-assessment from video only provide scores or compare demonstrations, leaving the burden of knowing what to do differently on the user. We introduce a novel method to generate actionable feedback from video of a person doing a physical activity, such as basketball or soccer. Our method takes a video demonstration and its accompanying 3D body pose and generates (1) free-form expert commentary describing what the person is doing well and what they could improve, and (2) a visual expert demonstration that incorporates the required corrections. We show how to leverage Ego-Exo4D's videos of skilled activity and expert commentary together with a strong language model to create a weakly-supervised training dataset for this task, and we devise a multimodal video-language model to infer coaching feedback. Our method is able to reason across multi-modal input combinations to output full-spectrum, actionable coaching -- expert commentary, expert video retrieval, and the first-of-its-kind expert pose generation -- outperforming strong vision-language models on both established metrics and human preference studies.
翻訳日:2024-08-04 20:06:59 公開日:2024-08-01
# 確率的視線追跡データのモデル化:量子生成逆数ネットワークとマルコフモデルの比較

Modeling stochastic eye tracking data: A comparison of quantum generative adversarial networks and Markov models ( http://arxiv.org/abs/2408.00673v1 )

ライセンス: Link先を確認
Shailendra Bhandari, Pedro Lincastre, Pedro Lind, (参考訳) 本稿では,眼球運動速度データのモデル化に量子生成対向ネットワークQGANの利用について検討する。 我々は、QGANの高度な計算能力が、従来の数学的モデル、特にマルコフモデルを超えて、複雑な確率分布のモデリングを強化することができるかどうかを評価する。 その結果,QGANは複雑な分布を近似する可能性を示したが,マルコフモデルは実データ分布を正確に再現する上で常に優れていた。 この比較は、量子コンピューティング技術を用いた時系列データ生成の洗練の課題と道筋を示すものである。 量子モデルのさらなる最適化は、実世界のデータ特性とよりよく整合する必要性を強調している。

We explore the use of quantum generative adversarial networks QGANs for modeling eye movement velocity data. We assess whether the advanced computational capabilities of QGANs can enhance the modeling of complex stochastic distribution beyond the traditional mathematical models, particularly the Markov model. The findings indicate that while QGANs demonstrate potential in approximating complex distributions, the Markov model consistently outperforms in accurately replicating the real data distribution. This comparison underlines the challenges and avenues for refinement in time series data generation using quantum computing techniques. It emphasizes the need for further optimization of quantum models to better align with real-world data characteristics.
翻訳日:2024-08-04 20:06:59 公開日:2024-08-01
# コードシンク:コンフォーマーによる音楽オーディオへのコードアノテーションのアライメント

ChordSync: Conformer-Based Alignment of Chord Annotations to Music Audio ( http://arxiv.org/abs/2408.00674v1 )

ライセンス: Link先を確認
Andrea Poltronieri, Valentina Presutti, Martín Rocamora, (参考訳) 西洋音楽の伝統では、和声の主要な構成要素は和声であり、音楽の基本的次元である。 音楽情報検索(MIR)タスクの関連性にもかかわらず、コード付きオーディオデータセットは制限されており、より多様性が必要である。 これらのリソースを改善する方法のひとつは,オンラインで利用可能な多数のコードアノテーションを活用することだ。 しかし、ダイナミック・タイム・ウォーピング(DTW)に依存している既存のオーディオ・スコアアライメント技術は、正確な同期のために弱い整列データを必要とするため、この問題に対処することができない。 本稿では,コードアノテーションと音声をシームレスにアライメントする新しいコンストラクタモデルであるChordSyncを紹介し,アライメントの弱さを解消する。 また,事前に訓練されたモデルとユーザフレンドリーなライブラリを提供し,コードアノテーションとオーディオトラックをシームレスに同期させることができる。 このようにして、ChordSyncは、特に音声コード推定において、クラウドソースのコードデータを利用する機会を生み出し、新しいデータセットの生成を容易にする。 さらに,本システムは音楽教育への活用を拡大し,正確なアノテーションを提供することで音楽学習体験を向上し,学習者が同期音楽の実践を行うことを可能にする。

In the Western music tradition, chords are the main constituent components of harmony, a fundamental dimension of music. Despite its relevance for several Music Information Retrieval (MIR) tasks, chord-annotated audio datasets are limited and need more diversity. One way to improve those resources is to leverage the large number of chord annotations available online, but this requires aligning them with music audio. However, existing audio-to-score alignment techniques, which typically rely on Dynamic Time Warping (DTW), fail to address this challenge, as they require weakly aligned data for precise synchronisation. In this paper, we introduce ChordSync, a novel conformer-based model designed to seamlessly align chord annotations with audio, eliminating the need for weak alignment. We also provide a pre-trained model and a user-friendly library, enabling users to synchronise chord annotations with audio tracks effortlessly. In this way, ChordSync creates opportunities for harnessing crowd-sourced chord data for MIR, especially in audio chord estimation, thereby facilitating the generation of novel datasets. Additionally, our system extends its utility to music education, enhancing music learning experiences by providing accurately aligned annotations, thus enabling learners to engage in synchronised musical practices.
翻訳日:2024-08-04 20:06:59 公開日:2024-08-01
# 言語間要約におけるレバレッジ・エンタテインメントの判断

Leveraging Entailment Judgements in Cross-Lingual Summarisation ( http://arxiv.org/abs/2408.00675v1 )

ライセンス: Link先を確認
Huajian Zhang, Laura Perez-Beltrachini, (参考訳) 合成生成された言語間要約(CLS)データセットは、文書がサポートしていないコンテンツ(すなわち、幻覚的コンテンツ)を含むため、参照要約が対応する文書に不信である文書-要約ペアを含む傾向がある。 この低いデータ品質はモデル学習を誤解させ、評価結果を曖昧にする。 幻覚を自動評価し、トレーニングを改善する方法は、主に英語でモノリンガル要約のために提案されている。 CLSでは,既成の言語間自然言語推論(X-NLI)を用いて参照とモデル生成要約の忠実さを評価することを提案する。 そこで,本研究では,トレーニングデータにおける忠実度問題を認識したトレーニングアプローチについて検討し,不誠実な要約列に関するモデルを教えるために,不規則な損失を用いたアプローチを提案する。 以上の結果から,より忠実な要約を得られるCLSモデルを,同等あるいはより良い情報量を維持しつつ訓練することが可能であることが示唆された。

Synthetically created Cross-Lingual Summarisation (CLS) datasets are prone to include document-summary pairs where the reference summary is unfaithful to the corresponding document as it contains content not supported by the document (i.e., hallucinated content). This low data quality misleads model learning and obscures evaluation results. Automatic ways to assess hallucinations and improve training have been proposed for monolingual summarisation, predominantly in English. For CLS, we propose to use off-the-shelf cross-lingual Natural Language Inference (X-NLI) to evaluate faithfulness of reference and model generated summaries. Then, we study training approaches that are aware of faithfulness issues in the training data and propose an approach that uses unlikelihood loss to teach a model about unfaithful summary sequences. Our results show that it is possible to train CLS models that yield more faithful summaries while maintaining comparable or better informativess.
翻訳日:2024-08-04 20:06:59 公開日:2024-08-01
# 学生成功予測モデルの反実的説明に対するバランス手法の効果分析

An effect analysis of the balancing techniques on the counterfactual explanations of student success prediction models ( http://arxiv.org/abs/2408.00676v1 )

ライセンス: Link先を確認
Mustafa Cavus, Jakub Kuzilek, (参考訳) 過去10年間、私たちは高等教育におけるデジタルソリューションの利用で大きなブームを経験してきました。 このブームにより、大量のデータにより、学習者を支援し学習プロセスを調べるための高度なデータ分析手法が実現された。 学習分析における主要な研究方向の1つは、様々な機械学習手法を用いて学習者の成功を予測することである。 このような方法やシステムに対する学習者や教師の信頼を構築するためには、関連するステークホルダーが基礎となる機械学習モデルを深く理解するための方法や方法論を探求する必要がある。 この文脈では、説明可能な機械学習ツールからの反実的な説明が有望である。 いくつかのカウンターファクト生成手法は、多くの可能性を秘めているが、その特徴は効果的に動作可能で、因果的でなければならない。 したがって、デシダータ、安定性、堅牢性の観点から学生の成功予測モデルにどの反事実生成法が適合するかが不可欠である。 近年, 教育科学における対実的説明の活用に関する研究がいくつか発表されているが, どの対実的説明法がこの問題に適しているかは議論されていない。 本稿では, 対物的説明法, 対物的説明法, 対物的説明法, 対物的説明法など, 一般的な対物的説明法の有効性を考察した。 このコントリビューションは,Open University Learning Analyticsデータセットを用いて,対実的説明の実用性を示すケーススタディである。 その結果,提案手法の有効性が示され,モデルの予測を変えるための具体的な手順が説明された。

In the past decade, we have experienced a massive boom in the usage of digital solutions in higher education. Due to this boom, large amounts of data have enabled advanced data analysis methods to support learners and examine learning processes. One of the dominant research directions in learning analytics is predictive modeling of learners' success using various machine learning methods. To build learners' and teachers' trust in such methods and systems, exploring the methods and methodologies that enable relevant stakeholders to deeply understand the underlying machine-learning models is necessary. In this context, counterfactual explanations from explainable machine learning tools are promising. Several counterfactual generation methods hold much promise, but the features must be actionable and causal to be effective. Thus, obtaining which counterfactual generation method suits the student success prediction models in terms of desiderata, stability, and robustness is essential. Although a few studies have been published in recent years on the use of counterfactual explanations in educational sciences, they have yet to discuss which counterfactual generation method is more suitable for this problem. This paper analyzed the effectiveness of commonly used counterfactual generation methods, such as WhatIf Counterfactual Explanations, Multi-Objective Counterfactual Explanations, and Nearest Instance Counterfactual Explanations after balancing. This contribution presents a case study using the Open University Learning Analytics dataset to demonstrate the practical usefulness of counterfactual explanations. The results illustrate the method's effectiveness and describe concrete steps that could be taken to alter the model's prediction.
翻訳日:2024-08-04 20:06:59 公開日:2024-08-01
# 後方スケーリング: 最小限の合成事前トレーニング?

Scaling Backwards: Minimal Synthetic Pre-training? ( http://arxiv.org/abs/2408.00677v1 )

ライセンス: Link先を確認
Ryo Nakamura, Ryu Tadokoro, Ryosuke Yamada, Yuki M. Asano, Iro Laina, Christian Rupprecht, Nakamasa Inoue, Rio Yokota, Hirokatsu Kataoka, (参考訳) 事前学習と伝達学習は、現在のコンピュータビジョンシステムの重要な構成要素である。 プレトレーニングは通常、大規模な実世界の画像データセット上で実施されるが、本論文では、これが本当に必要かどうかを問う。 この目的のために、我々は、ImageNet-1kの100万枚の画像と似たパフォーマンスを達成できる最小限の、純粋に合成された事前学習データセットを探索する。 摂動を伴う単一フラクタルからそのようなデータセットを構築する。 これには3つの主要な発見がある。 (i)画像Net-1kのような大規模事前学習データセットと同等の性能で、最小限の合成画像でも事前学習が有効であることを示す。 (2)データセットに人工的なカテゴリを構築する単一パラメータについて検討する。 形状の違いは人間には区別できないが、強い性能を得るためには不可欠である。 3) 最後に, 事前学習を成功させるための最小限の要件について検討する。 驚くべきことに,合成画像の1kから1への大幅な削減は,事前学習性能の向上につながることが判明した。 最後に,本手法を合成画像から実画像へ拡張し,形状拡張による類似した事前学習効果を実画像で示せるかを確認する。 グレースケールのイメージとアフィン変換を使用することで、実際のイメージであっても‘スケールの後方’を実現できることがわかった。

Pre-training and transfer learning are an important building block of current computer vision systems. While pre-training is usually performed on large real-world image datasets, in this paper we ask whether this is truly necessary. To this end, we search for a minimal, purely synthetic pre-training dataset that allows us to achieve performance similar to the 1 million images of ImageNet-1k. We construct such a dataset from a single fractal with perturbations. With this, we contribute three main findings. (i) We show that pre-training is effective even with minimal synthetic images, with performance on par with large-scale pre-training datasets like ImageNet-1k for full fine-tuning. (ii) We investigate the single parameter with which we construct artificial categories for our dataset. We find that while the shape differences can be indistinguishable to humans, they are crucial for obtaining strong performances. (iii) Finally, we investigate the minimal requirements for successful pre-training. Surprisingly, we find that a substantial reduction of synthetic images from 1k to 1 can even lead to an increase in pre-training performance, a motivation to further investigate ``scaling backwards''. Finally, we extend our method from synthetic images to real images to see if a single real image can show similar pre-training effect through shape augmentation. We find that the use of grayscale images and affine transformations allows even real images to ``scale backwards''.
翻訳日:2024-08-04 19:57:15 公開日:2024-08-01
# Alpha-VI DeepONet:不確実性定量化によるDeepONets向上のための事前ロバスト変分ベイズ的アプローチ

Alpha-VI DeepONet: A prior-robust variational Bayesian approach for enhancing DeepONets with uncertainty quantification ( http://arxiv.org/abs/2408.00681v1 )

ライセンス: Link先を確認
Soban Nasir Lone, Subhayan De, Rajdip Nayek, (参考訳) 我々はR\'enyiの$\alpha$-divergenceを用いて一般化変分推論(GVI)を組み込んだDeepONet(DeepONet)フレームワークを導入し、不確実性を定量化しながら複素作用素を学習する。 分岐ネットワークとトランクネットワークのビルディングブロックとしてベイズニューラルネットワークを組み込むことで,不確実な定量化が可能なDeepONetを実現する。 R\'enyiの$\alpha$-divergence(英語版)(KLD)の代わりに、標準変分推論で一般的に使用されるKLDの代わりに、R\'enyiの$\alpha$-divergence(英語版)を使用することにより、変分ベイズディープノネットでよく見られる事前の誤特定に関連する問題を緩和する。 このアプローチは柔軟性と堅牢性を高めます。 変動目的関数の変更は、平均二乗誤差を最小限に抑え、テストセット上の負の対数類似性を改善するという点で、優れた結果をもたらすことを実証する。 本フレームワークの有効性は, 各種機械システムにおいて検証され, 予測精度と不確実性定量化において, 決定論的および標準KLDベースのVI DeepONetsよりも優れていた。 強靭性の度合いを制御するハイパーパラメータ $\alpha$ は、特定の問題のパフォーマンスを最適化するために調整することができる。 本稿では, 重力振子, 対流拡散, 拡散反応系など, 様々な力学問題に適用する。 我々の発見は、データ駆動型演算子学習の分野とその工学および科学分野への応用を前進させるために、$\alpha$-VI DeepONetの可能性を浮き彫りにした。

We introduce a novel deep operator network (DeepONet) framework that incorporates generalised variational inference (GVI) using R\'enyi's $\alpha$-divergence to learn complex operators while quantifying uncertainty. By incorporating Bayesian neural networks as the building blocks for the branch and trunk networks, our framework endows DeepONet with uncertainty quantification. The use of R\'enyi's $\alpha$-divergence, instead of the Kullback-Leibler divergence (KLD), commonly used in standard variational inference, mitigates issues related to prior misspecification that are prevalent in Variational Bayesian DeepONets. This approach offers enhanced flexibility and robustness. We demonstrate that modifying the variational objective function yields superior results in terms of minimising the mean squared error and improving the negative log-likelihood on the test set. Our framework's efficacy is validated across various mechanical systems, where it outperforms both deterministic and standard KLD-based VI DeepONets in predictive accuracy and uncertainty quantification. The hyperparameter $\alpha$, which controls the degree of robustness, can be tuned to optimise performance for specific problems. We apply this approach to a range of mechanics problems, including gravity pendulum, advection-diffusion, and diffusion-reaction systems. Our findings underscore the potential of $\alpha$-VI DeepONet to advance the field of data-driven operator learning and its applications in engineering and scientific domains.
翻訳日:2024-08-04 19:57:15 公開日:2024-08-01
# 非線形利用による多目的公共財ゲームにおける学習

Learning in Multi-Objective Public Goods Games with Non-Linear Utilities ( http://arxiv.org/abs/2408.00682v1 )

ライセンス: Link先を確認
Nicole Orzan, Erman Acar, Davide Grossi, Patrick Mannion, Roxana Rădulescu, (参考訳) リスクと不確実性の下で最適な意思決定をいかに達成するかという問題は、人間と協力し、支援する人工エージェントの能力を高めるために不可欠である。 本研究では,パブリック・グッズ・ゲーム(Public Goods Games)の文脈でこの問題に対処する。 我々は,多目的強化学習を用いて,エージェントが異なるリスク嗜好を持つ,新しい多目的型Public Goods Gameにおける学習について研究する。 そこで我々は,ゲームにおける集団的,個人的報酬的要素よりも,個々のエージェントのレベルにおいてリスク嗜好をモデル化するためのパラメトリック非線形ユーティリティ関数を提案する。 このような嗜好モデルと環境不確実性の間の相互作用をゲーム内のインセンティブアライメントレベルにおいて検討する。 本研究では,非協力的環境(競争的戦略が支配的な環境)における協調的パターンの出現と,協調的環境(協力的戦略が支配的な環境)における競争的パターンの維持が,個人の嗜好と環境不確実性の組み合わせの相違を実証する。

Addressing the question of how to achieve optimal decision-making under risk and uncertainty is crucial for enhancing the capabilities of artificial agents that collaborate with or support humans. In this work, we address this question in the context of Public Goods Games. We study learning in a novel multi-objective version of the Public Goods Game where agents have different risk preferences, by means of multi-objective reinforcement learning. We introduce a parametric non-linear utility function to model risk preferences at the level of individual agents, over the collective and individual reward components of the game. We study the interplay between such preference modelling and environmental uncertainty on the incentive alignment level in the game. We demonstrate how different combinations of individual preferences and environmental uncertainties sustain the emergence of cooperative patterns in non-cooperative environments (i.e., where competitive strategies are dominant), while others sustain competitive patterns in cooperative environments (i.e., where cooperative strategies are dominant).
翻訳日:2024-08-04 19:57:15 公開日:2024-08-01
# ラオの二次指数の偏りのない推定値を用いた概念空間の多様性の評価

Assessing the Variety of a Concept Space Using an Unbiased Estimate of Rao's Quadratic Index ( http://arxiv.org/abs/2408.00684v1 )

ライセンス: Link先を確認
Anubhab Majumder, Ujjwal Pal, Amaresh Chakrabarti, (参考訳) 過去の研究は、デザインの創造性を「分権的思考」、すなわち、デザインの初期段階において、どのようにして概念空間が探検されるかに関係している。 研究者は、いくつかの概念を生成することはより良い設計ソリューションを生み出す可能性を高めるだろうと主張している。 「バラエティ」は、デザイナーが探求する概念空間の幅を定量化できるパラメータの1つである。 概念設計段階での多様性を評価することは有用である。なぜなら、この段階では、デザイナーは、全く新しい概念で設計問題を満足するために、異なる解決原則を探求する自由があるからである。 この記事では、エンジニアリング設計の文献から既存のさまざまなメトリクスを詳細に検討し、それらの制限について論じます。 評価プロセスを支援するための規範的フレームワークとともに,新しい距離に基づく多様性指標を提案する。 本フレームワークは,2つの設計概念間の実測距離を測定するための知識表現スキームとして,因果関係のSAPPhIREモデルを用いる。 提案するフレームワークは,“VariAnT”と呼ばれるソフトウェアツールで実装されている。 さらに、ツールのアプリケーションは、例示的な例で示されています。

Past research relates design creativity to 'divergent thinking,' i.e., how well the concept space is explored during the early phase of design. Researchers have argued that generating several concepts would increase the chances of producing better design solutions. 'Variety' is one of the parameters by which one can quantify the breadth of a concept space explored by the designers. It is useful to assess variety at the conceptual design stage because, at this stage, designers have the freedom to explore different solution principles so as to satisfy a design problem with substantially novel concepts. This article elaborates on and critically examines the existing variety metrics from the engineering design literature, discussing their limitations. A new distance-based variety metric is proposed, along with a prescriptive framework to support the assessment process. This framework uses the SAPPhIRE model of causality as a knowledge representation scheme to measure the real-valued distance between two design concepts. The proposed framework is implemented in a software tool called 'VariAnT.' Furthermore, the tool's application is demonstrated through an illustrative example.
翻訳日:2024-08-04 19:57:15 公開日:2024-08-01
# 開発者は前進できるか? コードドキュメンテーション生成のための制御された実験

Can Developers Prompt? A Controlled Experiment for Code Documentation Generation ( http://arxiv.org/abs/2408.00686v1 )

ライセンス: Link先を確認
Hans-Alexander Kruse, Tim Puhlfürß, Walid Maalej, (参考訳) 大規模言語モデル(LLM)は、コードドキュメンテーションの作成や保守といった面倒な開発タスクを自動化する大きな可能性を秘めています。 しかし、開発者はLLMに簡潔で有用なドキュメントを作成するよう効果的に促すことができるかは不明だ。 2つのPython関数のためのコードドキュメンテーション生成を専門とする20人のプロと30人のコンピュータサイエンス学生による制御実験について報告する。 実験グループは、Visual Studio CodeのChatGPTのような拡張でアドホックプロンプトを自由に入力し、コントロールグループは事前に定義された数発のプロンプトを実行した。 その結果, プロや学生は, 素早い工学的手法を知らないか, 適用できなかったことが明らかとなった。 特に、アドホックなプロンプトから生成されたドキュメントは、読みやすく、簡潔で、準備されたプロンプトからのドキュメントよりも有用でないと学生は感じた。 一部のプロフェッショナルは、アドホックなプロンプトにDocstringというキーワードを含めることで、高品質なドキュメントを作成しました。 学生はプロンプトの定式化により多くの支援を望んだが、プロはアドホックなプロンプトの柔軟性を高く評価した。 両グループの参加者は、アウトプットを完璧と評価することはめったになかった。 代わりに彼らは、ツールがドキュメントを反復的に洗練するためのサポートであると理解した。 開発者が持つスキルや好みを理解し、特定のタスクに必要なサポートを理解するためには、さらなる研究が必要である。

Large language models (LLMs) bear great potential for automating tedious development tasks such as creating and maintaining code documentation. However, it is unclear to what extent developers can effectively prompt LLMs to create concise and useful documentation. We report on a controlled experiment with 20 professionals and 30 computer science students tasked with code documentation generation for two Python functions. The experimental group freely entered ad-hoc prompts in a ChatGPT-like extension of Visual Studio Code, while the control group executed a predefined few-shot prompt. Our results reveal that professionals and students were unaware of or unable to apply prompt engineering techniques. Especially students perceived the documentation produced from ad-hoc prompts as significantly less readable, less concise, and less helpful than documentation from prepared prompts. Some professionals produced higher quality documentation by just including the keyword Docstring in their ad-hoc prompts. While students desired more support in formulating prompts, professionals appreciated the flexibility of ad-hoc prompting. Participants in both groups rarely assessed the output as perfect. Instead, they understood the tools as support to iteratively refine the documentation. Further research is needed to understand which prompting skills and preferences developers have and which support they need for certain tasks.
翻訳日:2024-08-04 19:57:15 公開日:2024-08-01
# 速度制限による都市労働者の安全向上:チリ・サンティアゴにおける交通事故の10年を振り返って

Speed Limit Reduction Enhances Urban Worker Safety: Evidence from a Decade of Traffic Incidents in Santiago, Chile ( http://arxiv.org/abs/2408.00687v1 )

ライセンス: Link先を確認
Eduardo Graells-Garrido, Matías Toro, Gabriel Mansilla, Matías Nicolai, Santiago Mansilla, Jocelyn Dunstan, (参考訳) 労働関連の交通事故は都市移動と生産性に大きな影響を及ぼす。 本研究では、チリのサンティアゴにおける10年間の労働関連交通事故データ(2012-2021)を、大手社会保険会社の記録を用いて分析する。 都市部および農村部におけるこれらの出来事における時間的・空間的・人口動態について検討する。 また,2018年都市速度制限法が事故重大度に与える影響についても検討した。 陰性二項回帰を用いて, 所定休日で測定した傷害重症度に, 速度制限の変化を含む様々な要因がどのような影響を及ぼすかを評価する。 分析の結果,異なる時間,場所,人口集団にまたがる個別の事故発生パターンと重症度パターンが明らかとなった。 オートバイとサイクルは、自動車と比較して、それぞれ26.94と13.06の医療休暇の限界効果で、より重傷を負っていることがわかった。 女性労働者は重傷を負いがちで、平均で7.57日間の医療休暇を減らしている。 年齢も重要な要因であり、毎年0.57日間の休暇に関連付けられている。 特に、都市部における交通事故の所定医療休暇の4.26日短縮に伴う都市速度制限の削減は、作業関連交通事故の傷害重症度低減に寄与すると考えられる。 本研究は,都市計画,交通政策,職場安全イニシアチブに対する洞察を提供し,道路安全の向上と作業関連事故の経済的影響を最小化するための都市部におけるスピードマネジメントの潜在的メリットを強調した。

Work-related traffic incidents significantly impact urban mobility and productivity. This study analyzes a decade of work-related traffic incident data (2012--2021) in Santiago, Chile, using records from a major social insurance company. We explore temporal, spatial, and demographic patterns in these incidents in urban and rural areas. We also evaluate the impact of a 2018 urban speed limit reduction law on incident injury severity. Using negative binomial regression, we assess how various factors, including the speed limit change, affect injury severity measured by prescribed medical leave days. Our analysis reveals distinct incident occurrence and severity patterns across different times, locations, and demographic groups. We find that motorcycles and cycles are associated with more severe injuries, with marginal effects of 26.94 and 13.06 additional days of medical leave, respectively, compared to motorized vehicles. Female workers tend to have less severe injuries, with an average of 7.57 fewer days of medical leave. Age is also a significant factor, with each year associated with 0.57 additional days of leave. Notably, the urban speed limit reduction is associated with a decrease of 4.26 days in prescribed medical leave for incidents in urban areas, suggesting that lower speed limits contribute to reduced injury severity in work-related traffic incidents. Our results provide insights for urban planning, transportation policy, and workplace safety initiatives, highlighting the potential benefits of speed management in urban areas for improving road safety and minimizing the economic impact of work-related incidents.
翻訳日:2024-08-04 19:57:15 公開日:2024-08-01
# コントラスト微調整による小言語モデルのテキスト埋め込みの改善

Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning ( http://arxiv.org/abs/2408.00690v1 )

ライセンス: Link先を確認
Trapoom Ukarapol, Zhicheng Lee, Amy Xin, (参考訳) 大規模言語モデルは、自然言語理解において顕著な性能を示すが、そのリソース集約性は、言語をアクセスしにくくする。 対照的に、MiniCPMのような小さな言語モデルは、より持続的なスケーラビリティを提供するが、特殊最適化なしでは性能が劣ることが多い。 本稿では,テキスト埋め込みの改良を通じて,より小さな言語モデルの強化について検討する。 NLIデータセット上で対照的な微調整を行うために,MiniCPM,Phi-2,Gemmaの3つの言語モデルを選択する。 以上の結果から, この微調整手法により, 各種ベンチマークにおける3つのモデルすべてに対するテキスト埋め込みの質が向上し, 平均56.33倍の性能向上率の最も重要な改善点がMiniCPMであることがわかった。 対照的な微調整コードはhttps://github.com/trapoom555/Language-Model-STS-CFTで公開されている。

While Large Language Models show remarkable performance in natural language understanding, their resource-intensive nature makes them less accessible. In contrast, smaller language models such as MiniCPM offer more sustainable scalability, but often underperform without specialized optimization. In this paper, we explore the enhancement of smaller language models through the improvement of their text embeddings. We select three language models, MiniCPM, Phi-2, and Gemma, to conduct contrastive fine-tuning on the NLI dataset. Our results demonstrate that this fine-tuning method enhances the quality of text embeddings for all three models across various benchmarks, with MiniCPM showing the most significant improvements of an average 56.33\% performance gain. The contrastive fine-tuning code is publicly available at https://github.com/trapoom555/Language-Model-STS-CFT.
翻訳日:2024-08-04 19:57:15 公開日:2024-08-01
# 量子熱機械の時間分解確率ダイナミクス

Time-resolved Stochastic Dynamics of Quantum Thermal Machines ( http://arxiv.org/abs/2408.00694v1 )

ライセンス: Link先を確認
Abhaya S. Hegde, Patrick P. Potts, Gabriel T. Landi, (参考訳) 定常量子熱機械は典型的には異なる貯水池間の連続した熱の流れによって特徴づけられる。 しかし、離散確率的実現のレベルでは、熱流は一連の急激な量子ジャンプとして展開され、それぞれが環境との有限量子の交換を表す。 本研究では, 量子熱機械の力学を, エンジンライク, 冷却ライク, アイドルに分類されるサイクルに分解する枠組みを提案する。 それぞれのサイクルタイプとその期間の統計を調査し、熱力学的タスクに有用なサイクルの分数と、同じタイプのサイクル間の平均待ち時間の両方を決定できる。 この枠組みは, 量子ドットを用いたメソスコピック輸送などの近代的な実験に大きく関係している。

Steady-state quantum thermal machines are typically characterized by a continuous flow of heat between different reservoirs. However, at the level of discrete stochastic realizations, heat flow is unraveled as a series of abrupt quantum jumps, each representing the exchange of finite quanta with the environment. In this work, we present a framework that resolves the dynamics of quantum thermal machines into cycles that are classified as engine-like, cooling-like, or idle. We explore the statistics of each cycle type and its duration, enabling us to determine both the fraction of cycles useful for thermodynamic tasks and the average waiting time between cycles of the same type. Our framework presents a novel approach in characterizing thermal machines, with significant relevance to modern experiments, such as mesoscopic transport using quantum dots.
翻訳日:2024-08-04 19:57:15 公開日:2024-08-01
# 伝達学習による全波形インバージョン高速化

Accelerating Full Waveform Inversion By Transfer Learning ( http://arxiv.org/abs/2408.00695v1 )

ライセンス: Link先を確認
Divya Shyam Singh, Leon Herrmann, Qing Sun, Tim Bürchner, Felix Dietrich, Stefan Kollmannsberger, (参考訳) フルウェーブフォーム・インバージョン (FWI) は、波動伝搬によって得られた疎測定データに基づいて材料フィールドを再構築する強力なツールである。 特定の問題に対して、ニューラルネットワーク(NN)による材料フィールドの識別は、対応する最適化問題の堅牢性と再構築品質を向上させる。 この手法をNNベースのFWIと呼ぶ。 最初の推測から始めると、NNの重みは反復的に更新され、シミュレーションされた波信号と疎測定されたデータセットに適合する。 勾配に基づく最適化では、初期推定の適切な選択、すなわち適切なNN重み初期化が高速で堅牢な収束に不可欠である。 本稿では,NNベースのFWIをさらに改善するために,新しいトランスファー学習手法を提案する。 このアプローチでは、教師付き事前学習を活用して、NNウェイトの初期化を向上し、その後の最適化問題をより早く収束させる。 さらに、反転は物理的により有意義な局所ミニマをもたらす。 ネットワークは、従来のFWIの第1イテレーションからの勾配情報を用いて、未知の物質場を予測するために事前訓練される。 2次元領域に関する計算実験では、トレーニングデータセットは、異なる形状と向きの楕円空隙を任意に配置した基準シミュレーションで構成されている。 提案手法は, 従来のFWI, NNベースのFWI, 従来のFWIと, 事前訓練したNNから予測された推定値とを比較した。 この結果から, NN-based FWIはコンバージェンス速度や再構成品質において, 他の手法よりも優れていることがわかった。

Full waveform inversion (FWI) is a powerful tool for reconstructing material fields based on sparsely measured data obtained by wave propagation. For specific problems, discretizing the material field with a neural network (NN) improves the robustness and reconstruction quality of the corresponding optimization problem. We call this method NN-based FWI. Starting from an initial guess, the weights of the NN are iteratively updated to fit the simulated wave signals to the sparsely measured data set. For gradient-based optimization, a suitable choice of the initial guess, i.e., a suitable NN weight initialization, is crucial for fast and robust convergence. In this paper, we introduce a novel transfer learning approach to further improve NN-based FWI. This approach leverages supervised pretraining to provide a better NN weight initialization, leading to faster convergence of the subsequent optimization problem. Moreover, the inversions yield physically more meaningful local minima. The network is pretrained to predict the unknown material field using the gradient information from the first iteration of conventional FWI. In our computational experiments on two-dimensional domains, the training data set consists of reference simulations with arbitrarily positioned elliptical voids of different shapes and orientations. We compare the performance of the proposed transfer learning NN-based FWI with three other methods: conventional FWI, NN-based FWI without pretraining and conventional FWI with an initial guess predicted from the pretrained NN. Our results show that transfer learning NN-based FWI outperforms the other methods in terms of convergence speed and reconstruction quality.
翻訳日:2024-08-04 19:57:15 公開日:2024-08-01
# グラニュラーボールを用いたファジィツイン支持ベクトルマシンの分類

Granular-Balls based Fuzzy Twin Support Vector Machine for Classification ( http://arxiv.org/abs/2408.00699v1 )

ライセンス: Link先を確認
Lixi Zhao, Weiping Ding, Duoqian Miao, Guangming Lang, (参考訳) ツインサポートベクターマシン (TWSVM) は計算量が少ないため注目されている。 しかし,ノイズの影響を受ければ劣化する傾向にある。 グラニュラーボールファジィ支持ベクトルマシン(GBFSVM)分類器は、ノイズの悪影響を部分的に軽減するが、グラニュラーボール中心とクラス中心の間の距離にのみ依存し、グラニュラーボールメンバシップ関数を設計する。 本稿では,まず,グラニュラーボール型サポートベクトルマシン(GBTWSVM)の分類器を紹介し,その分類器として,グラニュラーボール型サポートベクトルマシン(GBC)とTWSVM(TWSVM)の分類器を統合する。 従来の点入力をグラニュラーボールに置き換えることで、二次計画問題の解法により、GBTWSVM分類器に対して2つの非並列超平面を導出する方法を実証する。 次に, ピタゴラスファジィ集合を用いて粒状球の会員シップと非会員シップ機能を設計し, 様々な領域における粒状球の寄与を区別する。 さらに, GBC をファジィ・ツインサポート・ベクター・マシン (FTSVM) に組み込むことにより, 粒界ファジィ・ツインサポート・ベクター・マシン (GBFTSVM) の分類器を開発する。 本稿では,GBFTSVM分類器に対して,二次計画問題の解法により並列でない超平面を導出する方法を示す。 また,GBTSVM分類器とGBFTSVM分類器のアルゴリズムを設計する。 最後に、GBTWSVM分類器とGBFTSVM分類器の20ベンチマークデータセットにおける優れた分類性能は、分類タスクのスケーラビリティ、効率、堅牢性を示している。

The twin support vector machine (TWSVM) classifier has attracted increasing attention because of its low computational complexity. However, its performance tends to degrade when samples are affected by noise. The granular-ball fuzzy support vector machine (GBFSVM) classifier partly alleviates the adverse effects of noise, but it relies solely on the distance between the granular-ball's center and the class center to design the granular-ball membership function. In this paper, we first introduce the granular-ball twin support vector machine (GBTWSVM) classifier, which integrates granular-ball computing (GBC) with the twin support vector machine (TWSVM) classifier. By replacing traditional point inputs with granular-balls, we demonstrate how to derive a pair of non-parallel hyperplanes for the GBTWSVM classifier by solving a quadratic programming problem. Subsequently, we design the membership and non-membership functions of granular-balls using Pythagorean fuzzy sets to differentiate the contributions of granular-balls in various regions. Additionally, we develop the granular-ball fuzzy twin support vector machine (GBFTSVM) classifier by incorporating GBC with the fuzzy twin support vector machine (FTSVM) classifier. We demonstrate how to derive a pair of non-parallel hyperplanes for the GBFTSVM classifier by solving a quadratic programming problem. We also design algorithms for the GBTSVM classifier and the GBFTSVM classifier. Finally, the superior classification performance of the GBTWSVM classifier and the GBFTSVM classifier on 20 benchmark datasets underscores their scalability, efficiency, and robustness in tackling classification tasks.
翻訳日:2024-08-04 19:57:15 公開日:2024-08-01
# どちらを無視できない:ロバストなグラフ学習のための構造と特徴を統一する

You Can't Ignore Either: Unifying Structure and Feature Denoising for Robust Graph Learning ( http://arxiv.org/abs/2408.00700v1 )

ライセンス: Link先を確認
Tianmeng Yang, Jiahao Meng, Min Zhou, Yaming Yang, Yujing Wang, Xiangtai Li, Yunhai Tong, (参考訳) 雑音や攻撃下でのグラフニューラルネットワーク(GNN)のロバスト性に関する最近の研究は、現実の応用における重要性から大きな注目を集めている。 従来の手法では、単一ノイズ源を探索し、信頼性のある構造バイアスによる破損ノードの埋め込みを回復したり、信頼性のあるノード特徴を持つ構造学習を開発する。 しかし、ノイズや攻撃はグラフの構造と特徴の両方から生じる可能性があるため、グラフはジレンマで困難な問題である。 本稿では,構造と特徴のデッドロックを解消する統一グラフデノイング(UGD)フレームワークを開発する。 具体的には,特徴が同時に乱れてしまうことを考慮し,ノイズエッジを認識するために,高次近接評価法を提案する。 さらに,グラフオートエンコーダをベースとした再構成による雑音特性の洗練も提案する。 反復的更新アルゴリズムは、フレームワークを最適化し、クリーンなグラフを取得するように設計されており、下流タスクに対する堅牢なグラフ学習を可能にする。 我々のUGDフレームワークは自己管理されており、プラグイン・アンド・プレイモジュールとして容易に実装できる。 提案手法の有効性と利点を実証する広範な実験を行う。 コードはhttps://github.com/YoungTimmy/UGD.comにある。

Recent research on the robustness of Graph Neural Networks (GNNs) under noises or attacks has attracted great attention due to its importance in real-world applications. Most previous methods explore a single noise source, recovering corrupt node embedding by reliable structures bias or developing structure learning with reliable node features. However, the noises and attacks may come from both structures and features in graphs, making the graph denoising a dilemma and challenging problem. In this paper, we develop a unified graph denoising (UGD) framework to unravel the deadlock between structure and feature denoising. Specifically, a high-order neighborhood proximity evaluation method is proposed to recognize noisy edges, considering features may be perturbed simultaneously. Moreover, we propose to refine noisy features with reconstruction based on a graph auto-encoder. An iterative updating algorithm is further designed to optimize the framework and acquire a clean graph, thus enabling robust graph learning for downstream tasks. Our UGD framework is self-supervised and can be easily implemented as a plug-and-play module. We carry out extensive experiments, which proves the effectiveness and advantages of our method. Code is avalaible at https://github.com/YoungTimmy/UGD.
翻訳日:2024-08-04 19:57:15 公開日:2024-08-01
# ワンショット物体認識・検出のためのジョイントニューラルネットワーク

Joint Neural Networks for One-shot Object Recognition and Detection ( http://arxiv.org/abs/2408.00701v1 )

ライセンス: Link先を確認
Camilo J. Vargas, Qianni Zhang, Ebroul Izquierdo, (参考訳) 本稿では,一発物体の認識と検出に難渋する課題に対処する,新しい結合ニューラルネットワーク手法を提案する。 Siameseのニューラルネットワークと最先端のマルチボックス検出アプローチにインスパイアされたジョイントニューラルネットワークは、トレーニングプロセス中に見つからないカテゴリのオブジェクト認識と検出を行うことができる。 ワンショットのオブジェクト認識/検出の制約に従って、トレーニングとテストのデータセットには重複したクラスが含まれていない。 結合ネットワークアーキテクチャは、クエリとターゲット入力の積み重ねた畳み込み層を介して画像のペアを効果的に比較することができ、このカテゴリに関する以前のトレーニングに頼ることなく、同じ入力クエリカテゴリのパターンを認識することができる。 提案手法は,COCOデータセットでトレーニングし,Pascal VOCデータセットを用いてテストした場合に,MiniImageNetデータセット上での1ショットオブジェクト認識の61.41%精度と1ショットオブジェクト検出の47.1%mAPを実現する。 https://github.com/cjvargasc/JNN recog and https://github.com/cjvargasc/JNN detection/

This paper presents a novel joint neural networks approach to address the challenging one-shot object recognition and detection tasks. Inspired by Siamese neural networks and state-of-art multi-box detection approaches, the joint neural networks are able to perform object recognition and detection for categories that remain unseen during the training process. Following the one-shot object recognition/detection constraints, the training and testing datasets do not contain overlapped classes, in other words, all the test classes remain unseen during training. The joint networks architecture is able to effectively compare pairs of images via stacked convolutional layers of the query and target inputs, recognising patterns of the same input query category without relying on previous training around this category. The proposed approach achieves 61.41% accuracy for one-shot object recognition on the MiniImageNet dataset and 47.1% mAP for one-shot object detection when trained on the COCO dataset and tested using the Pascal VOC dataset. Code available at https://github.com/cjvargasc/JNN recog and https://github.com/cjvargasc/JNN detection/
翻訳日:2024-08-04 19:57:15 公開日:2024-08-01
# 人間移動科学の将来展望

Future Directions in Human Mobility Science ( http://arxiv.org/abs/2408.00702v1 )

ライセンス: Link先を確認
Luca Pappalardo, Ed Manley, Vedran Sekara, Laura Alessandretti, (参考訳) 我々は、人間の移動科学の簡単なレビューと、大きな進歩を期待する3つの重要な領域を提示する。 心から始め、空間認知がモビリティパターンをどのように形成するかをよりよく理解する必要性について論じる。 社会に移行し、新しい交通形態をよりよく理解することの重要性を論じる。 我々は、アルゴリズムがモビリティの振る舞いをどのように形成し、モデリングに有用なツールを提供するかについて論じる。 最後に、これらの研究の方向性の進展が、現在社会が直面している課題のいくつかにどのように取り組むかについて議論する。

We provide a brief review of human mobility science and present three key areas where we expect to see substantial advancements. We start from the mind and discuss the need to better understand how spatial cognition shapes mobility patterns. We then move to societies and argue the importance of better understanding new forms of transportation. We conclude by discussing how algorithms shape mobility behaviour and provide useful tools for modellers. Finally, we discuss how progress in these research directions may help us address some of the challenges our society faces today.
翻訳日:2024-08-04 19:57:15 公開日:2024-08-01
# アジャイルソフトウェア開発における人工知能の将来

Future of Artificial Intelligence in Agile Software Development ( http://arxiv.org/abs/2408.00703v1 )

ライセンス: Link先を確認
Mariyam Mahboob, Mohammed Rayyan Uddin Ahmed, Zoiba Zia, Mariam Shakeel Ali, Ayman Khaleel Ahmed, (参考訳) 人工知能の出現は、ソフトウェア開発の風景を変えるのに使える有望な利点を持っている。 ソフトウェアプロセスフレームワークは、定期的にヒューマンインタラクションを必要とするアクティビティで構成されており、エラーや不確実性の可能性をもたらします。 AIは、LCM、GenAIモデル、AIエージェントを活用して、ルーチンタスクの実行、リスク分析と予測、戦略レコメンデーション、意思決定のサポートによって、ソフトウェア開発マネージャ、ソフトウェアテスタ、その他のチームメンバーを支援することができる。 AIは、プロジェクトの成功率を高めながら、効率を高め、プロジェクト管理チームが直面するリスクを低減する可能性がある。 さらに、ステークホルダーが情報的な決定を下すための複雑な概念や開発プロセスを分解することもできます。 本稿では,近年業界でますます好まれているアジャイルソフトウェアプロジェクトにおいて,AIツールと技術を最大限に活用するためのアプローチを提案する。

The advent of Artificial intelligence has promising advantages that can be utilized to transform the landscape of software project development. The Software process framework consists of activities that constantly require routine human interaction, leading to the possibility of errors and uncertainties. AI can assist software development managers, software testers, and other team members by leveraging LLMs, GenAI models, and AI agents to perform routine tasks, risk analysis and prediction, strategy recommendations, and support decision making. AI has the potential to increase efficiency and reduce the risks encountered by the project management team while increasing the project success rates. Additionally, it can also break down complex notions and development processes for stakeholders to make informed decisions. In this paper, we propose an approach in which AI tools and technologies can be utilized to bestow maximum assistance for agile software projects, which have become increasingly favored in the industry in recent years.
翻訳日:2024-08-04 19:57:15 公開日:2024-08-01
# セグメントベーステストケース優先順位付け:多目的アプローチ

Segment-Based Test Case Prioritization: A Multi-objective Approach ( http://arxiv.org/abs/2408.00705v1 )

ライセンス: Link先を確認
Hieu Huynh, Nhu Pham, Tien N. Nguyen, Vu Nguyen, (参考訳) 特にユーザインターフェース(UI)テストでは、複数のマイクロサービスを同時に検証しなければならない。 テストケース優先順位付け(TCP)は、一般に障害検出率を高めることを目的とした、客観的関数を最大化する実行順序でテストケースをスケジューリングすることで、この問題に対処するコスト効率の高いソリューションである。 TCPにはいくつかの技術が提案されているが、ほとんどの場合、UIテストでは利用できないソースコード情報に依存している。 本稿では、進化的検索アルゴリズムとWebページ要素に着目した4つのカバレッジ基準を用いて、UIテストケースの優先順位付けのための多目的最適化手法を提案する。 提案手法は,ソースコード情報を必要としない2つの進化的アルゴリズム (AGE-MOEA と NSGA-II) を用いて評価し,11個のテストスイートからなる自己コンパイルデータセット上の他のTCP手法と比較した。 その結果,AFD(Average Percentage of Faults Detected)とAPFD with Cost(APFDc)では,それぞれ87.8\%,79.2\%のスコアが得られた。 また、新しいデータセットを導入し、実証実験を通じて既存のデータセットに対するアプローチの大幅な改善を実証する。 この論文の貢献には、TCPにおけるWebページセグメンテーションの適用、UI TCPのための新しいデータセットの構築、我々のアプローチの改善を示す実証的な比較が含まれる。

Regression testing of software is a crucial but time-consuming task, especially in the context of user interface (UI) testing where multiple microservices must be validated simultaneously. Test case prioritization (TCP) is a cost-efficient solution to address this by scheduling test cases in an execution order that maximizes an objective function, generally aimed at increasing the fault detection rate. While several techniques have been proposed for TCP, most rely on source code information which is usually not available for UI testing. In this paper, we introduce a multi-objective optimization approach to prioritize UI test cases, using evolutionary search algorithms and four coverage criteria focusing on web page elements as objectives for the optimization problem. Our method, which does not require source code information, is evaluated using two evolutionary algorithms (AGE-MOEA and NSGA-II) and compared with other TCP methods on a self-collected dataset of 11 test suites. The results show that our approach significantly outperforms other methods in terms of Average Percentage of Faults Detected (APFD) and APFD with Cost (APFDc), achieving the highest scores of 87.8\% and 79.2\%, respectively. We also introduce a new dataset and demonstrate the significant improvement of our approach over existing ones via empirical experiments. The paper's contributions include the application of web page segmentation in TCP, the construction of a new dataset for UI TCP, and empirical comparisons that demonstrate the improvement of our approach.
翻訳日:2024-08-04 19:57:15 公開日:2024-08-01
# Box-prompted MedSAM を用いた点制御脳腫瘍切除

Point-supervised Brain Tumor Segmentation with Box-prompted MedSAM ( http://arxiv.org/abs/2408.00706v1 )

ライセンス: Link先を確認
Xiaofeng Liu, Jonghye Woo, Chao Ma, Jinsong Ouyang, Georges El Fakhri, (参考訳) 画像ガイド下手術では病変と解剖学的構造が重要である。 点監督型医用画像セグメンテーション(PSS)は、コストの高い専門家によるデラインラベリングを緩和する大きな可能性を秘めている。 しかし、正確なサイズと境界ガイダンスが欠如しているため、PSSの有効性は期待に届かなかった。 最近のビジョンベースモデル、例えば医療セグメントモデル(MedSAM)は、バウンディングボックスがプロンプトするセグメンテーションにおいて大きな進歩を遂げているが、ポイントアノテーションを利用するのは容易ではなく、意味的あいまいな傾向がある。 本稿では,意味認識型ポイント管理型MedSAMを実現するための反復的フレームワークを提案する。 具体的には、セマンティックボックスプロンプトジェネレータ(SBPG)モジュールは、入力された点を潜在的な擬似有界ボックス提案に変換する能力を有しており、これはプロトタイプベースのセマンティック類似性によって明確に洗練されている。 その後、プロンプト誘導空間改良(PGSR)モジュールが成功し、このモジュールはMedSAMの例外的な一般化性を利用してセグメンテーションマスクを推論し、SBPGのボックス提案シードも更新する。 パフォーマンスは、適切なイテレーションで徐々に改善される。 われわれはBraTS2018を用いて脳腫瘍の分節評価を行い,従来のPSS法と比較し,ボックス管理法と同等の性能を示した。

Delineating lesions and anatomical structure is important for image-guided interventions. Point-supervised medical image segmentation (PSS) has great potential to alleviate costly expert delineation labeling. However, due to the lack of precise size and boundary guidance, the effectiveness of PSS often falls short of expectations. Although recent vision foundational models, such as the medical segment anything model (MedSAM), have made significant advancements in bounding-box-prompted segmentation, it is not straightforward to utilize point annotation, and is prone to semantic ambiguity. In this preliminary study, we introduce an iterative framework to facilitate semantic-aware point-supervised MedSAM. Specifically, the semantic box-prompt generator (SBPG) module has the capacity to convert the point input into potential pseudo bounding box suggestions, which are explicitly refined by the prototype-based semantic similarity. This is then succeeded by a prompt-guided spatial refinement (PGSR) module that harnesses the exceptional generalizability of MedSAM to infer the segmentation mask, which also updates the box proposal seed in SBPG. Performance can be progressively improved with adequate iterations. We conducted an evaluation on BraTS2018 for the segmentation of whole brain tumors and demonstrated its superior performance compared to traditional PSS methods and on par with box-supervised methods.
翻訳日:2024-08-04 19:47:32 公開日:2024-08-01
# 距離関数をカスタマイズしたマイクログラフのセマンティックセグメンテーションにおけるラベリング工数削減のための合成二重画像生成

Synthetic dual image generation for reduction of labeling efforts in semantic segmentation of micrographs with a customized metric function ( http://arxiv.org/abs/2408.00707v1 )

ライセンス: Link先を確認
Matias Oscar Volman Stern, Dominic Hohs, Andreas Jansche, Timo Bernthaler, Gerhard Schneider, (参考訳) 材料分析のためのセマンティックセグメンテーションモデルのトレーニングには、マイクログラフとその対応するマスクが必要である。 完璧なマスクが、特に物体の端で描かれることはありそうにないが、いくつかのサンプルしか入手できないため、取得可能なデータの量は少ないこともある。 これらの側面は、堅牢なモデルをトレーニングすることを非常に問題にします。 マスクを用いた合成微細構造画像の生成により,マイクログラフのセマンティックセグメンテーションモデルの改善のためのワークフローを実証する。 ワークフローは、数枚のマイクログラフとそれぞれのマスクを結合してベクトル量子変数オートエンコーダモデルの入力を作成するだけでよい。埋め込みスペースは、生成モデル(PixelCNN)が各入力の分布を学習し、離散コードに変換し、新しいコードのサンプリングに使用できるように訓練されている。 後者は最終的にVQ-VAEによってデコードされ、セマンティックセグメンテーションのために対応するマスクと一緒に画像を生成する。 合成データを評価するため、実データとともに、これらの合成データの量が異なるU-Netモデルを訓練した。 これらのモデルは、非合成画像のみを用いて評価された。 さらに,mIoU(Intersection over Union)の平均値から派生した,カスタマイズされたメトリックも導入する。 提案手法により,mIoUの値が大幅に低下することを防ぐ。 セマンティックセグメンテーションモデルのトレーニングにおいては,サンプル作成時間と取得時間の短縮,画像処理やラベル付け作業に必要な労力の削減を実現している。 このアプローチは、少数の実画像を持つモデルをトレーニングするためのユーザフレンドリなソリューションとして機能するように、さまざまな種類の画像データに一般化することができる。

Training of semantic segmentation models for material analysis requires micrographs and their corresponding masks. It is quite unlikely that perfect masks will be drawn, especially at the edges of objects, and sometimes the amount of data that can be obtained is small, since only a few samples are available. These aspects make it very problematic to train a robust model. We demonstrate a workflow for the improvement of semantic segmentation models of micrographs through the generation of synthetic microstructural images in conjunction with masks. The workflow only requires joining a few micrographs with their respective masks to create the input for a Vector Quantised-Variational AutoEncoder model that includes an embedding space, which is trained such that a generative model (PixelCNN) learns the distribution of each input, transformed into discrete codes, and can be used to sample new codes. The latter will eventually be decoded by VQ-VAE to generate images alongside corresponding masks for semantic segmentation. To evaluate the synthetic data, we have trained U-Net models with different amounts of these synthetic data in conjunction with real data. These models were then evaluated using non-synthetic images only. Additionally, we introduce a customized metric derived from the mean Intersection over Union (mIoU). The proposed metric prevents a few falsely predicted pixels from greatly reducing the value of the mIoU. We have achieved a reduction in sample preparation and acquisition times, as well as the efforts, needed for image processing and labeling tasks, are less when it comes to training semantic segmentation model. The approach could be generalized to various types of image data such that it serves as a user-friendly solution for training models with a small number of real images.
翻訳日:2024-08-04 19:47:32 公開日:2024-08-01
# パーキンソン病早期分類のための脳波からの脳結合性と地域統計の検討

Investigating Brain Connectivity and Regional Statistics from EEG for early stage Parkinson's Classification ( http://arxiv.org/abs/2408.00711v1 )

ライセンス: Link先を確認
Amarpal Sahota, Amber Roguski, Matthew W Jones, Zahraa S. Abdallah, Raul Santos-Rodriguez, (参考訳) 脳波データ(EEG)を用いた早期パーキンソン病(PD)分類における脳接続指標と信号統計値の組み合わせの有効性を評価した。 データは5つの覚醒状態、覚醒状態と4つの睡眠段階(N1、N2、N3、REM)から得られる。 当社のパイプラインでは,Ada Boostモデルを用いて,30人の参加者(11 PD,19 Healthy Control)による早期PD分類課題の分類を行っている。 9つの脳接続測定値を評価することで、N1データ上で最も個々の分類精度が86\%に達するフェーズラグ指数を用いて、各覚醒状態ごとに最も異なる接続基準を求めることができる。 さらに, 局所信号統計を用いたパイプラインは, 78 %の精度, 脳接続を用いたパイプラインは86 %の精度しか達成せず, 組み合わせたパイプラインは91 %の精度を実現している。 この最良の性能は、位相ラグ指数(PLI)とEEG信号の周波数特性から得られる統計を組み合わせたN1データ上で達成される。 このモデルは80 %のリコールと96 %の精度も達成している。 さらに、各覚醒状態のデータから、PLIと地域信号統計を組み合わせることで、信号統計や脳の接続のみを用いた場合よりも、分類精度が向上することがわかった。 そこで我々は,パーキンソン病早期における脳結合統計と局所脳波統計を組み合わせることが,分類器の性能に最適であると結論付けた。 さらに, パーキンソン病の分類におけるN1脳波の測定結果が得られ, PDにおけるN1睡眠の障害に起因する可能性が示唆された。 これは将来の作業で調べるべきです。

We evaluate the effectiveness of combining brain connectivity metrics with signal statistics for early stage Parkinson's Disease (PD) classification using electroencephalogram data (EEG). The data is from 5 arousal states - wakeful and four sleep stages (N1, N2, N3 and REM). Our pipeline uses an Ada Boost model for classification on a challenging early stage PD classification task with with only 30 participants (11 PD , 19 Healthy Control). Evaluating 9 brain connectivity metrics we find the best connectivity metric to be different for each arousal state with Phase Lag Index achieving the highest individual classification accuracy of 86\% on N1 data. Further to this our pipeline using regional signal statistics achieves an accuracy of 78\%, using brain connectivity only achieves an accuracy of 86\% whereas combining the two achieves a best accuracy of 91\%. This best performance is achieved on N1 data using Phase Lag Index (PLI) combined with statistics derived from the frequency characteristics of the EEG signal. This model also achieves a recall of 80 \% and precision of 96\%. Furthermore we find that on data from each arousal state, combining PLI with regional signal statistics improves classification accuracy versus using signal statistics or brain connectivity alone. Thus we conclude that combining brain connectivity statistics with regional EEG statistics is optimal for classifier performance on early stage Parkinson's. Additionally, we find outperformance of N1 EEG for classification of Parkinson's and expect this could be due to disrupted N1 sleep in PD. This should be explored in future work.
翻訳日:2024-08-04 19:47:32 公開日:2024-08-01
# MotionFix:テキスト駆動の人間の3Dモーション編集

MotionFix: Text-Driven 3D Human Motion Editing ( http://arxiv.org/abs/2408.00712v1 )

ライセンス: Link先を確認
Nikos Athanasiou, Alpár Ceske, Markos Diomataris, Michael J. Black, Gül Varol, (参考訳) 本論文の焦点は3次元モーション編集である。 人間の3D動作と所望の修正のテキスト記述を前提として,本文で記述した編集動作を生成することが目的である。 課題には、トレーニングデータの欠如と、ソースの動きを忠実に編集するモデルの設計が含まれる。 本稿では,これら2つの課題に対処する。 私たちは、トリオレットのデータセットを半自動で収集する方法論を構築します。 (i)震源運動 (ii)目標運動、及び (iii) 編集テキストを作成し、新しいMotionFixデータセットを作成する。 このようなデータにアクセスすることで、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。 さらに、テキストモーションペアのデータセットのみに基づいてトレーニングされたさまざまなベースラインを構築し、トリップレットでトレーニングされたモデルの優れたパフォーマンスを示す。 我々は、モーション編集のための新しい検索ベースのメトリクスを導入し、MotionFixの評価セットに関する新しいベンチマークを確立する。 我々の研究成果は、より微細な運動生成の研究の道を開くことを目的としている。 コードとモデルは公開されます。

The focus of this paper is 3D motion editing. Given a 3D human motion and a textual description of the desired modification, our goal is to generate an edited motion as described by the text. The challenges include the lack of training data and the design of a model that faithfully edits the source motion. In this paper, we address both these challenges. We build a methodology to semi-automatically collect a dataset of triplets in the form of (i) a source motion, (ii) a target motion, and (iii) an edit text, and create the new MotionFix dataset. Having access to such data allows us to train a conditional diffusion model, TMED, that takes both the source motion and the edit text as input. We further build various baselines trained only on text-motion pairs datasets, and show superior performance of our model trained on triplets. We introduce new retrieval-based metrics for motion editing and establish a new benchmark on the evaluation set of MotionFix. Our results are encouraging, paving the way for further research on finegrained motion generation. Code and models will be made publicly available.
翻訳日:2024-08-04 19:47:32 公開日:2024-08-01
# 強化学習と保険ポートフォリオ

Insurance Portfolio Pursuit with Reinforcement Learning ( http://arxiv.org/abs/2408.00713v1 )

ライセンス: Link先を確認
Edward James Young, Alistair Rogers, Elliott Tong, James Jordon, (参考訳) 新しい顧客に直面すると、保険会社がその顧客に何を提供するかという決定に多くの要因が貢献する。 保険提供の期待されるコストに加えて、同社は、他のオファーが顧客に対してなされる可能性や、顧客が価格差にどれほど敏感であるかを考慮しなければなりません。 さらに企業は、例えば年齢、場所、職業などに依存する可能性のある、特定の顧客ポートフォリオをターゲットにしていることが多い。 このような目標ポートフォリオを前提として、企業は、ポートフォリオ内の顧客を希望するかどうかに基づいて、個々の顧客のオファーを変更することができる。 目標ポートフォリオが与えられた場合、この目標ポートフォリオを達成するためのオファーの調整の問題をポートフォリオ追跡問題と呼ぶ。 逐次的意思決定問題としてポートフォリオ探索の定式化を行い、そのソリューションのための新しい強化学習アルゴリズムを考案する。 本手法は複雑な総合市場環境において試行し,ポートフォリオ追求への現在の産業的アプローチを模したベースライン手法よりも優れていることを示す。

When faced with a new customer, many factors contribute to an insurance firm's decision of what offer to make to that customer. In addition to the expected cost of providing the insurance, the firm must consider the other offers likely to be made to the customer, and how sensitive the customer is to differences in price. Moreover, firms often target a specific portfolio of customers that could depend on, e.g., age, location, and occupation. Given such a target portfolio, firms may choose to modulate an individual customer's offer based on whether the firm desires the customer within their portfolio. Given a target portfolio, we term the problem of modulating offers to achieve this target portfolio the portfolio pursuit problem. We give a formulation of portfolio pursuit as a sequential decision making problem, and devise a novel reinforcement learning algorithm for its solution. We test our method on a complex synthetic market environment, and demonstrate that it outperforms a baseline method which mimics current industry approaches to portfolio pursuit.
翻訳日:2024-08-04 19:47:32 公開日:2024-08-01
# SAM 2: 画像とビデオのセグメンテーション

SAM 2: Segment Anything in Images and Videos ( http://arxiv.org/abs/2408.00714v1 )

ライセンス: Link先を確認
Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, Christoph Feichtenhofer, (参考訳) 本稿では,画像やビデオにおける迅速な視覚的セグメンテーションの解決に向けた基礎モデルであるセグメンション・エキシング・モデル2(SAM2)を提案する。 ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。 我々のモデルは、リアルタイムビデオ処理のためのストリーミングメモリを備えたシンプルなトランスフォーマーアーキテクチャである。 データに基づいてトレーニングされたSAM 2は、幅広いタスクにわたって強力なパフォーマンスを提供します。 ビデオセグメンテーションでは,従来の手法よりも3倍少ないインタラクションを用いて,精度が向上する。 画像分割では,Segment Anything Model (SAM) よりも精度が高く,6倍高速である。 私たちは、私たちのデータ、モデル、洞察が、ビデオセグメンテーションと関連する知覚タスクにとって重要なマイルストーンとなると信じています。 モデルのバージョン、データセット、インタラクティブなデモをリリースしています。

We present Segment Anything Model 2 (SAM 2), a foundation model towards solving promptable visual segmentation in images and videos. We build a data engine, which improves model and data via user interaction, to collect the largest video segmentation dataset to date. Our model is a simple transformer architecture with streaming memory for real-time video processing. SAM 2 trained on our data provides strong performance across a wide range of tasks. In video segmentation, we observe better accuracy, using 3x fewer interactions than prior approaches. In image segmentation, our model is more accurate and 6x faster than the Segment Anything Model (SAM). We believe that our data, model, and insights will serve as a significant milestone for video segmentation and related perception tasks. We are releasing a version of our model, the dataset and an interactive demo.
翻訳日:2024-08-04 19:47:32 公開日:2024-08-01
# 利用者のテキストレビューに基づくホテルレコメンデーションのための自然言語処理フレームワーク

A Natural Language Processing Framework for Hotel Recommendation Based on Users' Text Reviews ( http://arxiv.org/abs/2408.00716v1 )

ライセンス: Link先を確認
Lavrentia Aravani, Emmanuel Pintelas, Christos Pierrakeas, Panagiotis Pintelas, (参考訳) 近年,ホテルレコメンデーションシステムにおける人工知能アルゴリズムの適用が話題となっている。 この分野で有効であることが証明された方法の1つは、ディープラーニング、特に自然言語処理モデルであり、ユーザーのテキストレビューから意味的な知識を抽出し、より効率的なレコメンデーションシステムを作成することができる。 これは、ホテル滞在経験に関するテキストレビューという形でフィードバックに基づいて、ユーザの好みと感情を分類できるインテリジェントモデルの開発につながる可能性がある。 本研究では,顧客テキストレビューを利用した自然言語処理フレームワークを提案し,その嗜好に基づいて,最も適切なホテルに対するパーソナライズされたレコメンデーションを提供する。 このフレームワークは、変換器(BERT)からの双方向エンコーダ表現と、顧客のホテルレビューのテキストを"Bad"、"Good"、"Excellent"推奨のホテルに分類する微調整/検証パイプラインに基づいている。 提案するホテルレコメンデーションシステムは,利用者の好みや過去の予約履歴に基づいたパーソナライズされたレコメンデーションを提供することで,宿泊施設のユーザエクスペリエンスを著しく向上させることができる。

Recently, the application of Artificial Intelligence algorithms in hotel recommendation systems has become an increasingly popular topic. One such method that has proven to be effective in this field is Deep Learning, especially Natural Language processing models, which are able to extract semantic knowledge from user's text reviews to create more efficient recommendation systems. This can lead to the development of intelligent models that can classify a user's preferences and emotions based on their feedback in the form of text reviews about their hotel stay experience. In this study, we propose a Natural Language Processing framework that utilizes customer text reviews to provide personalized recommendations for the most appropriate hotel based on their preferences. The framework is based on Bidirectional Encoder Representations from Transformers (BERT) and a fine-tuning/validation pipeline that categorizes customer hotel review texts into "Bad," "Good," or "Excellent" recommended hotels. Our findings indicate that the hotel recommendation system we propose can significantly enhance the user experience of booking accommodations by providing personalized recommendations based on user preferences and previous booking history.
翻訳日:2024-08-04 19:47:32 公開日:2024-08-01
# LLMの安全で信頼できる6Gへの道:攻撃、防衛、機会

Pathway to Secure and Trustworthy 6G for LLMs: Attacks, Defense, and Opportunities ( http://arxiv.org/abs/2408.00722v1 )

ライセンス: Link先を確認
Sunder Ali Khowaja, Parus Khuwaja, Kapal Dev, Hussam Al Hamadi, Engin Zeydan, (参考訳) 近年,大規模言語モデル (LLM) は,通信ネットワークを含む新興アプリケーションへの適応性と拡張性から,多くの関心を集めている。 6Gモバイルエッジコンピューティングネットワークは、非常に信頼性の高い低レイテンシ通信とクローズドループの大規模接続を提供するため、LLMをサービスとしてサポートすることが期待されている。 しかし、LLMはデータに対して脆弱であり、ユーザベースのサービスにデプロイされるLLMの信頼性に影響を与えるプライバシー問題もモデル化する。 本稿では,6Gネットワークにおける微調整LDMに関連するセキュリティ脆弱性,特にメンバシップ推論攻撃について検討する。 本稿では,攻撃者が下流タスクの微調整されたモデルにアクセスできる場合に,メンバシップ推論攻撃を行うことのできる攻撃ネットワークの特性を定義する。 LLMをサービスとして使用する場合の個人データ漏洩につながる可能性のあるダウンストリームタスクに対して,メンバシップ推論攻撃が有効であることを示す。 実験結果から,名前付きエンティティ認識タスクにおいて,最大92%の攻撃成功率が達成できることが示唆された。 実験的な分析に基づいて,LLMを6Gネットワークの文脈でより信頼性の高いものにするための防衛機構と研究の方向性について論じる。

Recently, large language models (LLMs) have been gaining a lot of interest due to their adaptability and extensibility in emerging applications, including communication networks. It is anticipated that 6G mobile edge computing networks will be able to support LLMs as a service, as they provide ultra reliable low-latency communications and closed loop massive connectivity. However, LLMs are vulnerable to data and model privacy issues that affect the trustworthiness of LLMs to be deployed for user-based services. In this paper, we explore the security vulnerabilities associated with fine-tuning LLMs in 6G networks, in particular the membership inference attack. We define the characteristics of an attack network that can perform a membership inference attack if the attacker has access to the fine-tuned model for the downstream task. We show that the membership inference attacks are effective for any downstream task, which can lead to a personal data breach when using LLM as a service. The experimental results show that the attack success rate of maximum 92% can be achieved on named entity recognition task. Based on the experimental analysis, we discuss possible defense mechanisms and present possible research directions to make the LLMs more trustworthy in the context of 6G networks.
翻訳日:2024-08-04 19:47:32 公開日:2024-08-01
# 連続量子系における完全波動伝達

Perfect Wave Transfer in Continuous Quantum Systems ( http://arxiv.org/abs/2408.00723v1 )

ライセンス: Link先を確認
Per Moosavi, Matthias Christandl, Gian Michele Graf, Spyros Sotiriadis, (参考訳) 1+1D連続量子系における情報の完全転送について検討する。 これは、量子情報における完全状態移動の概念が導入された不均一スピン鎖の効果的な記述を含み、ここでは波の言葉で表現する。 反射対称性は任意の不均一共形場理論において完全波動伝達(PWT)に必要であり、一粒子励起に制限されても十分であることを示す。 より一般に十分であるかどうかを決定するために、まず共形不変性を破り、1+1Dボソニック理論の広いクラスを研究する。 この問題は、ボゾン理論がPWTを示すときを決定する逆ストゥルム・リウヴィル問題として表すことができる。 我々は、この問題を一意に解く方法を示し、また、共形不変性を持つ特殊ケースに対して反射対称性が十分であることを示す。 ボゾン化を用いて、連続体はこれらの概念を相互作用する場の量子論に拡張する。

We study the perfect transfer of information in 1+1D continuous quantum systems. This includes effective descriptions of inhomogeneous spin chains, for which the notion of perfect state transfer in quantum information was introduced, and here phrased in terms of waves. We show that reflection symmetry is necessary for perfect wave transfer (PWT) in any inhomogeneous conformal field theory, and even sufficient when restricted to one-particle excitations. To determine if or when it is sufficient more generally, we first break conformal invariance and study a broad class of 1+1D bosonic theories. We show that the question can then be posed as an inverse Sturm-Liouville problem that determines when the bosonic theory exhibits PWT. We demonstrate how to uniquely solve this problem, which also shows that reflection symmetry is sufficient for the special case with conformal invariance. Using bosonization, our continuum results extend these notions to interacting quantum field theories.
翻訳日:2024-08-04 19:47:32 公開日:2024-08-01
# 言語モデルを用いた問題解決のための計算最適推論の実証分析

An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models ( http://arxiv.org/abs/2408.00724v1 )

ライセンス: Link先を確認
Yangzhen Wu, Zhiqing Sun, Shanda Li, Sean Welleck, Yiming Yang, (参考訳) モデルサイズや計算予算に関して,大規模言語モデル(LLM)の最適トレーニング構成について検討した。 しかし、推論中にLLMを最適に設定する方法は十分な深さでは検討されていない。 計算最適推論について検討する:モデルと推論戦略を設計し、さらなる推論時間計算を最適にトレードオフし、性能を向上する。 計算最適推論手法の理解と設計に向けた第一歩として,Greedy Search,Majority Voting,Best-of-N,Weighted Votingなどの複数の推論手法の有効性と計算効率を,異なるモデルサイズと計算予算を含む2種類の木探索アルゴリズム上で評価した。 新たな木探索アルゴリズムを用いたより小さな言語モデルでは,パレート・最適トレードオフが典型的に達成されることがわかった。 これらの結果は、より洗練された復号アルゴリズムを備えた小型モデルを、例えばエンドデバイス上の予算制約のあるシナリオに配置し、問題解決の精度を高めるという潜在的な利点を浮き彫りにしている。 例えば,MATH500 上の Llemma-34B モデルと競合する精度を Llemma-7B モデルで実現できることを示す。 我々の発見は、成功の明確な尺度で、あらゆる世代タスクに適用できる可能性がある。

The optimal training configurations of large language models (LLMs) with respect to model sizes and compute budgets have been extensively studied. But how to optimally configure LLMs during inference has not been explored in sufficient depth. We study compute-optimal inference: designing models and inference strategies that optimally trade off additional inference-time compute for improved performance. As a first step towards understanding and designing compute-optimal inference methods, we assessed the effectiveness and computational efficiency of multiple inference strategies such as Greedy Search, Majority Voting, Best-of-N, Weighted Voting, and their variants on two different Tree Search algorithms, involving different model sizes and computational budgets. We found that a smaller language model with a novel tree search algorithm typically achieves a Pareto-optimal trade-off. These results highlight the potential benefits of deploying smaller models equipped with more sophisticated decoding algorithms in budget-constrained scenarios, e.g., on end-devices, to enhance problem-solving accuracy. For instance, we show that the Llemma-7B model can achieve competitive accuracy to a Llemma-34B model on MATH500 while using $2\times$ less FLOPs. Our findings could potentially apply to any generation task with a well-defined measure of success.
翻訳日:2024-08-04 19:47:32 公開日:2024-08-01
# 反復フォローアップ質問による検索機能向上

Improving Retrieval-Augmented Generation in Medicine with Iterative Follow-up Questions ( http://arxiv.org/abs/2408.00727v1 )

ライセンス: Link先を確認
Guangzhi Xiong, Qiao Jin, Xiao Wang, Minjia Zhang, Zhiyong Lu, Aidong Zhang, (参考訳) 大規模言語モデル(LLM)の創発的能力は、医学的問題を解く大きな可能性を示している。 医学的な知識を持つことができるが、それでも幻覚があり、知識の更新には柔軟性がない。 Retrieval-Augmented Generation (RAG) は、外部知識ベースを用いたLSMの医療質問応答能力を高めるために提案されているが、複数の情報検索が必要な複雑なケースでは失敗する可能性がある。 このような問題に対処するため,医学用反復RAG(i-MedRAG)を提案する。 i-MedRAGの各イテレーションでは、フォローアップクエリはバニラRAGシステムによって応答され、次のイテレーションでクエリ生成をガイドするためにさらに使用される。 I-MedRAG による様々な LLM の性能向上を,米国医学ライセンス試験 (USMLE) における臨床ヴィグネットの複雑な質問に対するバニラ RAG との比較,およびMultitask Language Understanding (MMLU) データセットにおける様々な知識テストと比較した。 特に、ゼロショットのi-MedRAGは、GPT-3.5上の既存のプロンプトエンジニアリングと微調整メソッドを全て上回り、MedQAデータセットの精度は69.68\%である。 さらに、i-MedRAGのスケーリング特性を、追従クエリの異なるイテレーションと、反復毎に異なるクエリ数で特徴付ける。 今回のケーススタディでは,i-MedRAGが順応的にフォローアップクエリを問合せして推論連鎖を形成できることが示され,医学的質問の詳細な分析が可能となった。 我々の知る限りでは、フォローアップクエリを医療用RAGに組み込むための最初の研究である。

The emergent abilities of large language models (LLMs) have demonstrated great potential in solving medical questions. They can possess considerable medical knowledge, but may still hallucinate and are inflexible in the knowledge updates. While Retrieval-Augmented Generation (RAG) has been proposed to enhance the medical question-answering capabilities of LLMs with external knowledge bases, it may still fail in complex cases where multiple rounds of information-seeking are required. To address such an issue, we propose iterative RAG for medicine (i-MedRAG), where LLMs can iteratively ask follow-up queries based on previous information-seeking attempts. In each iteration of i-MedRAG, the follow-up queries will be answered by a vanilla RAG system and they will be further used to guide the query generation in the next iteration. Our experiments show the improved performance of various LLMs brought by i-MedRAG compared with vanilla RAG on complex questions from clinical vignettes in the United States Medical Licensing Examination (USMLE), as well as various knowledge tests in the Massive Multitask Language Understanding (MMLU) dataset. Notably, our zero-shot i-MedRAG outperforms all existing prompt engineering and fine-tuning methods on GPT-3.5, achieving an accuracy of 69.68\% on the MedQA dataset. In addition, we characterize the scaling properties of i-MedRAG with different iterations of follow-up queries and different numbers of queries per iteration. Our case studies show that i-MedRAG can flexibly ask follow-up queries to form reasoning chains, providing an in-depth analysis of medical questions. To the best of our knowledge, this is the first-of-its-kind study on incorporating follow-up queries into medical RAG.
翻訳日:2024-08-04 19:47:32 公開日:2024-08-01
# CERT-ED:編集距離にロバストなテキスト分類

CERT-ED: Certifiably Robust Text Classification for Edit Distance ( http://arxiv.org/abs/2408.00728v1 )

ライセンス: Link先を確認
Zhuoqun Huang, Neil G Marchant, Olga Ohrimenko, Benjamin I. P. Rubinstein, (参考訳) 日々の生活におけるAIの統合の増大により、推論時攻撃に対するシステムの堅牢性を保証することが不可欠である。 このような逆例に対するロバスト性を証明するアプローチの中で、ランダム化された平滑化は、任意のブラックボックスモデルを取り巻くラッパーとしての性質から、非常に有望なものとして現れている。 自然言語処理におけるランダム化平滑化に関するこれまでの研究は、主に編集距離操作の特定のサブセット(同義語置換や単語挿入など)に焦点を当てており、すべての編集操作の認証を探索することはなかった。 本稿では、ランダム化削除(Huang et al , 2023)を適応させ、自然言語分類のためのCERT-ED(CERTified Edit Distance Defense)を提案する。 CERT-EDは5つのデータセットのうち4つで既存のハミング距離法RanMASK(Zeng et al , 2023)を精度と認証の基数の両方で上回っていることを示す。 5つのダイレクトおよび5つの転送攻撃を含む様々な脅威モデルをカバーすることにより、50設定中38の試験的堅牢性を向上する。

With the growing integration of AI in daily life, ensuring the robustness of systems to inference-time attacks is crucial. Among the approaches for certifying robustness to such adversarial examples, randomized smoothing has emerged as highly promising due to its nature as a wrapper around arbitrary black-box models. Previous work on randomized smoothing in natural language processing has primarily focused on specific subsets of edit distance operations, such as synonym substitution or word insertion, without exploring the certification of all edit operations. In this paper, we adapt Randomized Deletion (Huang et al., 2023) and propose, CERTified Edit Distance defense (CERT-ED) for natural language classification. Through comprehensive experiments, we demonstrate that CERT-ED outperforms the existing Hamming distance method RanMASK (Zeng et al., 2023) in 4 out of 5 datasets in terms of both accuracy and the cardinality of the certificate. By covering various threat models, including 5 direct and 5 transfer attacks, our method improves empirical robustness in 38 out of 50 settings.
翻訳日:2024-08-04 19:47:32 公開日:2024-08-01
# TurboEdit: Few-Step Diffusion Modelを用いたテキストベースの画像編集

TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models ( http://arxiv.org/abs/2408.00735v1 )

ライセンス: Link先を確認
Gilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, Daniel Cohen-Or, (参考訳) 拡散モデルは、幅広いテキストベースの画像編集フレームワークへの道を開いた。 しかし、これらは一般的に拡散過程の多段階的な性質に基づいて構築され、蒸留された高速サンプリング法に適応することが驚くほど難しいことが証明された。 ここでは、テキストベースの一般的な編集フレームワークである `edit-friendly'' DDPM-noise の逆変換アプローチに焦点を当てる。 高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。 逆ノイズと予測ノイズスケジュールの一致しないノイズ統計をトレースし、このオフセットを補正するシフトノイズスケジュールを提案する。 編集強度を向上させるために,新しいアーティファクトを導入することなく効率よく編集の規模を拡大する疑似誘導手法を提案する。 全体として,本手法は,テキストベースの画像編集を最大3段階の拡散ステップで実現し,テキストベースの編集手法の背景にあるメカニズムについて新たな知見を提供する。

Diffusion models have opened the path to a wide range of text-based image editing frameworks. However, these typically build on the multi-step nature of the diffusion backwards process, and adapting them to distilled, fast-sampling methods has proven surprisingly challenging. Here, we focus on a popular line of text-based editing frameworks - the ``edit-friendly'' DDPM-noise inversion approach. We analyze its application to fast sampling methods and categorize its failures into two classes: the appearance of visual artifacts, and insufficient editing strength. We trace the artifacts to mismatched noise statistics between inverted noises and the expected noise schedule, and suggest a shifted noise schedule which corrects for this offset. To increase editing strength, we propose a pseudo-guidance approach that efficiently increases the magnitude of edits without introducing new artifacts. All in all, our method enables text-based image editing with as few as three diffusion steps, while providing novel insights into the mechanisms behind popular text-based editing approaches.
翻訳日:2024-08-04 19:47:32 公開日:2024-08-01
# Virchow 2: 病理学における自己監督型混合拡大モデルのスケーリング

Virchow 2: Scaling Self-Supervised Mixed Magnification Models in Pathology ( http://arxiv.org/abs/2408.00738v1 )

ライセンス: Link先を確認
Eric Zimmermann, Eugene Vorontsov, Julian Viret, Adam Casson, Michal Zelechowski, George Shaikovski, Neil Tenenholtz, James Hall, Thomas Fuchs, Nicolo Fusi, Siqi Liu, Kristen Severson, (参考訳) 基礎モデルは、計算病理学の応用のために急速に開発されている。 しかし、データスケールと多様性、モデルサイズ、トレーニングアルゴリズムなど、ダウンストリームのパフォーマンスにおいて、どの要素がもっとも重要かは、まだ明らかな疑問である。 本研究では,データサイズとモデルサイズの両方をスケールし,両次元の先行研究を超越した2つの新しいモデルを提案する。Virchow 2,632Mパラメータビジョン変換器,および1.85Bパラメータビジョン変換器であるVirchow 2Gは,それぞれ3.1Mヒストロジー全スライド画像でトレーニングされている。 そこで本研究では,DINOv2学習アルゴリズムにドメインインスパイアされた適応法を提案する。 上位の競合モデルと比較して,12のタイルレベルのタスクで最先端のパフォーマンスを実現する。 我々の結果は、データ多様性とドメイン固有のトレーニングがパラメータの数だけをスケールするモデルよりも優れていることを示唆している。

Foundation models are rapidly being developed for computational pathology applications. However, it remains an open question which factors are most important for downstream performance with data scale and diversity, model size, and training algorithm all playing a role. In this work, we present the result of scaling both data and model size, surpassing previous studies in both dimensions, and introduce two new models: Virchow 2, a 632M parameter vision transformer, and Virchow 2G, a 1.85B parameter vision transformer, each trained with 3.1M histopathology whole slide images. To support this scale, we propose domain-inspired adaptations to the DINOv2 training algorithm, which is quickly becoming the default method in self-supervised learning for computational pathology. We achieve state of the art performance on twelve tile-level tasks, as compared to the top performing competing models. Our results suggest that data diversity and domain-specific training can outperform models that only scale in the number of parameters, but, on average, performance benefits from domain-tailoring, data scale, and model scale.
翻訳日:2024-08-04 19:47:32 公開日:2024-08-01
# DynamoLLM:性能とエネルギー効率のためのLCM推論クラスタの設計

DynamoLLM: Designing LLM Inference Clusters for Performance and Energy Efficiency ( http://arxiv.org/abs/2408.00741v1 )

ライセンス: Link先を確認
Jovan Stojkovic, Chaojie Zhang, Íñigo Goiri, Josep Torrellas, Esha Choukse, (参考訳) 生成型大規模言語モデル(LLM)の急速な進化と普及により、様々なアプリケーションにおいてそれらが重要なワークロードとなっている。 現在、LLM推論クラスタは厳しいサービスレベルオブジェクト(SLO)を持つ多数のクエリを受け取ります。 所望のパフォーマンスを達成するため、これらのモデルはパワーハングリーGPU上で実行され、推論クラスタは大量のエネルギーを消費し、結果として過剰な二酸化炭素排出量をもたらす。 幸いなことに、推論計算特性の不均一性と推論ワークロードの変動を利用して、エネルギー効率を大幅に改善する大きな機会がある。 しかし、このような多様な動的環境は、異なるシステム構成(例:インスタンス数、モデル並列性、GPU周波数)が異なるエネルギーパフォーマンストレードオフに変換される大きな検索空間を生成する。 これらの課題に対処するため、LLM推論環境のための最初のエネルギー管理フレームワークであるDynamoLLMを提案する。 DynamoLLMは自動的に動的に推論クラスタを再構成し、サービスのパフォーマンスSLO下でのLLMのエネルギとコストを最適化する。 サービスレベルでは、DynamoLLMは53%のエネルギーと38%の運転炭素排出量を節約し、レイテンシSLOを満たしながら61%のコスト削減を実現している。

The rapid evolution and widespread adoption of generative large language models (LLMs) have made them a pivotal workload in various applications. Today, LLM inference clusters receive a large number of queries with strict Service Level Objectives (SLOs). To achieve the desired performance, these models execute on power-hungry GPUs causing the inference clusters to consume large amount of energy and, consequently, result in excessive carbon emissions. Fortunately, we find that there is a great opportunity to exploit the heterogeneity in inference compute properties and fluctuations in inference workloads, to significantly improve energy-efficiency. However, such a diverse and dynamic environment creates a large search-space where different system configurations (e.g., number of instances, model parallelism, and GPU frequency) translate into different energy-performance trade-offs. To address these challenges, we propose DynamoLLM, the first energy-management framework for LLM inference environments. DynamoLLM automatically and dynamically reconfigures the inference cluster to optimize for energy and cost of LLM serving under the service's performance SLOs. We show that at a service-level, DynamoLLM conserves 53% energy and 38% operational carbon emissions, and reduces 61% cost to the customer, while meeting the latency SLOs.
翻訳日:2024-08-04 19:47:32 公開日:2024-08-01
# 局所ハミルトニアンの動的α-レニイエントロピーは、時間内に最も線形に成長する

The dynamical alpha-Rényi entropies of local Hamiltonians grow at most linearly in time ( http://arxiv.org/abs/2408.00743v1 )

ライセンス: Link先を確認
Daniele Toniolo, Sougato Bose, (参考訳) 距離 L の一般的な 1 次元スピン系は、厳密な局所的相互作用を持ち、例えば、近傍の局所相互作用を持つと考え、初期積状態の動的α-R'enyiエントロピー 0 < α < 1 が、最も線形に時間的に増加することを証明している。 我々は、相互作用の指数的減衰を持つ系にエントロピーの動的生成の限界を広げ、アルファの値が 1 に十分近いようにした。 我々は、結果を最初の低絡み合い、すなわち O(log L) 状態にまで拡張するための厳密でない議論を提供する。 この状態のクラスはスピン系基底状態の多くの例と臨界状態を含む。 このことは、低絡み合い状態が、少なくとも順序数 L の時間まで持続する効率的な MPS 表現を持つことを意味する。主な技術的ツールは、スピン鎖の力学を局所的に近似するリーブ・ロビンソン境界、アルファ-R'enyi エントロピー上の厳密なオーデナートの上界、その共空性上の境界である。 私たちが付録で提供するそのような境界は、独立した関心を持つことができる。

We consider a generic one dimensional spin system of length L, arbitrarily large, with strictly local interactions, for example nearest neighbor, and prove that the dynamical alpha-R\'enyi entropies, 0 < alpha < 1, of an initial product state grow at most linearly in time. We extend our bound on the dynamical generation of entropy to systems with exponential decay of interactions, for values of alpha close enough to 1. We provide a non rigorous argument to extend our results to initial low-entangled, meaning O(log L) states. This class of states includes many examples of spin systems ground states, and also critical states. This implies that low entanglement states have an efficient MPS representation that persists at least up to times of order log L. The main technical tools are the Lieb-Robinson bounds, to locally approximate the dynamics of the spin chain, a strict upper bound of Audenaert on alpha-R\'enyi entropies and a bound on their concavity. Such a bound, that we provide in an appendix, can be of independent interest.
翻訳日:2024-08-04 19:37:48 公開日:2024-08-01
# オープンボキャブラリセグメンテーションのための協調的視覚テキスト表現

Collaborative Vision-Text Representation Optimizing for Open-Vocabulary Segmentation ( http://arxiv.org/abs/2408.00744v1 )

ライセンス: Link先を確認
Siyu Jiao, Hongguang Zhu, Jiannan Huang, Yao Zhao, Yunchao Wei, Humphrey Shi, (参考訳) 事前トレーニングされた視覚言語モデル、例えばCLIPは、よく整合した視覚テキスト埋め込みスペースの恩恵を受けながら、挑戦的なOpen-Vocabulary Segmentation (OVS)タスクに対処するためにますます使われています。 典型的なソリューションは、トレーニング中のCLIPの凍結と、そのゼロショット能力の一方的な維持、あるいは局所領域に対する知覚感度を達成するための微調整CLIPビジョンエンコーダを含む。 しかし、視覚とテキストの協調最適化が組み込まれているものはほとんどない。 そこで本研究では,入力画像と対話してテキスト埋め込みを適応的に強化するContent-Dependent Transferを提案し,テキスト表現を最適化するパラメータ効率のよい方法を提案する。 さらに,CLIPのゼロショット能力を維持するために,元のCLIP-V表現を補正として再検討するRepresentation Compensation戦略を導入する。 このように、CLIPのビジョンとテキスト表現は協調的に最適化され、視覚テキストの特徴空間のアライメントが向上する。 我々の知る限り、私たちはOVSフィールド内で協調的な視覚テキスト最適化メカニズムを最初に確立しました。 大規模な実験により,本手法はOVSベンチマークにおいて優れた性能を発揮することが示された。 オープンボキャブラリセマンティックセグメンテーションでは,A-847,A-150,PC-459,PC-59,PAS-20,+0.5,+2.3,+3.4,+0.4,+1.1mIoUの手法よりも優れていた。 さらに、ADE20K上のパン光学系では、27.1 PQ、73.5 SQ、32.9 RQの性能を達成する。 コードはhttps://github.com/jiaosiyu 1999/MAFT-Plus.gitで入手できる。

Pre-trained vision-language models, e.g. CLIP, have been increasingly used to address the challenging Open-Vocabulary Segmentation (OVS) task, benefiting from their well-aligned vision-text embedding space. Typical solutions involve either freezing CLIP during training to unilaterally maintain its zero-shot capability, or fine-tuning CLIP vision encoder to achieve perceptual sensitivity to local regions. However, few of them incorporate vision-text collaborative optimization. Based on this, we propose the Content-Dependent Transfer to adaptively enhance each text embedding by interacting with the input image, which presents a parameter-efficient way to optimize the text representation. Besides, we additionally introduce a Representation Compensation strategy, reviewing the original CLIP-V representation as compensation to maintain the zero-shot capability of CLIP. In this way, the vision and text representation of CLIP are optimized collaboratively, enhancing the alignment of the vision-text feature space. To the best of our knowledge, we are the first to establish the collaborative vision-text optimizing mechanism within the OVS field. Extensive experiments demonstrate our method achieves superior performance on popular OVS benchmarks. In open-vocabulary semantic segmentation, our method outperforms the previous state-of-the-art approaches by +0.5, +2.3, +3.4, +0.4 and +1.1 mIoU, respectively on A-847, A-150, PC-459, PC-59 and PAS-20. Furthermore, in a panoptic setting on ADE20K, we achieve the performance of 27.1 PQ, 73.5 SQ, and 32.9 RQ. Code will be available at https://github.com/jiaosiyu1999/MAFT-Plus.git .
翻訳日:2024-08-04 19:37:48 公開日:2024-08-01
# Mask R-CNN と LETR Vision Transformer を用いた葉角推定

Leaf Angle Estimation using Mask R-CNN and LETR Vision Transformer ( http://arxiv.org/abs/2408.00749v1 )

ライセンス: Link先を確認
Venkat Margapuri, Prapti Thapaliya, Trevor Rife, (参考訳) 現代の研究では、高収量作物品種と直立葉角の植物との間に高い相関関係が示されている。 直立葉角を持つ植物は直立葉角を持たない植物よりも多くの光を遮断し、光合成の速度が高まることが観察された。 植物科学者や育種者は、現場の植物パラメータを直接測定できるツール、即ち現場での表現型化の恩恵を受ける。 フィールド設定における手動手段による葉角の推定は面倒で面倒である。 我々は、Mask R-CNNインスタンスセグメンテーションニューラルネットワークとビジョントランスであるLine Segment Transformer(LETR)を組み合わせて、テジウムを緩和する。 提案されたComputer Vision(CV)パイプラインは、2015年夏-Ames ULAと2015年夏-Ames MLAの2つのイメージデータセットに適用される。 提案した画像データセット上の葉の角度を,国立衛生研究所と光学・計算機器研究所で開発されたJavaベースの画像処理プログラムであるImageJを用いて,2つの独立した手動計測値と比較した。 その結果、コサイン類似度測定を用いて類似度を比較すると、2015年夏-Ames ULAと2015年夏-Ames MLAの画像データセットの双方の独立測定で0.98の類似度スコアを示し、葉の角度のオンサイト測定に提案されたパイプラインの有効性を実証した。

Modern day studies show a high degree of correlation between high yielding crop varieties and plants with upright leaf angles. It is observed that plants with upright leaf angles intercept more light than those without upright leaf angles, leading to a higher rate of photosynthesis. Plant scientists and breeders benefit from tools that can directly measure plant parameters in the field i.e. on-site phenotyping. The estimation of leaf angles by manual means in a field setting is tedious and cumbersome. We mitigate the tedium using a combination of the Mask R-CNN instance segmentation neural network, and Line Segment Transformer (LETR), a vision transformer. The proposed Computer Vision (CV) pipeline is applied on two image datasets, Summer 2015-Ames ULA and Summer 2015- Ames MLA, with a combined total of 1,827 plant images collected in the field using FieldBook, an Android application aimed at on-site phenotyping. The leaf angles estimated by the proposed pipeline on the image datasets are compared to two independent manual measurements using ImageJ, a Java-based image processing program developed at the National Institutes of Health and the Laboratory for Optical and Computational Instrumentation. The results, when compared for similarity using the Cosine Similarity measure, exhibit 0.98 similarity scores on both independent measurements of Summer 2015-Ames ULA and Summer 2015-Ames MLA image datasets, demonstrating the feasibility of the proposed pipeline for on-site measurement of leaf angles.
翻訳日:2024-08-04 19:37:48 公開日:2024-08-01
# 反復収束による不完全情報ゲーム問題の解法

A Policy-Gradient Approach to Solving Imperfect-Information Games with Iterate Convergence ( http://arxiv.org/abs/2408.00751v1 )

ライセンス: Link先を確認
Mingyang Liu, Gabriele Farina, Asuman Ozdaglar, (参考訳) ポリシー勾配法は, 反復収束, 確率軌道フィードバックの効率的な利用, 重要サンプリング補正の理論的回避など, 望ましい特性の組み合わせにより, 任意の単エージェント強化学習ツールボックスの基盤となっている。 しかし, マルチエージェント不完全情報設定では, 理論的な保証を維持しつつ, 同一のデシラタを保証できるかどうかは不明である。 代わりに、ワイドフォームゲームのサウンドメソッドは、(Q値とは対照的に)ポリシー勾配方法論とは相容れない反事実値の近似に依存している。 本稿では,2人プレイヤのゼロサム不完全情報拡張型ゲーム(EFG)において,ポリシー勾配を安全に利用できるかを検討する。 政策勾配法が自己プレイにおける正規化ナッシュ均衡に最も適した収束をもたらすことを初めて示し、肯定的な結果を確立した。

Policy gradient methods have become a staple of any single-agent reinforcement learning toolbox, due to their combination of desirable properties: iterate convergence, efficient use of stochastic trajectory feedback, and theoretically-sound avoidance of importance sampling corrections. In multi-agent imperfect-information settings (extensive-form games), however, it is still unknown whether the same desiderata can be guaranteed while retaining theoretical guarantees. Instead, sound methods for extensive-form games rely on approximating counterfactual values (as opposed to Q values), which are incompatible with policy gradient methodologies. In this paper, we investigate whether policy gradient can be safely used in two-player zero-sum imperfect-information extensive-form games (EFGs). We establish positive results, showing for the first time that a policy gradient method leads to provable best-iterate convergence to a regularized Nash equilibrium in self-play.
翻訳日:2024-08-04 19:37:48 公開日:2024-08-01
# 多様な睡眠行動モニタリングのためのディープラーニング対応スマートウェア

A deep learning-enabled smart garment for versatile sleep behaviour monitoring ( http://arxiv.org/abs/2408.00753v1 )

ライセンス: Link先を確認
Chenyu Tang, Wentian Yi, Muzi Xu, Yuxuan Jin, Zibo Zhang, Xuhang Chen, Caizhi Liao, Peter Smielewski, Luigi G. Occhipinti, (参考訳) 睡眠条件の異なる複雑な睡眠パターンの連続的なモニタリングと正確な検出は、睡眠の質を高めるだけでなく、不健康な睡眠に関連する慢性疾患の発生を予防するためにも不可欠である。 研究の進歩にもかかわらず、家庭でシンプルなウェアラブルデバイスを使って、さまざまな不健康で不健康な睡眠パターンを多目的に認識することは大きな課題である。 ここでは、スマート衣服にプリントされた頑丈で耐久性の高い超感光性ひずみセンサを、首輪領域で報告する。 この溶液は、外喉頭筋における複数の睡眠パターンに関連する微妙な振動を検出することができる。 深層学習ニューラルネットワークにより、6つの睡眠状態(鼻呼吸、口呼吸、かゆみ、ブラキシズム、中枢性睡眠時無呼吸(CSA)、閉塞性睡眠時無呼吸(OSA))を、特定の位置決めを必要とせず、98.6%の精度で正確に識別することができる。 実用アプリケーションにおけるその説明可能性と一般化能力をさらに実証する。 説明可能な人工知能(XAI)視覚化は、バイアスの低い包括的な信号パターン分析を反映する。 トランスファーラーニングテストでは,クラス当たり15サンプル未満の非常に少ない新規ユーザに対して,高い精度(全精度95%)を達成できることが示されている。 スケーラブルな製造プロセス、堅牢性、高精度、スマートウェアの優れた一般化により、次世代の連続睡眠監視に有望なツールとなっている。

Continuous monitoring and accurate detection of complex sleep patterns associated to different sleep-related conditions is essential, not only for enhancing sleep quality but also for preventing the risk of developing chronic illnesses associated to unhealthy sleep. Despite significant advances in research, achieving versatile recognition of various unhealthy and sub-healthy sleep patterns with simple wearable devices at home remains a significant challenge. Here, we report a robust and durable ultrasensitive strain sensor array printed on a smart garment, in its collar region. This solution allows detecting subtle vibrations associated with multiple sleep patterns at the extrinsic laryngeal muscles. Equipped with a deep learning neural network, it can precisely identify six sleep states-nasal breathing, mouth breathing, snoring, bruxism, central sleep apnea (CSA), and obstructive sleep apnea (OSA)-with an impressive accuracy of 98.6%, all without requiring specific positioning. We further demonstrate its explainability and generalization capabilities in practical applications. Explainable artificial intelligence (XAI) visualizations reflect comprehensive signal pattern analysis with low bias. Transfer learning tests show that the system can achieve high accuracy (overall accuracy of 95%) on new users with very few-shot learning (less than 15 samples per class). The scalable manufacturing process, robustness, high accuracy, and excellent generalization of the smart garment make it a promising tool for next-generation continuous sleep monitoring.
翻訳日:2024-08-04 19:37:48 公開日:2024-08-01
# マルチモーダル言語モデルにおける粗対応3次元時空間理解

Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model ( http://arxiv.org/abs/2408.00754v1 )

ライセンス: Link先を確認
Benlin Liu, Yuhao Dong, Yiqin Wang, Yongming Rao, Yansong Tang, Wei-Chiu Ma, Ranjay Krishna, (参考訳) マルチモーダル言語モデル(MLLM)は,3次元空間を解釈し,時間的ダイナミクスを理解する能力を必要とする実環境において,ますます実装されている。 その可能性にもかかわらず、現在のコミュニティ内のトップモデルは、空間的次元と時間的次元を十分に理解できないままです。 我々は,マルチモーダルLLMにおける3Dおよび時間的理解を引き出すために,簡単な,トレーニング不要,効果的,汎用的な視覚的プロンプト手法である粗対応を導入する。 本手法は,映像のフレーム間や画像視点のセット間のオブジェクト対応を見つけるために,軽量な追跡モデルを用いる。 最も頻繁なオブジェクトインスタンスを選択し、イメージにユニークなIDを持つマーカーでそれらを視覚化する。 この単純なアプローチにより、ScanQA (+20.5\%) やOpenEQA (+9.7\%) のサブセットを含む3D理解ベンチマークや、EgoSchema (+6.0\%) のような長めのビデオベンチマークにおける最先端の結果が得られる。 また、MLLMがカメラ視点以外の記述された視点から空間を推論できるかどうかを評価するために、小さな診断データセットをキュレートする。 繰り返しになるが、粗対応は空間的視点取り能力を向上させるが、MLLMがこの課題に苦慮している点を強調する。 同時に,本手法は3次元および時間的推論を必要とする下流タスクを効果的に支援できることを実証した。

Multimodal language models (MLLMs) are increasingly being implemented in real-world environments, necessitating their ability to interpret 3D spaces and comprehend temporal dynamics. Despite their potential, current top models within our community still fall short in adequately understanding spatial and temporal dimensions. We introduce Coarse Correspondence, a simple, training-free, effective, and general-purpose visual prompting method to elicit 3D and temporal understanding in multimodal LLMs. Our method uses a lightweight tracking model to find object correspondences between frames in a video or between sets of image viewpoints. It selects the most frequent object instances and visualizes them with markers with unique IDs in the image. With this simple approach, we achieve state-of-the-art results on 3D understanding benchmarks including ScanQA (+20.5\%) and a subset of OpenEQA (+9.7\%), and on long-form video benchmarks such as EgoSchema (+6.0\%). We also curate a small diagnostic dataset to evaluate whether MLLMs can reason about space from a described viewpoint other than the camera viewpoint. Again, Coarse Correspondence improves spatial perspective-taking abilities but we highlight that MLLMs struggle with this task. Together, we demonstrate that our simple prompting method can significantly aid downstream tasks that require 3D or temporal reasoning.
翻訳日:2024-08-04 19:37:48 公開日:2024-08-01
# セグメンテーションモデル2--2次元および3次元医用画像への応用

Segment anything model 2: an application to 2D and 3D medical images ( http://arxiv.org/abs/2408.00756v1 )

ライセンス: Link先を確認
Haoyu Dong, Hanxue Gu, Yaqian Chen, Jichen Yang, Maciej A. Mazurowski, (参考訳) Segment Anything Model (SAM) は、様々なオブジェクトを画像にセグメント化できることから注目されている。 最近開発されたSAM 2は、この機能をビデオ入力に拡張した。 これにより、SAMを3D画像に適用する機会が開ける。 本稿では,SAM2の2次元画像と3次元画像の両方を分割する能力を広範囲に評価する。 我々は,CT (Computed tomography) やMRI (Magnetic resonance imaging) ,PET (positron emission tomography) などの一般的な3Dモダリティや,X線や超音波などの2Dモダリティを含む18の医用画像データセットを収集した。 SAM2の評価パイプラインは,(1)ボリュームから選択した1つまたは複数のスライスに対してプロンプトが提供されるマルチフレーム3Dセグメンテーションと,(2)スライス毎にプロンプトが提供されるシングルフレーム2Dセグメンテーションである。 前者は3Dモダリティにのみ適用され、後者は2Dモダリティと3Dモダリティの両方に適用される。 SAM 2 は,単フレーム2次元セグメンテーションにおいてSAM と同様の性能を示し,アノテートするスライスの選択,伝搬方向,伝搬中に利用した予測などに応じて,多フレーム3次元セグメンテーション下での変動性能を有することがわかった。

Segment Anything Model (SAM) has gained significant attention because of its ability to segment a variety of objects in images given a prompt. The recently developed SAM 2 has extended this ability to video inputs. This opens an opportunity to apply SAM to 3D images, one of the fundamental tasks in the medical imaging field. In this paper, we provide an extensive evaluation of SAM 2's ability to segment both 2D and 3D medical images. We collect 18 medical imaging datasets, including common 3D modalities such as computed tomography (CT), magnetic resonance imaging (MRI), and positron emission tomography (PET) as well as 2D modalities such as X-ray and ultrasound. We consider two evaluation pipelines of SAM 2: (1) multi-frame 3D segmentation, where prompts are provided to one or multiple slice(s) selected from the volume, and (2) single-frame 2D segmentation, where prompts are provided to each slice. The former is only applicable to 3D modalities, while the latter applies to both 2D and 3D modalities. We learn that SAM 2 exhibits similar performance as SAM under single-frame 2D segmentation, and has variable performance under multi-frame 3D segmentation depending on the choices of slices to annotate, the direction of the propagation, the predictions utilized during the propagation, etc.
翻訳日:2024-08-04 19:37:48 公開日:2024-08-01
# reset (countable かつ uncountable, 複数形 resets)

To reset, or not to reset -- that is the question ( http://arxiv.org/abs/2408.00758v1 )

ライセンス: Link先を確認
György P. Gehér, Marcin Jastrzebski, Earl T. Campbell, Ophelia Crawford, (参考訳) 量子誤り訂正実験において、量子ビットをリセットするか否かは、量子コンピューティングにおける基礎的および実践的重要性の問題である。 テキストブックの量子エラー補正では、測定後にキュービットがリセットされることが要求される。 しかし、高速量子ビットリセットは高い忠実度で実行することが困難であることが証明されている。 その結果、多くの最先端量子誤り訂正実験は、物理リセットを行わないノーリセットアプローチを選択している。 最近、no-resetはリセットプロシージャと機能的に等価であり、高速で簡単である、と仮定された。 メモリ実験では、リセットが利益をもたらすことはないことを数値的に確認する。 一方,論理演算において顕著な差が認められた。 非条件リセット量子ビットは、許容できる測定誤差の数が2倍になるため、フォールトトレラント論理演算の持続時間を最大2倍に削減できる。 我々はこれを数値シミュレーションで支援する。 しかし,本シミュレーションでは,リセット期間や不確かさが与えられた閾値を超えた場合,非リセット性能が優れていることも明らかにした。 最後に、2つの新しいシンドローム抽出回路を導入し、非リセット手法の時間的オーバーヘッドを低減する。 本研究は,実験者が今後の実験をどのように設計すべきかについてのガイダンスを提供する。

Whether to reset qubits, or not, during quantum error correction experiments is a question of both foundational and practical importance for quantum computing. Text-book quantum error correction demands that qubits are reset after measurement. However, fast qubit reset has proven challenging to execute at high fidelity. Consequently, many cutting-edge quantum error correction experiments are opting for the no-reset approach, where physical reset is not performed. It has recently been postulated that no-reset is functionally equivalent to reset procedures, as well as being faster and easier. For memory experiments, we confirm numerically that resetting provides no benefit. On the other hand, we identify a remarkable difference during logical operations. We find that unconditionally resetting qubits can reduce the duration of fault-tolerant logical operation by up to a factor of two as the number of measurement errors that can be tolerated is doubled. We support this with numerical simulations. However, our simulations also reveal that the no-reset performance is superior if the reset duration or infidelity exceeds a given threshold. Lastly, we introduce two novel syndrome extraction circuits that can reduce the time overhead of no-reset approaches. Our findings provide guidance on how experimentalists should design future experiments.
翻訳日:2024-08-04 19:37:48 公開日:2024-08-01
# テキストガイド映像自動エンコーダ

Text-Guided Video Masked Autoencoder ( http://arxiv.org/abs/2408.00759v1 )

ライセンス: Link先を確認
David Fan, Jue Wang, Shuai Liao, Zhikang Zhang, Vimal Bhat, Xinyu Li, (参考訳) 最近のビデオマスキングオートエンコーダ (MAE) は、サリエンシに着目したマスキングアルゴリズムを改良した。 これらの研究は、動きのような視覚的手がかりを利用して、最も静かな領域を隠蔽する。 しかし、このような視覚的手がかりの堅牢性は、入力ビデオが基礎となる仮定とどの程度の頻度で一致しているかに依存する。 一方、自然言語記述は、モダリティ固有の仮定を必要とせず、暗黙的に塩分濃度を捉えた映像の高密度表現であり、ビデオMAEでは未だ検討されていない。 そこで本研究では,ペア字幕に対応して映像領域をマスキングする新しいテキスト誘導マスキングアルゴリズム(TGM)を提案する。 われわれのTGMは、明確な視覚的手がかりを生かさずに、モーション誘導マスキングのような最先端のマスキングアルゴリズムと競合する。 次に,マスク付き再構成のための自然言語のセマンティクスのさらなる活用を目的として,共同学習のための統合フレームワークと,マスク付きビデオテキストコントラスト学習を提案する。 既存のマスキングアルゴリズム、統一MAE、マスキングビデオテキストコントラスト学習は、様々なビデオ認識タスク、特に線形プローブにおける純MAEと比較して、ダウンストリーム性能を向上させる。 この統合された枠組みの中で、我々のTGMは5つのアクション認識と1つのエゴセントリックなデータセットで最高の相対的性能を達成し、マスキングビデオモデリングにおける自然言語の相補的な性質を強調した。

Recent video masked autoencoder (MAE) works have designed improved masking algorithms focused on saliency. These works leverage visual cues such as motion to mask the most salient regions. However, the robustness of such visual cues depends on how often input videos match underlying assumptions. On the other hand, natural language description is an information dense representation of video that implicitly captures saliency without requiring modality-specific assumptions, and has not been explored yet for video MAE. To this end, we introduce a novel text-guided masking algorithm (TGM) that masks the video regions with highest correspondence to paired captions. Without leveraging any explicit visual cues for saliency, our TGM is competitive with state-of-the-art masking algorithms such as motion-guided masking. To further benefit from the semantics of natural language for masked reconstruction, we next introduce a unified framework for joint MAE and masked video-text contrastive learning. We show that across existing masking algorithms, unifying MAE and masked video-text contrastive learning improves downstream performance compared to pure MAE on a variety of video recognition tasks, especially for linear probe. Within this unified framework, our TGM achieves the best relative performance on five action recognition and one egocentric datasets, highlighting the complementary nature of natural language for masked video modeling.
翻訳日:2024-08-04 19:37:48 公開日:2024-08-01
# 平滑なエネルギー誘導:注意のエネルギー曲率を低減した拡散モデルの誘導

Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention ( http://arxiv.org/abs/2408.00760v1 )

ライセンス: Link先を確認
Susung Hong, (参考訳) 条件付き拡散モデルは、視覚コンテンツ生成において顕著な成功を示し、主に分類器フリーガイダンス(CFG)によって、様々な領域にわたる高品質なサンプルを生成する。 非条件モデルへのガイダンスを拡張しようとする最近の試みは、ヒューリスティックな手法に依存しており、その結果、最適以下の生成品質と意図しない効果をもたらす。 本研究では, 自己認識機構のエネルギー的視点を利用して画像生成を促進する, 新たな訓練・条件なし手法であるSmoothed Energy Guidance (SEG)を提案する。 自己注意のエネルギーを定義することにより、注意のエネルギー景観の曲率を減らし、その出力を無条件予測として利用する方法を提案する。 実際に、誘導スケールパラメータを固定したままガウス核パラメータを調整し、エネルギーランドスケープの曲率を制御する。 さらに,トークン数の2次複雑さを生じさせることなく,注目重量全体をぼかすようなクエリのぼかし手法を提案する。 実験では,SEGは品質と副作用の低減の両方においてパレートの改善を実現している。 コードは \url{https://github.com/SusungHong/SEG-SDXL} で公開されている。

Conditional diffusion models have shown remarkable success in visual content generation, producing high-quality samples across various domains, largely due to classifier-free guidance (CFG). Recent attempts to extend guidance to unconditional models have relied on heuristic techniques, resulting in suboptimal generation quality and unintended effects. In this work, we propose Smoothed Energy Guidance (SEG), a novel training- and condition-free approach that leverages the energy-based perspective of the self-attention mechanism to enhance image generation. By defining the energy of self-attention, we introduce a method to reduce the curvature of the energy landscape of attention and use the output as the unconditional prediction. Practically, we control the curvature of the energy landscape by adjusting the Gaussian kernel parameter while keeping the guidance scale parameter fixed. Additionally, we present a query blurring method that is equivalent to blurring the entire attention weights without incurring quadratic complexity in the number of tokens. In our experiments, SEG achieves a Pareto improvement in both quality and the reduction of side effects. The code is available at \url{https://github.com/SusungHong/SEG-SDXL}.
翻訳日:2024-08-04 19:37:48 公開日:2024-08-01
# オープンウェイトLLMのタンパ抵抗保護

Tamper-Resistant Safeguards for Open-Weight LLMs ( http://arxiv.org/abs/2408.00761v1 )

ライセンス: Link先を確認
Rishub Tamirisa, Bhrugu Bharathi, Long Phan, Andy Zhou, Alice Gatti, Tarun Suresh, Maxwell Lin, Justin Wang, Rowan Wang, Ron Arel, Andy Zou, Dawn Song, Bo Li, Dan Hendrycks, Mantas Mazeika, (参考訳) 大規模言語モデル(LLM)の能力の急速な進歩は、悪意のある使用の可能性について、広く懸念されている。 オープンウェイト LLM は、モデルウェイトを変更する攻撃に対して、既存のセーフガードには堅牢性がないため、ユニークな課題を呈している。 例えば、最近の研究は、いくつかの微調整のステップで、拒否と未学習の保護を自明に除去できることを実証している。 これらの脆弱性は、オープンウェイト LLM の安全なリリースを可能にするための新しいアプローチを必要とする。 我々は,数千歩の微調整の後にも,敵が保護を除去できないような,タンパ耐性の保護具をオープンウェイトLLMに組み込む方法TARを開発した。 広汎な評価とレッド・チームリング分析において,本手法は良識を保ちながらタンパー抵抗を大幅に改善することがわかった。 以上の結果から, タンパー抵抗性はトラクタブルな問題であり, オープンウェイトLLMの安全性と安全性を向上させるために, 将来性のある新たな道を開くことが示唆された。

Rapid advances in the capabilities of large language models (LLMs) have raised widespread concerns regarding their potential for malicious use. Open-weight LLMs present unique challenges, as existing safeguards lack robustness to tampering attacks that modify model weights. For example, recent works have demonstrated that refusal and unlearning safeguards can be trivially removed with a few steps of fine-tuning. These vulnerabilities necessitate new approaches for enabling the safe release of open-weight LLMs. We develop a method, called TAR, for building tamper-resistant safeguards into open-weight LLMs such that adversaries cannot remove the safeguards even after thousands of steps of fine-tuning. In extensive evaluations and red teaming analyses, we find that our method greatly improves tamper-resistance while preserving benign capabilities. Our results demonstrate that tamper-resistance is a tractable problem, opening up a promising new avenue to improve the safety and security of open-weight LLMs.
翻訳日:2024-08-04 19:37:48 公開日:2024-08-01
# UniTalker: 統一モデルによるオーディオ駆動型3D顔アニメーションのスケールアップ

UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model ( http://arxiv.org/abs/2408.00762v1 )

ライセンス: Link先を確認
Xiangyu Fan, Jiaqi Li, Zhiqian Lin, Weiye Xiao, Lei Yang, (参考訳) 音声駆動の3D顔アニメーションは、入力された音声をリアルな顔の動きにマッピングすることを目的としている。 大幅な進歩にもかかわらず、制約は一貫性のない3Dアノテーションから生じ、以前のモデルを特定のアノテーションのトレーニングに制限し、それによってトレーニングスケールを制限した。 本稿では,様々なアノテーションを持つデータセットを効果的に活用するためのマルチヘッドアーキテクチャを特徴とする統一モデルUniTalkerを提案する。 トレーニング安定性の向上とマルチヘッド出力の整合性確保のために,PCA,モデルウォームアップ,ピボットIDの埋め込みという3つのトレーニング戦略を採用した。 トレーニングの規模と多様性を拡大するため、5つの公開データセットと3つの新たにキュレートされたデータセットからなるA2F-Benchを組み立てました。 これらのデータセットは幅広いオーディオ領域を含み、多言語音声と歌をカバーし、一般的に使用されるデータセットからのトレーニングデータを1時間未満の18.5時間にスケールする。 単一の訓練されたUniTalkerモデルでは、BIWIデータセットでは9.2%、Vocasetでは13.7%の実質的なリップ頂点エラー削減を実現している。 さらに、事前訓練されたUniTalkerは、オーディオ駆動の顔アニメーションタスクの基礎モデルとして約束されている。 トレーニング済みのUniTalkerのデータセットの微調整により、各データセットのパフォーマンスはさらに向上し、平均エラーはA2F-Benchで6.3%低下する。 さらに、全データセットでトレーニングされた以前の最先端モデルを超えるデータの半分しか持たない、目に見えないデータセット上で、微調整のUniTalkerを使用する。 コードとデータセットはプロジェクトページ https://github.com/X-niper/UniTalker.com で公開されている。

Audio-driven 3D facial animation aims to map input audio to realistic facial motion. Despite significant progress, limitations arise from inconsistent 3D annotations, restricting previous models to training on specific annotations and thereby constraining the training scale. In this work, we present UniTalker, a unified model featuring a multi-head architecture designed to effectively leverage datasets with varied annotations. To enhance training stability and ensure consistency among multi-head outputs, we employ three training strategies, namely, PCA, model warm-up, and pivot identity embedding. To expand the training scale and diversity, we assemble A2F-Bench, comprising five publicly available datasets and three newly curated datasets. These datasets contain a wide range of audio domains, covering multilingual speech voices and songs, thereby scaling the training data from commonly employed datasets, typically less than 1 hour, to 18.5 hours. With a single trained UniTalker model, we achieve substantial lip vertex error reductions of 9.2% for BIWI dataset and 13.7% for Vocaset. Additionally, the pre-trained UniTalker exhibits promise as the foundation model for audio-driven facial animation tasks. Fine-tuning the pre-trained UniTalker on seen datasets further enhances performance on each dataset, with an average error reduction of 6.3% on A2F-Bench. Moreover, fine-tuning UniTalker on an unseen dataset with only half the data surpasses prior state-of-the-art models trained on the full dataset. The code and dataset are available at the project page https://github.com/X-niper/UniTalker.
翻訳日:2024-08-04 19:37:48 公開日:2024-08-01
# AgentGen:環境とタスク生成による大規模言語モデルベースエージェントの計画能力向上

AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation ( http://arxiv.org/abs/2408.00764v1 )

ライセンス: Link先を確認
Mengkang Hu, Pu Zhao, Can Xu, Qingfeng Sun, Jianguang Lou, Qingwei Lin, Ping Luo, Saravan Rajmohan, Dongmei Zhang, (参考訳) LLM(Large Language Model)ベースのエージェントは注目を集め、ますます人気が高まっている。 さらに、計画能力は、環境とのインタラクションと、計画タスクを完了するためのアクションの実行を含む、LLMベースのエージェントの重要なコンポーネントであり、一般的には、初期状態から望ましい目標を達成する必要がある。 本稿では,エージェント・トレーニング(エージェント・トレーニング)と呼ばれるインストラクション・チューニングによるLCMの計画能力の向上について検討する。 近年の研究では、専門家レベルの軌跡を指導訓練用LLMに活用することで、効果的に計画能力を向上させることが示されている。 しかし、既存の研究は主に手作業で設計された計画作業や環境から軌道を合成することに焦点を当てている。 これらの環境とタスクを作るという労働集約的な性質は、十分な多様性と広範な軌道の生成を妨げる。 この制限に対処するため,多様な環境の自動合成と段階的な計画課題を,容易から困難まで検討した。 本稿では,まず LLM を利用して環境を生成し,次にこれらの環境に調和した計画タスクを生成する,AgentGen というフレームワークを紹介する。 具体的には、環境の多様性を改善するために、様々なドメイン固有のテキストセグメントからなるインスピレーションコーパスを環境合成のコンテキストとして使用することを提案する。 さらに、生成した計画タスクの難易度を増大させるため、より容易かつ困難な方向から計画タスクを進化させ、よりスムーズな難易度曲線でタスクセットを合成する双方向進化法、Bi-Evolを提案する。 AgentBoard による評価結果から,Agengen は LLM の計画能力を大幅に向上し,例えば AgentGen 命令調整 Llama-3 8B は GPT-3.5 を上回る性能を示した。 さらに、特定のタスクでは、GPT-4よりも優れています。

Large Language Model (LLM) based agents have garnered significant attention and are becoming increasingly popular. Furthermore, planning ability is a crucial component of an LLM-based agent, involving interaction with the environment and executing actions to complete a planning task, which generally entails achieving a desired goal from an initial state. This paper investigates enhancing the planning abilities of LLMs through instruction tuning, referred to as agent training. Recent studies have demonstrated that utilizing expert-level trajectory for instruction-tuning LLMs effectively enhances their planning capabilities. However, existing work primarily focuses on synthesizing trajectories from manually designed planning tasks and environments. The labor-intensive nature of creating these environments and tasks impedes the generation of sufficiently varied and extensive trajectories. To address this limitation, this paper explores the automated synthesis of diverse environments and a gradual range of planning tasks, from easy to difficult. We introduce a framework, AgentGen, that leverages LLMs first to generate environments and subsequently generate planning tasks conditioned on these environments. Specifically, to improve environmental diversity, we propose using an inspiration corpus composed of various domain-specific text segments as the context for synthesizing environments. Moreover, to increase the difficulty diversity of generated planning tasks, we propose a bidirectional evolution method, Bi-Evol, that evolves planning tasks from easier and harder directions to synthesize a task set with a smoother difficulty curve. The evaluation results derived from AgentBoard show that AgentGen greatly improves LLMs' planning ability, e.g., the AgentGen instruction-tuned Llama-3 8B surpasses GPT-3.5 in overall performance. Moreover, in certain tasks, it even outperforms GPT-4.
翻訳日:2024-08-04 19:37:48 公開日:2024-08-01
# MM-Vet v2: 統合機能のための大規模マルチモーダルモデルの評価ベンチマーク

MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities ( http://arxiv.org/abs/2408.00765v1 )

ライセンス: Link先を確認
Weihao Yu, Zhengyuan Yang, Linfeng Ren, Linjie Li, Jianfeng Wang, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang, Xinchao Wang, (参考訳) MM-Vetは、統合能力の評価を目的としたオープンエンドの視覚言語質問であり、大規模なマルチモーダルモデル評価のための最も人気のあるベンチマークの1つとなっている。 MM-Vetは、認識、知識、空間認識、言語生成、OCR、数学の6つのコアビジョン言語(VL)能力を評価する。 しかし、その質問形式は単一の画像とテキストのペアに限られており、実際のシナリオで広く見られるインターリーブ画像とテキストシーケンスが欠如している。 この制限に対処するため、MM-Vet v2を導入し、「画像テキストシーケンス理解」と呼ばれる新しいVL機能を導入し、VLシーケンスを処理するモデルの能力を評価する。 さらに,評価セットのサイズをさらに拡大しながら,評価サンプルの品質を向上する。 MM-Vet v2を用いて大規模マルチモーダルモデルのベンチマークを行った結果,Claude 3.5 Sonnetはスコア71.8の最良のモデルであり,スコア71.0のGPT-4oより若干優れていた。 オープンウェイトモデルの中では、InternVL2-Llama3-76Bが68.4のスコアでリードしている。

MM-Vet, with open-ended vision-language questions targeting at evaluating integrated capabilities, has become one of the most popular benchmarks for large multimodal model evaluation. MM-Vet assesses six core vision-language (VL) capabilities: recognition, knowledge, spatial awareness, language generation, OCR, and math. However, its question format is restricted to single image-text pairs, lacking the interleaved image and text sequences prevalent in real-world scenarios. To address this limitation, we introduce MM-Vet v2, which includes a new VL capability called "image-text sequence understanding", evaluating models' ability to process VL sequences. Furthermore, we maintain the high quality of evaluation samples while further expanding the evaluation set size. Using MM-Vet v2 to benchmark large multimodal models, we found that Claude 3.5 Sonnet is the best model with a score of 71.8, slightly outperforming GPT-4o which scored 71.0. Among open-weight models, InternVL2-Llama3-76B leads with a score of 68.4.
翻訳日:2024-08-04 19:37:48 公開日:2024-08-01
# 関節軌跡予測と制御可能生成のための最適拡散モデル

Optimizing Diffusion Models for Joint Trajectory Prediction and Controllable Generation ( http://arxiv.org/abs/2408.00766v1 )

ライセンス: Link先を確認
Yixiao Wang, Chen Tang, Lingfeng Sun, Simone Rossi, Yichen Xie, Chensheng Peng, Thomas Hannagan, Stefano Sabatini, Nicola Poerio, Masayoshi Tomizuka, Wei Zhan, (参考訳) 拡散モデルは、自律運転における共同軌道予測と制御可能な生成を約束するが、非効率な推論ステップと高い計算要求の課題に直面している。 これらの課題に対処するために、最適ガウス拡散(OGD)と推定クリーンマニフォールド(ECM)誘導を導入する。 OGDは、前の分布を小さな拡散時間$T$で最適化し、それから逆拡散プロセスを開始する。 ECMは、推定されたクリーン多様体に直接誘導勾配を注入し、ネットワーク全体にわたって広範な勾配のバックプロパゲーションを除去する。 提案手法は生成過程の合理化を図り,計算オーバーヘッドを低減した実用的な応用を実現する。 大規模Argoverse 2データセットに対する実験的な検証は、計算効率が高く、高品質な関節軌道予測と自律運転のための制御可能な生成が可能なソリューションを提供することにより、我々のアプローチの優れた性能を示す。 プロジェクトのWebページはhttps://yixiaowang7.github.io/OptTrajDiff_Page/です。

Diffusion models are promising for joint trajectory prediction and controllable generation in autonomous driving, but they face challenges of inefficient inference steps and high computational demands. To tackle these challenges, we introduce Optimal Gaussian Diffusion (OGD) and Estimated Clean Manifold (ECM) Guidance. OGD optimizes the prior distribution for a small diffusion time $T$ and starts the reverse diffusion process from it. ECM directly injects guidance gradients to the estimated clean manifold, eliminating extensive gradient backpropagation throughout the network. Our methodology streamlines the generative process, enabling practical applications with reduced computational overhead. Experimental validation on the large-scale Argoverse 2 dataset demonstrates our approach's superior performance, offering a viable solution for computationally efficient, high-quality joint trajectory prediction and controllable generation for autonomous driving. Our project webpage is at https://yixiaowang7.github.io/OptTrajDiff_Page/.
翻訳日:2024-08-04 19:37:48 公開日:2024-08-01
# カーネルの汎用化

Generalized Kernel Thinning ( http://arxiv.org/abs/2110.01593v6 )

ライセンス: Link先を確認
Raaz Dwivedi, Lester Mackey, (参考訳) DwivediおよびMackey(2021)のカーネルスライニング(KT)アルゴリズムは、再生されたカーネルヒルベルト空間(RKHS)をターゲットとし、より滑らかでない平方根カーネルを活用することにより、独立サンプリングよりも効率的に確率分布を圧縮する。 ここでは4つの改善点を挙げる。 まず、KTをターゲットRKHSに直接適用すると、RKHS内の任意のカーネル、任意の分布、および任意の固定関数に対して、より厳密で次元のない保証が得られることを示す。 第二に、ガウス、逆マルチクワッドリック、シンクのような分析カーネルでは、ターゲットKTは平方根カーネルを明示的に使用することなく、平方根KTと同等以上の平均誤差(MMD)を保証する。 第三に、分数核を持つKTが、正方根を持たないラプラスやマトエルンのような非滑らかな核に対して、より優れたモンテカルロ MMDを保証することを証明している。 第4に、ターゲットカーネルとパワーカーネルの和(KT+と呼ぶプロシージャ)にKTを適用すると、パワーKTのMDD保証とターゲットKTのより厳密な個別関数保証を同時に継承する。 対象とするKTとKT+を用いた実験では,100ドルの次元においても積分誤差が大幅に改善され,また,挑戦的な微分方程式後部を圧縮した場合にも顕著に改善されることがわかった。

The kernel thinning (KT) algorithm of Dwivedi and Mackey (2021) compresses a probability distribution more effectively than independent sampling by targeting a reproducing kernel Hilbert space (RKHS) and leveraging a less smooth square-root kernel. Here we provide four improvements. First, we show that KT applied directly to the target RKHS yields tighter, dimension-free guarantees for any kernel, any distribution, and any fixed function in the RKHS. Second, we show that, for analytic kernels like Gaussian, inverse multiquadric, and sinc, target KT admits maximum mean discrepancy (MMD) guarantees comparable to or better than those of square-root KT without making explicit use of a square-root kernel. Third, we prove that KT with a fractional power kernel yields better-than-Monte-Carlo MMD guarantees for non-smooth kernels, like Laplace and Mat\'ern, that do not have square-roots. Fourth, we establish that KT applied to a sum of the target and power kernels (a procedure we call KT+) simultaneously inherits the improved MMD guarantees of power KT and the tighter individual function guarantees of target KT. In our experiments with target KT and KT+, we witness significant improvements in integration error even in $100$ dimensions and when compressing challenging differential equation posteriors.
翻訳日:2024-08-02 19:06:02 公開日:2024-08-01
# コスト感受性学習によるNeyman-Pearson多クラス分類

Neyman-Pearson Multi-class Classification via Cost-sensitive Learning ( http://arxiv.org/abs/2111.04597v4 )

ライセンス: Link先を確認
Ye Tian, Yang Feng, (参考訳) 既存の多くの分類手法は、全体的な誤分類エラー率を最小限にすることを目的としている。 しかし、ローンのデフォルト予測のようなアプリケーションでは、異なるタイプのエラーが様々な結果をもたらす可能性がある。 この非対称性問題に対処するために、ネイマン・ピアソン(NP)パラダイムとコストセンシティブ(CS)パラダイムという2つの一般的なパラダイムが開発された。 NPパラダイムに関するこれまでの研究は、主にバイナリーケースに焦点を当てていたが、マルチクラスNP問題は、その実現可能性の不明さから、より大きな課題を提起している。 本研究では,強い双対性によりCS問題との接続を確立することにより,多クラスNP問題に取り組み,2つのアルゴリズムを提案する。 我々は、二項分類において重要なNPオラクル不等式の概念を、多クラス文脈におけるNPオラクル特性に拡張する。 我々のアルゴリズムは、特定の条件下でこれらのNPオラクル特性を満たす。 さらに,多クラスNP問題における実現可能性と強双対性を評価するための実用的アルゴリズムを開発した。 シミュレーションと実データ研究は、我々のアルゴリズムの有効性を検証する。 我々の知る限り、これは理論的な保証を伴う多クラスNP問題に対処する最初の研究である。 提案アルゴリズムは CRAN で利用可能な R パッケージ \texttt{npcs} で実装されている。

Most existing classification methods aim to minimize the overall misclassification error rate. However, in applications such as loan default prediction, different types of errors can have varying consequences. To address this asymmetry issue, two popular paradigms have been developed: the Neyman-Pearson (NP) paradigm and the cost-sensitive (CS) paradigm. Previous studies on the NP paradigm have primarily focused on the binary case, while the multi-class NP problem poses a greater challenge due to its unknown feasibility. In this work, we tackle the multi-class NP problem by establishing a connection with the CS problem via strong duality and propose two algorithms. We extend the concept of NP oracle inequalities, crucial in binary classifications, to NP oracle properties in the multi-class context. Our algorithms satisfy these NP oracle properties under certain conditions. Furthermore, we develop practical algorithms to assess the feasibility and strong duality in multi-class NP problems, which can offer practitioners the landscape of a multi-class NP problem with various target error levels. Simulations and real data studies validate the effectiveness of our algorithms. To our knowledge, this is the first study to address the multi-class NP problem with theoretical guarantees. The proposed algorithms have been implemented in the R package \texttt{npcs}, which is available on CRAN.
翻訳日:2024-08-02 19:06:02 公開日:2024-08-01
# スタックオーバーフローにおけるレコメンデーションゲーム

Reputation Gaming in Stack Overflow ( http://arxiv.org/abs/2111.07101v2 )

ライセンス: Link先を確認
Iren Mazloomzadeh, Gias Uddin, Foutse Khomh, Ashkan Sami, (参考訳) Stack Overflowインセンティブシステムは、品質を保証するために評価スコアをユーザに付与する。 フォーラムの分散した性質は、インセンティブシステムを操作しやすくする可能性がある。 本稿は,Stack Overflowで実施されるであろう評価操作シナリオの報告について,Meta Stack Exchangeサイトからの1,697件の投稿を定性的に分析し,その評価ゲーマーの出現状況について概説する。 同様の投稿でコミュニティが互いに投票を繰り返す投票リングなど,評価詐欺のシナリオは4種類あった。 我々は、プラットフォームマネージャが不審な評判ゲームシナリオを自動的に識別してレビューできるアルゴリズムを開発した。 第1のアルゴリズムは、評判詐欺が主に互いに協調して起こる可能性のある、孤立・半孤立したコミュニティを識別する。 第2のアルゴリズムは、ユーザーの評判スコアの急激な急激な急上昇を検索する。 Stack OverflowのWebサイトから,Stack Overflowユーザの評判履歴ダッシュボードを調べて,アルゴリズムのパフォーマンスを評価した。 私たちは、約60~80%のユーザが、アルゴリズムによって疑わしいとしてフラグを立てており、Stack Overflowによる評判スコアの低下を経験しています。

Stack Overflow incentive system awards users with reputation scores to ensure quality. The decentralized nature of the forum may make the incentive system prone to manipulation. This paper offers, for the first time, a comprehensive study of the reported types of reputation manipulation scenarios that might be exercised in Stack Overflow and the prevalence of such reputation gamers by a qualitative study of 1,697 posts from meta Stack Exchange sites. We found four different types of reputation fraud scenarios, such as voting rings where communities form to upvote each other repeatedly on similar posts. We developed algorithms that enable platform managers to automatically identify these suspicious reputation gaming scenarios for review. The first algorithm identifies isolated/semi-isolated communities where probable reputation frauds may occur mostly by collaborating with each other. The second algorithm looks for sudden unusual big jumps in the reputation scores of users. We evaluated the performance of our algorithms by examining the reputation history dashboard of Stack Overflow users from the Stack Overflow website. We observed that around 60-80% of users flagged as suspicious by our algorithms experienced reductions in their reputation scores by Stack Overflow.
翻訳日:2024-08-02 19:06:02 公開日:2024-08-01
# ガウス混合モデルにおけるロバスト教師なしマルチタスクと伝達学習

Robust Unsupervised Multi-task and Transfer Learning on Gaussian Mixture Models ( http://arxiv.org/abs/2209.15224v3 )

ライセンス: Link先を確認
Ye Tian, Haolei Weng, Lucy Xia, Yang Feng, (参考訳) 教師なし学習は多くの現実世界のアプリケーションで広く使われている。 最も単純かつ重要な教師なし学習モデルの1つはガウス混合モデル(GMM)である。 本研究では,GMMにおけるマルチタスク学習問題について検討し,タスク間の類似したGMMパラメータ構造を活用し,シングルタスク学習と比較して学習性能を向上させることを目的とする。 本稿では,EMアルゴリズムに基づくマルチタスクGMM学習手法を提案する。 提案手法は,パラメータ推定誤差と過剰な誤クラスタリング誤差の両方に対する最小収束率を,幅広い状況下で達成する。 さらに,同様の理論的結果が導出されるGMMにおける移動学習問題へのアプローチを一般化する。 さらに、反復的教師なしマルチタスクおよび転送学習法は初期化アライメントの問題に悩まされ、この問題を解決するために2つのアライメントアルゴリズムが提案される。 最後に,本手法の有効性をシミュレーションおよび実データ例を用いて実証する。 我々の知る限りでは、理論的保証のあるGMM上でマルチタスクとトランスファー学習を研究する最初の研究である。

Unsupervised learning has been widely used in many real-world applications. One of the simplest and most important unsupervised learning models is the Gaussian mixture model (GMM). In this work, we study the multi-task learning problem on GMMs, which aims to leverage potentially similar GMM parameter structures among tasks to obtain improved learning performance compared to single-task learning. We propose a multi-task GMM learning procedure based on the EM algorithm that effectively utilizes unknown similarities between related tasks and is robust against a fraction of outlier tasks from arbitrary distributions. The proposed procedure is shown to achieve the minimax optimal rate of convergence for both parameter estimation error and the excess mis-clustering error, in a wide range of regimes. Moreover, we generalize our approach to tackle the problem of transfer learning for GMMs, where similar theoretical results are derived. Additionally, iterative unsupervised multi-task and transfer learning methods may suffer from an initialization alignment problem, and two alignment algorithms are proposed to resolve the issue. Finally, we demonstrate the effectiveness of our methods through simulations and real data examples. To the best of our knowledge, this is the first work studying multi-task and transfer learning on GMMs with theoretical guarantees.
翻訳日:2024-08-02 19:06:02 公開日:2024-08-01
# イベント内GANを用いた超高分解能リレーショナル推論

Ultra-High-Resolution Detector Simulation with Intra-Event Aware GAN and Self-Supervised Relational Reasoning ( http://arxiv.org/abs/2303.08046v2 )

ライセンス: Link先を確認
Baran Hashemi, Nikolai Hartmann, Sahand Sharifzadeh, James Kahn, Thomas Kuhr, (参考訳) 高分解能検出器応答のシミュレーションは、長い間粒子物理学において挑戦されてきた計算集約的なプロセスである。 生成モデルの合理化は可能であるが、相関情報や微細な情報を含むため、完全な超高粒度検出器シミュレーションは依然として困難であることが証明されている。 これらの制限を克服するため,イベント・アウェア・ジェネレーティブ・アダクティブ・アダクティブ・アダクティブ・アダクティブ・アダクティブ・アダクティブ・アダクティブ・アダクティブ・アダクティブ・アダクティブ・アダクティブ・アダクティブ・アダクティブ・ IEA-GANは、検出器シミュレーションにおける事象を近似したリレーショナル推論モジュールを示し、適切なリレーショナル帰納バイアスを持つコンテキスト化された高分解能フル検出器応答を生成する。 IEA-GANはまた、自己改善されたイベント内認識損失と均一性損失を導入し、サンプルの忠実度と多様性を大幅に向上させた。 超高粒度Pixel Vertex Detector(PXD)のセンサ依存画像生成におけるIEA-GANの適用を,ベルII実験で7.5M以上の情報チャネルで実証した。 この研究の応用は、HL-LHC(High Luminosity LHC)のような高粒度検出器シミュレーションのための基礎モデルから、シミュレーションに基づく推論ときめ細かい密度推定まで多岐にわたる。 我々の知る限り、IEA-GANはイベントベースの推論による忠実な超高粒度フル検出器シミュレーションのための最初のアルゴリズムである。

Simulating high-resolution detector responses is a computationally intensive process that has long been challenging in Particle Physics. Despite the ability of generative models to streamline it, full ultra-high-granularity detector simulation still proves to be difficult as it contains correlated and fine-grained information. To overcome these limitations, we propose Intra-Event Aware Generative Adversarial Network (IEA-GAN). IEA-GAN presents a Relational Reasoning Module that approximates an event in detector simulation, generating contextualized high-resolution full detector responses with a proper relational inductive bias. IEA-GAN also introduces a Self-Supervised intra-event aware loss and Uniformity loss, significantly enhancing sample fidelity and diversity. We demonstrate IEA-GAN's application in generating sensor-dependent images for the ultra-high-granularity Pixel Vertex Detector (PXD), with more than 7.5 M information channels at the Belle II Experiment. Applications of this work span from Foundation Models for high-granularity detector simulation, such as at the HL-LHC (High Luminosity LHC), to simulation-based inference and fine-grained density estimation. To our knowledge, IEA-GAN is the first algorithm for faithful ultra-high-granularity full detector simulation with event-based reasoning.
翻訳日:2024-08-02 19:06:02 公開日:2024-08-01
# 遺伝的プログラミングにおけるダウンサンプリングと選択の効果の解明

Untangling the Effects of Down-Sampling and Selection in Genetic Programming ( http://arxiv.org/abs/2304.07089v2 )

ライセンス: Link先を確認
Ryan Boldi, Ashley Bao, Martin Briesch, Thomas Helmuth, Dominik Sobania, Lee Spector, Alexander Lalejini, (参考訳) 遺伝的プログラミングシステムは、しばしば大きなトレーニングセットを使用して、選択のための候補ソリューションの品質を評価する。 ダウンサンプリングトレーニングセットは、幅広いアプリケーション領域における評価の計算コストを低減するために、長い間使われてきた。 より具体的には、近年の研究では、ランダムなダウンサンプリングとインフォメーションなダウンサンプリングの両方が、レキシケース親選択アルゴリズムを用いたGPシステムにおける問題解決の成功を大幅に改善できることが示されている。 これらのダウンサンプリング手法は,6つのプログラム合成GP問題にまたがって,フィットネス・プロポータネート,トーナメント,暗黙のフィットネス共有とトーナメント選択という,他の3つの一般的な選択手法の文脈において,問題解決の成功を向上できるかどうかを検証した。 これら3つの選別方式のすべてにおいて,ダウンサンプリングが問題解決の成功を著しく向上させ,その有効性を実証した。 我々は,選択方式によって課される選択圧力が,ダウンサンプリング法と相互作用しないことを明らかにした。 しかし,情報化ダウンサンプリングは,レキシケースや暗黙のフィットネス共有といった多様性維持機構を持つ場合,ランダムなダウンサンプリングよりも問題解決の成功を著しく向上させることができることがわかった。 以上の結果から, 使用中の選択方式によらず, テストベース問題を解く場合には, ダウンサンプリングがより頻繁に考慮されるべきであることが示唆された。

Genetic programming systems often use large training sets to evaluate the quality of candidate solutions for selection, which is often computationally expensive. Down-sampling training sets has long been used to decrease the computational cost of evaluation in a wide range of application domains. More specifically, recent studies have shown that both random and informed down-sampling can substantially improve problem-solving success for GP systems that use the lexicase parent selection algorithm. We test whether these down-sampling techniques can also improve problem-solving success in the context of three other commonly used selection methods, fitness-proportionate, tournament, implicit fitness sharing plus tournament selection, across six program synthesis GP problems. We verified that down-sampling can significantly improve the problem-solving success for all three of these other selection schemes, demonstrating its general efficacy. We discern that the selection pressure imposed by the selection scheme does not interact with the down-sampling method. However, we find that informed down-sampling can improve problem solving success significantly over random down-sampling when the selection scheme has a mechanism for diversity maintenance like lexicase or implicit fitness sharing. Overall, our results suggest that down-sampling should be considered more often when solving test-based problems, regardless of the selection scheme in use.
翻訳日:2024-08-02 19:06:02 公開日:2024-08-01
# U-Netを用いた胎児頭部超音波画像分割のための微調整法の評価

Evaluate Fine-tuning Strategies for Fetal Head Ultrasound Image Segmentation with U-Net ( http://arxiv.org/abs/2307.09067v2 )

ライセンス: Link先を確認
Fangyijie Wang, Guénolé Silvestre, Kathleen M. Curran, (参考訳) 胎児頭割断は妊娠中の胎児頭周率(HC)を測定するための重要なステップである。 しかし、手動のバイオメトリ生成は時間がかかり、不整合の精度をもたらす。 この問題に対処するために、畳み込みニューラルネットワーク(CNN)モデルを使用して、医療バイオメトリの効率を改善する。 しかし、CNNネットワークをゼロからトレーニングすることは難しい課題であり、我々はTransfer Learning (TL) 手法を提案した。 本手法では,軽量なMobileNetをエンコーダとするU-Netネットワークの微細チューニング(FT)を行い,胎児頭部超音波(US)画像のセグメンテーションを行う。 この方法は、CNNネットワークをスクラッチからトレーニングする際の課題に対処する。 提案したFT戦略は,パラメータ数を85.8%削減してトレーニングした場合に同等のセグメンテーション性能が得られることを示唆している。 提案したFT戦略は、トレーニング可能なパラメータサイズが440万未満の他の戦略よりも優れている。 したがって、医用画像解析におけるモデルのサイズを小さくするために、信頼性の高いFTアプローチとして機能する可能性がある。 我々の重要な発見は、TL法による人工知能(AI)アプリケーションの開発において、モデル性能とサイズの間のバランスの重要性を強調した。 コードはhttps://github.com/13204942/FT_Methods_for_Fetal_Head_Segmentationで公開されている。

Fetal head segmentation is a crucial step in measuring the fetal head circumference (HC) during gestation, an important biometric in obstetrics for monitoring fetal growth. However, manual biometry generation is time-consuming and results in inconsistent accuracy. To address this issue, convolutional neural network (CNN) models have been utilized to improve the efficiency of medical biometry. But training a CNN network from scratch is a challenging task, we proposed a Transfer Learning (TL) method. Our approach involves fine-tuning (FT) a U-Net network with a lightweight MobileNet as the encoder to perform segmentation on a set of fetal head ultrasound (US) images with limited effort. This method addresses the challenges associated with training a CNN network from scratch. It suggests that our proposed FT strategy yields segmentation performance that is comparable when trained with a reduced number of parameters by 85.8%. And our proposed FT strategy outperforms other strategies with smaller trainable parameter sizes below 4.4 million. Thus, we contend that it can serve as a dependable FT approach for reducing the size of models in medical image analysis. Our key findings highlight the importance of the balance between model performance and size in developing Artificial Intelligence (AI) applications by TL methods. Code is available at https://github.com/13204942/FT_Methods_for_Fetal_Head_Segmentation.
翻訳日:2024-08-02 19:06:02 公開日:2024-08-01
# 周波数重大性モデリングのためのコンフォーマル予測

Conformal prediction for frequency-severity modeling ( http://arxiv.org/abs/2307.13124v3 )

ライセンス: Link先を確認
Helton Graziadei, Paulo C. Marques F., Eduardo F. L. de Melo, Rodrigo S. Targino, (参考訳) 本稿では,保険請求項の予測区間を構築するためのモデル非依存フレームワークについて,有限サンプル統計保証を用いて,二段階周波数重大性モデリングの領域に分割整合予測の手法を拡張した。 フレームワークの有効性は、古典的パラメトリックモデルと現代の機械学習手法を用いたシミュレーションおよび実データセットで示される。 基礎となる重大度モデルがランダムな森林である場合、二段階分割型コンフォメーション予測アルゴリズムを拡張し、アウト・オブ・バッグ機構をどのように活用して、コンフォメーション・プロシージャにおけるキャリブレーション・セットの必要性を排除するかを示す。

We present a model-agnostic framework for the construction of prediction intervals of insurance claims, with finite sample statistical guarantees, extending the technique of split conformal prediction to the domain of two-stage frequency-severity modeling. The framework effectiveness is showcased with simulated and real datasets using classical parametric models and contemporary machine learning methods. When the underlying severity model is a random forest, we extend the two-stage split conformal prediction algorithm, showing how the out-of-bag mechanism can be leveraged to eliminate the need for a calibration set in the conformal procedure.
翻訳日:2024-08-02 19:06:01 公開日:2024-08-01
# rCanary: Rustの半自動メモリ管理境界を越えてメモリリークを検出する

rCanary: Detecting Memory Leaks Across Semi-automated Memory Management Boundary in Rust ( http://arxiv.org/abs/2308.04787v2 )

ライセンス: Link先を確認
Mohan Cui, Hui Xu, Hongliang Tian, Yangfan Zhou, (参考訳) Rustは,コンパイル時の検証を通じてメモリ安全性を保証する,効果的なシステムプログラム言語である。 新規なオーナシップベースのリソース管理モデルを採用して,自動配当を容易にする。 このモデルはメモリリークを排除することが期待されている。 しかし、ユーザの介入によって半自動メモリ管理に移行し、エラーが発生しやすいことが観察された。 安全でないキーワードによって制限されるメモリ安全性の保証を侵害するのとは対照的に、リークするメモリの境界は暗黙的であり、コンパイラは開発者に警告を発しない。 本稿では,半自動境界における漏洩を検出する静的,非侵入的,完全自動モデルチェッカーであるrCanaryを提案する。 我々は,ヒープアロケーションでデータを抽象化するエンコーダを設計し,ブール整合性に基づいた洗練されたリークフリーメモリモデルを定式化する。 Rust MIRのSMT-Lib2フォーマット制約を生成することができ、Cargoコンポーネントとして実装されている。 我々は、オープンソースのRustプロジェクトのプルリクエストから収集された欠陥パッケージベンチマークを使用してrCanaryを評価する。 以上の結果から,これらすべての欠陥を疑わしい偽陽性で思い出すことが可能であることが示唆された。 さらに当社のツールをcrates.ioとGitHubから1200以上の実世界のクレートに適用し、メモリリークのある19のクレートを特定します。 当社のアナライザも効率的で,パッケージあたりのコストは8.4秒です。

Rust is an effective system programming language that guarantees memory safety via compile-time verifications. It employs a novel ownership-based resource management model to facilitate automated deallocation. This model is anticipated to eliminate memory leaks. However, we observed that user intervention drives it into semi-automated memory management and makes it error-prone to cause leaks. In contrast to violating memory-safety guarantees restricted by the unsafe keyword, the boundary of leaking memory is implicit, and the compiler would not emit any warnings for developers. In this paper, we present rCanary, a static, non-intrusive, and fully automated model checker to detect leaks across the semiautomated boundary. We design an encoder to abstract data with heap allocation and formalize a refined leak-free memory model based on boolean satisfiability. It can generate SMT-Lib2 format constraints for Rust MIR and is implemented as a Cargo component. We evaluate rCanary by using flawed package benchmarks collected from the pull requests of open-source Rust projects. The results indicate that it is possible to recall all these defects with acceptable false positives. We further apply our tool to more than 1,200 real-world crates from crates.io and GitHub, identifying 19 crates having memory leaks. Our analyzer is also efficient, that costs 8.4 seconds per package.
翻訳日:2024-08-02 18:59:12 公開日:2024-08-01
# ニューラルネットワークによる階層型車両ルーティング問題の解法

Genetic Algorithms with Neural Cost Predictor for Solving Hierarchical Vehicle Routing Problems ( http://arxiv.org/abs/2310.14157v3 )

ライセンス: Link先を確認
Abhay Sobhanan, Junyoung Park, Jinkyoo Park, Changhyun Kwon, (参考訳) 車両の経路決定が高次決定と連動する場合、結果の最適化問題は計算に重大な課題をもたらす。 例えば、顧客が配送前にデポに割り当てられるマルチデポの車両ルーティング問題(MDVRP)や、最初にデポの位置を決定するキャパシタイトされた位置ルーティング問題(CLRP)などがある。 このような階層的な問題に対する単純で簡単なアプローチは、高レベルの決定を複雑な車両のルーティング決定から分離することである。 各上位決定候補について、その候補を評価するために、基礎となる車両経路問題を評価することができる。 このアプローチでは、車両ルーティングの問題を複数回解決する必要があるため、ほとんどの場合、非現実的とみなされている。 本稿では,遺伝的アルゴリズムとニューラルコスト予測器(GANCP)を併用した新しいディープラーニング手法を提案する。 各上位決定候補に対して,事前学習したグラフニューラルネットワークを用いて,実際のルーティング問題を解くことなく,基礎となる車両ルーティング問題の目的関数値を予測する。 特に,提案するニューラルネットワークは,静電容量化車両ルーティング問題を解決するHGS-CVRPオープンソースパッケージの目的値について学習する。 この単純化手法はMDVRPとCLRPの両方の高品質な解を生成する上で効果的であり,複雑な階層問題に対するアルゴリズム開発を高速化する可能性が示唆された。 文献で使用される標準ベンチマークインスタンスで評価された計算結果を提供する。

When vehicle routing decisions are intertwined with higher-level decisions, the resulting optimization problems pose significant challenges for computation. Examples are the multi-depot vehicle routing problem (MDVRP), where customers are assigned to depots before delivery, and the capacitated location routing problem (CLRP), where the locations of depots should be determined first. A simple and straightforward approach for such hierarchical problems would be to separate the higher-level decisions from the complicated vehicle routing decisions. For each higher-level decision candidate, we may evaluate the underlying vehicle routing problems to assess the candidate. As this approach requires solving vehicle routing problems multiple times, it has been regarded as impractical in most cases. We propose a novel deep-learning-based approach called Genetic Algorithm with Neural Cost Predictor (GANCP) to tackle the challenge and simplify algorithm developments. For each higher-level decision candidate, we predict the objective function values of the underlying vehicle routing problems using a pre-trained graph neural network without actually solving the routing problems. In particular, our proposed neural network learns the objective values of the HGS-CVRP open-source package that solves capacitated vehicle routing problems. Our numerical experiments show that this simplified approach is effective and efficient in generating high-quality solutions for both MDVRP and CLRP and has the potential to expedite algorithm developments for complicated hierarchical problems. We provide computational results evaluated in the standard benchmark instances used in the literature.
翻訳日:2024-08-02 18:59:12 公開日:2024-08-01
# 大規模言語モデルにおけるデータセット間符号重複とデータ漏洩について

On Inter-dataset Code Duplication and Data Leakage in Large Language Models ( http://arxiv.org/abs/2401.07930v2 )

ライセンス: Link先を確認
José Antonio Hernández López, Boqi Chen, Mootez Saaz, Tushar Sharma, Dániel Varró, (参考訳) モチベーション。 大規模言語モデル(LLM)は、多様なソフトウェア工学(SE)タスクにおいて顕著な熟練度を示した。 このようなタスクの処理は、トレーニング前の段階で、大規模で汎用的なデータセットに関する基礎的なコーディング知識を取得し、その後、微調整フェーズの一部として、小さなタスク固有のデータセットを精算するのが一般的である。 問題文。 データセット内コードの重複は、与えられたデータセット内のトレーニングとテストの分割の交差点を調べ、以前の研究で対処されているが、データセット間の重複を計測するデータセット間コードの重複は、ほとんど探索されていない。 もしこの現象が存在するなら、事前トレーニング中に既に遭遇していた微調整されたテストサンプルが含まれているため、LCM評価の整合性を損なう可能性がある。 貢献。 本稿では,データセット間の重複現象とその多種多様なSEタスクにおけるLCM評価への影響について検討する。 デザインを学ぶ。 我々は、広く採用されている事前学習データセットであるCodeSearchNetデータセット(CSN)と、さまざまなセマンティックタスクに使用される5つの微調整データセットを用いて、実証的研究を行う。 まず,復号化プロセスを用いて,事前学習データセットと微調整データセットの交点を同定する。 次に,CSNのサブセットを用いて,LLMの2つのバージョンを事前訓練する。 最後に、両方のモデルを微調整し、漏れやすい微調整テストサンプルを用いてそれらの性能を比較する。 結果。 この結果から,複数のSEタスクにまたがるLCMの評価は,データ間重複現象に起因する可能性が示唆された。 また、この脅威は選択した微調整技術によって強調されることを示す。 さらに,オープンソースモデルがデータセット間複製の影響を受けやすいことを示す。

Motivation. Large language models (LLMs) have exhibited remarkable proficiency in diverse software engineering (SE) tasks. Handling such tasks typically involves acquiring foundational coding knowledge on large, general-purpose datasets during a pre-training phase, and subsequently refining on smaller, task-specific datasets as part of a fine-tuning phase. Problem statement. While intra-dataset code duplication examines the intersection between the training and test splits within a given dataset and has been addressed in prior research, inter-dataset code duplication, which gauges the overlap between different datasets, remains largely unexplored. If this phenomenon exists, it could compromise the integrity of LLM evaluations because of the inclusion of fine-tuning test samples that were already encountered during pre-training, resulting in inflated performance metrics. Contribution. This paper explores the phenomenon of inter-dataset code duplication and its impact on evaluating LLMs across diverse SE tasks. Study design. We conduct an empirical study using the CodeSearchNet dataset (CSN), a widely adopted pre-training dataset, and five fine-tuning datasets used for various se tasks. We first identify the intersection between the pre-training and fine-tuning datasets using a deduplication process. Next, we pre-train two versions of LLMs using a subset of CSN: one leaky LLM and one non-leaky LLM. Finally, we fine-tune both models and compare their performances using leaky fine-tuning test samples. Results. Our findings reveal a potential threat to the evaluation of LLMs across multiple SE tasks, stemming from the inter-dataset code duplication phenomenon. We also demonstrate that this threat is accentuated by the chosen fine-tuning technique. Furthermore, we provide evidence that open-source models could be affected by inter-dataset duplication.
翻訳日:2024-08-02 18:59:12 公開日:2024-08-01
# コントラスト学習を用いた混合整数線形プログラムのためのバックドア学習

Learning Backdoors for Mixed Integer Linear Programs with Contrastive Learning ( http://arxiv.org/abs/2401.10467v2 )

ライセンス: Link先を確認
Junyang Cai, Taoan Huang, Bistra Dilkina, (参考訳) 多くの実世界の問題は、MILP(Mixed Integer Linear Programs)として効率的にモデル化でき、ブランチ・アンド・バウンド法で解決できる。 以前の研究はMILPバックドアの存在を示しており、可能であれば分岐の優先順位付けが実行時間の短縮につながるような変数の小さなセットである。 しかし、ランニングタイムを改善する高品質なバックドアを見つけることは、未解決の問題である。 事前の作業は、ランダムにサンプリングされたバックドアの相対的なソルバ速度をランク付けして推定し、最高ランクのバックドア候補を使用するかどうかを決定する。 本稿では,モンテカルロ木探索法を用いて,ランダムサンプリングに頼るのではなく,バックドアの収集を行い,グラフ注意ネットワークモデルを学習し,バックドアの予測を行う。 提案手法は,複数のMILP問題領域で評価され,グロビモデルと先行モデルの両方に対して性能が向上したことを示す。

Many real-world problems can be efficiently modeled as Mixed Integer Linear Programs (MILPs) and solved with the Branch-and-Bound method. Prior work has shown the existence of MILP backdoors, small sets of variables such that prioritizing branching on them when possible leads to faster running times. However, finding high-quality backdoors that improve running times remains an open question. Previous work learns to estimate the relative solver speed of randomly sampled backdoors through ranking and then decide whether to use the highest-ranked backdoor candidate. In this paper, we utilize the Monte-Carlo tree search method to collect backdoors for training, rather than relying on random sampling, and adapt a contrastive learning framework to train a Graph Attention Network model to predict backdoors. Our method, evaluated on several common MILP problem domains, demonstrates performance improvements over both Gurobi and previous models.
翻訳日:2024-08-02 18:59:12 公開日:2024-08-01
# 財務文書におけるRAGに基づく質問応答モデルの検索改善

Improving Retrieval for RAG based Question Answering Models on Financial Documents ( http://arxiv.org/abs/2404.07221v2 )

ライセンス: Link先を確認
Spurthi Setty, Harsh Thakkar, Alyssa Lee, Eden Chung, Natan Vidra, (参考訳) 大言語モデル(LLM)による正確な応答生成の有効性は、特に検索拡張生成(RAG)技術を用いる場合、提供される入力の品質に大きく依存する。 RAGは、最も関連性の高いテキストチャンクをベースクエリにソーシングすることで、LLMを強化します。 近年LLMの応答品質が著しく向上しているにもかかわらず、利用者はいまだに不正確さや無関係な回答に遭遇することがある。 LLMの有効性を高めるためには、RAGプロセスの洗練が不可欠である。 本稿では,RAGパイプラインの既存の制約について検討し,テキスト検索の方法を紹介する。 高度なチャンキングテクニック、クエリ拡張、メタデータアノテーションの組み込み、再ランク付けアルゴリズムの適用、埋め込みアルゴリズムの微調整などの戦略を練っている。 これらのアプローチを実装することで、検索品質が大幅に向上し、クエリの処理および応答におけるLCMの全体的なパフォーマンスと信頼性が向上する。

The effectiveness of Large Language Models (LLMs) in generating accurate responses relies heavily on the quality of input provided, particularly when employing Retrieval Augmented Generation (RAG) techniques. RAG enhances LLMs by sourcing the most relevant text chunk(s) to base queries upon. Despite the significant advancements in LLMs' response quality in recent years, users may still encounter inaccuracies or irrelevant answers; these issues often stem from suboptimal text chunk retrieval by RAG rather than the inherent capabilities of LLMs. To augment the efficacy of LLMs, it is crucial to refine the RAG process. This paper explores the existing constraints of RAG pipelines and introduces methodologies for enhancing text retrieval. It delves into strategies such as sophisticated chunking techniques, query expansion, the incorporation of metadata annotations, the application of re-ranking algorithms, and the fine-tuning of embedding algorithms. Implementing these approaches can substantially improve the retrieval quality, thereby elevating the overall performance and reliability of LLMs in processing and responding to queries.
翻訳日:2024-08-02 18:59:12 公開日:2024-08-01
# 次のポイント・オブ・インテンシブ・レコメンデーションのための大規模言語モデル

Large Language Models for Next Point-of-Interest Recommendation ( http://arxiv.org/abs/2404.17591v2 )

ライセンス: Link先を確認
Peibo Li, Maarten de Rijke, Hao Xue, Shuang Ao, Yang Song, Flora D. Salim, (参考訳) 次のPOI(Point of Interest)レコメンデーションタスクは、過去のデータから、ユーザの次のPOI訪問をすぐに予測することである。 ロケーションベースのソーシャルネットワーク(LBSN)データは、しばしば次のPOIレコメンデーションタスクに使用される。 しばしば無視される課題の1つは、LBSNデータに存在する豊富なコンテキスト情報を効果的に利用する方法である。 従来の手法はその数値的性質によって制限されており、この問題に対処することができない。 本稿では,事前学習型大規模言語モデル(LLM)を用いてこの問題に対処するフレームワークを提案する。 我々のフレームワークは、異種LBSNデータを元のフォーマットで保存できるので、コンテキスト情報の欠落を避けることができる。 さらに,本フレームワークは,コモンセンス知識を取り入れることで,文脈情報の本質的意味を理解することができる。 実験では、実世界の3つのLBSNデータセット上でフレームワークをテストする。 提案したフレームワークは,3つのデータセットすべてにおいて,最先端のモデルよりも優れていることを示す。 本分析は, コンテクスト情報を用いたフレームワークの有効性と, コールドスタートやショートトラジェクトリの問題の緩和効果を示す。

The next Point of Interest (POI) recommendation task is to predict users' immediate next POI visit given their historical data. Location-Based Social Network (LBSN) data, which is often used for the next POI recommendation task, comes with challenges. One frequently disregarded challenge is how to effectively use the abundant contextual information present in LBSN data. Previous methods are limited by their numerical nature and fail to address this challenge. In this paper, we propose a framework that uses pretrained Large Language Models (LLMs) to tackle this challenge. Our framework allows us to preserve heterogeneous LBSN data in its original format, hence avoiding the loss of contextual information. Furthermore, our framework is capable of comprehending the inherent meaning of contextual information due to the inclusion of commonsense knowledge. In experiments, we test our framework on three real-world LBSN datasets. Our results show that the proposed framework outperforms the state-of-the-art models in all three datasets. Our analysis demonstrates the effectiveness of the proposed framework in using contextual information as well as alleviating the commonly encountered cold-start and short trajectory problems.
翻訳日:2024-08-02 18:59:12 公開日:2024-08-01
# AIベースの競争プラットフォームにおける技術的負債の測定

Measuring Technical Debt in AI-Based Competition Platforms ( http://arxiv.org/abs/2405.11825v2 )

ライセンス: Link先を確認
Dionysios Sklavenitis, Dimitris Kalles, (参考訳) AIの進歩は、ソフトウェアエンジニアリングプロジェクトにおける新しいタイプの技術的負債につながった。 AIベースの競争プラットフォームは、迅速なプロトタイピングと、参加者によるソフトウェアエンジニアリング原則の遵守の欠如により、技術的負債が発生しているため、課題に直面している。 さらに、オーガナイザはプラットフォームの品質を評価する方法がなく、持続可能性や保守性に影響を与えます。 本研究では,スクーピングレビューを通じて,AIシステムにおける技術的負債の種類を特定し,分類する。 我々は,AIコンペティションプラットフォームにおける技術的負債の評価,アルゴリズム,アーキテクチャ,コード,構成,データなど,さまざまなタイプの負債を分類するアンケートを開発する。 AIコンペティションプラットフォームに特化したアクセシビリティ負債を導入し、不適切なプラットフォームのユーザビリティのために参加者が直面する課題を強調します。 技術的負債を管理するためのフレームワークは、これらのプラットフォームの持続可能性と有効性を改善し、研究者、オーガナイザ、参加者にツールを提供することを目的としています。

Advances in AI have led to new types of technical debt in software engineering projects. AI-based competition platforms face challenges due to rapid prototyping and a lack of adherence to software engineering principles by participants, resulting in technical debt. Additionally, organizers often lack methods to evaluate platform quality, impacting sustainability and maintainability. In this research, we identify and categorize types of technical debt in AI systems through a scoping review. We develop a questionnaire for assessing technical debt in AI competition platforms, categorizing debt into various types, such as algorithm, architectural, code, configuration, data etc. We introduce Accessibility Debt, specific to AI competition platforms, highlighting challenges participants face due to inadequate platform usability. Our framework for managing technical debt aims to improve the sustainability and effectiveness of these platforms, providing tools for researchers, organizers, and participants.
翻訳日:2024-08-02 18:59:12 公開日:2024-08-01
# GRU-Net:乳腺病理画像分割のための多ResUNetによるガウス的注意支援

GRU-Net: Gaussian Attention Aided Dense Skip Connection Based MultiResUNet for Breast Histopathology Image Segmentation ( http://arxiv.org/abs/2406.08604v2 )

ライセンス: Link先を確認
Ayush Roy, Payel Pramanik, Sohom Ghosal, Daria Valenkova, Dmitrii Kaplun, Ram Sarkar, (参考訳) 乳がんは世界的な健康上の問題である。 病理学者は、時間と労働集約的な課題である病理画像から複雑な特徴を分析することの課題に直面している。 そのため,早期発見・治療計画には効率的なコンピュータ診断ツールが必要である。 本稿では,複数スケールの複雑な特徴を解析・セグメント化し,スキップ接続による効果的な特徴フローを確保するためのバックボーンとして選択された,病理組織像セグメンテーションのためのMultiResU-Netの修正版を提案する。 修正版では、ガウス分布に基づくアテンションモジュール (GdAM) も使用して、ガウス分布に病理学的に関連のあるテキスト情報を組み込む。 ガウス文字特徴誘導分布のサンプル特徴は、事前知識に基づいて特定の空間領域をハイライトする。 最後に、MultiResU-Netのスキップ接続において、制御されたDense Residual Block(CDRB)を用いて、抽出された空間的特徴から導出されるスケーリングパラメータを用いて、エンコーダ層からデコーダ層へ制御された方法で情報を転送する。 我々はTNBCとMonuSegの2種類の乳がん組織像データセットに対するアプローチを検証し,最先端の手法と比較して高いセグメンテーション性能を示した。 提案したモデルのコードはhttps://github.com/AyushRoy2001/GRU-Net.comで公開されている。

Breast cancer is a major global health concern. Pathologists face challenges in analyzing complex features from pathological images, which is a time-consuming and labor-intensive task. Therefore, efficient computer-based diagnostic tools are needed for early detection and treatment planning. This paper presents a modified version of MultiResU-Net for histopathology image segmentation, which is selected as the backbone for its ability to analyze and segment complex features at multiple scales and ensure effective feature flow via skip connections. The modified version also utilizes the Gaussian distribution-based Attention Module (GdAM) to incorporate histopathology-relevant text information in a Gaussian distribution. The sampled features from the Gaussian text feature-guided distribution highlight specific spatial regions based on prior knowledge. Finally, using the Controlled Dense Residual Block (CDRB) on skip connections of MultiResU-Net, the information is transferred from the encoder layers to the decoder layers in a controlled manner using a scaling parameter derived from the extracted spatial features. We validate our approach on two diverse breast cancer histopathology image datasets: TNBC and MonuSeg, demonstrating superior segmentation performance compared to state-of-the-art methods. The code for our proposed model is available on https://github.com/AyushRoy2001/GRU-Net.
翻訳日:2024-08-02 18:59:12 公開日:2024-08-01
# KeyVideoLLM: 大規模ビデオキーボード選択に向けて

KeyVideoLLM: Towards Large-scale Video Keyframe Selection ( http://arxiv.org/abs/2407.03104v2 )

ライセンス: Link先を確認
Hao Liang, Jiapeng Li, Tianyi Bai, Xijie Huang, Linzhuang Sun, Zhengren Wang, Conghui He, Bin Cui, Chong Chen, Wentao Zhang, (参考訳) 近年,Webビデオの普及に伴い,大規模ビデオデータセットの管理と理解がますます重要になっている。 Video Large Language Models (VideoLLMs) は、その強力なビデオ理解能力により近年出現している。 しかしながら、VideoLLMのトレーニングと推論プロセスは膨大な量のデータを必要とし、特に効率性、堅牢性、有効性に関して、データ管理に重大な課題を提示している。 本研究では,テキストフレームの類似性に基づくキーフレーム選択手法であるKeyVideoLLMを提案する。 具体的には、KeyVideoLLMは最大60.9倍のデータ圧縮速度を達成し、ディスクスペースの要求を大幅に低減し、高い効率性を示す。 さらに、すべてのビデオフォーマットとスケールで100%の選択成功率を維持し、既存のキーフレーム選択方法と比較して最大200倍の処理速度を向上し、ハイパーパラメータチューニングを必要としない。 KeyVideoLLMは、その卓越した効率と堅牢性に加えて、トレーニングと推論の段階において、ビデオ質問応答タスクのモデルパフォーマンスをさらに向上させる。 特に、さまざまなデータセットに関する最新技術(SoTA)の実験結果を一貫して達成している。

Recently, with the rise of web videos, managing and understanding large-scale video datasets has become increasingly important. Video Large Language Models (VideoLLMs) have emerged in recent years due to their strong video understanding capabilities. However, training and inference processes for VideoLLMs demand vast amounts of data, presenting significant challenges to data management, particularly regarding efficiency, robustness, and effectiveness. In this work, we present KeyVideoLLM, a text-video frame similarity-based keyframe selection method designed to manage VideoLLM data efficiently, robustly, and effectively. Specifically, KeyVideoLLM achieves a remarkable data compression rate of up to 60.9 times, substantially lowering disk space requirements, which proves its high efficiency. Additionally, it maintains a 100% selection success rate across all video formats and scales, enhances processing speed by up to 200 times compared to existing keyframe selection methods, and does not require hyperparameter tuning. Beyond its outstanding efficiency and robustness, KeyVideoLLM further improves model performance in video question-answering tasks during both training and inference stages. Notably, it consistently achieved the state-of-the-art (SoTA) experimental results on diverse datasets.
翻訳日:2024-08-02 18:59:12 公開日:2024-08-01
# 空間的に一貫性のある降水ダウンスケーリングのための類似性に基づく生成的アプローチ

A Likelihood-Based Generative Approach for Spatially Consistent Precipitation Downscaling ( http://arxiv.org/abs/2407.04724v2 )

ライセンス: Link先を確認
Jose González-Abad, (参考訳) 深層学習は降水ダウンスケーリングのための有望なツールとして登場した。 しかし、現在のモデルは降水分布を適切にモデル化するために可能性に基づく損失関数に依存しており、サンプリング時に空間的に矛盾するプロジェクションが生じる。 この研究は、生成モデルで使用される可能性に基づく強みと敵対的損失の強みを融合させることにより、新しいアプローチを探求する。 その結果,両手法の利点を生かし,降水量削減のための可能性に基づく生成手法を提案する。

Deep learning has emerged as a promising tool for precipitation downscaling. However, current models rely on likelihood-based loss functions to properly model the precipitation distribution, leading to spatially inconsistent projections when sampling. This work explores a novel approach by fusing the strengths of likelihood-based and adversarial losses used in generative models. As a result, we propose a likelihood-based generative approach for precipitation downscaling, leveraging the benefits of both methods.
翻訳日:2024-08-02 18:59:12 公開日:2024-08-01
# フィードバック駆動の自動化されたバグがAndroidアプリの再現を報告

Feedback-Driven Automated Whole Bug Report Reproduction for Android Apps ( http://arxiv.org/abs/2407.05165v2 )

ライセンス: Link先を確認
Dingbang Wang, Yu Zhao, Sidong Feng, Zhaoxu Zhang, William G. J. Halfond, Chunyang Chen, Xiaoxia Sun, Jiangfan Shi, Tingting Yu, (参考訳) ソフトウェア開発では、バグレポートの再現は難しい作業です。 本稿では,大規模な言語モデル (LLM) である GPT-4 を利用して,Android のバグレポートを自動的に再現する新しいフィードバック駆動型アプローチである ReBL を紹介する。 従来のメソッドとは異なり、ReBLはStep to Reproduce(S2R)エンティティの使用をバイパスしている。 代わりに、テキストバグレポート全体を活用し、GPTの文脈推論を強化する革新的なプロンプトを採用している。 このアプローチは従来のステップバイステップのエンティティマッチングアプローチよりも柔軟でコンテキスト対応で、精度と効率性が向上します。 クラッシュレポートの処理に加えて、ReBLは非クラッシュ機能バグレポートの処理機能を備えている。 96のAndroidバグレポート(73のクラッシュと23の非クラッシュ)の評価によると、ReBLは90.63%のバグレポートを再現し、平均74.98秒に過ぎなかった。 さらに、ReBLは成功率とスピードの両面で、既存の3つのツールを上回った。

In software development, bug report reproduction is a challenging task. This paper introduces ReBL, a novel feedback-driven approach that leverages GPT-4, a large-scale language model (LLM), to automatically reproduce Android bug reports. Unlike traditional methods, ReBL bypasses the use of Step to Reproduce (S2R) entities. Instead, it leverages the entire textual bug report and employs innovative prompts to enhance GPT's contextual reasoning. This approach is more flexible and context-aware than the traditional step-by-step entity matching approach, resulting in improved accuracy and effectiveness. In addition to handling crash reports, ReBL has the capability of handling non-crash functional bug reports. Our evaluation of 96 Android bug reports (73 crash and 23 non-crash) demonstrates that ReBL successfully reproduced 90.63% of these reports, averaging only 74.98 seconds per bug report. Additionally, ReBL outperformed three existing tools in both success rate and speed.
翻訳日:2024-08-02 18:59:12 公開日:2024-08-01
# 教師なしからFew-shot グラフ異常検出へ:マルチスケールコントラスト学習アプローチ

From Unsupervised to Few-shot Graph Anomaly Detection: A Multi-scale Contrastive Learning Approach ( http://arxiv.org/abs/2202.05525v2 )

ライセンス: Link先を確認
Yu Zheng, Ming Jin, Yixin Liu, Lianhua Chi, Khoa T. Phan, Yi-Ping Phoebe Chen, (参考訳) グラフデータからの異常検出は、ソーシャルネットワーク、金融、eコマースなど、多くのアプリケーションにおいて重要なデータマイニングタスクである。 グラフ異常検出における既存の取り組みは、通常、単一のスケール(ビュー)でのみ情報を考慮するため、複雑なグラフデータ中の異常パターンをキャプチャする能力は必然的に制限される。 この制限に対処するために,マルチスケールcONtrastive lEarning (略してANEMONE) を用いた新しいフレームワーク Anomaly dEtection フレームワークを提案する。 グラフニューラルネットワークをバックボーンとして、複数のグラフスケール(ビュー)から情報をエンコードすることで、グラフ内のノードのより良い表現を学習する。 パッチレベルとコンテキストレベルの両方のインスタンス間の一致を同時に最大化する際、複数の視点からの一致度に応じて、統計的異常推定器を用いて各ノードの異常スコアを推定する。 そこで本研究では,本手法に有用な情報を統合するための拡張アルゴリズムANEMONE-FSを提案する。 提案手法であるANEMONEと,その変種であるANEMONE-FSが,6つのベンチマークデータセット上で常に最先端のアルゴリズムより優れていることを示す。

Anomaly detection from graph data is an important data mining task in many applications such as social networks, finance, and e-commerce. Existing efforts in graph anomaly detection typically only consider the information in a single scale (view), thus inevitably limiting their capability in capturing anomalous patterns in complex graph data. To address this limitation, we propose a novel framework, graph ANomaly dEtection framework with Multi-scale cONtrastive lEarning (ANEMONE in short). By using a graph neural network as a backbone to encode the information from multiple graph scales (views), we learn better representation for nodes in a graph. In maximizing the agreements between instances at both the patch and context levels concurrently, we estimate the anomaly score of each node with a statistical anomaly estimator according to the degree of agreement from multiple perspectives. To further exploit a handful of ground-truth anomalies (few-shot anomalies) that may be collected in real-life applications, we further propose an extended algorithm, ANEMONE-FS, to integrate valuable information in our method. We conduct extensive experiments under purely unsupervised settings and few-shot anomaly detection settings, and we demonstrate that the proposed method ANEMONE and its variant ANEMONE-FS consistently outperform state-of-the-art algorithms on six benchmark datasets.
翻訳日:2024-08-02 15:13:26 公開日:2024-08-01
# 信頼性とセキュアな文書署名のためのワンタイム証明書

One-Time Certificates for Reliable and Secure Document Signing ( http://arxiv.org/abs/2208.03951v2 )

ライセンス: Link先を確認
Lucas Mayr, Gustavo Zambonin, Frederico Schardong, Ricardo Custódio, (参考訳) 電子文書は秘密鍵を使用して署名され、よく知られた公開鍵基盤モデルを通じて対応するデジタル証明書を使用して検証される。 プライベートキーは、再利用できるように安全なコンテナに保持する必要がある。 これにより、プライベートキー管理は、耐障害性のない公開キーインフラストラクチャの重要なコンポーネントになります。 したがって、既存のソリューションは、秘密鍵の妥協を扱うために、面倒でしばしば高価な取り消し手法を使わなければならない。 本稿では,長期的かつ不可解なデジタル証明書を1つの文書に束縛した新しい暗号鍵管理モデルを提案する。 我々のモデルは、署名すべき新しい文書ごとにユニークなデジタル証明書を発行する。 これらの証明書に関連する秘密鍵は署名の後に削除されるべきであり、これらのキーを格納する必要がなくなる。 さらに,これらの証明書は,認証の取り消し機構を一切必要としないことを示す。 文書ごとに新しいキーペアを頻繁に生成することで生じるオーバーヘッドを分析し、セキュリティの概要を提供し、従来のモデルに対する利点を示す。

Electronic documents are signed using private keys and verified using the corresponding digital certificates through the well-known public key infrastructure model. Private keys must be kept in a safe container so they can be reused. This makes private key management a critical component of public key infrastructures with no failproof answer. Therefore, existing solutions must employ cumbersome and often expensive revocation methods to handle private key compromises. We propose a new cryptographic key management model built with long-term, irrevocable digital certificates, each bound to a single document. Our model issues a unique digital certificate for each new document to be signed. We demonstrate that private keys associated with these certificates should be deleted after each signature, eliminating the need to store those keys. Furthermore, we show that these certificates do not require any revocation mechanism to be trusted. We analyze the overhead caused by the frequent generation of new key pairs for each document, provide a security overview and show the advantages over the traditional model.
翻訳日:2024-08-02 15:13:26 公開日:2024-08-01
# TsallisおよびRenyiエントロピーのエントロピーインクリメントとしてのコヒーレンス

Coherence as entropy increment for Tsallis and Renyi entropies ( http://arxiv.org/abs/2208.06840v3 )

ライセンス: Link先を確認
Anna Vershynina, (参考訳) コヒーレンスの相対エントロピーは、相対エントロピーによって測定されると、元の状態とそれに最も近い非コヒーレント状態のエントロピー差として記述することができる。 自然の問題は、この状況をツァリスやR'enyiエントロピーに一般化すれば、良いコヒーレンス測度を定義するだろうか? 言い換えれば、Tsallis相対エントロピーによって測定されたとき、原状態のTsallisエントロピーとそれに最も近い非コヒーレント状態との差を定義する。 ツァリスエントロピーの代わりに R'enyi entropy をとると、よく知られた距離ベースの R'enyi coherence が導かれる。 興味深いことに、Tsallis entropyは、非常に制限的な操作のクラスでない限り、真のコヒーレンスモノトンさえ生成しない。 さらに、Tsallis と R'enyi の両コヒーレンス式に対して連続性推定を提供する。 さらに、Tsallis あるいは R'enyi の相対エントロピーによる測定において、最も近い非コヒーレント状態に基づく2つのコヒーレンス測度を示す。

Relative entropy of coherence can be written as an entropy difference of the original state and the incoherent state closest to it when measured by relative entropy. The natural question is, if we generalize this situation to Tsallis or R\'enyi entropies, would it define good coherence measures? In other words, we define a difference between Tsallis entropies of the original state and the incoherent state closest to it when measured by Tsallis relative entropy. Taking R\'enyi entropy instead of the Tsallis entropy, leads to the well-known distance-based R\'enyi coherence, which means this expression defined a good coherence measure. Interestingly, we show that Tsallis entropy does not generate even a genuine coherence monotone, unless it is under a very restrictive class of operations. Additionally, we provide continuity estimates for both Tsallis and R\'enyi coherence expressions. Furthermore, we present two coherence measures based on the closest incoherent state when measures by Tsallis or R\'enyi relative entropy.
翻訳日:2024-08-02 15:13:26 公開日:2024-08-01
# ベイジアンネットワークによるラグビーのモデル化 : 実践的アプローチ

Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach ( http://arxiv.org/abs/2209.05467v2 )

ライセンス: Link先を確認
Francesca Mangili, Giorgia Adorni, Alberto Piatti, Claudio Bonesana, Alessandro Antonucci, (参考訳) 知的学習システムにおける学習能力の自動評価は基本的な課題である。 評価ルーブリックは典型的には、関連する能力と能力レベルを効果的に記述する。 本稿では,学習者モデルを直接抽出する手法を提案する。 このモデルはベイズ的ネットワークに基づいており、モデルのパラメータの数を減らすために不確実性(しばしばノイズゲートと呼ばれる)を持つ論理ゲートを利用する。 本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。 評価ルーブリックから始まるモデルの簡単な適用により、複数のタスクの迅速な自動化が可能となり、適応的アセスメントツールやインテリジェントなチューリングシステムにおいて、より容易に利用できるようになる。

Automatic assessment of learner competencies is a fundamental task in intelligent tutoring systems. An assessment rubric typically and effectively describes relevant competencies and competence levels. This paper presents an approach to deriving a learner model directly from an assessment rubric defining some (partial) ordering of competence levels. The model is based on Bayesian networks and exploits logical gates with uncertainty (often referred to as noisy gates) to reduce the number of parameters of the model, so to simplify their elicitation by experts and allow real-time inference in intelligent tutoring systems. We illustrate how the approach can be applied to automatize the human assessment of an activity developed for testing computational thinking skills. The simple elicitation of the model starting from the assessment rubric opens up the possibility of quickly automating the assessment of several tasks, making them more easily exploitable in the context of adaptive assessment tools and intelligent tutoring systems.
翻訳日:2024-08-02 15:07:44 公開日:2024-08-01
# グラフクィルティングのための低ランク共分散補完と機能接続性への応用

Low-Rank Covariance Completion for Graph Quilting with Applications to Functional Connectivity ( http://arxiv.org/abs/2209.08273v2 )

ライセンス: Link先を確認
Andersen Chang, Lili Zheng, Genevera I. Allen, (参考訳) 高次元のネットワークを推定するためのツールとして、グラフィカルモデルが一般的にカルシウムイメージングデータに適用され、機能的なニューロンの接続性、すなわちニューロンの活動間の関係を推定する。 しかし、多くのカルシウムイメージングデータセットでは、ニューロンの全個体数は同時に記録されるのではなく、部分的に重なるブロックに記録される。 Vinci et.al. 2019) で最初に紹介されたグラフキルティング問題は、特徴のサブセットのみを共同で観察する場合に、完全なグラフの構造を推測することを目的としている。 本稿では,グラフ構造を推定する前に,まず,低ランクな共分散補完手法を用いて完全共分散行列を暗示するグラフ量子化手法を提案する。 この問題を解決するために,ブロック特異値分解,核ノルムのペナル化,非凸低ランク分解という3つの手法を導入する。 先行研究は低ランク行列補完について研究してきたが、ブロックワイドの欠如に起因する課題に対処し、グラフ学習の文脈でこの問題を最初に研究した。 ブロック欠落を伴う行列補完のための新しいL無限ノルム誤差境界を証明し, 提案手法のグラフ選択整合性を示す2段階法の理論的性質について論じる。 次に,提案手法のシミュレーションおよび実世界のデータ例における実証的な性能について検討し,カルシウムイメージングデータから機能的接続性を推定するための手法の有効性を示す。

As a tool for estimating networks in high dimensions, graphical models are commonly applied to calcium imaging data to estimate functional neuronal connectivity, i.e. relationships between the activities of neurons. However, in many calcium imaging data sets, the full population of neurons is not recorded simultaneously, but instead in partially overlapping blocks. This leads to the Graph Quilting problem, as first introduced by (Vinci et.al. 2019), in which the goal is to infer the structure of the full graph when only subsets of features are jointly observed. In this paper, we study a novel two-step approach to Graph Quilting, which first imputes the complete covariance matrix using low-rank covariance completion techniques before estimating the graph structure. We introduce three approaches to solve this problem: block singular value decomposition, nuclear norm penalization, and non-convex low-rank factorization. While prior works have studied low-rank matrix completion, we address the challenges brought by the block-wise missingness and are the first to investigate the problem in the context of graph learning. We discuss theoretical properties of the two-step procedure, showing graph selection consistency of one proposed approach by proving novel L infinity-norm error bounds for matrix completion with block-missingness. We then investigate the empirical performance of the proposed methods on simulations and on real-world data examples, through which we show the efficacy of these methods for estimating functional connectivity from calcium imaging data.
翻訳日:2024-08-02 15:07:44 公開日:2024-08-01
# 低ランクウェイト近似による畳み込みニューラルネットワークの一般化性向上

Enhancing convolutional neural network generalizability via low-rank weight approximation ( http://arxiv.org/abs/2209.12715v2 )

ライセンス: Link先を確認
Chenyin Gao, Shu Yang, Anru R. Zhang, (参考訳) ノイズは画像取得中にユビキタスです。 十分なノイズ処理は、画像処理にとって重要な第一歩であることが多い。 近年、ディープニューラルネットワーク(DNN)は画像の認知に広く利用されている。 ほとんどのDNNベースの画像復号法では、大規模なデータセットや教師付き設定に重点を置く必要があり、クリーンな画像の単一/ペアやノイズの多い画像のセットが必要となる。 これにより、画像取得プロセスに大きな負担がかかる。 さらに、限られたスケールのデータセットでトレーニングされたデノイザは、過度に適合する可能性がある。 これらの問題を緩和するために,タッカー低ランクテンソル近似に基づく自己教師付き画像復調フレームワークを提案する。 提案した設計では,より少ないパラメータでデノイザを特徴付けることができ,単一のイメージに基づいてトレーニングすることが可能となり,モデルの一般化性を大幅に向上し,データ取得のコストを低減できる。 合成ノイズ画像と実世界のノイズ画像の両方に関する大規模な実験が実施されている。 実験の結果,提案手法は既存の非学習手法(例えば,ローパスフィルタ,非局所平均)よりも優れており,シングルイメージの教師なしデノイザ(例えば,DIP,NN+BM3D)はサンプル内およびサンプル外の両方で評価されている。 提案手法は、いくつかの教師付き手法(例えば、DnCNN)で同等の性能を達成できる。

Noise is ubiquitous during image acquisition. Sufficient denoising is often an important first step for image processing. In recent decades, deep neural networks (DNNs) have been widely used for image denoising. Most DNN-based image denoising methods require a large-scale dataset or focus on supervised settings, in which single/pairs of clean images or a set of noisy images are required. This poses a significant burden on the image acquisition process. Moreover, denoisers trained on datasets of limited scale may incur over-fitting. To mitigate these issues, we introduce a new self-supervised framework for image denoising based on the Tucker low-rank tensor approximation. With the proposed design, we are able to characterize our denoiser with fewer parameters and train it based on a single image, which considerably improves the model's generalizability and reduces the cost of data acquisition. Extensive experiments on both synthetic and real-world noisy images have been conducted. Empirical results show that our proposed method outperforms existing non-learning-based methods (e.g., low-pass filter, non-local mean), single-image unsupervised denoisers (e.g., DIP, NN+BM3D) evaluated on both in-sample and out-sample datasets. The proposed method even achieves comparable performances with some supervised methods (e.g., DnCNN).
翻訳日:2024-08-02 15:07:44 公開日:2024-08-01
# KRF:6次元空間推定のための核融合ネットワークによるキーポイントリファインメント

KRF: Keypoint Refinement with Fusion Network for 6D Pose Estimation ( http://arxiv.org/abs/2210.03437v2 )

ライセンス: Link先を確認
Yiheng Han, Irvin Haozhe Zhan, Long Zeng, Yu-Ping Wang, Ran Yi, Minjing Yu, Matthieu Gaetan Lin, Jenny Sheng, Yong-Jin Liu, (参考訳) 6次元ポーズ推定精度を向上させるために、ICPやその変種など、制御可能なポーズ改善度を持つロバストポイントクラウド登録手法が一般的に用いられている。 しかし、これらの手法の有効性は、深層学習技術の進歩と初期ポーズ精度の向上によって徐々に低下する。 本稿では,6次元ポーズ推定のための新しいポーズ精錬パイプラインであるPoint Cloud Completion and Keypoint Refinement with Fusion Data (PCKRF)を提案する。 パイプラインは2つのステップで構成されています。 まず、新しいポーズ感応点補完ネットワークを介して入力点雲を完成させる。 ネットワークは、ポイント完了時にポーズ情報を持つローカル機能とグローバル機能の両方を使用する。 次に、提案したColor Support Iterative KeyPoint (CIKP) 法により、完了したオブジェクトポイントクラウドを対応するターゲットポイントクラウドに登録する。 CIKP法は、色情報を登録に導入し、各キーポイントの周りに点雲を登録し、安定性を高める。 PCKRFパイプラインは、フルフロー双方向融合ネットワークのような既存の一般的な6Dポーズ推定手法と統合することができ、ポーズ推定精度をさらに向上することができる。 実験により,本手法は比較的高精度な初期ポーズの最適化において,既存手法と比較して優れた安定性を示すことが示された。 特に,提案手法は既存のポーズ推定手法を効果的に補完し,ほとんどの場合,性能が向上することを示す。 さらに, テクスチャレスや対称な物体を含む難解なシナリオにおいても, 提案手法は有望な結果が得られる。 ソースコードはhttps://github.com/zhanhz/KRF.comで公開されています。

Some robust point cloud registration approaches with controllable pose refinement magnitude, such as ICP and its variants, are commonly used to improve 6D pose estimation accuracy. However, the effectiveness of these methods gradually diminishes with the advancement of deep learning techniques and the enhancement of initial pose accuracy, primarily due to their lack of specific design for pose refinement. In this paper, we propose Point Cloud Completion and Keypoint Refinement with Fusion Data (PCKRF), a new pose refinement pipeline for 6D pose estimation. The pipeline consists of two steps. First, it completes the input point clouds via a novel pose-sensitive point completion network. The network uses both local and global features with pose information during point completion. Then, it registers the completed object point cloud with the corresponding target point cloud by our proposed Color supported Iterative KeyPoint (CIKP) method. The CIKP method introduces color information into registration and registers a point cloud around each keypoint to increase stability. The PCKRF pipeline can be integrated with existing popular 6D pose estimation methods, such as the full flow bidirectional fusion network, to further improve their pose estimation accuracy. Experiments demonstrate that our method exhibits superior stability compared to existing approaches when optimizing initial poses with relatively high precision. Notably, the results indicate that our method effectively complements most existing pose estimation techniques, leading to improved performance in most cases. Furthermore, our method achieves promising results even in challenging scenarios involving textureless and symmetrical objects. Our source code is available at https://github.com/zhanhz/KRF.
翻訳日:2024-08-02 15:07:44 公開日:2024-08-01
# DPIS: 重要サンプリングによる微分プライベートSGDの強化メカニズム

DPIS: An Enhanced Mechanism for Differentially Private SGD with Importance Sampling ( http://arxiv.org/abs/2210.09634v4 )

ライセンス: Link先を確認
Jianxin Wei, Ergute Bao, Xiaokui Xiao, Yin Yang, (参考訳) 今日では、差分プライバシ(DP)がプライバシ保護の標準として広く受け入れられており、ディープラーニング(DNN)は機械学習において大きな成功を収めている。 これら2つのテクニックの組み合わせ、すなわち、ディープラーニングと差分プライバシーの組み合わせは、医療記録などの機密データで訓練された高ユーティリティモデルのプライバシー保護を約束する。 この目的のための古典的なメカニズムはDP-SGDであり、これはDNNトレーニングによく使用される確率勾配降下(SGD)オプティマイザの微分プライベートバージョンである。 その後のアプローチは、ノイズ減衰スケジュール、モデルアーキテクチャ、機能工学、ハイパーパラメータチューニングなど、モデルトレーニングプロセスの様々な側面を改善した。 しかし、SGDオプティマイザでDPを強制するコアメカニズムは、DP準拠の機械学習ソリューションの性能を制限する基本障壁となっている元のDP-SGDアルゴリズム以来、変わっていない。 DPISは,DP-SGDのコアオプティマイザのドロップイン代替として使用可能な,個人用SGDトレーニングのための新しいメカニズムである。 本研究の主目的は,各SGDイテレーションの重要サンプリング(IS)をミニバッチ選択に適用することであり,DPを満たすために必要となる,サンプリング分散とランダムノイズの量の両方を低減させる。 DP-SGDの複雑な数学的機械にISを統合することは、非常に簡単ではない。 DPISは、新しいメカニズム設計、きめ細かいプライバシー分析、効率の向上、適応的な勾配クリッピング最適化を通じてこの問題に対処する。 MNIST、FMNIST、CIFAR-10、IMDbの4つのベンチマークデータセットに対する大規模な実験は、差分プライバシーを持つディープラーニングのための既存のソリューションよりもDPISの方が優れた効果を示した。

Nowadays, differential privacy (DP) has become a well-accepted standard for privacy protection, and deep neural networks (DNN) have been immensely successful in machine learning. The combination of these two techniques, i.e., deep learning with differential privacy, promises the privacy-preserving release of high-utility models trained with sensitive data such as medical records. A classic mechanism for this purpose is DP-SGD, which is a differentially private version of the stochastic gradient descent (SGD) optimizer commonly used for DNN training. Subsequent approaches have improved various aspects of the model training process, including noise decay schedule, model architecture, feature engineering, and hyperparameter tuning. However, the core mechanism for enforcing DP in the SGD optimizer remains unchanged ever since the original DP-SGD algorithm, which has increasingly become a fundamental barrier limiting the performance of DP-compliant machine learning solutions. Motivated by this, we propose DPIS, a novel mechanism for differentially private SGD training that can be used as a drop-in replacement of the core optimizer of DP-SGD, with consistent and significant accuracy gains over the latter. The main idea is to employ importance sampling (IS) in each SGD iteration for mini-batch selection, which reduces both sampling variance and the amount of random noise injected to the gradients that is required to satisfy DP. Integrating IS into the complex mathematical machinery of DP-SGD is highly non-trivial. DPIS addresses the challenge through novel mechanism designs, fine-grained privacy analysis, efficiency enhancements, and an adaptive gradient clipping optimization. Extensive experiments on four benchmark datasets, namely MNIST, FMNIST, CIFAR-10 and IMDb, demonstrate the superior effectiveness of DPIS over existing solutions for deep learning with differential privacy.
翻訳日:2024-08-02 15:07:44 公開日:2024-08-01
# 包装・被覆制約を伴う文脈帯域:回帰によるモジュララグランジアンアプローチ

Contextual Bandits with Packing and Covering Constraints: A Modular Lagrangian Approach via Regression ( http://arxiv.org/abs/2211.07484v6 )

ライセンス: Link先を確認
Aleksandrs Slivkins, Xingyu Zhou, Karthik Abinav Sankararaman, Dylan J. Foster, (参考訳) 本稿では,線形制約付きコンテキスト帯域(CBwLC)について考察する。これは,アルゴリズムが全消費の線形制約を受ける複数のリソースを消費するコンテキスト帯域の変種である。 この問題はknapsacks (CBwK) を用いてコンテキスト的帯域幅を一般化し、制約のパッケージ化とカバー、および正および負のリソース消費を可能にする。 回帰オラクルに基づくCBwLC(CBwK)の最初のアルゴリズムを提案する。 このアルゴリズムは単純で、計算効率が良く、統計的に最適である。 さらに,確率的環境を超えたCBwLC(CBwK)について,初めて消滅・回復保証を行う。 我々は、比較するより弱い(そして間違いなくより公平な)ベンチマークを特定することで、事前の作業から強い不可視性の結果を横取りします。 我々のアルゴリズムは、CBwKのためのラグランジアンベースのテクニックであるLagrangeBwK(Immorlica et al , FOCS 2019)と、文脈的盗賊のための回帰ベースのテクニックであるSquareCB(Foster and Rakhlin, ICML 2020)に基づいて構築されている。 我々の分析は、両方の技術の本質的なモジュラリティを活用している。

We consider contextual bandits with linear constraints (CBwLC), a variant of contextual bandits in which the algorithm consumes multiple resources subject to linear constraints on total consumption. This problem generalizes contextual bandits with knapsacks (CBwK), allowing for packing and covering constraints, as well as positive and negative resource consumption. We provide the first algorithm for CBwLC (or CBwK) that is based on regression oracles. The algorithm is simple, computationally efficient, and statistically optimal under mild assumptions. Further, we provide the first vanishing-regret guarantees for CBwLC (or CBwK) that extend beyond the stochastic environment. We side-step strong impossibility results from prior work by identifying a weaker (and, arguably, fairer) benchmark to compare against. Our algorithm builds on LagrangeBwK (Immorlica et al., FOCS 2019), a Lagrangian-based technique for CBwK, and SquareCB (Foster and Rakhlin, ICML 2020), a regression-based technique for contextual bandits. Our analysis leverages the inherent modularity of both techniques.
翻訳日:2024-08-02 15:07:44 公開日:2024-08-01
# Tiered Reward:Desired Behaviorの仕様と高速学習のためのRewardsの設計

Tiered Reward: Designing Rewards for Specification and Fast Learning of Desired Behavior ( http://arxiv.org/abs/2212.03733v3 )

ライセンス: Link先を確認
Zhiyuan Zhou, Shreyas Sundara Raman, Henry Sowerby, Michael L. Littman, (参考訳) 強化学習エージェントは、環境相互作用を通じて報酬信号の最大化を試みる。 人間として、学習プロセスにおける私たちの仕事は、望ましい行動を表現するために報酬関数を設計し、エージェントが素早くそのような行動を学習できるようにすることです。 しかし、望ましい振る舞いを誘発するために良い報酬関数を設計することは一般的に難しい。 本稿では,これら2つの疑問に対処する報奨構造であるTiered Rewardを紹介する。 我々は、望ましい状態に到達し、望ましくない状態を避けるために定式化されたタスクにおける報酬-設計問題を考える。 まず,行動嗜好のトレードオフを解決するために,政策空間の厳密な部分順序付けを提案する。 我々は、善良な状態に速く、高い確率で到達し、悪な状態を長く避ける政策を好む。 次に,環境に依存しない報酬関数のクラスであるTiered Rewardを紹介する。 最後に、Tiered Rewardが複数の表と深い強化学習アルゴリズムで高速な学習につながることを実証する。

Reinforcement-learning agents seek to maximize a reward signal through environmental interactions. As humans, our job in the learning process is to design reward functions to express desired behavior and enable the agent to learn such behavior swiftly. However, designing good reward functions to induce the desired behavior is generally hard, let alone the question of which rewards make learning fast. In this work, we introduce a family of a reward structures we call Tiered Reward that addresses both of these questions. We consider the reward-design problem in tasks formulated as reaching desirable states and avoiding undesirable states. To start, we propose a strict partial ordering of the policy space to resolve trade-offs in behavior preference. We prefer policies that reach the good states faster and with higher probability while avoiding the bad states longer. Next, we introduce Tiered Reward, a class of environment-independent reward functions and show it is guaranteed to induce policies that are Pareto-optimal according to our preference relation. Finally, we demonstrate that Tiered Reward leads to fast learning with multiple tabular and deep reinforcement-learning algorithms.
翻訳日:2024-08-02 15:07:44 公開日:2024-08-01
# 効率的な視覚変換器事前学習のためのセントロイド中心モデリング

Centroid-centered Modeling for Efficient Vision Transformer Pre-training ( http://arxiv.org/abs/2303.04664v2 )

ライセンス: Link先を確認
Xin Yan, Zuchao Li, Lefei Zhang, (参考訳) Masked Image Modeling (MIM) は、視覚変換器 (ViT) を用いた新しい自己教師型ビジョン事前学習パラダイムである。 以前の作品は、それぞれパラメトリックトークン化モデルからのオリジナルのピクセルまたは離散的な視覚トークンを使用して、ピクセルベースまたはトークンベースで作成することができる。 提案するCentroid-based approach, CCViTは, k-meansクラスタリングを利用して, 生成に数秒しかかからないトークンエーザモデルの教師付きトレーニングをすることなく, 画像モデリングのためのCentroidを得る。 この非パラメトリックセントロイドトークンライザは生成に数秒しかかからず、トークン推論では高速である。 セントロイドはパッチピクセルとインデックストークンの両方を局所的不変性で表現することができる。 具体的には、破損した入力を構成するためにパッチマスキングとセントロイド置換戦略を採用し、2つの積み重ねエンコーダブロックを用いて、破損したパッチトークンを予測し、元のパッチピクセルを再構築する。 CCViTは、ViT-BのImageNet-1K分類で84.4%、ViT-Lの86.0%を達成している。 また、トレーニング済みのモデルを他の下流タスクに転送します。 提案手法は, 外部監督や蒸留訓練を伴わずに, 最近のベースラインと競合する結果が得られる。

Masked Image Modeling (MIM) is a new self-supervised vision pre-training paradigm using a Vision Transformer (ViT). Previous works can be pixel-based or token-based, using original pixels or discrete visual tokens from parametric tokenizer models, respectively. Our proposed centroid-based approach, CCViT, leverages k-means clustering to obtain centroids for image modeling without supervised training of the tokenizer model, which only takes seconds to create. This non-parametric centroid tokenizer only takes seconds to create and is faster for token inference. The centroids can represent both patch pixels and index tokens with the property of local invariance. Specifically, we adopt patch masking and centroid replacing strategies to construct corrupted inputs, and two stacked encoder blocks to predict corrupted patch tokens and reconstruct original patch pixels. Experiments show that our CCViT achieves 84.4% top-1 accuracy on ImageNet-1K classification with ViT-B and 86.0% with ViT-L. We also transfer our pre-trained model to other downstream tasks. Our approach achieves competitive results with recent baselines without external supervision and distillation training from other models.
翻訳日:2024-08-02 15:07:44 公開日:2024-08-01
# 超伝導量子ビット実験のための宇宙ミューオンフラックス減衰法

Cosmic muon flux attenuation methods for superconducting qubit experiments ( http://arxiv.org/abs/2303.04938v3 )

ライセンス: Link先を確認
Elia Bertoldo, Victor Pérez Sánchez, Maria Martínez, Manel Martínez, Hawraa Khalife, Pol Forn-Díaz, (参考訳) 本研究では, 超伝導量子ビットを含む実験と互換性があり, 宇宙ムーンフラックスを減衰させる2つの実用的な緩和手法を提案し, 実証する。 特別に構築された宇宙ミューオン検出器を用いて、都市環境に広く存在する地下地を同定し、宇宙ミューオンフラックスの大幅な減衰を最大で100メートルの深さで35倍にすることができる。 さらに,2つのゲルマニウムウェハを地上実験室に設置し,それぞれに粒子センサを装着し,光電離放射線により基板上に堆積したエネルギーの量と種類に,天空に対するチップの配向がどのような影響を及ぼすかを示す。 水平検出器はより低いエネルギーでより多くのカウントを観測し、垂直検出器はより高いエネルギーでより多くの粒子に衝突する。 提案手法は, 宇宙線が量子ビットに与える影響を直接理解し, 低減する手法であり, 既存のオンチップ緩和戦略を補完するものである。 我々は、オンチップとオフチップの組み合わせが、超伝導量子ビット回路に基づく量子技術においてユビキタスになることを期待する。

We propose and demonstrate two practical mitigation methods to attenuate the cosmic muon flux, compatible with experiments involving superconducting qubits: shallow underground sites and specific device orientation. Using a specifically-built cosmic muon detector, we identify underground sites, widely present in urban environments, where significant attenuation of cosmic muon flux, up to a factor 35 for 100-meter depths, can be attained. Furthermore, we employ two germanium wafers in an above-ground laboratory, each equipped with a particle sensor, to show how the orientation of the chip with respect to the sky affects the amount and type of energy deposited on the substrate by ionizing radiation. We observe that the horizontal detector sees more counts at lower energy, while the vertical one is impacted by more particles at higher energy. The methods here described proposed ways to directly understand and reduce the effects of cosmic rays on qubits by attenuating the source of this type of decoherence, complementing existing on-chip mitigation strategies. We expect that both on-chip and off-chip methods combined will become ubiquitous in quantum technologies based on superconducting qubit circuits.
翻訳日:2024-08-02 15:07:44 公開日:2024-08-01
# カスタマイズデータに基づくトランスフォーマーモデルによるツイートの位置推定

Predicting the Geolocation of Tweets Using transformer models on Customized Data ( http://arxiv.org/abs/2303.07865v4 )

ライセンス: Link先を確認
Kateryna Lutsai, Christoph H. Lampert, (参考訳) 本研究の目的は、ツイート/ユーザ位置情報予測タスクの解決と、テキストビッグデータのジオタグ化のための柔軟な方法論を提供することである。 提案手法はニューラルネットワークを用いて自然言語処理(NLP)を行い,その位置を座標対(経度,緯度)と2次元ガウス混合モデル(GMM)として推定する。 提案モデルの範囲は、トレーニング済みの双方向エンコーダ表現(BERT)をベースモデルとして、Twitterデータセット上で微調整されている。 パフォーマンスメトリクスは、世界中のレベルで30km未満の中央値エラーを示し、ツイートの内容とメタデータコンテキストのテキスト特徴に基づいてトレーニングされ評価されたモデルに対する米国レベルのデータセットでは15km未満である。 ソースコードとデータはhttps://github.com/K4TEL/geo-twitter.gitで公開されています。

This research is aimed to solve the tweet/user geolocation prediction task and provide a flexible methodology for the geotagging of textual big data. The suggested approach implements neural networks for natural language processing (NLP) to estimate the location as coordinate pairs (longitude, latitude) and two-dimensional Gaussian Mixture Models (GMMs). The scope of proposed models has been finetuned on a Twitter dataset using pretrained Bidirectional Encoder Representations from Transformers (BERT) as base models. Performance metrics show a median error of fewer than 30 km on a worldwide-level, and fewer than 15 km on the US-level datasets for the models trained and evaluated on text features of tweets' content and metadata context. Our source code and data are available at https://github.com/K4TEL/geo-twitter.git
翻訳日:2024-08-02 15:07:44 公開日:2024-08-01
# 非線形チャネル補償用変圧器の光学系への応用

Application of Transformers for Nonlinear Channel Compensation in Optical Systems ( http://arxiv.org/abs/2304.13119v3 )

ライセンス: Link先を確認
Behnam Behinaein Hamgini, Hossein Najafi, Ali Bakhshali, Zhuhong Zhang, (参考訳) 本稿ではトランスフォーマに基づく非線形光チャネル等化器を提案する。 並列計算の活用とシンボル列間のメモリへの直接アクセスにより,コヒーレント長距離伝送システムにおける非線形補償(NLC)に変換器を効果的に利用できることを示す。 本稿では,トランスフォーマーのエンコーダ部を実装し,その性能を多種多様なハイパーパラメータで解析する。 各繰り返しにおけるシンボルの適切な埋め込みと処理ブロックによって、同時に処理されるエンコーダの出力のサブセットを慎重に選択することにより、異なる複雑さの制約に対して効率的な非線形等化が達成できることが示されている。 注意機構の計算複雑性を低減するため,非線形摂動理論にインスパイアされた物理インフォームドマスクの利用を提案する。 また、Transformer-NLCとデジタルバックプロパゲーション(DBP)を比較し、提案したデータ駆動ソリューションの柔軟性と一般化性を示す。

In this paper, we introduce a new nonlinear optical channel equalizer based on Transformers. By leveraging parallel computation and attending directly to the memory across a sequence of symbols, we show that Transformers can be used effectively for nonlinear compensation (NLC) in coherent long-haul transmission systems. For this application, we present an implementation of the encoder part of the Transformer and analyze its performance over a wide range of different hyper-parameters. It is shown that by proper embeddings and processing blocks of symbols at each iteration and also carefully selecting subsets of the encoder's output to be processed together, an efficient nonlinear equalization can be achieved for different complexity constraints. To reduce the computational complexity of the attention mechanism, we further propose the use of a physic-informed mask inspired by nonlinear perturbation theory. We also compare the Transformer-NLC with digital back-propagation (DBP) under different transmission scenarios in order to demonstrate the flexibility and generalizability of the proposed data-driven solution.
翻訳日:2024-08-02 15:07:44 公開日:2024-08-01
# 技術ノート:DNNの忠実かつ簡潔な説明のためのand-ORインタラクションの定義と定量化

Technical Note: Defining and Quantifying AND-OR Interactions for Faithful and Concise Explanation of DNNs ( http://arxiv.org/abs/2304.13312v2 )

ライセンス: Link先を確認
Mingjie Li, Quanshi Zhang, (参考訳) 本稿では、DNNの推論ロジックを反映した入力変数間の符号化された相互作用を定量化し、ディープニューラルネットワーク(DNN)を説明することを目的とする。 具体的には、まず相互作用の定義を再考し、次に相互作用に基づく説明に対する忠実さと簡潔さを正式に定義する。 この目的のために、我々は2種類の相互作用、すなわち、AND相互作用とOR相互作用を提案する。 忠実性については、入力変数間のAND(OR)関係の効果を定量化する上で、AND(OR)相互作用の特異性を証明する。 さらに、AND-ORインタラクションに基づいて、忠実さを損なわずに、説明の簡潔さを高める手法を設計する。 このようにして、DNNの推論ロジックはシンボリックな概念の集合によって忠実かつ簡潔に説明できる。

In this technical note, we aim to explain a deep neural network (DNN) by quantifying the encoded interactions between input variables, which reflects the DNN's inference logic. Specifically, we first rethink the definition of interactions, and then formally define faithfulness and conciseness for interaction-based explanation. To this end, we propose two kinds of interactions, i.e., the AND interaction and the OR interaction. For faithfulness, we prove the uniqueness of the AND (OR) interaction in quantifying the effect of the AND (OR) relationship between input variables. Besides, based on AND-OR interactions, we design techniques to boost the conciseness of the explanation, while not hurting the faithfulness. In this way, the inference logic of a DNN can be faithfully and concisely explained by a set of symbolic concepts.
翻訳日:2024-08-02 15:07:44 公開日:2024-08-01
# 相関光子・マッターモデルにおける多重ビット系の二部分割による量子不協和ダイナミクスの研究

Investigating the quantum discord dynamics with a bipartite split of the multiqubit system in the correlated photon-matter model ( http://arxiv.org/abs/2307.08207v3 )

ライセンス: Link先を確認
Hui-hui Miao, (参考訳) 本稿では,Tavis-Cummings-Hubbardモデル(共用キャビティ量子電磁力学モデル)から修正した複素相関光子-マッターモデルにおける量子不協和ダイナミクスについて検討する。 ターゲットモデルは2つの水素原子から構成される。 中性水素分子は結合反応によって得ることができ、解離反応によって解離する。 共有結合の形成と崩壊はフォノンの生成と消滅を伴う。 従来の研究と比較すると、この複雑な系の量子不協和ダイナミクスの研究は、単一の2レベル原子からなる単純な量子系よりも難しい。 便宜のために、観測サブシステム上のマルチキュービット系と2キュービットのフォン・ノイマン射影測定の2部分割を用いる。 我々は, 閉量子系のユニタリ進化に加えて, 開量子系の散逸ダイナミクスについて検討する。 我々は、核トンネル効果、共有結合形成強度、光子(フォノン)の消散強度が量子不協和性に与える影響を含む、より複雑な量子系の将来の研究の基礎として量子相関の正則性を特定することに重点を置いている。

In this paper, we try to study the quantum discord dynamics in a complex correlated photon-matter model, which is modified from the Tavis-Cummings-Hubbard model - a common cavity quantum electrodynamics model. The target model consists of two hydrogen atoms. A neutral hydrogen molecule can be obtained through an association reaction and disintegrated through dissociation reaction. The formation and breaking of covalent bond is accompanied by the creation and annihilation of phonon. Compared with previous efforts, studying the quantum discord dynamics of this complicated system is more challenging than it was for the simple quantum system, which consisted of a single two-level atom. For convenience, we adopt a bipartite split of the multiqubit system and the two-qubit von Neumann projective measurement on the observed subsystem. We attempt to examine the dissipative dynamics in open quantum system in addition to the unitary evolution of closed quantum system. We are dedicated to identifying the regularity of quantum correlation as the basis for future research on more complex quantum systems, specifically including the impacts of nuclei tunneling effect, covalent bond formation strength, and dissipation intensities of photon (phonon) on quantum discord.
翻訳日:2024-08-02 15:07:44 公開日:2024-08-01
# ペナル化・閾値推定における一貫したパターン復元フレームワークとその幾何学

A Unified Framework for Pattern Recovery in Penalized and Thresholded Estimation and its Geometry ( http://arxiv.org/abs/2307.10158v4 )

ライセンス: Link先を確認
Piotr Graczyk, Ulrike Schneider, Tomasz Skalski, Patrick Tardivel, (参考訳) 本稿では,このペナルティ項を,LASSO,一般化LASSO,SLOPE,OSCAR,PACSなどの手法を含む実数値多面体ゲージによって与えられるペナルティ推定の枠組みを検討する。 これらの推定子は、未知のパラメータベクトルの異なる構造や 'パターン' を明らかにすることができる。 サブディファレンシャルに基づいてパターンの新規かつ一般的な概念を定義し,パターンの複雑さを測定するアプローチを定式化する。 パターン回復のためには,正の確率で検出すべき特定のパターン,いわゆるアクセシビリティ条件を最小限に設定する。 また,本手法を用いて,より強いノイズレス回復条件を導入する。 LASSOでは,1/2$以上の確率でパターン回復を行うためには,非表現性条件が必要であることがよく知られており,ノイズのない回復が我々の一般的な枠組みと全く同じ役割を果たすことを示し,それによって,不表現性条件を広範囲のペナル化推定器に統一・拡張することが知られている。 また,いわゆる閾値ペナル化推定器に切り替える際には,ノイズレス回復条件が緩和可能であることを示し,そのパターンの信号が十分に大きいことを条件として,閾値ペナル化推定によるパターン回復にアクセシビリティ条件が既に十分(かつ必要)であることを示す。 論文全体を通して、我々の発見が幾何学的レンズを通してどのように解釈できるかを実証する。

We consider the framework of penalized estimation where the penalty term is given by a real-valued polyhedral gauge, which encompasses methods such as LASSO, generalized LASSO, SLOPE, OSCAR, PACS and others. Each of these estimators can uncover a different structure or ``pattern'' of the unknown parameter vector. We define a novel and general notion of patterns based on subdifferentials and formalize an approach to measure pattern complexity. For pattern recovery, we provide a minimal condition for a particular pattern to be detected by the procedure with positive probability, the so-called accessibility condition. Using our approach, we also introduce the stronger noiseless recovery condition. For the LASSO, it is well known that the irrepresentability condition is necessary for pattern recovery with probability larger than $1/2$ and we show that the noiseless recovery plays exactly the same role in our general framework, thereby unifying and extending the irrepresentability condition to a broad class of penalized estimators. We also show that the noiseless recovery condition can be relaxed when turning to so-called thresholded penalized estimators: we prove that the accessibility condition is already sufficient (and necessary) for sure pattern recovery by thresholded penalized estimation provided that the signal of the pattern is large enough. Throughout the article, we demonstrate how our findings can be interpreted through a geometrical lens.
翻訳日:2024-08-02 14:55:39 公開日:2024-08-01
# 経済非線形モデル予測制御のためのクープマンモデルのエンドツーエンド強化学習

End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control ( http://arxiv.org/abs/2308.01674v4 )

ライセンス: Link先を確認
Daniel Mayfrank, Alexander Mitsos, Manuel Dahmen, (参考訳) (経済)非線形モデル予測制御((e)NMPC)は、十分に正確で計算的に計算可能な動的モデルを必要とする。 メカニスティックモデルのためのデータ駆動サロゲートモデルは、(e)NMPCの計算負担を軽減することができるが、そのようなモデルは典型的には、シミュレーションサンプル上で最大予測精度のシステム識別によって訓練され、(e)NMPCで亜最適に実行される。 In this method for end-to-end reinforcement learning of Koopman surrogate model for optimal performance as (e)NMPC。 提案手法を, 確立された非線形連続拌槽型反応器モデルから導出した2つの応用に適用する。 制御性能は,システム識別を用いて訓練されたモデルを用いた(e)NMPCと,強化学習を用いて訓練されたモデルフリーニューラルネットワークコントローラとを比較した。 我々は,(e)NMPCにおけるシステム識別を用いて訓練したモデルよりもエンドツーエンドのトレーニングモデルの方が優れており,(e)NMPCコントローラは,(e)NMPCコントローラとは対照的に,リトレーニングなしで制御設定の変化に反応できることを示した。

(Economic) nonlinear model predictive control ((e)NMPC) requires dynamic models that are sufficiently accurate and computationally tractable. Data-driven surrogate models for mechanistic models can reduce the computational burden of (e)NMPC; however, such models are typically trained by system identification for maximum prediction accuracy on simulation samples and perform suboptimally in (e)NMPC. We present a method for end-to-end reinforcement learning of Koopman surrogate models for optimal performance as part of (e)NMPC. We apply our method to two applications derived from an established nonlinear continuous stirred-tank reactor model. The controller performance is compared to that of (e)NMPCs utilizing models trained using system identification, and model-free neural network controllers trained using reinforcement learning. We show that the end-to-end trained models outperform those trained using system identification in (e)NMPC, and that, in contrast to the neural network controllers, the (e)NMPC controllers can react to changes in the control setting without retraining.
翻訳日:2024-08-02 14:55:39 公開日:2024-08-01
# ドメインランダム化と物体追跡ニューラルネットワークを用いたシードカーネルカウント

Seed Kernel Counting using Domain Randomization and Object Tracking Neural Networks ( http://arxiv.org/abs/2308.05846v2 )

ライセンス: Link先を確認
Venkat Margapuri, Prapti Thapaliya, Mitchell Neilsen, (参考訳) 種子の高スループット表現型付け (HTP) は、成長、発達、耐性、抵抗性、生態学、収量などの複雑な種子形質の包括的評価と、より複雑な形質を形成するパラメータの測定である。 種子の表現型付けの鍵となる側面の1つは、種子生産産業が事業を遂行するために依存している穀物の収量推定である。 現在、メカニカル化されたシードカーネルカウンタが市場に出回っているが、しばしば価格が高く、時には小規模のシード生産会社の手頃価格の範囲外である。 You Only Look Once (YOLO)のような物体追跡ニューラルネットワークモデルの開発により、計算機科学者は穀物の収量を安価に推定できるアルゴリズムを設計できる。 ニューラルネットワークモデルにおける重要なボトルネックは、タスクに投入する前にラベル付きトレーニングデータを多用する必要があることだ。 合成画像の使用は、物体の分類と検出のタスクを含む物体追跡のためのニューラルネットワークの訓練の代替となることを実証する。 さらに,低コストなメカニカルホッパー,トレーニングされたYOLOv8ニューラルネットワークモデル,およびStrongSORTおよびByteTrack上のオブジェクト追跡アルゴリズムを用いて,ビデオからの穀物収量を推定するシードカーネルカウンタを提案する。 この実験は、StrongSORTアルゴリズムを用いて、StrongSORTアルゴリズムを用いて、StrongSORTアルゴリズムを用いて、StrongSORTアルゴリズムを用いて、StrongSORTアルゴリズムを用いて、StrongSORTアルゴリズムを用いて、StrongSORTアルゴリズムを用いて、StrongSORTアルゴリズムを用いて、StrongSORTアルゴリズムを用いて、StrongSORTアルゴリズムを用いて、StrongSORTアルゴリズムを用いて、StrongSORTアルゴリズムを用いて、StrongSORTアルゴリズムを用いて、StrongSORTアルゴリズムとWheatアルゴリズムを用いて、StrongSORTアルゴリズムを用いて、精度95.2\%と93.2\%のシードカーネル数を得る。

High-throughput phenotyping (HTP) of seeds, also known as seed phenotyping, is the comprehensive assessment of complex seed traits such as growth, development, tolerance, resistance, ecology, yield, and the measurement of parameters that form more complex traits. One of the key aspects of seed phenotyping is cereal yield estimation that the seed production industry relies upon to conduct their business. While mechanized seed kernel counters are available in the market currently, they are often priced high and sometimes outside the range of small scale seed production firms' affordability. The development of object tracking neural network models such as You Only Look Once (YOLO) enables computer scientists to design algorithms that can estimate cereal yield inexpensively. The key bottleneck with neural network models is that they require a plethora of labelled training data before they can be put to task. We demonstrate that the use of synthetic imagery serves as a feasible substitute to train neural networks for object tracking that includes the tasks of object classification and detection. Furthermore, we propose a seed kernel counter that uses a low-cost mechanical hopper, trained YOLOv8 neural network model, and object tracking algorithms on StrongSORT and ByteTrack to estimate cereal yield from videos. The experiment yields a seed kernel count with an accuracy of 95.2\% and 93.2\% for Soy and Wheat respectively using the StrongSORT algorithm, and an accuray of 96.8\% and 92.4\% for Soy and Wheat respectively using the ByteTrack algorithm.
翻訳日:2024-08-02 14:55:39 公開日:2024-08-01
# 概念ドリフト下でのマルウェア検出のための最適化深層学習モデル

Optimized Deep Learning Models for Malware Detection under Concept Drift ( http://arxiv.org/abs/2308.10821v2 )

ライセンス: Link先を確認
William Maillet, Benjamin Marais, (参考訳) 悪意のあるファイル検出における機械学習モデルの有望な結果にもかかわらず、彼らはその絶え間ない進化のためにコンセプトドリフトの問題に直面している。 これにより、新しいファイルのデータ配布がトレーニングと異なるため、時間とともにパフォーマンスが低下し、頻繁なモデル更新が必要になる。 本研究では,ドリフトに対するベースラインニューラルネットワークを改善するためのモデルに依存しないプロトコルを提案する。 提案手法は,従来の2次クロスエントロピーを改良したDrift-Resilient Binary Cross-Entropyという損失関数を提案する。 我々は、2018年に公開されたEMBERデータセットでモデルをトレーニングし、2020年から2023年の間に収集された最近の悪意のあるファイルのデータセットで評価する。 改良されたモデルは有望な結果を示し、ベースラインモデルよりも15.2%多いマルウェアを検出する。

Despite the promising results of machine learning models in malicious files detection, they face the problem of concept drift due to their constant evolution. This leads to declining performance over time, as the data distribution of the new files differs from the training one, requiring frequent model update. In this work, we propose a model-agnostic protocol to improve a baseline neural network against drift. We show the importance of feature reduction and training with the most recent validation set possible, and propose a loss function named Drift-Resilient Binary Cross-Entropy, an improvement to the classical Binary Cross-Entropy more effective against drift. We train our model on the EMBER dataset, published in2018, and evaluate it on a dataset of recent malicious files, collected between 2020 and 2023. Our improved model shows promising results, detecting 15.2% more malware than a baseline model.
翻訳日:2024-08-02 14:55:39 公開日:2024-08-01
# ベクトル値ニューラルネットワークの理解と実・超複素値ニューラルネットワークとの関係

Understanding Vector-Valued Neural Networks and Their Relationship with Real and Hypercomplex-Valued Neural Networks ( http://arxiv.org/abs/2309.07716v2 )

ライセンス: Link先を確認
Marcos Eduardo Valle, (参考訳) 多次元信号と画像処理のためのディープラーニングモデルが成功したにもかかわらず、ほとんどの伝統的なニューラルネットワークは実数の(多次元)配列で表されるデータを処理している。 特徴チャネル間の相互相関は通常、トレーニングデータから学習され、多くのパラメータと注意深いトレーニングが必要になる。 対照的に、ベクトル値ニューラルネットワークはベクトルの配列を処理し、特徴チャネル間の相互相関を自然に考慮する。 その結果、通常はパラメータが少ないため、従来のニューラルネットワークよりも堅牢なトレーニングが実施されることが多い。 本稿では,ベクトル値ニューラルネットワーク(V-nets)の広範なフレームワークを提案する。 この文脈では、超複素数値ニューラルネットワークは、追加の代数的性質を持つベクトル値モデルとみなされる。 さらに,ベクトル値と従来のニューラルネットワークの関係について述べる。 正確には、特徴チャネル間の相互相関を考慮するために、実数値モデルに制約を置くことにより、ベクトル値ニューラルネットワークを得ることができる。 最後に、超複素数値ニューラルネットワークを含むV-netが、現在のディープラーニングライブラリを実数値ネットワークとして実装可能であることを示す。

Despite the many successful applications of deep learning models for multidimensional signal and image processing, most traditional neural networks process data represented by (multidimensional) arrays of real numbers. The intercorrelation between feature channels is usually expected to be learned from the training data, requiring numerous parameters and careful training. In contrast, vector-valued neural networks are conceived to process arrays of vectors and naturally consider the intercorrelation between feature channels. Consequently, they usually have fewer parameters and often undergo more robust training than traditional neural networks. This paper aims to present a broad framework for vector-valued neural networks, referred to as V-nets. In this context, hypercomplex-valued neural networks are regarded as vector-valued models with additional algebraic properties. Furthermore, this paper explains the relationship between vector-valued and traditional neural networks. Precisely, a vector-valued neural network can be obtained by placing restrictions on a real-valued model to consider the intercorrelation between feature channels. Finally, we show how V-nets, including hypercomplex-valued neural networks, can be implemented in current deep-learning libraries as real-valued networks.
翻訳日:2024-08-02 14:55:39 公開日:2024-08-01
# VoIPプラットフォームにおける音声強調の心理的課題

Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms ( http://arxiv.org/abs/2310.07161v3 )

ライセンス: Link先を確認
Joseph Konan, Shikhar Agnihotri, Ojas Bhargave, Shuo Han, Yunyang Zeng, Ankit Shah, Bhiksha Raj, (参考訳) VoIP(Voice over Internet Protocol)通信の帯域内では、音響変換によってもたらされる複雑さは厳密な分析に有用である。 この研究は、Google MeetsやZoomといったプラットフォームを綿密に評価する、プロプライエタリな送信側認知効果の探索に根ざしている。 この研究は、Deep Noise Suppression (DNS) 2020データセットに基づいており、様々なデノナイジング設定やレシーバインターフェースに合わせて、構造化された検査を確実にする。 Blinder-Oaxaca分解(Blinder-Oaxaca decomposition)は、従来のエコノメトリーツールであり、VoIPシステム内の音響・音響的摂動を解析するための手法である。 これらの変容の意義をより深く理解するために、心理音響指標(特にPSSQとSTOI)が知覚的品質と知性を説明するために用いられた。 累積的に、この洞察はVoIPの影響する音響力学の複雑な景観を浮き彫りにした。 主な発見に加えて、さまざまな指標が報告され、研究のパースペクションが拡張された。 さらに、時間及び時間周波数領域音声強調モデルのドメイン外ベンチマークも含み、この調査の深度と適用性を高める。

Within the ambit of VoIP (Voice over Internet Protocol) telecommunications, the complexities introduced by acoustic transformations merit rigorous analysis. This research, rooted in the exploration of proprietary sender-side denoising effects, meticulously evaluates platforms such as Google Meets and Zoom. The study draws upon the Deep Noise Suppression (DNS) 2020 dataset, ensuring a structured examination tailored to various denoising settings and receiver interfaces. A methodological novelty is introduced via Blinder-Oaxaca decomposition, traditionally an econometric tool, repurposed herein to analyze acoustic-phonetic perturbations within VoIP systems. To further ground the implications of these transformations, psychoacoustic metrics, specifically PESQ and STOI, were used to explain of perceptual quality and intelligibility. Cumulatively, the insights garnered underscore the intricate landscape of VoIP-influenced acoustic dynamics. In addition to the primary findings, a multitude of metrics are reported, extending the research purview. Moreover, out-of-domain benchmarking for both time and time-frequency domain speech enhancement models is included, thereby enhancing the depth and applicability of this inquiry.
翻訳日:2024-08-02 14:55:39 公開日:2024-08-01
# クエリアグリゲーションを用いたインストラクティブ対話要約

Instructive Dialogue Summarization with Query Aggregations ( http://arxiv.org/abs/2310.10981v3 )

ライセンス: Link先を確認
Bin Wang, Zhengyuan Liu, Nancy F. Chen, (参考訳) 従来の対話要約手法は要約を直接生成し、ユーザの特定の興味を考慮しない。 これは、ユーザが特定のトピックや側面にもっと集中している場合の課題となる。 命令精細言語モデルの進歩に伴い、対話モデルの性能セットを拡張するために、インストラクションチューニングを対話に導入する。 インストラクティブな対話要約データの不足を克服するために,高品質なクエリベースの要約三重項を合成するための3段階のアプローチを提案する。 このプロセスには、要約型クエリ生成、クエリフィルタリング、クエリベースのサマリ生成が含まれる。 Instructive Dialogue Summarization(Instructive Dialogue Summarization)と呼ばれる統合モデルを,多目的のインストラクティブトリプルを用いた3つの要約データセット上で訓練することにより,対話要約モデルの能力を拡張する。 本手法は,対話要約と対話読解を含む4つのデータセットを用いて評価する。 実験結果から,本手法は最先端モデルや大型モデルよりも優れていることがわかった。 さらに,本モデルでは,ヒトの主観的評価により,高い一般化性と忠実性を示す。

Conventional dialogue summarization methods directly generate summaries and do not consider user's specific interests. This poses challenges in cases where the users are more focused on particular topics or aspects. With the advancement of instruction-finetuned language models, we introduce instruction-tuning to dialogues to expand the capability set of dialogue summarization models. To overcome the scarcity of instructive dialogue summarization data, we propose a three-step approach to synthesize high-quality query-based summarization triples. This process involves summary-anchored query generation, query filtering, and query-based summary generation. By training a unified model called InstructDS (Instructive Dialogue Summarization) on three summarization datasets with multi-purpose instructive triples, we expand the capability of dialogue summarization models. We evaluate our method on four datasets, including dialogue summarization and dialogue reading comprehension. Experimental results show that our approach outperforms the state-of-the-art models and even models with larger sizes. Additionally, our model exhibits higher generalizability and faithfulness, as confirmed by human subjective evaluations.
翻訳日:2024-08-02 14:55:39 公開日:2024-08-01
# ハッカーとしてのLLM: 自律的なLinuxPrivategeエスカレーション攻撃

LLMs as Hackers: Autonomous Linux Privilege Escalation Attacks ( http://arxiv.org/abs/2310.11409v4 )

ライセンス: Link先を確認
Andreas Happe, Aaron Kaplan, Juergen Cito, (参考訳) ソフトウェアセキュリティテストの不可欠なコンポーネントである浸透テストは、組織がシステムの脆弱性を特定して修正し、サイバー攻撃に対する防御メカニズムを強化することを可能にする。 浸透試験の領域における最近の進歩の1つは言語モデル(LLM)の利用である。 LLMと浸透試験の交差点を探索し、特権拡大の文脈におけるそれらの能力と課題について考察する。 倫理的)ハッキングにおけるLSMの有効性を評価し,複数のLSMを用いてベンチマークを実行し,それぞれの結果を調べるために,完全に自動化された特権エスカレーションツールを提案する。 その結果,GPT-4-turboは脆弱性(脆弱性の33~83%)を悪用するのに適していることがわかった。 GPT-3.5-turboは脆弱性の16~50%を悪用するが、Llama3のようなローカルモデルは脆弱性の0~33%しか利用できない。 我々は,異なるコンテキストサイズ,コンテキスト内学習,任意の高レベルガイダンス機構,メモリ管理技術の影響を分析する。 テスト中のフォーカスの維持、エラーへの対処、最終的にLLMと人間のハッカーの比較など、LLMの課題領域について論じる。 LLM誘導型特権エスカレーションプロトタイプの現在のバージョンはhttps://github.com/ipa-labs/hackingBuddyGPTにある。

Penetration testing, an essential component of software security testing, allows organizations to identify and remediate vulnerabilities in their systems, thus bolstering their defense mechanisms against cyberattacks. One recent advancement in the realm of penetration testing is the utilization of Language Models (LLMs). We explore the intersection of LLMs and penetration testing to gain insight into their capabilities and challenges in the context of privilege escalation. We introduce a fully automated privilege-escalation tool designed for evaluating the efficacy of LLMs for (ethical) hacking, executing benchmarks using multiple LLMs, and investigating their respective results. Our results show that GPT-4-turbo is well suited to exploit vulnerabilities (33-83% of vulnerabilities). GPT-3.5-turbo can abuse 16-50% of vulnerabilities, while local models, such as Llama3, can only exploit between 0 and 33% of the vulnerabilities. We analyze the impact of different context sizes, in-context learning, optional high-level guidance mechanisms, and memory management techniques. We discuss challenging areas for LLMs, including maintaining focus during testing, coping with errors, and finally comparing LLMs with human hackers. The current version of the LLM-guided privilege-escalation prototype can be found at https://github.com/ipa-labs/hackingBuddyGPT.
翻訳日:2024-08-02 14:55:39 公開日:2024-08-01
# 森林確率による地域説明可能性の向上と信頼スコア

Enhanced Local Explainability and Trust Scores with Random Forest Proximities ( http://arxiv.org/abs/2310.12428v2 )

ライセンス: Link先を確認
Joshua Rosaler, Dhruv Desai, Bhaskarjit Sarmah, Dimitrios Vamvourellis, Deran Onay, Dhagash Mehta, Stefano Pasquali, (参考訳) 我々は,任意のRFを適応重み付きK近傍モデルとして数学的に定式化できるという事実を利用して,ランダム森林回帰モデルと分類モデルの予測とサンプル性能を説明する新しいアプローチを開始した。 具体的には、回帰タスクと分類タスクの両方において、どのRF予測もトレーニング対象の重み付けの和として正確に書き換えることができる。 この線形性は、トレーニングセットにおける観測におけるモデル予測の属性を生成するRF予測の局所的な説明可能性を促進し、入力特徴間のモデル予測の属性を生成するSHAPのような確立された特徴ベースの手法を補完することを示す。 本稿では, モデル予測だけでなく, モデル予測の正しさが比較的低い場合に, 確率が新たな評価手段を提供するという意味で, モデル予測だけでなく, サンプル外性能を説明するために, SHAPと組み合わせて, この近接性に基づく説明可能性のアプローチをいかに活用できるかを示す。 我々は、米国の社債価格のモデリングにおいてこのアプローチを実証し、レグレッションと分類の両方のケースでリターンを示す。

We initiate a novel approach to explain the predictions and out of sample performance of random forest (RF) regression and classification models by exploiting the fact that any RF can be mathematically formulated as an adaptive weighted K nearest-neighbors model. Specifically, we employ a recent result that, for both regression and classification tasks, any RF prediction can be rewritten exactly as a weighted sum of the training targets, where the weights are RF proximities between the corresponding pairs of data points. We show that this linearity facilitates a local notion of explainability of RF predictions that generates attributions for any model prediction across observations in the training set, and thereby complements established feature-based methods like SHAP, which generate attributions for a model prediction across input features. We show how this proximity-based approach to explainability can be used in conjunction with SHAP to explain not just the model predictions, but also out-of-sample performance, in the sense that proximities furnish a novel means of assessing when a given model prediction is more or less likely to be correct. We demonstrate this approach in the modeling of US corporate bond prices and returns in both regression and classification cases.
翻訳日:2024-08-02 14:55:39 公開日:2024-08-01
# 未知の非定常条件下での時間的アンタングル表現学習

Temporally Disentangled Representation Learning under Unknown Nonstationarity ( http://arxiv.org/abs/2310.18615v2 )

ライセンス: Link先を確認
Xiangchen Song, Weiran Yao, Yewen Fan, Xinshuai Dong, Guangyi Chen, Juan Carlos Niebles, Eric Xing, Kun Zhang, (参考訳) 時間遅れの潜伏因果関係を持つ逐次データに対する教師なし因果表現学習において,時間的構造を利用して因果関連潜伏変数の非絡み合いに対する強い識別可能性が確立されている。 しかし、非定常環境では、既存の作業は、観測された補助変数(例えば、クラスラベルや/またはドメインインデックス)をサイド情報として利用したり、単純化された潜時因果ダイナミクスを仮定することによってのみ問題に対処する。 どちらもメソッドを限られたシナリオに制限する。 本研究では,非定常条件下での時間遅延因果関係過程下でのマルコフ推定についてさらに検討し,軽度条件下では,独立潜伏成分を,補助変数の観察を伴わずに,置換や成分変換まで非線形混合物から回収可能であることを示した。 次に, NCTRLを導入し, 時間遅れの因果変数を再構成し, 測定された逐次データのみからそれらの関係を同定する。 実験により, 遅延因果関係の信頼性を実証し, 非定常性を適切に利用できない既存のベースラインを著しく上回り, その結果, 分布変化を識別できないことを示した。

In unsupervised causal representation learning for sequential data with time-delayed latent causal influences, strong identifiability results for the disentanglement of causally-related latent variables have been established in stationary settings by leveraging temporal structure. However, in nonstationary setting, existing work only partially addressed the problem by either utilizing observed auxiliary variables (e.g., class labels and/or domain indexes) as side information or assuming simplified latent causal dynamics. Both constrain the method to a limited range of scenarios. In this study, we further explored the Markov Assumption under time-delayed causally related process in nonstationary setting and showed that under mild conditions, the independent latent components can be recovered from their nonlinear mixture up to a permutation and a component-wise transformation, without the observation of auxiliary variables. We then introduce NCTRL, a principled estimation framework, to reconstruct time-delayed latent causal variables and identify their relations from measured sequential data only. Empirical evaluations demonstrated the reliable identification of time-delayed latent causal influences, with our methodology substantially outperforming existing baselines that fail to exploit the nonstationarity adequately and then, consequently, cannot distinguish distribution shifts.
翻訳日:2024-08-02 14:55:39 公開日:2024-08-01
# SC-MIL:全スライド画像分類のための簡潔に符号化された複数インスタンス学習

SC-MIL: Sparsely Coded Multiple Instance Learning for Whole Slide Image Classification ( http://arxiv.org/abs/2311.00048v2 )

ライセンス: Link先を確認
Peijie Qiu, Pan Xiao, Wenhui Zhu, Yalin Wang, Aristeidis Sotiras, (参考訳) 多重インスタンス学習(MIL)は、弱い教師付き全スライド画像(WSI)分類に広く用いられている。 典型的なMILメソッドには、事前訓練された機能抽出器を介してインスタンスを機能に埋め込む機能埋め込み部と、インスタンス埋め込みを予測に組み合わせるMILアグリゲータが含まれる。 たいていの取り組みは、これらの部分を改善することに重点を置いている。 これには、自己教師付き事前トレーニングを通じて機能の埋め込みを洗練することと、インスタンス間の相関を個別にモデル化することが含まれる。 本稿では,これら2つの側面を同時に扱うための,スパース辞書学習を利用したスパース符号化MIL (SC-MIL) 手法を提案する。 スパース辞書学習は、オーバーコンプリート辞書における原子のスパース線形結合として表現することで、インスタンスの類似性を捉える。 さらに、スパーシリティを付与することで、最も関連性の高いインスタンスを保持しながら、無関係なインスタンスを抑えることで、インスタンス機能の埋め込みが改善される。 従来のスパース符号化アルゴリズムを深層学習と互換性を持たせるため,深層学習を利用したスパース符号化モジュールにアンロールした。 提案したSCモジュールは、既存のMILフレームワークにプラグイン・アンド・プレイ方式で組み込むことができ、計算コストは許容できる。 複数のデータセットに対する実験結果から,提案したSCモジュールは最先端MIL法の性能を大幅に向上させることができることが示された。 コードは \href{https://github.com/sotiraslab/SCMIL.git}{https://github.com/sotiraslab/SCMIL.git} で公開されている。

Multiple Instance Learning (MIL) has been widely used in weakly supervised whole slide image (WSI) classification. Typical MIL methods include a feature embedding part, which embeds the instances into features via a pre-trained feature extractor, and an MIL aggregator that combines instance embeddings into predictions. Most efforts have typically focused on improving these parts. This involves refining the feature embeddings through self-supervised pre-training as well as modeling the correlations between instances separately. In this paper, we proposed a sparsely coding MIL (SC-MIL) method that addresses those two aspects at the same time by leveraging sparse dictionary learning. The sparse dictionary learning captures the similarities of instances by expressing them as sparse linear combinations of atoms in an over-complete dictionary. In addition, imposing sparsity improves instance feature embeddings by suppressing irrelevant instances while retaining the most relevant ones. To make the conventional sparse coding algorithm compatible with deep learning, we unrolled it into a sparsely coded module leveraging deep unrolling. The proposed SC module can be incorporated into any existing MIL framework in a plug-and-play manner with an acceptable computational cost. The experimental results on multiple datasets demonstrated that the proposed SC module could substantially boost the performance of state-of-the-art MIL methods. The codes are available at \href{https://github.com/sotiraslab/SCMIL.git}{https://github.com/sotiraslab/SCMIL.git}.
翻訳日:2024-08-02 14:55:39 公開日:2024-08-01
# 神経科学のための強化学習入門

An introduction to reinforcement learning for neuroscience ( http://arxiv.org/abs/2311.07315v2 )

ライセンス: Link先を確認
Kristopher T. Jensen, (参考訳) 強化学習は、時間差学習のための報酬予測エラー信号としてのドーパミンの初期の研究(Schultz et al , 1997)から、最近の研究は、ドーパミンが深層学習で普及した「分配強化学習」の形式を実装可能であることを示唆している(Dabney et al , 2020)。 この論文を通じて、強化学習の理論的進歩と神経科学実験と研究結果の間には密接な関係がある。 その結果、実験データを記述する理論はますます複雑になり、ナビゲートが困難になっている。 本稿では、強化学習における古典的研究の基礎的理論を概説し、システム神経科学の応用を見いだした現代の深層強化学習における手法の入門的概要を構築する。 まず、強化学習問題と古典的時間差分アルゴリズムの概要、続いて、DYNAなどの手法とこれら2つの極端の間に散在する後続表現とともに、「モデルフリー」および「モデルベース」強化学習について議論する。 これらのセクションを通じて、実験と理論的神経科学の両方における機械学習手法と関連する研究の類似点を強調した。 次に、これらの手法が、メタ強化学習(Wang et al , 2018)や分布強化学習(Dabney et al , 2020)など、システム神経科学における異なる学習現象のモデル化に使われている例を紹介する。 この作業で議論されたメソッドを実装し、図を生成するコードも提供される。

Reinforcement learning has a rich history in neuroscience, from early work on dopamine as a reward prediction error signal for temporal difference learning (Schultz et al., 1997) to recent work suggesting that dopamine could implement a form of 'distributional reinforcement learning' popularized in deep learning (Dabney et al., 2020). Throughout this literature, there has been a tight link between theoretical advances in reinforcement learning and neuroscientific experiments and findings. As a result, the theories describing our experimental data have become increasingly complex and difficult to navigate. In this review, we cover the basic theory underlying classical work in reinforcement learning and build up to an introductory overview of methods in modern deep reinforcement learning that have found applications in systems neuroscience. We start with an overview of the reinforcement learning problem and classical temporal difference algorithms, followed by a discussion of 'model-free' and 'model-based' reinforcement learning together with methods such as DYNA and successor representations that fall in between these two extremes. Throughout these sections, we highlight the close parallels between such machine learning methods and related work in both experimental and theoretical neuroscience. We then provide an introduction to deep reinforcement learning with examples of how these methods have been used to model different learning phenomena in systems neuroscience, such as meta-reinforcement learning (Wang et al., 2018) and distributional reinforcement learning (Dabney et al., 2020). Code that implements the methods discussed in this work and generates the figures is also provided.
翻訳日:2024-08-02 14:45:13 公開日:2024-08-01
# モビリティデータの合成と予測ニューラルネットワーク評価のための因果介入フレームワーク

A causal intervention framework for synthesizing mobility data and evaluating predictive neural networks ( http://arxiv.org/abs/2311.11749v3 )

ライセンス: Link先を確認
Ye Hong, Yanan Xin, Simon Dirmeier, Fernando Perez-Cruz, Martin Raubal, (参考訳) ディープニューラルネットワークは、モビリティ予測タスクにますます活用されているが、その複雑な内部動作は、特にモビリティ行動の様々な側面が予測にどのように影響するかを理解する際に、解釈可能性に課題をもたらす。 本研究では、次の位置予測のために設計されたニューラルネットワークに対する移動関連要因の影響を評価するための因果介入フレームワークを紹介する。 そこで我々は,データ生成プロセスに介入することで,個々のモビリティモデルを用いて位置訪問シーケンスを合成し,動作のダイナミクスを制御する。 移動度測定値を用いて介入位置列を評価し、よく訓練されたネットワークに入力し、性能変動を分析する。 その結果, 異なる移動行動を伴う位置列の生成の有効性が示され, 多様な空間的・時間的変化のシミュレーションが容易となった。 これらの変化は、次の位置予測ネットワークのパフォーマンス変動をもたらし、位置遷移のシーケンシャルなパターン、新しい位置を探索する確率、人口と個人レベルの位置選択の好みなど、重要な移動行動要因の影響を明らかにする。 得られた洞察は、モビリティ予測ネットワークの現実的な応用に価値を持ち、このフレームワークは、モビリティアプリケーションにおけるニューラルネットワークの解釈可能性と堅牢性を高めるために因果推論の使用を促進することが期待されている。

Deep neural networks are increasingly utilized in mobility prediction tasks, yet their intricate internal workings pose challenges for interpretability, especially in comprehending how various aspects of mobility behavior affect predictions. This study introduces a causal intervention framework to assess the impact of mobility-related factors on neural networks designed for next location prediction -- a task focusing on predicting the immediate next location of an individual. To achieve this, we employ individual mobility models to synthesize location visit sequences and control behavior dynamics by intervening in their data generation process. We evaluate the interventional location sequences using mobility metrics and input them into well-trained networks to analyze performance variations. The results demonstrate the effectiveness in producing location sequences with distinct mobility behaviors, thereby facilitating the simulation of diverse yet realistic spatial and temporal changes. These changes result in performance fluctuations in next location prediction networks, revealing impacts of critical mobility behavior factors, including sequential patterns in location transitions, proclivity for exploring new locations, and preferences in location choices at population and individual levels. The gained insights hold value for the real-world application of mobility prediction networks, and the framework is expected to promote the use of causal inference to enhance the interpretability and robustness of neural networks in mobility applications.
翻訳日:2024-08-02 14:45:13 公開日:2024-08-01
# 量子-古典的不確実性相補性による解離型量子ステアリング

Unveiling quantum steering by quantum-classical uncertainty complementarity ( http://arxiv.org/abs/2312.01055v3 )

ライセンス: Link先を確認
Kuan-Yi Lee, Jhen-Dong Lin, Karel Lemr, Antonín Černoch, Adam Miranowicz, Franco Nori, Huan-Yu Ku, Yueh-Nan Chen, (参考訳) 量子ステアリングの顕著な側面の1つは、局所的な不確実性相補性関係に違反する能力である。 本研究では, Reid の基準など, 異なる不確実性関係をともなう様々なステアリング証人について考察した。 ここでは、蒸留可能なコヒーレンスとフォン・ノイマンエントロピーに対応する系の量子的不確かさと古典的不確かさの相補関係をそれぞれ導入する。 本研究では, エントロピー不確実性関係と比較して, ステアリング検出効率が優れていることを示す。 特に,提案したステアリング証人は,エントロピー的不確実性関係では検出できないが,'all pure entangled state'を検出できる。 また,この特性をフォトニックシステムを用いて実験的に検証する。 さらに,本研究で提案した相補性関数を,真の不整合演算における測定不整合性と量子ステアビリティの定量化器として示すことにより,不整合性原理への深い関係を明らかにする。 我々の研究は、量子技術の重要な資源であるコヒーレンスとステアリングの間に明確な量的・運用的なつながりを確立し、不確実性原理を量子コヒーレンスでブリッジする我々の努力を裏付けるものである。

One of the remarkable aspects of quantum steering is its ability to violate local uncertainty complementarity relations. In this vein of study, various steering witnesses employing different uncertainty relations have been developed including Reid's criteria. Here, we introduce a novel complementarity relation between system's quantum and classical uncertainties corresponding to the distillable coherence and the von-Neumann entropy, respectively. We demonstrate a superior steering detection efficiency compared to an entropic uncertainty relation. Notably, our proposed steering witness can detect ``all pure entangled states," while the entropic uncertainty relation cannot. We also experimentally validate such a property through a photonic system. Furthermore, a deeper connection to the uncertainty principle is revealed by showcasing the functionality of our proposed complementarity as a quantifier of measurement incompatibility and quantum steerability under genuine incoherent operations. Our work establishes a clear quantitative and operational link between coherence and steering, which are significant resources of quantum technologies, and underscores our efforts in bridging the uncertainty principle with quantum coherence.
翻訳日:2024-08-02 14:45:13 公開日:2024-08-01
# TriDeNT: 病理組織学における原始的知識蒸留のための3つの深層ネットワークトレーニング

TriDeNT: Triple Deep Network Training for Privileged Knowledge Distillation in Histopathology ( http://arxiv.org/abs/2312.02111v3 )

ライセンス: Link先を確認
Lucas Farndale, Robert Insall, Ke Yuan, (参考訳) 計算病理モデルは推論に利用できないデータを活用することは滅多にない。 これは、ほとんどのモデルは、追加の免疫組織化学的(IHC)染色や空間転写学のような、非常に情報性の高いデータから学べないことを意味している。 提案するTriDeNTは,推論中に利用できない特権データを利用した,パフォーマンス向上のための自己教師型手法である。 本手法の有効性を,免疫組織化学,空間転写学,専門的核アノテーションなど多種多様なデータに対して示す。 あらゆる設定において、TriDeNTは、ダウンストリームタスクにおける他の最先端メソッドよりも優れており、最大101%の改善が観察されている。 さらに,これらのモデルから得られた特徴の質的,定量的な測定と,それらがベースラインとどのように異なるかを示す。 TriDeNTは、トレーニング中に少ないデータや高価なデータから知識を排除し、ルーチン入力のためのはるかに優れたモデルを作成する新しい方法を提供する。

Computational pathology models rarely utilise data that will not be available for inference. This means most models cannot learn from highly informative data such as additional immunohistochemical (IHC) stains and spatial transcriptomics. We present TriDeNT, a novel self-supervised method for utilising privileged data that is not available during inference to improve performance. We demonstrate the efficacy of this method for a range of different paired data including immunohistochemistry, spatial transcriptomics and expert nuclei annotations. In all settings, TriDeNT outperforms other state-of-the-art methods in downstream tasks, with observed improvements of up to 101%. Furthermore, we provide qualitative and quantitative measurements of the features learned by these models and how they differ from baselines. TriDeNT offers a novel method to distil knowledge from scarce or costly data during training, to create significantly better models for routine inputs.
翻訳日:2024-08-02 14:45:13 公開日:2024-08-01
# Lite-Mind: 効率的でロバストな脳表現ネットワークを目指して

Lite-Mind: Towards Efficient and Robust Brain Representation Network ( http://arxiv.org/abs/2312.03781v4 )

ライセンス: Link先を確認
Zixuan Gong, Qi Zhang, Guangyin Bao, Lei Zhu, Ke Liu, Liang Hu, Duoqian Miao, Yu Zhang, (参考訳) 限られたデータ可用性とfMRI信号の低信号対雑音比は、fMRI対画像検索の難題に繋がる。 最先端のMindEyeは、大きなモデルである996MのMLPバックボーンを活用して、fMRIの埋め込みをCLIPのVision Transformer(ViT)の最終的な隠蔽層に合わせることにより、fMRIから画像への検索性能を著しく向上させる。 しかし、同じ実験環境下であっても、被験者間で有意な個人差が存在し、大きな対象特化モデルの訓練が義務付けられている。 実質的なパラメータは、実用的なデバイスにfMRIデコーディングをデプロイする上で大きな課題となる。 そこで本研究では,離散フーリエ変換(DFT)に基づく軽量で効率的で堅牢な脳表現学習パラダイムであるLite-Mindを提案する。 スペクトル圧縮および周波数プロジェクタモジュールを用いたDFTバックボーンを精巧に設計し、情報的かつ堅牢なボクセル埋め込みを学習する。 実験の結果,Lite-Mind は対象1の NSD データセットに対して,94.6% の fMRI-to-image 精度を達成でき,パラメータは MindEye よりも98.7% 少ないことがわかった。 Lite-Mindはまた、より小さなfMRIデータセットに移行できることが証明されており、GODデータセット上でゼロショット分類のための新しい最先端技術を確立している。

The limited data availability and the low signal-to-noise ratio of fMRI signals lead to the challenging task of fMRI-to-image retrieval. State-of-the-art MindEye remarkably improves fMRI-to-image retrieval performance by leveraging a large model, i.e., a 996M MLP Backbone per subject, to align fMRI embeddings to the final hidden layer of CLIP's Vision Transformer (ViT). However, significant individual variations exist among subjects, even under identical experimental setups, mandating the training of large subject-specific models. The substantial parameters pose significant challenges in deploying fMRI decoding on practical devices. To this end, we propose Lite-Mind, a lightweight, efficient, and robust brain representation learning paradigm based on Discrete Fourier Transform (DFT), which efficiently aligns fMRI voxels to fine-grained information of CLIP. We elaborately design a DFT backbone with Spectrum Compression and Frequency Projector modules to learn informative and robust voxel embeddings. Our experiments demonstrate that Lite-Mind achieves an impressive 94.6% fMRI-to-image retrieval accuracy on the NSD dataset for Subject 1, with 98.7% fewer parameters than MindEye. Lite-Mind is also proven to be able to be migrated to smaller fMRI datasets and establishes a new state-of-the-art for zero-shot classification on the GOD dataset.
翻訳日:2024-08-02 14:45:13 公開日:2024-08-01
# 大規模言語モデルにおけるテキスト透かしの実態調査

A Survey of Text Watermarking in the Era of Large Language Models ( http://arxiv.org/abs/2312.07913v5 )

ライセンス: Link先を確認
Aiwei Liu, Leyi Pan, Yijian Lu, Jingjing Li, Xuming Hu, Xi Zhang, Lijie Wen, Irwin King, Hui Xiong, Philip S. Yu, (参考訳) テキスト透かしアルゴリズムは、テキストコンテンツの著作権を保護するために不可欠である。 歴史的には、その能力とアプリケーションシナリオは限られていた。 しかし、近年の大規模言語モデル(LLM)の進歩は、これらの技術に革命をもたらした。 LLMはテキスト透かしアルゴリズムを高度な能力で強化するだけでなく、これらのアルゴリズムを使って著作権を保護したり、誤用を防ぐ必要も生んでいる。 本報告では,テキスト透かし技術の現状について,(1)異なるテキスト透かし技術の概要と比較,(2)検出性,テキストやLLMの品質,ターゲット・未攻撃時の堅牢性,(3)テキスト透かし技術の潜在的な応用シナリオ,(4)テキスト透かし技術の今後の方向性など,4つの側面を網羅的に調査する。 本調査は, LLM時代のテキスト透かし技術について, 研究者に理解を深めることを目的としている。

Text watermarking algorithms are crucial for protecting the copyright of textual content. Historically, their capabilities and application scenarios were limited. However, recent advancements in large language models (LLMs) have revolutionized these techniques. LLMs not only enhance text watermarking algorithms with their advanced abilities but also create a need for employing these algorithms to protect their own copyrights or prevent potential misuse. This paper conducts a comprehensive survey of the current state of text watermarking technology, covering four main aspects: (1) an overview and comparison of different text watermarking techniques; (2) evaluation methods for text watermarking algorithms, including their detectability, impact on text or LLM quality, robustness under target or untargeted attacks; (3) potential application scenarios for text watermarking technology; (4) current challenges and future directions for text watermarking. This survey aims to provide researchers with a thorough understanding of text watermarking technology in the era of LLM, thereby promoting its further advancement.
翻訳日:2024-08-02 14:45:13 公開日:2024-08-01
# DSA透明性データベース:ソーシャルメディアによる自己報告型モデレーション行動の監査

The DSA Transparency Database: Auditing Self-reported Moderation Actions by Social Media ( http://arxiv.org/abs/2312.10269v3 )

ライセンス: Link先を確認
Amaury Trujillo, Tiziano Fagni, Stefano Cresci, (参考訳) 2023年9月以降、デジタルサービス法(DSA)は大規模なオンラインプラットフォームに対して、欧州連合(EU)内の各モデレーションに関する詳細なデータをDSA透明性データベースに提出するよう義務付けている。 当初から、この中央集権的なデータベースは、現実世界のオンラインモデレーションに関する、前例のない、潜在的に独特なデータの群れとして、学術的な関心を喚起してきた。 ここでは、データベースの最初の100日間にEUで8大ソーシャルメディアプラットフォームが提出した353.12万レコードについて、徹底的に分析する。 具体的には、モデレーションアクションのボリューム、意思決定の根拠、適用制限の種類、適度なコンテンツのタイプ、モデレーションアクションの実施と提出のタイムライン、自動化の使用について、プラットフォームレベルで比較研究を行う。 さらに,データベースの内容とプラットフォーム自身の透明性レポートを体系的に相互チェックする。 私たちの分析によると (i) プラットフォームは、データベースの哲学と構造に一部だけ固執した。 (ii) データベースの構造は、部分的にプラットフォームレポートのニーズに不適切である。 (三)プラットフォームは、そのモデレーション行動に実質的な差異をみせている。 (四)データベースデータの顕著な割合は不一致である。 (v)プラットフォームX(旧Twitter)が最も矛盾している。 さまざまな分野にわたる政策立案者や学者にとって,本研究は大きな意味を持つ。 彼らは、オンラインプラットフォーム全般のレポートのニーズを満たす将来の規制に関するガイダンスを提供すると同時に、データベース自体の改善と改善の機会も強調している。

Since September 2023, the Digital Services Act (DSA) obliges large online platforms to submit detailed data on each moderation action they take within the European Union (EU) to the DSA Transparency Database. From its inception, this centralized database has sparked scholarly interest as an unprecedented and potentially unique trove of data on real-world online moderation. Here, we thoroughly analyze all 353.12M records submitted by the eight largest social media platforms in the EU during the first 100 days of the database. Specifically, we conduct a platform-wise comparative study of their: volume of moderation actions, grounds for decision, types of applied restrictions, types of moderated content, timeliness in undertaking and submitting moderation actions, and use of automation. Furthermore, we systematically cross-check the contents of the database with the platforms' own transparency reports. Our analyses reveal that (i) the platforms adhered only in part to the philosophy and structure of the database, (ii) the structure of the database is partially inadequate for the platforms' reporting needs, (iii) the platforms exhibited substantial differences in their moderation actions, (iv) a remarkable fraction of the database data is inconsistent, (v) the platform X (formerly Twitter) presents the most inconsistencies. Our findings have far-reaching implications for policymakers and scholars across diverse disciplines. They offer guidance for future regulations that cater to the reporting needs of online platforms in general, but also highlight opportunities to improve and refine the database itself.
翻訳日:2024-08-02 14:45:13 公開日:2024-08-01
# M^2ConceptBase: ファイングラインドされた概念中心のマルチモーダル知識ベース

M^2ConceptBase: A Fine-Grained Aligned Concept-Centric Multimodal Knowledge Base ( http://arxiv.org/abs/2312.10417v2 )

ライセンス: Link先を確認
Zhiwei Zha, Jiaan Wang, Zhixu Li, Xiangru Zhu, Wei Song, Yanghua Xiao, (参考訳) マルチモーダル・ナレッジ・ベース(MMKB)は、マルチモーダル・タスクに不可欠なクロスモーダル・アライメント・ナレッジを提供する。 しかし、既存のMMKBのイメージは一般に百科事典知識グラフのエンティティのために収集される。 したがって、多モーダルモデルの視覚的概念認識能力に不可欠な言語概念による視覚的意味論の詳細な基礎は欠落している。 このギャップに対処するため、最初の概念中心のMMKBであるM^2ConceptBaseを紹介します。 M^2ConceptBaseは、概念を関連する画像と詳細なテキスト記述を持つノードとしてモデル化する。 画像テキストデータセットからコンテキスト情報を用いて,概念イメージと概念記述ペアを協調させる,コンテキスト認識型マルチモーダルシンボル基底手法を提案する。 951Kイメージと152Kコンセプトを含むM^2ConceptBaseは、各概念を平均6.27イメージと1つの記述にリンクし、視覚的およびテキスト的意味論を包括的に保証する。 人間の研究は95%以上のアライメントの精度を確認し、その品質を裏付けている。 さらに、M^2ConceptBaseは、OK-VQAタスク上でのVQAモデルの性能を大幅に向上させることを示した。 M^2ConceptBaseはまた、2つの概念関連タスクの検索強化を通じて、マルチモーダルな大規模言語モデルの詳細な概念理解能力を大幅に改善し、その価値を強調している。

Multimodal knowledge bases (MMKBs) provide cross-modal aligned knowledge crucial for multimodal tasks. However, the images in existing MMKBs are generally collected for entities in encyclopedia knowledge graphs. Therefore, detailed groundings of visual semantics with linguistic concepts are lacking, which are essential for the visual concept cognition ability of multimodal models. Addressing this gap, we introduce M^2ConceptBase, the first concept-centric MMKB. M^2ConceptBase models concepts as nodes with associated images and detailed textual descriptions. We propose a context-aware multimodal symbol grounding approach to align concept-image and concept-description pairs using context information from image-text datasets. Comprising 951K images and 152K concepts, M^2ConceptBase links each concept to an average of 6.27 images and a single description, ensuring comprehensive visual and textual semantics. Human studies confirm more than 95% alignment accuracy, underscoring its quality. Additionally, our experiments demonstrate that M^2ConceptBase significantly enhances VQA model performance on the OK-VQA task. M^2ConceptBase also substantially improves the fine-grained concept understanding capabilities of multimodal large language models through retrieval augmentation in two concept-related tasks, highlighting its value.
翻訳日:2024-08-02 14:45:13 公開日:2024-08-01
# KGLens: 知識グラフを用いた大規模言語モデルの効率的かつ効果的な知識探索を目指して

KGLens: Towards Efficient and Effective Knowledge Probing of Large Language Models with Knowledge Graphs ( http://arxiv.org/abs/2312.11539v3 )

ライセンス: Link先を確認
Shangshang Zheng, He Bai, Yizhe Zhang, Yi Su, Xiaochuan Niu, Navdeep Jaitly, (参考訳) 大きな言語モデル(LLM)は事実を幻覚させるが、キュレートされた知識グラフ(KG)は、特にドメイン固有の知識に対して、事実的に信頼性がある。 KGsとLLMsのアライメントを測定することで、その事実を効果的に調査し、LLMsの知識盲点を特定することができる。 しかし、広範囲なKG上でのLSMの検証は高価である。 本稿では,KGsとLLMsのアライメントを効果的かつ効率的に測定することを目的としたトンプソンにヒントを得たフレームワークであるKGLensを提案する。 KGLensは、KGを自然言語に変換するためのグラフ誘導質問生成器と、パラメータ化されたKG構造に基づいて慎重に設計された重要サンプリング戦略を備える。 シミュレーション実験では,6つの異なるサンプリング法を用いて,KGLensとブルート力法を比較し,提案手法がより優れた探索効率を達成できることを実証した。 KGLensを活用することで,Wikidataの3つの大きなドメイン固有KGに対して,10個のLLMの事実的精度を詳細に解析し,19Kエッジ,700のリレーション,21Kエンティティを合成した。 人間の評価結果は、KGLensが人間のアノテータとほぼ同等の精度でLSMを評価し、精度の95.7%に達することを示唆している。

Large Language Models (LLMs) might hallucinate facts, while curated Knowledge Graph (KGs) are typically factually reliable especially with domain-specific knowledge. Measuring the alignment between KGs and LLMs can effectively probe the factualness and identify the knowledge blind spots of LLMs. However, verifying the LLMs over extensive KGs can be expensive. In this paper, we present KGLens, a Thompson-sampling-inspired framework aimed at effectively and efficiently measuring the alignment between KGs and LLMs. KGLens features a graph-guided question generator for converting KGs into natural language, along with a carefully designed importance sampling strategy based on parameterized KG structure to expedite KG traversal. Our simulation experiment compares the brute force method with KGLens under six different sampling methods, demonstrating that our approach achieves superior probing efficiency. Leveraging KGLens, we conducted in-depth analyses of the factual accuracy of ten LLMs across three large domain-specific KGs from Wikidata, composing over 19K edges, 700 relations, and 21K entities. Human evaluation results indicate that KGLens can assess LLMs with a level of accuracy nearly equivalent to that of human annotators, achieving 95.7% of the accuracy rate.
翻訳日:2024-08-02 14:45:13 公開日:2024-08-01
# テキストマッチングから見たマルチモーダルエンティティリンクのためのデュアルウェイ拡張フレームワーク

A Dual-way Enhanced Framework from Text Matching Point of View for Multimodal Entity Linking ( http://arxiv.org/abs/2312.11816v2 )

ライセンス: Link先を確認
Shezheng Song, Shan Zhao, Chengyu Wang, Tianwei Yan, Shasha Li, Xiaoguang Mao, Meng Wang, (参考訳) MEL(Multimodal Entity Linking)は、ウィキペディアのような知識グラフ(KG)のエンティティに曖昧な言及とマルチモーダル情報をリンクすることを目的としている。 しかし、既存の手法では、生画像のノイズや、MELに障害を与える曖昧なテキスト実体表現など、モダリティの不純物などの欠点に悩まされている。 本稿では、各マルチモーダル情報(テキストと画像)をクエリとして扱うニューラルテキストマッチング問題としてリンクするマルチモーダルエンティティを定式化し、各クエリから関連するエンティティへのマッピングを候補エンティティから学習する。 本稿では,MELのための双方向拡張(DWE)フレームワークを提案する。(1)本モデルではマルチモーダルデータを用いてクエリを洗練し,テキストと画像情報間のクロスモーダルエンハンサーを用いてセマンティックギャップに対処する。 さらに、DWEは、顔の特徴やシーンの特徴を含むきめ細かい画像特性を革新的に活用して、視覚的特徴の強化と洗練を実現している。 2) ウィキペディアの記述を用いて、DWEはエンティティのセマンティクスを強化し、より包括的なテキスト表現を得る。 3つの公開ベンチマークによる大規模な実験により,本手法がSOTA(State-of-the-art)性能を実現し,モデルの優位性を示した。 コードはhttps://github.com/season1blue/DWEで公開されている。

Multimodal Entity Linking (MEL) aims at linking ambiguous mentions with multimodal information to entity in Knowledge Graph (KG) such as Wikipedia, which plays a key role in many applications. However, existing methods suffer from shortcomings, including modality impurity such as noise in raw image and ambiguous textual entity representation, which puts obstacles to MEL. We formulate multimodal entity linking as a neural text matching problem where each multimodal information (text and image) is treated as a query, and the model learns the mapping from each query to the relevant entity from candidate entities. This paper introduces a dual-way enhanced (DWE) framework for MEL: (1) our model refines queries with multimodal data and addresses semantic gaps using cross-modal enhancers between text and image information. Besides, DWE innovatively leverages fine-grained image attributes, including facial characteristic and scene feature, to enhance and refine visual features. (2)By using Wikipedia descriptions, DWE enriches entity semantics and obtains more comprehensive textual representation, which reduces between textual representation and the entities in KG. Extensive experiments on three public benchmarks demonstrate that our method achieves state-of-the-art (SOTA) performance, indicating the superiority of our model. The code is released on https://github.com/season1blue/DWE
翻訳日:2024-08-02 14:45:13 公開日:2024-08-01
# $^{164}$Dy超固体と液滴のトンネル力学

Tunneling dynamics of $^{164}$Dy supersolids and droplets ( http://arxiv.org/abs/2401.03725v3 )

ライセンス: Link先を確認
S. I. Mistakidis, K. Mukherjee, S. M. Reimann, H. R. Sadeghpour, (参考訳) 時間依存型Gross-Pitaevskiiアプローチを用いて, 磁気的$^{164}$Dy量子気体のトンネル力学について検討した。 エネルギーオフセットを持ち上げると、異なるトンネル機構が特定できる。 伸長トラップと十分に大きなオフセットでは、異なる構成が集合的なマクロなトンネルを示す。 小さいオフセットでは、バリアを通過する部分反射と透過は、両方の井戸に密度の蓄積をもたらし、最終的にはトンネルロックに繋がる。 また、相対的な双極子相互作用の強度を高めるために、マクロな自己トラッピング状態に到達でき、トンネルは大きな障壁の高さのために消滅する。 パンケーキのようなトラップに対してよりリッチな動的挙動が観察される。 例えば、超固体は形状を保ち、超流動密度は、マクロなトンネル構造における特異な励起パターンの出現を示す歪む。 ここで報告された発見は、超固体および液滴系における特異な動的特徴を探索する新しい方法を提供するかもしれない。

The tunneling dynamics of a magnetic $^{164}$Dy quantum gas in an elongated or pancake skewed double-well trap is investigated with a time-dependent extended Gross-Pitaevskii approach. Upon lifting the energy offset, different tunneling regimes can be identified. In the elongated trap and for sufficiently large offset, the different configurations exhibit collective macroscopic tunneling. For smaller offset, partial reflection from and transmission through the barrier lead to density accumulation in both wells, and eventually to tunneling-locking. One can also reach the macroscopic self-trapping regime for increasing relative dipolar interaction strength, while tunneling vanishes for large barrier heights. A richer dynamical behavior is observed for the pancake-like trap. For instance, the supersolid maintains its shape, while the superfluid density gets distorted signifying the emergence of peculiar excitation patterns in the macroscopic tunneling regime. The findings reported here may offer new ways to probe distinctive dynamical features in the supersolid and droplet regimes.
翻訳日:2024-08-02 14:45:13 公開日:2024-08-01
# 知識評価のギャップを狭める:多粒度回答を用いたオープンドメイン質問応答

Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers ( http://arxiv.org/abs/2401.04695v2 )

ライセンス: Link先を確認
Gal Yona, Roee Aharoni, Mor Geva, (参考訳) 現実的な質問は、通常、異なるレベルの粒度で正しく答えられる。 例えば、「『1961年8月4日』と『1961年』はどちらも、『バラク・オバマはいつ生まれたのか?』という問いに対する正しい答えである。 しかし、標準質問応答 (QA) 評価プロトコルは、これを明示的に考慮せず、予測された回答を単一の粒度レベルの回答と比較する。 本稿では,複数の粒度回答に対して,予測された回答を精度と情報性の観点から評価する新しい評価手法であるGRANOLA QAを提案する。 本稿では,既存データセットを多粒度回答で拡張するための簡単な方法論を提案し,EntityQuestionsデータセットの多粒度バージョンであるGRANOLA-EQを作成する。 本稿では,GRANOLA-EQ 上でのデコード手法について,応答粒度とモデルの不確実性との整合性を考慮した新しいアルゴリズムである Decoding with Response Aggregation (DRAG) について検討する。 実験の結果, 標準復号化を伴う大規模言語モデルでは, しばしば誤解となるような特定の解を生成する傾向が示された。 対照的に、多粒度回答で評価すると、DRAGは平均で20ポイント近く精度が上昇し、希少物質がさらに増加する。 全体として、標準評価と復号化スキームは、LMにカプセル化された知識を著しく過小評価する可能性がある。

Factual questions typically can be answered correctly at different levels of granularity. For example, both ``August 4, 1961'' and ``1961'' are correct answers to the question ``When was Barack Obama born?''. Standard question answering (QA) evaluation protocols, however, do not explicitly take this into account and compare a predicted answer against answers of a single granularity level. In this work, we propose GRANOLA QA, a novel evaluation setting where a predicted answer is evaluated in terms of accuracy and informativeness against a set of multi-granularity answers. We present a simple methodology for enriching existing datasets with multi-granularity answers, and create GRANOLA-EQ, a multi-granularity version of the EntityQuestions dataset. We evaluate a range of decoding methods on GRANOLA-EQ, including a new algorithm, called Decoding with Response Aggregation (DRAG), that is geared towards aligning the response granularity with the model's uncertainty. Our experiments show that large language models with standard decoding tend to generate specific answers, which are often incorrect. In contrast, when evaluated on multi-granularity answers, DRAG yields a nearly 20 point increase in accuracy on average, which further increases for rare entities. Overall, this reveals that standard evaluation and decoding schemes may significantly underestimate the knowledge encapsulated in LMs.
翻訳日:2024-08-02 14:45:13 公開日:2024-08-01
# HiMTM:長期予測のための自己蒸留による階層型マルチスケールマスキング時系列モデリング

HiMTM: Hierarchical Multi-Scale Masked Time Series Modeling with Self-Distillation for Long-Term Forecasting ( http://arxiv.org/abs/2401.05012v2 )

ライセンス: Link先を確認
Shubao Zhao, Ming Jin, Zhaoxiang Hou, Chengyi Yang, Zengxiang Li, Qingsong Wen, Yi Wang, (参考訳) 時系列予測は実践的応用において重要かつ困難な課題である。 時系列予測のための事前学習基礎モデルの最近の進歩は大きな関心を集めている。 しかし、現在の手法はしばしば、正確な予測に不可欠である時系列のマルチスケールの性質を見落としている。 そこで本稿では,長期予測のための自己蒸留を用いた階層型マルチスケールマスク時系列モデリングであるHiMTMを提案する。 HiMTMは,(1)階層型マルチスケールトランスフォーマー (HMT) と,(2)エンコーダを特徴抽出に向ける分離エンコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダ(DED)と,(3) 事前訓練中の多段階特徴レベルの監視信号に対する階層型自己蒸留 (HSD) と,(4) 下流タスクの異なるスケール間の依存性を捉えるためのクロススケールアテンション微調整 (CSA-FT) の4つの重要なコンポーネントを統合している。 これらのコンポーネントは、マスク付き時系列モデリングにおけるマルチスケール特徴抽出を強化し、予測精度を向上させる。 7つの主流データセットに対する大規模な実験によると、HiMTMは最先端の自己教師とエンドツーエンドの学習方法を3.16-68.54\%で上回っている。 さらに、HiMTMは最新の堅牢な自己教師付き学習手法であるPatchTSTを2.3倍の差でクロスドメイン予測で上回っている。 HiMTMの有効性は、天然ガス需要予測に適用することでさらに実証される。

Time series forecasting is a critical and challenging task in practical application. Recent advancements in pre-trained foundation models for time series forecasting have gained significant interest. However, current methods often overlook the multi-scale nature of time series, which is essential for accurate forecasting. To address this, we propose HiMTM, a hierarchical multi-scale masked time series modeling with self-distillation for long-term forecasting. HiMTM integrates four key components: (1) hierarchical multi-scale transformer (HMT) to capture temporal information at different scales; (2) decoupled encoder-decoder (DED) that directs the encoder towards feature extraction while the decoder focuses on pretext tasks; (3) hierarchical self-distillation (HSD) for multi-stage feature-level supervision signals during pre-training; and (4) cross-scale attention fine-tuning (CSA-FT) to capture dependencies between different scales for downstream tasks. These components collectively enhance multi-scale feature extraction in masked time series modeling, improving forecasting accuracy. Extensive experiments on seven mainstream datasets show that HiMTM surpasses state-of-the-art self-supervised and end-to-end learning methods by a considerable margin of 3.16-68.54\%. Additionally, HiMTM outperforms the latest robust self-supervised learning method, PatchTST, in cross-domain forecasting by a significant margin of 2.3\%. The effectiveness of HiMTM is further demonstrated through its application in natural gas demand forecasting.
翻訳日:2024-08-02 14:34:15 公開日:2024-08-01
# 構造因果モデルを用いた潜在選択のモデル化

Modeling Latent Selection with Structural Causal Models ( http://arxiv.org/abs/2401.06925v2 )

ライセンス: Link先を確認
Leihao Chen, Onno Zoeter, Joris M. Mooij, (参考訳) 選択バイアスは現実世界のデータではユビキタスであり、適切に扱わなければ誤解を招く可能性がある。 本稿では,構造因果モデル (Structure Causal Models, SCM) の条件付け操作を導入し,因果的観点からの潜在選択をモデル化する。 条件付け操作は、明示的な潜在選択機構の存在下でSCMをそのような選択機構なしでSCMに変換し、元のSCMに応じて選択したサブ集団の因果意味を部分的に符号化することを示す。 さらに, この条件付け操作は, SCMの単純さ, 非周期性, 線形性を保ち, 余剰化とともに通勤することを示す。 これらの特性と限界化と介入を組み合わせることで、条件付け操作は、潜伏詳細が抽象化された因果モデル内で因果推論タスクを実行するための貴重なツールを提供する。 因果推論の古典的な結果が、選択バイアスを含むように一般化され、条件付け操作が現実世界の問題のモデル化にどのように役立つかを実例で示す。

Selection bias is ubiquitous in real-world data, and can lead to misleading results if not dealt with properly. We introduce a conditioning operation on Structural Causal Models (SCMs) to model latent selection from a causal perspective. We show that the conditioning operation transforms an SCM with the presence of an explicit latent selection mechanism into an SCM without such selection mechanism, which partially encodes the causal semantics of the selected subpopulation according to the original SCM. Furthermore, we show that this conditioning operation preserves the simplicity, acyclicity, and linearity of SCMs, and commutes with marginalization. Thanks to these properties, combined with marginalization and intervention, the conditioning operation offers a valuable tool for conducting causal reasoning tasks within causal models where latent details have been abstracted away. We demonstrate by example how classical results of causal inference can be generalized to include selection bias and how the conditioning operation helps with modeling of real-world problems.
翻訳日:2024-08-02 14:34:15 公開日:2024-08-01
# フラックス可変マイクロ波キャビティを用いた浮遊超電導体のリモートセンシング

Remote sensing of a levitated superconductor with a flux-tunable microwave cavity ( http://arxiv.org/abs/2401.08854v3 )

ライセンス: Link先を確認
Philip Schmidt, Remi Claessen, Gerard Higgins, Joachim Hofer, Jannek J. Hansen, Peter Asenbaum, Kevin Uhl, Reinhold Kleiner, Rudolf Gross, Hans Huebl, Michael Trupke, Markus Aspelmeyer, (参考訳) 本稿では,マイクロ波共振器に埋め込まれた超伝導量子干渉装置からなる空洞-電界系について,6$\mu$gの磁気浮上型超伝導球にピックアップループで結合する。 磁気トラップにおける球の運動は、SQUIDキャビティ系の周波数シフトを誘導する。 我々はマイクロ波分光法を用いてシステムを特性評価し、電気機械的相互作用がチューニング可能であることを示す。 測定された10^{-7} \, \mathrm{m} / \sqrt{\mathrm{Hz}}$は、ミリケルビン環境温度でプランクスケールの質量を持つ浮遊粒子の基底状態冷却への道を定義する。

We present a cavity-electromechanical system comprising a superconducting quantum interference device which is embedded in a microwave resonator and coupled via a pick-up loop to a 6 $\mu$g magnetically-levitated superconducting sphere. The motion of the sphere in the magnetic trap induces a frequency shift in the SQUID-cavity system. We use microwave spectroscopy to characterize the system, and we demonstrate that the electromechanical interaction is tunable. The measured displacement sensitivity of $10^{-7} \, \mathrm{m} / \sqrt{\mathrm{Hz}}$, defines a path towards ground-state cooling of levitated particles with Planck-scale masses at millikelvin environment temperatures.
翻訳日:2024-08-02 14:34:15 公開日:2024-08-01
# 微粒なシーングラフ生成のための適応的自己学習フレームワーク

Adaptive Self-training Framework for Fine-grained Scene Graph Generation ( http://arxiv.org/abs/2401.09786v4 )

ライセンス: Link先を確認
Kibum Kim, Kanghoon Yoon, Yeonjun In, Jinyoung Moon, Donghyun Kim, Chanyoung Park, (参考訳) シーングラフ生成(SGG)モデルは、長い尾の述語分布やアノテーションの欠如といったベンチマークデータセットに固有の問題に悩まされている。 本研究では, 注釈のない三つ子を用いて, SGGの長期化問題を緩和することを目的とする。 そこで本研究では,SGGモデルがトレーニングされている無注釈三重項に対して擬似ラベルを割り当てる,SGG(ST-SGG)の自己評価フレームワークを提案する。 画像認識のための自己学習には大きな進歩があったが、意味的あいまいさや述語クラスの長期分布といった固有の性質から、SGGタスクのための自己学習フレームワークを設計することはより困難である。 そこで本研究では,既存のSGGモデルに適用可能なモデルに依存しないフレームワークであるClass-specific Adaptive Thresholding with Momentum (CATM)を提案する。 さらに,提案する自己学習フレームワークをMPNNベースのSGGモデルに導入する際に有用なグラフ構造学習器(GSL)を考案した。 各種SGGモデルにおけるST-SGGの有効性を検証し,特に細粒度述語クラスの性能向上について検討した。

Scene graph generation (SGG) models have suffered from inherent problems regarding the benchmark datasets such as the long-tailed predicate distribution and missing annotation problems. In this work, we aim to alleviate the long-tailed problem of SGG by utilizing unannotated triplets. To this end, we introduce a Self-Training framework for SGG (ST-SGG) that assigns pseudo-labels for unannotated triplets based on which the SGG models are trained. While there has been significant progress in self-training for image recognition, designing a self-training framework for the SGG task is more challenging due to its inherent nature such as the semantic ambiguity and the long-tailed distribution of predicate classes. Hence, we propose a novel pseudo-labeling technique for SGG, called Class-specific Adaptive Thresholding with Momentum (CATM), which is a model-agnostic framework that can be applied to any existing SGG models. Furthermore, we devise a graph structure learner (GSL) that is beneficial when adopting our proposed self-training framework to the state-of-the-art message-passing neural network (MPNN)-based SGG models. Our extensive experiments verify the effectiveness of ST-SGG on various SGG models, particularly in enhancing the performance on fine-grained predicate classes.
翻訳日:2024-08-02 14:34:15 公開日:2024-08-01
# The Manga Whisperer:コミックの書き起こしを自動的に生成する

The Manga Whisperer: Automatically Generating Transcriptions for Comics ( http://arxiv.org/abs/2401.10224v3 )

ライセンス: Link先を確認
Ragav Sachdeva, Andrew Zisserman, (参考訳) 過去数十年間、マンガと呼ばれる日本の漫画は、文化と言語の境界を超越し、真の世界的なセンセーションとなった。 しかし、マンガの視覚的手がかりやイラストに固有の依存は、視覚障害のある個人にはほとんどアクセスできない。 本研究は,マンガが誰にでも評価され,積極的に関与できることを保証することを目的として,この大きな障壁に対処することを目的とする。 具体的には、ダイアリゼーション(ダイアリゼーション)の問題、すなわち、何をいつ、いつ、完全に自動で書き起こすかという問題に対処する。 この目的のために、我々は以下の貢献をする: (1) 統一されたモデル Magi を提示する。 (a)パネル、テキストボックス、文字ボックスを検出する。 (b)クラスタ文字の同一性(アプリオリのクラスタ数を知ることなく)、 (c)対話を話者に関連付け,(2)検出したテキストボックスを読み順にソートし,対話テキストを生成する新しいアプローチを提案する。(3)マンガページを公開して,このタスクの評価ベンチマークに注釈を付ける。 コード、評価データセット、事前トレーニングされたモデルは以下の通りである。

In the past few decades, Japanese comics, commonly referred to as Manga, have transcended both cultural and linguistic boundaries to become a true worldwide sensation. Yet, the inherent reliance on visual cues and illustration within manga renders it largely inaccessible to individuals with visual impairments. In this work, we seek to address this substantial barrier, with the aim of ensuring that manga can be appreciated and actively engaged by everyone. Specifically, we tackle the problem of diarisation i.e. generating a transcription of who said what and when, in a fully automatic way. To this end, we make the following contributions: (1) we present a unified model, Magi, that is able to (a) detect panels, text boxes and character boxes, (b) cluster characters by identity (without knowing the number of clusters apriori), and (c) associate dialogues to their speakers; (2) we propose a novel approach that is able to sort the detected text boxes in their reading order and generate a dialogue transcript; (3) we annotate an evaluation benchmark for this task using publicly available [English] manga pages. The code, evaluation datasets and the pre-trained model can be found at: https://github.com/ragavsachdeva/magi.
翻訳日:2024-08-02 14:34:15 公開日:2024-08-01
# 数学推論能力を小言語モデルに拡張する

Distilling Mathematical Reasoning Capabilities into Small Language Models ( http://arxiv.org/abs/2401.11864v5 )

ライセンス: Link先を確認
Xunyu Zhu, Jian Li, Yong Liu, Can Ma, Weiping Wang, (参考訳) 本研究は,高度な大規模言語モデル (LLM) の民主化という課題に対処し,それらの数学的推論能力を,性能を損なうことなくサブビリオンパラメータ (SLM) に圧縮する。 EoTD(Equation-of-Thought Distillation, EoTD)は, 理論過程を方程式ベース表現にカプセル化し, 微調整SLMのためのEoTDデータセットを構築する手法である。 さらに,SLMの推論性能を高めるために,ETD(Ensemble Thoughts Distillation)フレームワークを提案する。 これには、Chain-of-Thought(CoT)、Program-of-Thought(PoT)、Equation-of-Thought(EoT)など、複数の思考プロセスによる推論データセットの作成と、それを微調整に使用することが含まれる。 実験により,EoTDはSLMの推論能力を大幅に向上し,ETDはこれらのモデルが最先端の推論性能を実現することを実証した。

This work addresses the challenge of democratizing advanced Large Language Models (LLMs) by compressing their mathematical reasoning capabilities into sub-billion parameter Small Language Models (SLMs) without compromising performance. We introduce Equation-of-Thought Distillation (EoTD), a novel technique that encapsulates the reasoning process into equation-based representations to construct an EoTD dataset for fine-tuning SLMs. Additionally, we propose the Ensemble Thoughts Distillation (ETD) framework to enhance the reasoning performance of SLMs. This involves creating a reasoning dataset with multiple thought processes, including Chain-of-Thought (CoT), Program-of-Thought (PoT), and Equation-of-Thought (EoT), and using it for fine-tuning. Our experimental performance demonstrates that EoTD significantly boosts the reasoning abilities of SLMs, while ETD enables these models to achieve state-of-the-art reasoning performance.
翻訳日:2024-08-02 14:34:15 公開日:2024-08-01
# 極端ティレルソン不等式

Extremal Tsirelson inequalities ( http://arxiv.org/abs/2401.12791v2 )

ライセンス: Link先を確認
Victor Barizien, Jean-Daniel Bancal, (参考訳) ベル型実験で観測できる統計の集合が量子理論によって制限されていることはよく知られている。 残念ながら、このセットの正確な境界を特定するためのツールが欠けている。 本稿では、双対的な視点から量子統計の集合を研究することを提案する。 与えられた実現によって飽和されるすべてのベル表現を考慮することで、CHSH表現は、我々が特定する極端ツィレルソン不等式で分解できることが示される。 これにより、(2,2,2) のシナリオにおける量子集合の幾何学に関する新たな洞察がもたらされる。 さらに、Tsirelson 実現を自己テストできるすべての Bell 式を特定できる。

It is well-known that the set of statistics that can be observed in a Bell-type experiment is limited by quantum theory. Unfortunately, tools are missing to identify the precise boundary of this set. Here, we propose to study the set of quantum statistics from a dual perspective. By considering all Bell expressions saturated by a given realization, we show that the CHSH expression can be decomposed in terms of extremal Tsirelson inequalities that we identify. This brings novel insight into the geometry of the quantum set in the (2,2,2) scenario. Furthermore, this allows us to identify all the Bell expressions that are able to self-test the Tsirelson realization.
翻訳日:2024-08-02 14:34:15 公開日:2024-08-01
# Vivim:医療用ビデオセグメンテーション用ビデオビジョンマンバ

Vivim: a Video Vision Mamba for Medical Video Segmentation ( http://arxiv.org/abs/2401.14168v4 )

ライセンス: Link先を確認
Yijun Yang, Zhaohu Xing, Lequan Yu, Chunwang Huang, Huazhu Fu, Lei Zhu, (参考訳) 医用ビデオセグメンテーションは、ビデオフレームの冗長なダイナミック参照により、臨床実践において注目を集める。 しかし、従来の畳み込みニューラルネットワークは受容野が限られており、トランスフォーマーベースのネットワークは計算複雑性の観点から長期的な依存関係を構築するのに適している。 このボトルネックは、限られたメモリを持つ利用可能なデバイスを使用して、医療ビデオ分析タスクの長いシーケンスを処理する場合、重大な課題となる。 近年,マンバで有名な状態空間モデル (SSM) は,多くの視覚タスクにおいて受容場を著しく拡張し,ディープニューラルネットワークを発達させる,効率的な長周期モデリングにおいて顕著な成果を上げている。 残念なことに、バニラSSMは因果側頭頂部を同時に捕捉し、非因果的空間情報を保存できなかった。 そこで本研究では,医用ビデオセグメンテーションタスクのためのビデオビジョン・マンバベースのフレームワークであるVivimを提案する。 我々のビビムは、設計したテンポラルマンバブロックを用いて、長期時空間表現を様々なスケールのシーケンスに効果的に圧縮することができる。 また,不明瞭な病変に対するビビムの識別能力を高めるために,フレーム間の境界認識アフィン制約の改善も導入した。 超音波画像における甲状腺分節,乳房病変分節,大腸内視鏡画像におけるポリープ分節の広範囲な実験により,既存の方法よりも優れたビビムの有効性と効率が示された。 コードは、https://github.com/scott-yjyang/Vivim.comで入手できる。 データセットは一度受け入れられるとリリースされます。

Medical video segmentation gains increasing attention in clinical practice due to the redundant dynamic references in video frames. However, traditional convolutional neural networks have a limited receptive field and transformer-based networks are mediocre in constructing long-term dependency from the perspective of computational complexity. This bottleneck poses a significant challenge when processing longer sequences in medical video analysis tasks using available devices with limited memory. Recently, state space models (SSMs), famous by Mamba, have exhibited impressive achievements in efficient long sequence modeling, which develops deep neural networks by expanding the receptive field on many vision tasks significantly. Unfortunately, vanilla SSMs failed to simultaneously capture causal temporal cues and preserve non-casual spatial information. To this end, this paper presents a Video Vision Mamba-based framework, dubbed as Vivim, for medical video segmentation tasks. Our Vivim can effectively compress the long-term spatiotemporal representation into sequences at varying scales with our designed Temporal Mamba Block. We also introduce an improved boundary-aware affine constraint across frames to enhance the discriminative ability of Vivim on ambiguous lesions. Extensive experiments on thyroid segmentation, breast lesion segmentation in ultrasound videos, and polyp segmentation in colonoscopy videos demonstrate the effectiveness and efficiency of our Vivim, superior to existing methods. The code is available at: https://github.com/scott-yjyang/Vivim. The dataset will be released once accepted.
翻訳日:2024-08-02 14:34:15 公開日:2024-08-01
# MoE-Infinity:Offloading-Efficient MoE Model Serving

MoE-Infinity: Offloading-Efficient MoE Model Serving ( http://arxiv.org/abs/2401.14361v2 )

ライセンス: Link先を確認
Leyang Xue, Yao Fu, Zhan Lu, Luo Mai, Mahesh Marina, (参考訳) 本稿では,Sparse Mixed-of-Experts(MoE)モデルのためのオフロード効率の高いサービスシステムであるMoE-Infinityを提案する。 オフロードを最適化するために、MoE-Infinityはエキスパートアクティベーションのための新しい要求レベルのトレースを実現し、選択的アクティベーション、グループアクティベーション、スキュードリユースといったMoEのスパース実行パターンをキャプチャする。 要求レベルのトレースを活用することで、MoE-Infinityは、効率的なエキスパートプリフェッチとエキスパートキャッシングを実行し、ホストメモリからGPUメモリへのモデルパラメータの転送において高い効率を達成する。 実験結果によると、MoE-Infinityは、MoE-Infinityよりも最大4倍のGPUリソースを必要とする高価なフルGPUデプロイメントに匹敵する低レイテンシを実現する。 DeepSpeed-Inference、Llama.cpp、Mixtral Offloading、BrainStormのようなオフロード対応のLLMサービスシステムと比較すると、MoE-Infinityはより優れたレイテンシ性能を示し、多数のLLMタスクに対して様々なMoEモデルを提供する際に2-20倍の改善を提供する。 MoE-Infinityのソースコードはhttps://github.com/TorchMoE/MoE-Infinityで公開されている。

This paper presents MoE-Infinity, an offloading-efficient serving system for sparse mixture-of-experts (MoE) models. To optimize offloading, MoE-Infinity achieves novel request-level tracing for expert activation, capturing MoE's sparse execution patterns such as selective activation, group activation, and skewed reuse. Leveraging the request-level trace, MoE-Infinity performs effective expert prefetching and expert caching, achieving high efficiency in transferring model parameters from host memory to GPU memory. Experimental results demonstrate that MoE-Infinity achieves low latency comparable to expensive full-GPU deployments, which require up to 4X more GPU resources than MoE-Infinity. Compared to offloading-supporting LLM serving systems such as DeepSpeed-Inference, Llama.cpp, Mixtral Offloading, and BrainStorm, MoE-Infinity exhibits superior latency performance, providing 2-20X improvements when serving various MoE models for a large collection of LLM tasks. MoE-Infinity's source code is publicly available a https://github.com/TorchMoE/MoE-Infinity
翻訳日:2024-08-02 14:34:15 公開日:2024-08-01
# グローバル構造誘導拡散モデルによるテキスト画像の描出

Text Image Inpainting via Global Structure-Guided Diffusion Models ( http://arxiv.org/abs/2401.14832v3 )

ライセンス: Link先を確認
Shipeng Zhu, Pengfei Fang, Chenjie Zhu, Zuoyan Zhao, Qiang Xu, Hui Xue, (参考訳) 実世界のテクストは、環境や人為的要因による腐食問題によって損傷を受け、テクスト、テクスチャ、構造などの完全なスタイルの保存を妨げる可能性がある。 これらの腐食問題、例えば、落書き標識や不完全な署名は、テキストを理解するのに困難をもたらすため、下流のアプリケーション、例えばシーンテキスト認識や署名識別に重大な課題を生じさせる。 特に、現在の塗装技術は、この問題に適切に対処できず、合理的で一貫したスタイルとともに正確なテキストイメージの復元が困難であることが多い。 本論文は,テキスト画像の描画におけるオープンな問題として評価し,その研究を促進するためのベンチマークを構築することを目的とする。 そこで我々は,シーンテキスト画像と手書きテキスト画像を含む2つの特定のテキストインペイントデータセットを構築した。 それぞれの画像には、実際のデータセットと合成データセットによって改訂された画像が含まれており、元の画像と破損した画像、その他のアシスタント情報が含まれている。 データセットの上に,新たなニューラルネットワークフレームワークであるGlobal Structure-Guided Diffusion Model(GSDM)を,潜在的なソリューションとして開発する。 提案したGSDMは, テキストのグローバル構造を先行として活用し, クリーンテキストを回収するための効率的な拡散モデルを開発した。 本手法の有効性は,認識精度と画像品質の両方を大幅に向上させるなど,徹底的な実証研究によって実証された。 これらの知見は,本手法の有効性を浮き彫りにするだけでなく,テキスト画像の理解と処理の領域を拡大する可能性も浮き彫りにしている。 コードとデータセットは、https://github.com/blackprotoss/GSDM.comで入手できる。

Real-world text can be damaged by corrosion issues caused by environmental or human factors, which hinder the preservation of the complete styles of texts, e.g., texture and structure. These corrosion issues, such as graffiti signs and incomplete signatures, bring difficulties in understanding the texts, thereby posing significant challenges to downstream applications, e.g., scene text recognition and signature identification. Notably, current inpainting techniques often fail to adequately address this problem and have difficulties restoring accurate text images along with reasonable and consistent styles. Formulating this as an open problem of text image inpainting, this paper aims to build a benchmark to facilitate its study. In doing so, we establish two specific text inpainting datasets which contain scene text images and handwritten text images, respectively. Each of them includes images revamped by real-life and synthetic datasets, featuring pairs of original images, corrupted images, and other assistant information. On top of the datasets, we further develop a novel neural framework, Global Structure-guided Diffusion Model (GSDM), as a potential solution. Leveraging the global structure of the text as a prior, the proposed GSDM develops an efficient diffusion model to recover clean texts. The efficacy of our approach is demonstrated by thorough empirical study, including a substantial boost in both recognition accuracy and image quality. These findings not only highlight the effectiveness of our method but also underscore its potential to enhance the broader field of text image understanding and processing. Code and datasets are available at: https://github.com/blackprotoss/GSDM.
翻訳日:2024-08-02 14:34:15 公開日:2024-08-01
# 単一光子状態の実験的相対的絡み合いポテンシャル

Experimental relative entanglement potentials of single-photon states ( http://arxiv.org/abs/2401.15995v2 )

ライセンス: Link先を確認
Josef Kadlec, Karol Bartkiewicz, Antonín Černoch, Karel Lemr, Adam Miranowicz, (参考訳) エンタングルメントポテンシャル(EP)は、ビーム分割によって生じるエンタングルメントを測定することにより、単一モードの光学場の非古典性のキャラクタリゼーションと定量化を可能にする。 実験により単一光子状態が生成され、トモグラフィで対応する2量子状態が再構成され、一般的な2量子状態のエンタングルメントによって定義されるEPが決定された。 これらには、エンタングルメントの相対エントロピー(REEP)、収束、負性といったポテンシャルが含まれる。 実験状態の中では、相対EP(あるいは相対非古典性)上の理論上および下限に非常に近い(少なくともいくつかのパラメータの範囲で)もの、すなわち、あるEPが与えられた値に対して最大化または最小化される場合を見出した。 我々はRefの反直観的理論的結果について実験的に確認した。 [Phys. A 92, 062314 (2015)] は、単光子状態の相対的非古典性(特にREEPの所定の値の負性ポテンシャル)は、散逸によって増加することができる。

Entanglement potentials (EPs) enable the characterization and quantification of the nonclassicality of single-mode optical fields by measuring the entanglement generated through beam splitting. We experimentally generated single-photon states and tomographically reconstructed the corresponding two-qubit states to determine EPs defined via popular two-qubit measures of entanglement. These include the potentials for the relative entropy of entanglement (REEP), concurrence, and negativity. Among our experimental states, we found those that are very close (at least for some ranges of parameters) to the theoretical upper and lower bounds on relative EPs (or relative nonclassicality), i.e., when one EP is maximized or minimized for a given value if another EP. We experimentally confirmed the counterintuitive theoretical result of Ref. [Phys. Rev. A 92, 062314 (2015)] that the relative nonclassicality (specifically, the negativity potential for given values of the REEP) of single-photon states can be increased by dissipation.
翻訳日:2024-08-02 14:34:15 公開日:2024-08-01
# DefInt: ハイブリッド大言語モデルによる効率的な推論のためのデフォルト・インターベンショナリストフレームワーク

DefInt: A Default-interventionist Framework for Efficient Reasoning with Hybrid Large Language Models ( http://arxiv.org/abs/2402.02563v3 )

ライセンス: Link先を確認
Yu Shang, Yu Li, Fengli Xu, Yong Li, (参考訳) 大規模言語モデル(LLM)は、幅広いタスクにおいて驚くべき創発的能力を示してきたが、複雑な推論問題に対処する上ではまだ課題に直面している。 チェーン・オブ・シント(CoT)やツリー・オブ・シント(ToT)といったこれまでの作業は、精度の向上に重点を置いていたが、トークンコストの急激な増加を見落としている。 人間の認知の二重プロセス理論に触発されて,ハイブリッドLLMの相乗的ポテンシャルを解き放つためのデフォルト・インターベンショニスト・フレームワーク(DefInt)を提案する。 デフォルトでは、DefIntはより小規模の言語モデルを使用して、システム1の高速な直感に類似した低コストな推論思考を生成する。 直観が低信頼で考慮されている場合、DefIntはSystem 2の介入としてスケールアップ言語モデルのリフレクティブ推論を実行し、デフォルトの思考をオーバーライドし、推論プロセスの修正を可能にする。 5つの代表的な推論タスクの実験は、DefIntが常に最先端の推論精度と解の多様性を達成していることを示している。 さらに重要なのは、トークンのコストを第2の正確なベースラインに比べて49%-79%削減することです。 具体的には、オープンエンドタスクは平均75%のトークンコスト削減がある。 すべてのプロンプトによるコードレポジトリは、公開時に公開される。

Large language models (LLMs) have shown impressive emergent abilities in a wide range of tasks, but still face challenges in handling complex reasoning problems. Previous works like chain-of-thought (CoT) and tree-of-thoughts (ToT) have predominately focused on enhancing accuracy, but overlook the rapidly increasing token cost, which could be particularly problematic for open-ended real-world tasks with huge solution spaces. Motivated by the dual process theory of human cognition, we propose a Default-Interventionist framework (DefInt) to unleash the synergistic potential of hybrid LLMs. By default, DefInt uses smaller-scale language models to generate low-cost reasoning thoughts, which resembles the fast intuitions produced by System 1. If the intuitions are considered with low confidence, DefInt will invoke the reflective reasoning of scaled-up language models as the intervention of System 2, which can override the default thoughts and rectify the reasoning process. Experiments on five representative reasoning tasks show that DefInt consistently achieves state-of-the-art reasoning accuracy and solution diversity. More importantly, it substantially reduces the token cost by 49%-79% compared to the second accurate baselines. Specifically, the open-ended tasks have an average 75% token cost reduction. Code repo with all prompts will be released upon publication.
翻訳日:2024-08-02 14:24:21 公開日:2024-08-01
# 原子カー媒体による偏光励起光の発生におけるシードの役割

Role of seeding in the generation of polarization squeezed light by atomic Kerr medium ( http://arxiv.org/abs/2402.04127v2 )

ライセンス: Link先を確認
Eduardo C. Lima, Breno Marques, Marcelo Martinelli, Luciano S. Cruz, (参考訳) 量子状態の生成とキャラクタリゼーションは多くの量子技術応用の基本的な要素である。 本研究では,Kerr媒体との光相互作用による偏光量子状態の生成と直交偏光苗への結果の依存性について検討した。 %Our実験装置から始めると、Ti:Sapphireレーザーが生成したコヒーレントな状態に基づいており、検出量子効率の補正後、$^{87}$Rbの温蒸気セルとの相互作用により$5.2\pm 0.5$ dB (6.4\pm 0.6$ dB)のノイズ圧縮が生じる。

Quantum state production and characterization are fundamental elements for many quantum technological applications. In this work, we studied the generation of polarization quantum states by interacting light with a Kerr medium and the dependency of the outcome on orthogonal polarization seedlings. Starting from %Our experimental apparatus is based on coherent states produced by Ti:Sapphire laser, interaction with a $^{87}$Rb warm vapor cell led to noise compression of $-5.2\pm 0.5$ dB ($6.4\pm 0.6$ dB after correction of the detection quantum efficiency).
翻訳日:2024-08-02 14:24:21 公開日:2024-08-01
# 可変カプラを用いたパラメトリック共振エンタングゲートの誤差予算

Error budget of parametric resonance entangling gate with a tunable coupler ( http://arxiv.org/abs/2402.04238v2 )

ライセンス: Link先を確認
Eyob A. Sete, Vinay Tripathi, Joseph A. Valery, Daniel Lidar, Josh Y. Mutus, (参考訳) 可変カプラアーキテクチャにおけるパラメトリック共振ゲートの実験誤差予算を解析する。 我々は,不整合,漏洩,振幅,位相誤差など,様々なエラー源を特定し,特徴付ける。 2量子ゲート時間を変化させることで、これらの誤差のダイナミクスとゲート忠実度への影響を探索する。 ゲートの整合性に対する不整合誤差の影響を正確に把握するため,ゲート動作条件下でのキュービットの整合時間を測定した。 以上の結果より, 2ビットゲートの忠実度は, 主に2ビット緩和と白色雑音による失語による不整合性エラーにより抑えられたことが示唆された。 さらに,非計算状態へのリークは,リークランダム化ベンチマークにより特徴付けられる2ビットゲートの不完全性に対する2番目に大きな寄与であることを示す。 ここで開発したエラー予算手法は他のタイプのゲート実装にも効果的に適用できる。

We analyze the experimental error budget of parametric resonance gates in a tunable coupler architecture. We identify and characterize various sources of errors, including incoherent, leakage, amplitude, and phase errors. By varying the two-qubit gate time, we explore the dynamics of these errors and their impact on the gate fidelity. To accurately capture the impact of incoherent errors on gate fidelity, we measure the coherence times of qubits under gate operating conditions. Our findings reveal that the incoherent errors, mainly arising from qubit relaxation and dephasing due to white noise, limit the fidelity of the two-qubit gates. Moreover, we demonstrate that leakage to noncomputational states is the second largest contributor to the two-qubit gates infidelity, as characterized using leakage-randomized benchmarking. The error budgeting methodology we developed here can be effectively applied to other types of gate implementations.
翻訳日:2024-08-02 14:24:21 公開日:2024-08-01
# 量子摩擦における安定-不安定遷移

Stable-to-unstable transition in quantum friction ( http://arxiv.org/abs/2402.09074v2 )

ライセンス: Link先を確認
Daigo Oue, J. B. Pendry, Mário G. Silveirinha, (参考訳) 本研究では,2つの散逸金属板をせん断運動に設定した場合の量子揺らぎに起因する摩擦力について検討する。 初期の研究では、量子摩擦機構の電磁場が非平衡な定常状態に達し、時間に依存しない力をもたらすことが示されているが、他の研究は定常状態が得られず、十分な低損失条件下での不安定性と時間変化摩擦をもたらすことを示した。 ここでは、摂動近似を伴わない完全量子力学的理論を開発し、量子摩擦機構の安定状態から不安定状態への遷移を明らかにする。 プレートの相対的な運動により、電磁応答はいくつかの条件で活発になり、光学的な利得をもたらす。 本システムに適用した場合, 標準の揺らぎ散逸は矛盾する結果をもたらすことが証明され, 特に, 摩擦力の消失を予測できる。 利得媒質用に調整された変動散逸関係を用いて、系のグリーン関数を用いて摩擦力を計算し、量子摩擦に関する初期の研究を回復する。 また, プレートの相対速度がしきい値に近づくにつれて, 摩擦力は無限大に分岐することがわかった。 この閾値は、減衰強度と金属表面間の距離によって決定される。 この臨界速度を超えると、安定状態が存在しないレーザーキャビティの挙動に似た不安定性を示す。 このようなシナリオでは、摩擦力が指数関数的にエスカレートする。 本研究は, この臨界状態に近い摩擦力の実験的探査の道を開くものである。

We investigate the frictional force arising from quantum fluctuations when two dissipative metallic plates are set in a shear motion. While early studies showed that the electromagnetic fields in the quantum friction setup reach nonequilibrium steady states, yielding a time-independent force, other works have demonstrated the failure to attain steady states, leading to instability and time-varying friction under sufficiently low-loss conditions. Here, we develop a fully quantum-mechanical theory without perturbative approximations and unveil the transition from stable to unstable regimes of the quantum friction setup. Due to the relative motion of the plates, their electromagnetic response may be active in some conditions, resulting in optical gain. We prove that the standard fluctuation-dissipation leads to inconsistent results when applied to our system, and, in particular, it predicts a vanishing frictional force. Using a modified fluctuation-dissipation relation tailored for gain media, we calculate the frictional force in terms of the system Green's function, thereby recovering early works on quantum friction. Remarkably, we also find that the frictional force diverges to infinity as the relative velocity of the plates approaches a threshold. This threshold is determined by the damping strength and the distance between the metal surfaces. Beyond this critical velocity, the system exhibits instability, akin to the behaviour of a laser cavity, where no steady state exists. In such a scenario, the frictional force escalates exponentially. Our findings pave the way for experimental exploration of the frictional force in proximity to this critical regime.
翻訳日:2024-08-02 14:24:21 公開日:2024-08-01
# 現場環境における3次元プラント形状再構成のためのニューラルレーダランス場(NeRF)の評価

Evaluating Neural Radiance Fields (NeRFs) for 3D Plant Geometry Reconstruction in Field Conditions ( http://arxiv.org/abs/2402.10344v2 )

ライセンス: Link先を確認
Muhammad Arbab Arshad, Talukder Jubery, James Afful, Anushrut Jignasu, Aditya Balu, Baskar Ganapathysubramanian, Soumik Sarkar, Adarsh Krishnamurthy, (参考訳) 室内環境から屋外環境まで,様々な環境下で3D植物を再構成するための異なるニューラルレージアンスフィールド(NeRF)技術の評価を行った。 伝統的な技術は植物の複雑な詳細を捉えるのに苦労することが多く、植物学や農業の理解に不可欠である。 複雑性を増大させる3つのシナリオを評価し、その結果を地上真実データとしてLiDARを用いて得られた点雲と比較する。 最も現実的なフィールドシナリオでは、NeRFモデルは、GPU上で30分間のトレーニングを行い、74.65%のF1スコアを達成し、挑戦的な環境でのNeRFの効率と精度を強調している。 これらの結果は, 詳細な3次元プラントモデリングにおけるNeRFの可能性を示すだけでなく, 3次元再構築プロセスの高速化と効率化のための実践的アプローチも示唆している。

We evaluate different Neural Radiance Fields (NeRFs) techniques for reconstructing (3D) plants in varied environments, from indoor settings to outdoor fields. Traditional techniques often struggle to capture the complex details of plants, which is crucial for botanical and agricultural understanding. We evaluate three scenarios with increasing complexity and compare the results with the point cloud obtained using LiDAR as ground truth data. In the most realistic field scenario, the NeRF models achieve a 74.65% F1 score with 30 minutes of training on the GPU, highlighting the efficiency and accuracy of NeRFs in challenging environments. These findings not only demonstrate the potential of NeRF in detailed and realistic 3D plant modeling but also suggest practical approaches for enhancing the speed and efficiency of the 3D reconstruction process.
翻訳日:2024-08-02 14:24:21 公開日:2024-08-01
# ChunkAttention: プリフィックス対応KVキャッシュと2相分割による効率的なセルフアテンション

ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition ( http://arxiv.org/abs/2402.15220v4 )

ライセンス: Link先を確認
Lu Ye, Ze Tao, Yong Huang, Yang Li, (参考訳) 自己注意は、大規模言語モデル(LLM)の重要なコンポーネントであるが、長いシーケンスに対する推論遅延の重要な原因である。 マルチテナント LLM サービスシナリオでは、複数の LLM 要求がプレフィックス内で共有システムプロンプトを持つ確率を用いて、自己アテンションの計算とメモリ操作のコストを最適化することができる。 本稿では,複数の要求にまたがる一致したプロンプトプレフィックスを検出し,そのキー/値テンソルを実行時にメモリ上で共有し,KVキャッシュのメモリ使用率を向上させるための,プレフィックス対応セルフアテンションモジュールであるChunkAttentionを紹介する。 これは、モノリシックなキー/値テンソルを小さなチャンクに分割し、それらを補助的なプレフィックスツリーに構造化することで実現される。 その結果,プレフィックスツリーをベースとしたKVキャッシュ上に,2相分割アルゴリズムを実装した効率的な自己アテンションカーネルを設計し,共有システムプロンプトが存在する場合の自己アテンション計算におけるデータの局所性を改善する。 実験の結果、ChunkAttentionは、最先端の実装と比較して、自己保持カーネルを3.2-4.8$\times$で高速化でき、システムプロンプトの長さは1024から4096までである。

Self-attention is an essential component of large language models (LLM) but a significant source of inference latency for long sequences. In multi-tenant LLM serving scenarios, the compute and memory operation cost of self-attention can be optimized by using the probability that multiple LLM requests have shared system prompts in prefixes. In this paper, we introduce ChunkAttention, a prefix-aware self-attention module that can detect matching prompt prefixes across multiple requests and share their key/value tensors in memory at runtime to improve the memory utilization of KV cache. This is achieved by breaking monolithic key/value tensors into smaller chunks and structuring them into the auxiliary prefix tree. Consequently, on top of the prefix-tree based KV cache, we design an efficient self-attention kernel, where a two-phase partition algorithm is implemented to improve the data locality during self-attention computation in the presence of shared system prompts. Experiments show that ChunkAttention can speed up the self-attention kernel by 3.2-4.8$\times$ compared to the state-of-the-art implementation, with the length of the system prompt ranging from 1024 to 4096.
翻訳日:2024-08-02 14:24:21 公開日:2024-08-01
# Grasp, See and Place: 政策構造を持つ効率的な未知のオブジェクト再構成

Grasp, See and Place: Efficient Unknown Object Rearrangement with Policy Structure Prior ( http://arxiv.org/abs/2402.15402v2 )

ライセンス: Link先を確認
Kechun Xu, Zhongxiang Zhou, Jun Wu, Haojian Lu, Rong Xiong, Yue Wang, (参考訳) ロボットがオブジェクトをRGB-D画像で指定された目標設定に再構成することを想定する、未知のオブジェクト再構成のタスクに焦点をあてる。 近年の研究では、学習に基づく知覚モジュールを組み込んだ未知の物体再構成システムについて検討している。 しかし、それらは認識エラーに敏感であり、タスクレベルのパフォーマンスにはあまり注意を払わない。 本稿では,知覚雑音下での未知物体再構成に有効なシステムを開発することを目的とする。 理論的には、ノイズ知覚の影響を解離した方法で把握し、そのような解離した構造がタスクの最適性を改善するのに有用であることを示す。 本稿では,結合構造を持つ二重ループシステム GSP を提案する。 内部ループでは,自己確信型オブジェクトマッチングの表示ポリシーを学習する。 外部ループでは,タスクレベルの報酬によって誘導されるオブジェクトマッチングと把握能力に配慮した把握ポリシーを学習する。 基本モデルCLIPをオブジェクトマッチング、ポリシー学習、自己終了に活用する。 一連の実験により、GSPはより高い完了率と少ないステップで未知の物体再構成を行うことができることが示された。

We focus on the task of unknown object rearrangement, where a robot is supposed to re-configure the objects into a desired goal configuration specified by an RGB-D image. Recent works explore unknown object rearrangement systems by incorporating learning-based perception modules. However, they are sensitive to perception error, and pay less attention to task-level performance. In this paper, we aim to develop an effective system for unknown object rearrangement amidst perception noise. We theoretically reveal the noisy perception impacts grasp and place in a decoupled way, and show such a decoupled structure is valuable to improve task optimality. We propose GSP, a dual-loop system with the decoupled structure as prior. For the inner loop, we learn a see policy for self-confident in-hand object matching. For the outer loop, we learn a grasp policy aware of object matching and grasp capability guided by task-level rewards. We leverage the foundation model CLIP for object matching, policy learning and self-termination. A series of experiments indicate that GSP can conduct unknown object rearrangement with higher completion rates and fewer steps.
翻訳日:2024-08-02 14:24:21 公開日:2024-08-01
# オープン量子系におけるメモリ損失の伝染性

Memory loss is contagious in open quantum systems ( http://arxiv.org/abs/2402.16096v2 )

ライセンス: Link先を確認
Anael Ben-Asher, Antonio I. Fernández-Domínguez, Johannes Feist, (参考訳) メモリレス(マルコフアン)系-バス相互作用は物理学に基本的な関心を持つ。 通常、記憶の欠如は入浴の特徴から生じるが、ここでは第2入浴とのマルコフ的相互作用によりシステムが失われることが示される。 このことは、独立した浴場間の興味深い相互作用を明らかにし、マルコビアン性は『伝染性』である、すなわち、両者が相互作用するシステムを通じて、ある浴場から別の浴場へ移動することができることを示唆している。 我々はブロッホ・レッドフィールドに着想を得たアプローチを導入し、このマルコビアン性の起源を説明し、非エルミート的ハミルトン形式とマスター方程式を一意に結合する。 この方法では、損失系(リンドブラッドマスター方程式に付随する)と非マルコフ浴との相互作用の記述を大幅に改善し、様々な分野にわたる複雑なシステムバス設定の計算要求を低減させる。

Memoryless (Markovian) system-bath interactions are of fundamental interest in physics. While typically, the absence of memory originates from the characteristics of the bath, here we demonstrate that it can result from the system becoming lossy due to the Markovian interaction with a second bath. This uncovers an interesting interplay between independent baths and suggests that Markovianity is ``contagious'', i.e., it can be transferred from one bath to another through the system with which they both interact. We introduce a Bloch-Redfield-inspired approach that accounts for this distinct origin of Markovianity and uniquely combines non-Hermitian Hamiltonian formalism with master equations. This method significantly improves the description of the interaction between a lossy system (associated with a Lindblad master equation) and a non-Markovian bath, reducing the computational demands of complex system-bath setups across various fields.
翻訳日:2024-08-02 14:24:21 公開日:2024-08-01
# インフォームドメタラーニング

Informed Meta-Learning ( http://arxiv.org/abs/2402.16105v4 )

ライセンス: Link先を確認
Katarzyna Kobalczyk, Mihaela van der Schaar, (参考訳) 現実のアプリケーションで一般的なノイズや低データのレシエーションでは、機械学習の重要な課題は、データ効率と堅牢性を促進する帰納的バイアスを効果的に取り入れることである。 メタラーニングとインシデントMLは、事前知識をMLパイプラインに組み込むための2つのアプローチとして際立っている。 前者は純粋にデータ駆動の事前のソースに依存しているが、後者は事前のドメイン知識によってガイドされる。 本稿では,自然言語などの非構造化知識表現から事前知識の取り込みを容易にし,人間と機械のクロスタスク知識共有における相補性を解放する,ハイブリッドパラダイムを定式化する。 我々は,情報メタ学習の基礎的構成要素を確立し,この枠組みの具体的インスタンス化、すなわちインフォームド・ニューラル・プロセスを示す。 一連の実験を通じて,データ効率の向上,観測ノイズに対する堅牢性,タスク分散シフトに対する情報メタラーニングのメリットを実証した。

In noisy and low-data regimes prevalent in real-world applications, a key challenge of machine learning lies in effectively incorporating inductive biases that promote data efficiency and robustness. Meta-learning and informed ML stand out as two approaches for incorporating prior knowledge into ML pipelines. While the former relies on a purely data-driven source of priors, the latter is guided by prior domain knowledge. In this paper, we formalise a hybrid paradigm, informed meta-learning, facilitating the incorporation of priors from unstructured knowledge representations, such as natural language; thus, unlocking complementarity in cross-task knowledge sharing of humans and machines. We establish the foundational components of informed meta-learning and present a concrete instantiation of this framework--the Informed Neural Process. Through a series of experiments, we demonstrate the potential benefits of informed meta-learning in improving data efficiency, robustness to observational noise and task distribution shifts.
翻訳日:2024-08-02 14:24:21 公開日:2024-08-01
# 半導体モアレ材料の非線形分光

Nonlinear spectroscopy of semiconductor moiré materials ( http://arxiv.org/abs/2402.16630v2 )

ライセンス: Link先を確認
B. Evrard, H. S. Adlong, A. A. Ghita, T. Uto, L. Ciorciaro, K. Watanabe, T. Taniguchi, M. Kroner, A. İmamoğlu, (参考訳) 我々は、時間分解非線形ポンプ-プローブ測定を用いて、リニア分光にはアクセスできない半導体モアレ材料の特徴を明らかにする。 強い赤色のパルスで、様々なモワール・イ・ミニバンドにおいて、高密度の仮想励起子や励起子-ポーラロンを生成する。 ブロードバンドプローブパルスは、ポンプ生成励起によって誘導される全ての光共鳴の応答を測定する。 接触型エクシトン-エクシトン相互作用から生じるコヒーレントブルーシフトを総称的に観察する。 電荷中立性では、これらの測定により、異なる光励起間の空間的重なりを評価でき、2つの異なるモワールエエクシトンモード間の束縛されたバイエクシトン状態のシグネチャを観察することができる。 電子をドープした単分子膜とは対照的に、空間的に閉じ込められたモワールの誘電性ポーラロンは相互作用しない2レベルのエミッタのアンサンブルとして振舞い、電子密度に依存しないアク・スターク効果を示す。 ポンプレーザを誘電性ポーラロンと共振させ, 局所偏光子でモアレ'e格子を充填し, 非平衡ボース-フェルミ混合をモアレ'e平帯で実現した。

We use time-resolved nonlinear pump--probe measurements to reveal features of semiconductor moir\'e materials not accessible to linear spectroscopy. With an intense, red-detuned pump pulse, we generate a high density of virtual excitons or exciton--polarons in various moir\'e minibands. A broadband probe pulse in turn measures the response of all optical resonances induced by the pump-generated excitations. We generically observe a coherent blue shift originating from contact-like exciton--exciton interactions. At charge neutrality, these measurements allow us to assess the spatial overlap between different optical excitations and to observe signatures of a bound biexciton state between two different moir\'e exciton modes. In contrast to electron doped monolayers, spatially confined moir\'e attractive polarons behave as an ensemble of non-interacting two-level emitters, exhibiting an electron-density-independent ac-Stark effect. Tuning the pump laser into resonance with the attractive polaron, we demonstrate the filling of the moir\'e lattice with localized polarons and thereby realize a nonequilibrium Bose--Fermi mixture in moir\'e flat bands.
翻訳日:2024-08-02 14:24:21 公開日:2024-08-01
# 飽和低ランクミキサーを用いた言語・タスク間の一般化の誘導

Inducing Generalization across Languages and Tasks using Featurized Low-Rank Mixtures ( http://arxiv.org/abs/2402.17934v2 )

ライセンス: Link先を確認
Chu-Cheng Lin, Xinyi Wang, Jonathan H. Clark, Han Lu, Yun Zhu, Chenxi Whitehouse, Hongkun Yu, (参考訳) 事前訓練された大規模言語モデル(LLM)を、数十から数百の人間の言語で様々な下流タスクに適応させることは、計算コストがかかる。 パラメータ効率のよい微調整(PEFT)は、少数のパラメータのみをチューニングすることで、適応コストを大幅に削減する。 しかし、共通のPEFT法であるLoRA(Hu et al , 2022)は、異なるデータセット間のアグレッシブパラメータタイリングと負の干渉により、多様なデータセットの混合に対して最適以下の性能を損なう。 本研究では,マルチタスク多言語適応のための新しいPEFT法であるFeaturized Low-rank Mixtures (FLix)を提案する。 FLixは、データセットの言語やタスクなど、それぞれのユニークなデータセット機能と、独自の低ランクの重み更新パラメータを関連付ける。 各データセットに特有のパラメータを構成することで、FLixは多様なデータセットの混合を許容し、目に見えないデータセットをより一般化することができる。 実験により、FLixは教師付き学習とゼロショット設定の両方において、ゼロショットセマンティック解析において最大14.2ドルの不正確なマッチングポイントを得られる様々なタスクに対して、大幅な改善をもたらすことが示された。

Adapting pretrained large language models (LLMs) to various downstream tasks in tens or hundreds of human languages is computationally expensive. Parameter-efficient fine-tuning (PEFT) significantly reduces the adaptation cost, by tuning only a small amount of parameters. However, common PEFT methods LoRA (Hu et al., 2022) suffer from suboptimal performance on diverse dataset mixtures, due to aggressive parameter tying and negative interference among different datasets. In this work, we propose Featurized Low-rank Mixtures (FLix), a novel PEFT method designed for effective multitask multilingual adaptation. FLix associates each unique dataset feature, such as the dataset's language or task, with its own low-rank weight update parameters. By composing feature-specific parameters for each dataset, FLix can accommodate diverse dataset mixtures and generalize better to unseen datasets. Our experiments show that FLix leads to significant improvements over a variety of tasks for both supervised learning and zero-shot settings with gains of up to $14.2$ inexact match points in zero-shot semantic parsing.
翻訳日:2024-08-02 14:24:21 公開日:2024-08-01
# 量子デバイスキャラクタリゼーションのための微分マスター方程式解法

Differentiable master equation solver for quantum device characterisation ( http://arxiv.org/abs/2403.04678v2 )

ライセンス: Link先を確認
David L. Craig, Natalia Ares, Erik M. Gauger, (参考訳) 物理系の微分モデルは、パラメータ推定と最適制御に特に影響を及ぼす勾配に基づくアルゴリズムのための強力なプラットフォームを提供する。 量子システムは、本質的に確率的な性質と環境パラメータに対する感受性のため、このような特性化と制御に特に挑戦する。 この課題に対処するために、多種多様な微分可能な量子マスター方程式解法を提案し、この解法をデバイス特性化のためのフレームワークに組み込む。 本手法は、勾配に基づく最適化とベイズ推定を利用して、量子デバイスパラメータの推定と不確実性を提供する。 本手法を実証するために、静電気的に定義された量子ドットによる定常電荷輸送について考察する。 シミュレーションデータを用いて、1つの量子ドットに対するパラメータの効率的な推定とモデル選択、および2つの量子ドット系の時間発展を計算するための解法の能力を示す。 我々の微分可能解法は、物理を意識した機械学習アルゴリズムが量子デバイスに与える影響を拡大し、キャラクタリゼーションと制御を行う。

Differentiable models of physical systems provide a powerful platform for gradient-based algorithms, with particular impact on parameter estimation and optimal control. Quantum systems present a particular challenge for such characterisation and control, owing to their inherently stochastic nature and sensitivity to environmental parameters. To address this challenge, we present a versatile differentiable quantum master equation solver, and incorporate this solver into a framework for device characterisation. Our approach utilises gradient-based optimisation and Bayesian inference to provide estimates and uncertainties in quantum device parameters. To showcase our approach, we consider steady state charge transport through electrostatically defined quantum dots. Using simulated data, we demonstrate efficient estimation of parameters for a single quantum dot, and model selection as well as the capability of our solver to compute time evolution for a double quantum dot system. Our differentiable solver stands to widen the impact of physics-aware machine learning algorithms on quantum devices for characterisation and control.
翻訳日:2024-08-02 14:14:35 公開日:2024-08-01
# 損失の切り替えはバッチ(オフライン)強化学習のコストを低減させる

Switching the Loss Reduces the Cost in Batch (Offline) Reinforcement Learning ( http://arxiv.org/abs/2403.05385v5 )

ライセンス: Link先を確認
Alex Ayoub, Kaiwen Wang, Vincent Liu, Samuel Robertson, James McInerney, Dawen Liang, Nathan Kallus, Csaba Szepesvári, (参考訳) バッチ強化学習(RL)のためのログロス付きQ-iteration(FQI-log)のトレーニングを提案する。 本稿では,FQI-logを用いた準最適政策の学習に必要なサンプルの数が最適政策の累積コストと一致していることを示す。 そのような場合、バッチ RL において、最適な達成可能なコストでスケールする小さなコスト境界を証明するための一般的なフレームワークを提供する。 さらに,FQI-logが目標を確実に達成する問題に対して,2乗損失を訓練したFQIよりも少ないサンプルを用いていることを実証的に検証した。

We propose training fitted Q-iteration with log-loss (FQI-log) for batch reinforcement learning (RL). We show that the number of samples needed to learn a near-optimal policy with FQI-log scales with the accumulated cost of the optimal policy, which is zero in problems where acting optimally achieves the goal and incurs no cost. In doing so, we provide a general framework for proving small-cost bounds, i.e. bounds that scale with the optimal achievable cost, in batch RL. Moreover, we empirically verify that FQI-log uses fewer samples than FQI trained with squared loss on problems where the optimal policy reliably achieves the goal.
翻訳日:2024-08-02 14:14:35 公開日:2024-08-01
# 分散量子アーキテクチャ探索

Distributed quantum architecture search ( http://arxiv.org/abs/2403.06214v2 )

ライセンス: Link先を確認
Haozhen Situ, Zhimin He, Shenggen Zheng, Lvzhou Li, (参考訳) ニューラルネットワークにインスパイアされた変分量子アルゴリズムは、量子コンピューティングにおいて新しいアプローチとなっている。 しかし、効率的なパラメータ化量子回路の設計は依然として課題である。 量子アーキテクチャ探索は、ゲートパラメータとともに回路構造を調整することでこの問題に対処し、高性能回路構造を自動的に発見する。 本研究では,特定の量子ビット接続を伴う相互接続型量子処理ユニットのための分散量子回路構造の自動設計を目的とした,エンドツーエンドの分散量子アーキテクチャ探索フレームワークを提案する。 我々は,TeleGateとTeleDataを組み込んだ回路生成アルゴリズムを考案し,量子処理ユニット間の非局所ゲート実装を実現する。 量子ビット接続を考慮しつつ、論理から物理への量子ビット割り当てを量子アーキテクチャ検索フレームワークに組み込む。 2段階のプログレッシブトレーニングフリー戦略を用いて、回路トレーニングコストなしで広範囲な回路構造を評価する。 3つのVQEタスクに関する数値実験により,提案手法の有効性と効率を実証した。 分散量子回路の効率的な構造を探索する研究は、単一量子処理ユニットが限られた数の量子ビットを持つ場合の、短期量子コンピューティングに不可欠である。 分散量子回路は、複雑な計算を複数の量子処理ユニットで処理できる管理可能な部分に分割することができる。

Variational quantum algorithms, inspired by neural networks, have become a novel approach in quantum computing. However, designing efficient parameterized quantum circuits remains a challenge. Quantum architecture search tackles this by adjusting circuit structures along with gate parameters to automatically discover high-performance circuit structures. In this study, we propose an end-to-end distributed quantum architecture search framework, where we aim to automatically design distributed quantum circuit structures for interconnected quantum processing units with specific qubit connectivity. We devise a circuit generation algorithm which incorporates TeleGate and TeleData methods to enable nonlocal gate implementation across quantum processing units. While taking into account qubit connectivity, we also incorporate qubit assignment from logical to physical qubits within our quantum architecture search framework. A two-stage progressive training-free strategy is employed to evaluate extensive circuit structures without circuit training costs. Through numerical experiments on three VQE tasks, the efficacy and efficiency of our scheme is demonstrated. Our research into discovering efficient structures for distributed quantum circuits is crucial for near-term quantum computing where a single quantum processing unit has a limited number of qubits. Distributed quantum circuits allow for breaking down complex computations into manageable parts that can be processed across multiple quantum processing units.
翻訳日:2024-08-02 14:14:35 公開日:2024-08-01
# Actor-Critic Physics-informed Neural Lyapunov Control

Actor-Critic Physics-informed Neural Lyapunov Control ( http://arxiv.org/abs/2403.08448v2 )

ライセンス: Link先を確認
Jiarui Wang, Mahyar Fazlyab, (参考訳) 証明可能な保証付き安定化タスクの制御ポリシーを設計することは、非線形制御における長年の課題である。 重要なパフォーマンス指標は、結果として生じるアトラクションの領域のサイズであり、本質的には不確実性に対する閉ループシステムの堅牢性(margin)として機能する。 本稿では,アクティベーション制約を尊重しつつ,アトラクションの領域を最大化することを目的として,対応するリアプノフ証明とともに安定化ニューラルネットワークコントローラをトレーニングする新しい手法を提案する。 我々のアプローチにとって重要なのは、Zubovの偏微分方程式(Partial Differential Equation, PDE)を使うことであり、これは与えられた制御ポリシーの真の魅力の領域を正確に特徴づけている。 私たちのフレームワークは,コントロールポリシ(アクタ)の改善とZubov関数(アクタ)の学習を交互に行うアクタ批判パターンに従っています。 最後に、トレーニング手順後にSMTソルバを起動することで、アトラクションの最大の認証領域を計算する。 いくつかの設計問題に対する数値実験により, 得られたアトラクション領域のサイズが一貫した, 顕著な改善が見られた。

Designing control policies for stabilization tasks with provable guarantees is a long-standing problem in nonlinear control. A crucial performance metric is the size of the resulting region of attraction, which essentially serves as a robustness "margin" of the closed-loop system against uncertainties. In this paper, we propose a new method to train a stabilizing neural network controller along with its corresponding Lyapunov certificate, aiming to maximize the resulting region of attraction while respecting the actuation constraints. Crucial to our approach is the use of Zubov's Partial Differential Equation (PDE), which precisely characterizes the true region of attraction of a given control policy. Our framework follows an actor-critic pattern where we alternate between improving the control policy (actor) and learning a Zubov function (critic). Finally, we compute the largest certifiable region of attraction by invoking an SMT solver after the training procedure. Our numerical experiments on several design problems show consistent and significant improvements in the size of the resulting region of attraction.
翻訳日:2024-08-02 14:14:35 公開日:2024-08-01
# argument Miningのためのハイブリッドインテリジェンス手法

A Hybrid Intelligence Method for Argument Mining ( http://arxiv.org/abs/2403.09713v2 )

ライセンス: Link先を確認
Michiel van der Meer, Enrico Liscio, Catholijn M. Jonker, Aske Plaat, Piek Vossen, Pradeep K. Murukannaiah, (参考訳) 大規模な調査ツールにより、意見コーパスにおける市民からのフィードバックの収集が可能になる。 大きくて騒々しい意見から重要な議論を抽出することは、意見の迅速かつ正確に理解するのに役立ちます。 完全に自動化された手法は引数を抽出することができるが、(1)大きなアノテーションコストを誘導するラベル付きデータセットが必要であり、(2)既知の視点ではうまく機能するが、新しい視点では機能しない。 我々は,自動処理の高速化と人間の理解と推論能力を組み合わせた,意見テキストから議論を抽出するハイブリッド(人間+AI)手法HyEnAを提案する。 市民フィードバックコーパスを用いたHyEnAの評価を行った。 一方HyEnAは、さまざまな意見の共通セットと比較して最先端の自動化手法よりも高いカバレッジと精度を実現し、人間の洞察の必要性を正当化する。 一方、HyEnAは人間の努力を少なくし、人間と人工知能を組み合わせる利点を実証し、(完全に手動で)専門家の分析と比べて品質を損なわない。

Large-scale survey tools enable the collection of citizen feedback in opinion corpora. Extracting the key arguments from a large and noisy set of opinions helps in understanding the opinions quickly and accurately. Fully automated methods can extract arguments but (1) require large labeled datasets that induce large annotation costs and (2) work well for known viewpoints, but not for novel points of view. We propose HyEnA, a hybrid (human + AI) method for extracting arguments from opinionated texts, combining the speed of automated processing with the understanding and reasoning capabilities of humans. We evaluate HyEnA on three citizen feedback corpora. We find that, on the one hand, HyEnA achieves higher coverage and precision than a state-of-the-art automated method when compared to a common set of diverse opinions, justifying the need for human insight. On the other hand, HyEnA requires less human effort and does not compromise quality compared to (fully manual) expert analysis, demonstrating the benefit of combining human and artificial intelligence.
翻訳日:2024-08-02 14:14:35 公開日:2024-08-01
# AlignRec: マルチモーダルレコメンデーションの調整とトレーニング

AlignRec: Aligning and Training in Multimodal Recommendations ( http://arxiv.org/abs/2403.12384v4 )

ライセンス: Link先を確認
Yifan Liu, Kangning Zhang, Xiangyuan Ren, Yanhua Huang, Jiarui Jin, Yingjie Qin, Ruilong Su, Ruiwen Xu, Yong Yu, Weinan Zhang, (参考訳) マルチメディアシステムの開発により、相互作用を超えてリッチなコンテキストを活用することができるため、マルチモーダルレコメンデーションは重要な役割を担っている。 既存の手法では, マルチモーダル情報を中心に, ID の特徴を学習するための補助的手法として活用されているが, 多モーダルコンテンツの特徴と ID に基づく特徴の間には意味的ギャップがあり, ユーザや項目の表現の誤りを招きかねない。 本稿では,まず,マルチモーダルレコメンデーションにおけるミスアライメント問題を体系的に検討し,AlignRecというソリューションを提案する。 AlignRecでは、推奨目的をコンテンツ内のアライメント、コンテンツとカテゴリID間のアライメント、ユーザとアイテム間のアライメントという3つのアライメントに分解する。 各アライメントは、特定の目的関数によって特徴づけられ、当社のマルチモーダルレコメンデーションフレームワークに統合されます。 AlignRecを効果的に訓練するために、まず最初のアライメントの事前訓練から始め、統一されたマルチモーダル特徴を取得し、その後、これらの特徴を入力として、以下の2つのアライメントをトレーニングする。 各マルチモーダル機能は、レコメンデーションモデルの反復サイクルのトレーニングや加速に有効であるかどうかを分析することが不可欠であるため、中間性能を評価するために、3つの新しいメトリクスのクラスを設計する。 実世界の3つのデータセットに関する広範な実験は、9つのベースラインと比較して、AlignRecの優位性を一貫して検証している。 また、AlignRecが生成するマルチモーダル機能は、現在使用されているものよりも優れており、リポジトリhttps://github.com/sjtulyf123/AlignRec_CIKM24.comでオープンソース化される予定です。

With the development of multimedia systems, multimodal recommendations are playing an essential role, as they can leverage rich contexts beyond interactions. Existing methods mainly regard multimodal information as an auxiliary, using them to help learn ID features; However, there exist semantic gaps among multimodal content features and ID-based features, for which directly using multimodal information as an auxiliary would lead to misalignment in representations of users and items. In this paper, we first systematically investigate the misalignment issue in multimodal recommendations, and propose a solution named AlignRec. In AlignRec, the recommendation objective is decomposed into three alignments, namely alignment within contents, alignment between content and categorical ID, and alignment between users and items. Each alignment is characterized by a specific objective function and is integrated into our multimodal recommendation framework. To effectively train AlignRec, we propose starting from pre-training the first alignment to obtain unified multimodal features and subsequently training the following two alignments together with these features as input. As it is essential to analyze whether each multimodal feature helps in training and accelerate the iteration cycle of recommendation models, we design three new classes of metrics to evaluate intermediate performance. Our extensive experiments on three real-world datasets consistently verify the superiority of AlignRec compared to nine baselines. We also find that the multimodal features generated by AlignRec are better than currently used ones, which are to be open-sourced in our repository https://github.com/sjtulyf123/AlignRec_CIKM24.
翻訳日:2024-08-02 14:14:35 公開日:2024-08-01
# メンタルヘルスにおける大規模言語モデルの可能性とリスク

The opportunities and risks of large language models in mental health ( http://arxiv.org/abs/2403.14814v3 )

ライセンス: Link先を確認
Hannah R. Lawrence, Renee A. Schneider, Susan B. Rubin, Maja J. Mataric, Daniel J. McDuff, Megan Jones Bell, (参考訳) メンタルヘルスの国際レートは上昇しており、既存のメンタルヘルスのモデルが需要を満たすために適切に拡大しないという認識が高まっている。 大規模言語モデル(LLM)の出現は、メンタルヘルスをサポートする新しい大規模ソリューションを作成するという彼らの約束に関して、非常に楽観的になっている。 ナッセンスにもかかわらず、LSMはメンタルヘルス関連のタスクにすでに適用されている。 本稿では, LLMを用いたメンタルヘルス教育, 評価, 介入のための取り組みについて, 現状の文献を要約し, 地域ごとのポジティブな影響を浮き彫りにしている。 次に、LLMのメンタルヘルスへの応用に関連するリスクを強調し、これらのリスクを軽減するための戦略の導入を奨励する。 メンタルヘルスのサポートに対する緊急の要求は、メンタルヘルスのLLMの開発、テスト、展開の責任とバランスをとらなければならない。 メンタルヘルスのLLMは、メンタルヘルスのために微調整され、メンタルヘルスのエクイティが向上し、倫理基準に準拠し、メンタルヘルスに関する経験のある人々を含む人々が、開発からデプロイメントまで、あらゆる段階に関わっていることを確実にすることが特に重要である。 これらの努力の優先順位付けは、メンタルヘルスに対する潜在的な害を最小限に抑え、LLMが世界中のメンタルヘルスに肯定的な影響を与える可能性を最大化する。

Global rates of mental health concerns are rising, and there is increasing realization that existing models of mental health care will not adequately expand to meet the demand. With the emergence of large language models (LLMs) has come great optimism regarding their promise to create novel, large-scale solutions to support mental health. Despite their nascence, LLMs have already been applied to mental health related tasks. In this paper, we summarize the extant literature on efforts to use LLMs to provide mental health education, assessment, and intervention and highlight key opportunities for positive impact in each area. We then highlight risks associated with LLMs' application to mental health and encourage the adoption of strategies to mitigate these risks. The urgent need for mental health support must be balanced with responsible development, testing, and deployment of mental health LLMs. It is especially critical to ensure that mental health LLMs are fine-tuned for mental health, enhance mental health equity, and adhere to ethical standards and that people, including those with lived experience with mental health concerns, are involved in all stages from development through deployment. Prioritizing these efforts will minimize potential harms to mental health and maximize the likelihood that LLMs will positively impact mental health globally.
翻訳日:2024-08-02 14:14:35 公開日:2024-08-01
# キャビティベースリモートエンタングルメント生成におけるレート忠実度トレードオフ

Rate-fidelity trade-off in cavity-based remote entanglement generation ( http://arxiv.org/abs/2403.15179v3 )

ライセンス: Link先を確認
Kazufumi Tanji, Hiroki Takahashi, Wojciech Roga, Masahiro Takeoka, (参考訳) 量子ビットのスケーラビリティは、量子コンピューティングの分野で最重要課題を課している。 異なる量子コンピューティングモジュール間のフォトニック相互接続は、この問題に対処するための解決策を提供する。 このアプローチの基本的な部分は、物質量子ビットによって放出される移動光子による絡み合い分布である。 しかし、物質量子ビットにおける自然放出のランダム性は、絡み合いの忠実度と生成速度の両方を制限する。 本稿では,光子発生に使用するポンプパルスの波形と自然発生による絡み合いの関係を数値解析・解析的に検討する。 本研究では,ガウスポンプパルスと交互に交互に交互に接続する際の利率不整合トレードオフを確認し解析し,ガウスポンプパルスへの簡単な拡張により,あるパラメータ領域におけるトレードオフが向上することを示す。 さらに,本解析を一般多部構造における絡み合い分布にまで拡張し,両部構造解析も直接適用可能であることを示す。

The qubit scalability imposes a paramount challenge in the field of quantum computing. Photonic interconnects between distinct quantum computing modules provide a solution to deal with this issue. The fundamental part of this approach is entanglement distribution via travelling photons emitted by matter qubits. However, randomness of the spontaneous emission in the matter qubits limits both the entanglement fidelity and the generation rate. In this paper, by numerical and analytical methods, we investigate the relationship between the entanglement affected by the spontaneous emission and the waveform of the pump pulse used in the photon generation. We confirm and analyze a rate-fidelity trade-off in the entanglement swapping with Gaussian pump pulses and show that a simple extension to non-Gaussian pump pulses improves the trade-off in a certain parameter region. Furthermore we extend our analysis to entanglement distribution in the general multipartite setting and show that the analysis of the bipartite entanglement can be straightforwardly applied in this case as well.
翻訳日:2024-08-02 14:14:35 公開日:2024-08-01
# Grappa - 学習した分子力学力場

Grappa -- A Machine Learned Molecular Mechanics Force Field ( http://arxiv.org/abs/2404.00050v2 )

ライセンス: Link先を確認
Leif Seute, Eric Hartmann, Jan Stühmer, Frauke Gräter, (参考訳) 長い時間スケールで大きな分子系をシミュレーションするには、正確かつ効率的な力場が必要である。 近年、E(3)同変ニューラルネットワークは、計算効率と力場の精度の間の緊張を和らげているが、それらは確立された分子力学(MM)力場よりも数桁高い。 本稿では,分子グラフからMMパラメータを予測する機械学習フレームワークGrappaを提案する。 結果として得られるGrappa力場は、同じ計算効率で精度で計算され、GROMACSやOpenMMのような既存の分子動力学(MD)エンジンで使用することができる。 それは、小さな分子、ペプチド、RNAのエネルギーと力を予測し、その拡張性を化学空間の非チャージ領域(最先端のMM精度でラジカル)に示す。 マクロ分子へのGrappaの移動性は, ウイルス粒子全体への小さな高速折りたたみタンパク質からのMDシミュレーションで実証した。 我々の力場は、化学精度に近い生体分子シミュレーションの段階を定式化されたタンパク質力場と同じ計算コストで設定する。

Simulating large molecular systems over long timescales requires force fields that are both accurate and efficient. In recent years, E(3) equivariant neural networks have lifted the tension between computational efficiency and accuracy of force fields, but they are still several orders of magnitude more expensive than established molecular mechanics (MM) force fields. Here, we propose Grappa, a machine learning framework to predict MM parameters from the molecular graph, employing a graph attentional neural network and a transformer with symmetry-preserving positional encoding. The resulting Grappa force field outperformstabulated and machine-learned MM force fields in terms of accuracy at the same computational efficiency and can be used in existing Molecular Dynamics (MD) engines like GROMACS and OpenMM. It predicts energies and forces of small molecules, peptides, RNA and - showcasing its extensibility to uncharted regions of chemical space - radicals at state-of-the-art MM accuracy. We demonstrate Grappa's transferability to macromolecules in MD simulations from a small fast folding protein up to a whole virus particle. Our force field sets the stage for biomolecular simulations closer to chemical accuracy, but with the same computational cost as established protein force fields.
翻訳日:2024-08-02 14:14:35 公開日:2024-08-01
# 痛み認識におけるマルチモーダルデータ融合の促進:統計的相関と人間中心の視点を活用した戦略

Advancing Multimodal Data Fusion in Pain Recognition: A Strategy Leveraging Statistical Correlation and Human-Centered Perspectives ( http://arxiv.org/abs/2404.00320v2 )

ライセンス: Link先を確認
Xingrui Gu, Zhixuan Wang, Irisa Jin, Zekun Wu, (参考訳) 本研究では、痛み行動認識のための新しいマルチモーダルデータ融合手法を提案し、統計的相関分析と人間中心の洞察を統合する。 このアプローチには2つの重要なイノベーションがあります。 1)データ駆動統計関連度重みを融合戦略に統合し、不均一なモーダルからの補完情報を効果的に活用し、 2) 痛み行動の詳細なモデリングのためのマルチモーダル表現学習に人中心運動特性を取り入れた。 様々なディープラーニングアーキテクチャにまたがって検証された本手法は,優れた性能と広い適用性を示す。 本稿では,各モダリティを統計的意義に基づく適切な分類器と整合させ,パーソナライズされた効果的なマルチモーダル融合を推し進める,カスタマイズ可能なフレームワークを提案する。 さらに、本手法は、医療における解釈可能な、説明可能なAIに寄与するマルチモーダルデータの説明可能な分析を提供する。 データ多様性とモダリティ固有の表現の重要性を強調することで、従来の融合技術を強化し、複雑な痛み行動を認識するための新しい標準を設定します。 本研究は,患者中心型医療介入を推進し,説明可能な臨床意思決定を支援するために重要な意味を持つ。

This research presents a novel multimodal data fusion methodology for pain behavior recognition, integrating statistical correlation analysis with human-centered insights. Our approach introduces two key innovations: 1) integrating data-driven statistical relevance weights into the fusion strategy to effectively utilize complementary information from heterogeneous modalities, and 2) incorporating human-centric movement characteristics into multimodal representation learning for detailed modeling of pain behaviors. Validated across various deep learning architectures, our method demonstrates superior performance and broad applicability. We propose a customizable framework that aligns each modality with a suitable classifier based on statistical significance, advancing personalized and effective multimodal fusion. Furthermore, our methodology provides explainable analysis of multimodal data, contributing to interpretable and explainable AI in healthcare. By highlighting the importance of data diversity and modality-specific representations, we enhance traditional fusion techniques and set new standards for recognizing complex pain behaviors. Our findings have significant implications for promoting patient-centered healthcare interventions and supporting explainable clinical decision-making.
翻訳日:2024-08-02 14:14:35 公開日:2024-08-01
# T-Mamba:2次元および3次元歯分割のための2次元領域における長距離依存性を持つ統合フレームワーク

T-Mamba: A unified framework with Long-Range Dependency in dual-domain for 2D & 3D Tooth Segmentation ( http://arxiv.org/abs/2404.01065v2 )

ライセンス: Link先を確認
Jing Hao, Yonghui Zhu, Lei He, Moyun Liu, James Kit Hon Tsoi, Kuo Feng Hung, (参考訳) 歯のセグメンテーションは現代のデジタル歯科における重要なステップであり、矯正診断や治療計画に応用するために不可欠である。 その重要性にもかかわらず、このプロセスは2Dおよび3D歯データに固有の高ノイズと低コントラストのため、困難に満ちている。 畳み込みニューラルネットワーク(CNN)とトランスフォーマー(Transformers)はどちらも、医療画像のセグメンテーションにおいて有望であることを示しているが、それぞれの手法には、長距離依存や計算複雑性を扱う制限がある。 この問題に対処するために,T-Mambaを導入し,効率的なグローバルな特徴モデリングの限界に対処するために,周波数ベースの特徴と共有バイポジションエンコーディングを視覚マンバに統合する。 さらに,空間領域における2つの特徴と周波数領域における1つの特徴を適応的に統合するゲート選択ユニットを設計する。 T-Mambaは、視覚マンバに周波数ベースの機能を導入する最初の試みであり、その柔軟性により、2Dと3Dの歯のデータの両方を、別個のモジュールを必要とせずに処理できる。 また, 大規模歯科用2D歯科用X線データセットであるTED3について紹介した。 広範囲にわたる実験により、T-Mambaは公衆歯CBCTデータセット上で新しいSOTA結果を達成し、TED3データセット上で以前のSOTAメソッドより優れていることが示された。 コードとモデルは、https://github.com/isbrycee/T-Mamba.comで公開されている。

Tooth segmentation is a pivotal step in modern digital dentistry, essential for applications across orthodontic diagnosis and treatment planning. Despite its importance, this process is fraught with challenges due to the high noise and low contrast inherent in 2D and 3D tooth data. Both Convolutional Neural Networks (CNNs) and Transformers has shown promise in medical image segmentation, yet each method has limitations in handling long-range dependencies and computational complexity. To address this issue, this paper introduces T-Mamba, integrating frequency-based features and shared bi-positional encoding into vision mamba to address limitations in efficient global feature modeling. Besides, we design a gate selection unit to integrate two features in spatial domain and one feature in frequency domain adaptively. T-Mamba is the first work to introduce frequency-based features into vision mamba, and its flexibility allows it to process both 2D and 3D tooth data without the need for separate modules. Also, the TED3, a large-scale public tooth 2D dental X-ray dataset, has been presented in this paper. Extensive experiments demonstrate that T-Mamba achieves new SOTA results on a public tooth CBCT dataset and outperforms previous SOTA methods on TED3 dataset. The code and models are publicly available at: https://github.com/isbrycee/T-Mamba.
翻訳日:2024-08-02 14:14:35 公開日:2024-08-01
# 量子プロセッサを用いた強相関材料の解析

Utilizing Quantum Processor for the Analysis of Strongly Correlated Materials ( http://arxiv.org/abs/2404.02509v2 )

ライセンス: Link先を確認
Hengyue Li, Yusheng Yang, Pin Lv, Jinglong Qu, Zhe-Hui Wang, Jian Sun, Shenggang Ying, (参考訳) 本研究では,従来の量子クラスター法を量子回路モデルに適用することにより,強い相関関係を解析するための体系的アプローチを提案する。 我々は、クラスタのグリーン関数を計算するためのより簡潔な公式を開発し、複雑な演算ではなく、量子回路上の実数計算のみを必要とする。 このアプローチは本質的に、主に統計確率をもたらす量子回路に適している。 実例として,2次元格子上のハバードモデルについて検討した。 基底状態は、QuantumCTek社から供給された66量子ビットの超伝導量子プロセッサであるXiaohongを用いて決定される。 その後、回路モデルを用いてクラスタのリアルタイムリタードグリーン関数を計算し、格子グリーン関数を決定する。 格子系の絶縁体相におけるバンド構造について検討した。 この予備的な調査は、凝縮物質物理学の分野における革新的な物理学の富を探求するための基礎となる。

This study introduces a systematic approach for analyzing strongly correlated systems by adapting the conventional quantum cluster method to a quantum circuit model. We have developed a more concise formula for calculating the cluster's Green's function, requiring only real-number computations on the quantum circuit instead of complex ones. This approach is inherently more suited to quantum circuits, which primarily yield statistical probabilities. As an illustrative example, we explored the Hubbard model on a 2D lattice. The ground state is determined utilizing Xiaohong, a superconducting quantum processor equipped with 66 qubits, supplied by QuantumCTek Co., Ltd. Subsequently, we employed the circuit model to compute the real-time retarded Green's function for the cluster, which is then used to determine the lattice Green's function. We conducted an examination of the band structure in the insulator phase of the lattice system. This preliminary investigation lays the groundwork for exploring a wealth of innovative physics within the field of condensed matter physics.
翻訳日:2024-08-02 14:14:35 公開日:2024-08-01
# 非変分量子組合せ最適化

Non-variational Quantum Combinatorial Optimisation ( http://arxiv.org/abs/2404.03167v2 )

ライセンス: Link先を確認
Tavis Bennett, Lyle Noakes, Jingbo Wang, (参考訳) 本稿では,制約付きおよび非バイナリ問題を含む,幅広い組合せ最適化問題の解法として,非変分量子アルゴリズムを提案する。 このアルゴリズムは、2つのユニタリの繰り返し適用によって達成されるエンジニアリングされた干渉プロセスを利用する。一方は目的関数値に依存する位相シフトを誘導し、もう一方は問題固有のグラフ上の連続時間量子ウォーク(CTQW)を介して位相シフトされた確率振幅を混合する。 アルゴリズムの汎用性は、様々な問題、すなわち解がバイナリ変数のベクトル、非バイナリ整数変数のベクトル、あるいは置換(繰り返しを持たない整数変数のベクトル)によって特徴づけられることを通じて示される。 これらの問題の種類ごとにCTQWの効率的な量子回路の実装についても論じる。 ペナルティ関数を最適化する方法を含む制約付き問題に対するペナルティ関数アプローチも導入する。 アルゴリズムの性能は、重み付きマックスカット(18頂点)、最大独立セット(18頂点)、k平均クラスタリング(12データポイント、3クラスタ)、容量化された施設位置(12顧客、3施設位置)、二次割り当て問題(9箇所)のランダムに生成されたインスタンスの数値シミュレーションによって実証される。 各問題インスタンスに対して、アルゴリズムは少数の反復で大域的に最適な解を求める。

This paper introduces a non-variational quantum algorithm designed to solve a wide range of combinatorial optimisation problems, including constrained and non-binary problems. The algorithm leverages an engineered interference process achieved through repeated application of two unitaries; one inducing phase-shifts dependent on objective function values, and the other mixing phase-shifted probability amplitudes via a continuous-time quantum walk (CTQW) on a problem-specific graph. The algorithm's versatility is demonstrated through its application to various problems, namely those for which solutions are characterised by either a vector of binary variables, a vector of non-binary integer variables, or permutations (a vector of integer variables without repetition). An efficient quantum circuit implementation of the CTQW for each of these problem types is also discussed. A penalty function approach for constrained problems is also introduced, including a method for optimising the penalty function. The algorithm's performance is demonstrated through numerical simulation for randomly generated instances of the following problems (and problem sizes): weighted maxcut (18 vertices), maximum independent set (18 vertices), k-means clustering (12 datapoints, 3 clusters), capacitated facility location (12 customers, 3 facility locations), and the quadratic assignment problem (9 locations). For each problem instance, the algorithm finds a globally optimal solution with a small number of iterations.
翻訳日:2024-08-02 14:04:46 公開日:2024-08-01
# 非線形代数方程式の解く量子アルゴリズム

Quantum Algorithm For Solving Nonlinear Algebraic Equations ( http://arxiv.org/abs/2404.03810v2 )

ライセンス: Link先を確認
Nhat A. Nghiem, Tzu-Chieh Wei, (参考訳) 非線形方程式は、本質的に非線形の性質のため、解決が難しい。 解析解は通常存在しないため、それらの解に取り組むために数値法が開発されている。 本稿では、各方程式が既知の係数の多変量多項式である非線形代数方程式の系を解くための量子アルゴリズムを提案する。 古典ニュートン法と量子特異値変換からブロックを符号化する量子アルゴリズムに関する最近の研究に基づいて、各寄与方程式が偶数の斉次多項式であるようなニュートンの非線形方程式を解くために、ジャコビアン行列を逆転してニュートンの反復法を実行する方法を示す。 そこで,本手法が変数数に対して多対数時間を実現することを明らかにするために,詳細な解析を行った。 さらに、必要なキュービットの数は変数の数で対数的である。 特に,本手法は様々なタイプの多項式にほとんど対応せず修正可能であることを示し,本手法の一般化を示唆する。 Gross-Pitaevski方程式、Lotka-Volterra方程式、代数多様体の交叉など、物理学や代数幾何学のいくつかの例は、潜在的な応用を動機付けるために非線形偏微分方程式を含むもので、そのようなシナリオにおいて我々のアルゴリズムをさらに少ない労力で拡張する方法が説明されている。 我々の研究は、量子特異値変換の枠組みによって実現された非線形科学における量子優位へのさらなる重要な一歩である。

Nonlinear equations are challenging to solve due to their inherently nonlinear nature. As analytical solutions typically do not exist, numerical methods have been developed to tackle their solutions. In this article, we give a quantum algorithm for solving a system of nonlinear algebraic equations, in which each equation is a multivariate polynomial of known coefficients. Building upon the classical Newton method and some recent works on quantum algorithm plus block encoding from the quantum singular value transformation, we show how to invert the Jacobian matrix to execute Newton's iterative method for solving nonlinear equations, where each contributing equation is a homogeneous polynomial of an even degree. A detailed analysis are then carried out to reveal that our method achieves polylogarithmic time in relative to the number of variables. Furthermore, the number of required qubits is logarithmic in the number of variables. In particular, we also show that our method can be modified with little effort to deal with polynomial of various types, thus implying the generality of our approach. Some examples coming from physics and algebraic geometry, such as Gross-Pitaevski equation, Lotka-Volterra equations, and intersection of algebraic varieties, involving nonlinear partial differential equations are provided to motivate the potential application, with a description on how to extend our algorithm with even less effort in such a scenario. Our work thus marks a further important step towards quantum advantage in nonlinear science, enabled by the framework of quantum singular value transformation.
翻訳日:2024-08-02 14:04:46 公開日:2024-08-01
# DATENeRF: テキストによるNeRFの編集

DATENeRF: Depth-Aware Text-based Editing of NeRFs ( http://arxiv.org/abs/2404.04526v2 )

ライセンス: Link先を確認
Sara Rojas, Julien Philip, Kai Zhang, Sai Bi, Fujun Luan, Bernard Ghanem, Kalyan Sunkavall, (参考訳) 近年の拡散モデルの進歩は,テキストプロンプトに基づく2次元画像の編集に顕著な習熟性を示している。 しかし、個々の2Dフレームの編集が複数のビューにまたがる不整合をもたらすため、これらのテクニックを拡張してNeRF(Neural Radiance Fields)のシーンを編集することは複雑である。 私たちの重要な洞察は、NeRFシーンの幾何学がこれらの2D編集を統合するブリッジとして機能できるということです。 この幾何を利用して、各2次元画像修正のコヒーレンスを高めるために、奥行き条件の制御ネットを用いる。 さらに、NeRFシーンの奥行き情報を活用して、異なる画像に2D編集を分散し、エラーに対する堅牢性を確保し、課題を再サンプリングする。 以上の結果から,本手法は既存のテキスト駆動型NeRFシーン編集手法よりも,より一貫性があり,ライフライクで,詳細な編集が可能であることが判明した。

Recent advancements in diffusion models have shown remarkable proficiency in editing 2D images based on text prompts. However, extending these techniques to edit scenes in Neural Radiance Fields (NeRF) is complex, as editing individual 2D frames can result in inconsistencies across multiple views. Our crucial insight is that a NeRF scene's geometry can serve as a bridge to integrate these 2D edits. Utilizing this geometry, we employ a depth-conditioned ControlNet to enhance the coherence of each 2D image modification. Moreover, we introduce an inpainting approach that leverages the depth information of NeRF scenes to distribute 2D edits across different images, ensuring robustness against errors and resampling challenges. Our results reveal that this methodology achieves more consistent, lifelike, and detailed edits than existing leading methods for text-driven NeRF scene editing.
翻訳日:2024-08-02 14:04:46 公開日:2024-08-01
# 都市排水網のリアルタイム油圧予測のためのグラフニューラルネットワークに基づく代理モデル

Graph neural network-based surrogate modelling for real-time hydraulic prediction of urban drainage networks ( http://arxiv.org/abs/2404.10324v2 )

ライセンス: Link先を確認
Zhiyu Zhang, Chenkaixiang Lu, Wenchong Tian, Zhenliang Liao, Zhiguo Yuan, (参考訳) 物理に基づくモデルは、都市排水網のリアルタイムシナリオにおいて計算に時間を要するため、オンライン予測モデルの高速化には代理モデルが必要である。 完全に接続されたニューラルネットワーク(NN)は、潜在的な代理モデルであるが、複雑なターゲットに適合する際の解釈可能性と効率の低下に悩まされる可能性がある。 グラフニューラルネットワーク(GNN)の最先端モデリング能力と,そのグラフ構造における都市排水網との整合性から,近年の油圧状態を初期条件とみなす排水網の水圧予測問題に対するGNNに基づくフロールーティングモデルのサロゲートと,今後の流出制御方針を境界条件として提案する。 水理的制約と物理的関係をドレインモデルに組み込むため,サロゲートモデル上に物理誘導機構を設計し,流量バランスと洪水発生制約による予測変数の制限を行う。 ストームウォーターネットワークの事例から,GNNモデルの方が,等速訓練後のNNモデルよりも高い油圧予測精度でコスト効率が向上し,解釈可能なドメイン知識による予測誤差をさらに制限する機構が考えられた。 モデル構造は都市排水網の流動経路機構と水理制約に固執するので,データ駆動サロゲートモデリングのための解釈可能かつ効果的なソリューションを提供する。 同時に、代理モデルにより、物理モデルと比較して都市排水網の予測モデルがリアルタイムで使用されるように加速される。

Physics-based models are computationally time-consuming and infeasible for real-time scenarios of urban drainage networks, and a surrogate model is needed to accelerate the online predictive modelling. Fully-connected neural networks (NNs) are potential surrogate models, but may suffer from low interpretability and efficiency in fitting complex targets. Owing to the state-of-the-art modelling power of graph neural networks (GNNs) and their match with urban drainage networks in the graph structure, this work proposes a GNN-based surrogate of the flow routing model for the hydraulic prediction problem of drainage networks, which regards recent hydraulic states as initial conditions, and future runoff and control policy as boundary conditions. To incorporate hydraulic constraints and physical relationships into drainage modelling, physics-guided mechanisms are designed on top of the surrogate model to restrict the prediction variables with flow balance and flooding occurrence constraints. According to case results in a stormwater network, the GNN-based model is more cost-effective with better hydraulic prediction accuracy than the NN-based model after equal training epochs, and the designed mechanisms further limit prediction errors with interpretable domain knowledge. As the model structure adheres to the flow routing mechanisms and hydraulic constraints in urban drainage networks, it provides an interpretable and effective solution for data-driven surrogate modelling. Simultaneously, the surrogate model accelerates the predictive modelling of urban drainage networks for real-time use compared with the physics-based model.
翻訳日:2024-08-02 14:04:46 公開日:2024-08-01
# Label merge-and-split: メモリ効率のよい脳機能解析のためのグラフカラー化アプローチ

Label merge-and-split: A graph-colouring approach for memory-efficient brain parcellation ( http://arxiv.org/abs/2404.10572v2 )

ライセンス: Link先を確認
Aaron Kujawa, Reuben Dorent, Sebastien Ourselin, Tom Vercauteren, (参考訳) 脳のパーセレーションには大量の画像量に数百のセグメンテーションラベルを推定する必要があるため、ディープラーニングアプローチに対する重要な実践的課題が提示される。 ラベルマージ・アンド・スプリット(laber merge-and-split)は、まず学習に基づく全脳のパーセレーションに必要なラベルを効果的に減らし、元のラベルを復元する手法である。 グリーディグラフカラー化アルゴリズムを用いて,モデルトレーニングや推論に先立って,複数の空間的に分離されたラベルを自動でグループ化し,マージする。 マージされたラベルは意味的に無関係である。 ディープラーニングモデルは、マージされたラベルを予測するために訓練される。 推測時、原ラベルはアトラスベースの影響領域を用いて復元される。 提案手法は,ラベルのマージや分割を行わずに,ベースライン法に匹敵するセグメンテーション精度を達成しつつ,ラベル数を最大68%削減する。 さらに、モデルトレーニングや推論時間、GPUメモリ要件も大幅に削減された。 提案手法は,アトラスに基づく先行クラスにおいて,空間的に分離されたクラスが多数存在するすべてのセマンティックセグメンテーションタスクに適用できる。

Whole brain parcellation requires inferring hundreds of segmentation labels in large image volumes and thus presents significant practical challenges for deep learning approaches. We introduce label merge-and-split, a method that first greatly reduces the effective number of labels required for learning-based whole brain parcellation and then recovers original labels. Using a greedy graph colouring algorithm, our method automatically groups and merges multiple spatially separate labels prior to model training and inference. The merged labels may be semantically unrelated. A deep learning model is trained to predict merged labels. At inference time, original labels are restored using atlas-based influence regions. In our experiments, the proposed approach reduces the number of labels by up to 68% while achieving segmentation accuracy comparable to the baseline method without label merging and splitting. Moreover, model training and inference times as well as GPU memory requirements were reduced significantly. The proposed method can be applied to all semantic segmentation tasks with a large number of spatially separate classes within an atlas-based prior.
翻訳日:2024-08-02 14:04:46 公開日:2024-08-01
# 協調的共進化による進化的強化学習

Evolutionary Reinforcement Learning via Cooperative Coevolution ( http://arxiv.org/abs/2404.14763v3 )

ライセンス: Link先を確認
Chengpeng Hu, Jialin Liu, Xin Yao, (参考訳) 近年,様々な領域で進化的強化学習が注目されている。 進化的強化学習は、効率の良い探索を通じて行動ポリシーを改善するために収集された経験を活用する。 しかし, 遺伝的演算子のスケーラビリティの低さは, 高次元ニューラルネットワークの最適化効率を制限し, この問題に対処するために, 協調共進化強化学習(CoERL)アルゴリズムを提案する。 協調的共進化にインスパイアされたCoERLは、ポリシー最適化問題を複数のサブプロブレムに周期的かつ適応的に分解し、サブプロブレムごとにニューラルネットワークの集団を進化させる。 遺伝子操作子を使う代わりに、CoERLはポリシーを更新するために部分的な勾配を直接検索する。 部分勾配による更新政策は,親子間の行動空間の整合性を維持し,個体群が収集した経験は,サンプリング効率を向上させるために利用され,6つのベンチマークロコモーションタスクの実験により,CoERLが7つの最先端アルゴリズムとベースラインを上回り,CoERLの中核成分の独特な寄与を検証した。

Recently, evolutionary reinforcement learning has obtained much attention in various domains. Maintaining a population of actors, evolutionary reinforcement learning utilises the collected experiences to improve the behaviour policy through efficient exploration. However, the poor scalability of genetic operators limits the efficiency of optimising high-dimensional neural networks.To address this issue, this paper proposes a novel cooperative coevolutionary reinforcement learning (CoERL) algorithm. Inspired by cooperative coevolution, CoERL periodically and adaptively decomposes the policy optimisation problem into multiple subproblems and evolves a population of neural networks for each of the subproblems. Instead of using genetic operators, CoERL directly searches for partial gradients to update the policy. Updating policy with partial gradients maintains consistency between the behaviour spaces of parents and offspring across generations.The experiences collected by the population are then used to improve the entire policy, which enhances the sampling efficiency.Experiments on six benchmark locomotion tasks demonstrate that CoERL outperforms seven state-of-the-art algorithms and baselines.Ablation study verifies the unique contribution of CoERL's core ingredients.
翻訳日:2024-08-02 14:04:46 公開日:2024-08-01
# 人間の表情に敏感なプロンプトを用いたオープンセット映像による表情認識

Open-Set Video-based Facial Expression Recognition with Human Expression-sensitive Prompting ( http://arxiv.org/abs/2404.17100v2 )

ライセンス: Link先を確認
Yuanyuan Liu, Yuxuan Huang, Shuyang Liu, Yibing Zhan, Zijing Chen, Zhe Chen, (参考訳) ビデオベースの表情認識(V-FER)では、モデルは通常、一定の数の既知のクラスを持つクローズドセットデータセットで訓練される。 しかし、これらのモデルは現実世界のシナリオでよく見られる未知のクラスと競合する。 本稿では,未知の表情と未知の表情の両方を識別することを目的とした,オープンセット映像ベースの表情認識(OV-FER)タスクを提案する。 既存の手法では、CLIPのような大規模視覚言語モデルを用いて未確認のクラスを識別するが、これらの手法はOV-FERに必要な微妙な人間の表現を適切に捉えていない。 この制限に対処するために,CLIPの映像ベースの表情詳細を効果的にモデル化する能力を大幅に向上させる,新しいHuman Expression-Sensitive Prompting(HESP)機構を提案する。 提案するHESPは3つのコンポーネントから構成される。 1) 学習可能なプロンプトを持つテキストプロンプトモジュールは、既知の感情と未知の感情の両方のCLIPのテキスト表現を強化する。 2 表情に敏感な注意を用いて映像フレームから時間的情緒情報を符号化し、感情に富んだ情報を抽出する新しい視覚モデリング機能を備えた視覚刺激モジュール。 3) テキストと視覚モジュール間の相互作用を促進するオープンセットのマルチタスク学習方式により,ビデオシーケンスにおける人間の新たな感情の理解が向上する。 4つのOV-FERタスク設定で実施された大規模な実験により、HESPはCLIPのパフォーマンスを大幅に向上させる(AUROCでは17.93%、OSCRでは106.18%)。 コードはhttps://github.com/cosinehuang/HESP.comで入手できる。

In Video-based Facial Expression Recognition (V-FER), models are typically trained on closed-set datasets with a fixed number of known classes. However, these models struggle with unknown classes common in real-world scenarios. In this paper, we introduce a challenging Open-set Video-based Facial Expression Recognition (OV-FER) task, aiming to identify both known and new, unseen facial expressions. While existing approaches use large-scale vision-language models like CLIP to identify unseen classes, we argue that these methods may not adequately capture the subtle human expressions needed for OV-FER. To address this limitation, we propose a novel Human Expression-Sensitive Prompting (HESP) mechanism to significantly enhance CLIP's ability to model video-based facial expression details effectively. Our proposed HESP comprises three components: 1) a textual prompting module with learnable prompts to enhance CLIP's textual representation of both known and unknown emotions, 2) a visual prompting module that encodes temporal emotional information from video frames using expression-sensitive attention, equipping CLIP with a new visual modeling ability to extract emotion-rich information, and 3) an open-set multi-task learning scheme that promotes interaction between the textual and visual modules, improving the understanding of novel human emotions in video sequences. Extensive experiments conducted on four OV-FER task settings demonstrate that HESP can significantly boost CLIP's performance (a relative improvement of 17.93% on AUROC and 106.18% on OSCR) and outperform other state-of-the-art open-set video understanding methods by a large margin. Code is available at https://github.com/cosinehuang/HESP.
翻訳日:2024-08-02 14:04:46 公開日:2024-08-01
# ハイパースペクトル画像分類のための分光・空間マンバ

Spectral-Spatial Mamba for Hyperspectral Image Classification ( http://arxiv.org/abs/2404.18401v3 )

ライセンス: Link先を確認
Lingbo Huang, Yushi Chen, Xin He, (参考訳) 近年,ハイパースペクトル画像(HSI)分類におけるディープラーニングモデルの性能が向上している。 多くの深層モデルの中で、Transformerは徐々に、HSIにおける空間スペクトルの特徴の長距離依存性のモデリングにおける卓越性に関心を惹きつけてきた。 しかし、Transformerは、他のモデルよりも重く、したがってHSI処理に限られる自己保持機構のため、2次計算複雑性の問題を抱えている。 幸いなことに、最近登場した状態空間モデルベースのMambaは、トランスフォーマーのモデリング能力を実現しつつ、計算効率が優れている。 そこで本稿では,MambaをHSI分類に適用する予備的な試みを行い,スペクトル空間マンバ(SS-Mamba)を提案する。 具体的には、提案されたSS-マンバは、主にスペクトル空間トークン生成モジュールと、いくつかの重ねられたスペクトル空間マンバブロックから構成される。 まず、トークン生成モジュールは任意のHSI立方体を、空間およびスペクトルトークンをシーケンスとして変換する。 そしてこれらのトークンは、スタック化されたスペクトル空間マンバブロック(SS-MB)に送られる。 各SS-MBブロックは2つの基本マンバブロックとスペクトル空間的特徴拡張モジュールから構成される。 空間トークンとスペクトルトークンはそれぞれ2つの基本マンバブロックによって別々に処理される。 さらに、この機能拡張モジュールは、HSIサンプルの中心領域情報を用いて、空間トークンとスペクトルトークンを変調する。 このように、スペクトルトークンと空間トークンは互いに協調し、各ブロック内で情報融合を実現する。 広く利用されているHSIデータセットを用いた実験結果から,提案手法は最先端の手法と比較して,競争力のある結果が得られることがわかった。 Mambaベースの手法は、HSI分類のための新しいウィンドウを開く。

Recently, deep learning models have achieved excellent performance in hyperspectral image (HSI) classification. Among the many deep models, Transformer has gradually attracted interest for its excellence in modeling the long-range dependencies of spatial-spectral features in HSI. However, Transformer has the problem of quadratic computational complexity due to the self-attention mechanism, which is heavier than other models and thus has limited adoption in HSI processing. Fortunately, the recently emerging state space model-based Mamba shows great computational efficiency while achieving the modeling power of Transformers. Therefore, in this paper, we make a preliminary attempt to apply the Mamba to HSI classification, leading to the proposed spectral-spatial Mamba (SS-Mamba). Specifically, the proposed SS-Mamba mainly consists of spectral-spatial token generation module and several stacked spectral-spatial Mamba blocks. Firstly, the token generation module converts any given HSI cube to spatial and spectral tokens as sequences. And then these tokens are sent to stacked spectral-spatial mamba blocks (SS-MB). Each SS-MB block consists of two basic mamba blocks and a spectral-spatial feature enhancement module. The spatial and spectral tokens are processed separately by the two basic mamba blocks, respectively. Besides, the feature enhancement module modulates spatial and spectral tokens using HSI sample's center region information. In this way, the spectral and spatial tokens cooperate with each other and achieve information fusion within each block. The experimental results conducted on widely used HSI datasets reveal that the proposed model achieves competitive results compared with the state-of-the-art methods. The Mamba-based method opens a new window for HSI classification.
翻訳日:2024-08-02 14:04:46 公開日:2024-08-01
# 2次元超伝導量子ビットアレイにおける合成磁気ベクトルポテンシャルの実装

Implementing a synthetic magnetic vector potential in a 2D superconducting qubit array ( http://arxiv.org/abs/2405.00873v2 )

ライセンス: Link先を確認
Ilan T. Rosen, Sarah Muschinske, Cora N. Barrett, Arkya Chatterjee, Max Hays, Michael DeMarco, Amir Karamlou, David Rower, Rabindra Das, David K. Kim, Bethany M. Niedzielski, Meghan Schuldt, Kyle Serniak, Mollie E. Schwartz, Jonilyn L. Yoder, Jeffrey A. Grover, William D. Oliver, (参考訳) 超伝導量子プロセッサは、ハードウェア固有の精度制御、高速動作、サイトの解決された読み出しにより、アナログ量子シミュレーションの魅力的なプラットフォームである。 結合した超伝導量子ビットの配列は、Bose-Hubbardモデルに従って相互作用する粒子の力学を自然にエミュレートする。 しかし、多くの興味深い凝縮マター現象は電磁場の存在によってのみ現れる。 ここでは超伝導量子シミュレータを用いて電磁場における荷電粒子の動力学をエミュレートする。 すべての量子ビットに連続変調音を印加することにより、広範に調整可能な合成磁気ベクトルポテンシャルを実現する。 空間変化ベクトルポテンシャルは時間反転対称性を破り、ゲージ不変の合成磁場を生成し、時間変化ベクトルポテンシャルは合成電場を生成する。 電界中を伝播する荷電粒子の逆偏向であるホール効果が, 合成電磁場の存在下では存在することを実証する。

Superconducting quantum processors are a compelling platform for analog quantum simulation due to the precision control, fast operation, and site-resolved readout inherent to the hardware. Arrays of coupled superconducting qubits natively emulate the dynamics of interacting particles according to the Bose-Hubbard model. However, many interesting condensed-matter phenomena emerge only in the presence of electromagnetic fields. Here, we emulate the dynamics of charged particles in an electromagnetic field using a superconducting quantum simulator. We realize a broadly adjustable synthetic magnetic vector potential by applying continuous modulation tones to all qubits. We verify that the synthetic vector potential obeys requisite properties of electromagnetism: a spatially-varying vector potential breaks time-reversal symmetry and generates a gauge-invariant synthetic magnetic field, and a temporally-varying vector potential produces a synthetic electric field. We demonstrate that the Hall effect--the transverse deflection of a charged particle propagating in an electromagnetic field--exists in the presence of the synthetic electromagnetic field.
翻訳日:2024-08-02 14:04:46 公開日:2024-08-01
# 準最適最小埋め込みインスタンスによる量子アニールのベンチマーク

Benchmarking Quantum Annealers with Near-Optimal Minor-Embedded Instances ( http://arxiv.org/abs/2405.01378v2 )

ライセンス: Link先を確認
Valentin Gilbert, Julien Rodriguez, Stéphane Louise, (参考訳) アプリケーションレベルでの量子プロセスユニット(QPU)のベンチマークは通常、量子コンピュータのプログラミングスタック全体を考慮する必要がある。 1つの重要なタスクは、アニーリングベースの(ゲートベースの)量子コンピュータの時空オーバーヘッドを含むマイナーエンベディング (resp. transpilation) ステップである。 本稿では,D-Wave Quantum Annealers (QA) に関連付けられた準最適部分埋め込みマッピングを用いてグラフインスタンスを生成するための新しいプロトコルを確立する。 この一連の好意的な写像は、幅広い最適化問題インスタンスを生成するために使われる。 この手法を用いて、制約のない最適化問題の大規模インスタンス上でQAをベンチマークし、QPUの性能を効率的な古典的解法と比較する。 このベンチマークは、量子コンピュータの使用の恩恵を受けるインスタンスの重要な特性を評価し、定量化することを目的としている。 この文脈では、既存のQAは、密度が10\%以下のインスタンスの制約のない問題に最も適しているように思われる。 制約付き問題に対して、ハード制約を符号化するために使用されるペナルティ項は、QAの性能を制限し、これらのQPUが同等の大きさのこれらの問題に対してより効率的でないことを示唆する。

Benchmarking Quantum Process Units (QPU) at an application level usually requires considering the whole programming stack of the quantum computer. One critical task is the minor-embedding (resp. transpilation) step, which involves space-time overheads for annealing-based (resp. gate-based) quantum computers. This paper establishes a new protocol to generate graph instances with their associated near-optimal minor-embedding mappings to D-Wave Quantum Annealers (QA). This set of favorable mappings is used to generate a wide diversity of optimization problem instances. We use this method to benchmark QA on large instances of unconstrained and constrained optimization problems and compare the performance of the QPU with efficient classical solvers. The benchmark aims to evaluate and quantify the key characteristics of instances that could benefit from the use of a quantum computer. In this context, existing QA seem best suited for unconstrained problems on instances with densities less than $10\%$. For constrained problems, the penalty terms used to encode the hard constraints restrict the performance of QA and suggest that these QPU will be less efficient on these problems of comparable size.
翻訳日:2024-08-02 14:04:46 公開日:2024-08-01
# 超音波ナビゲーション誘導のためのゴール条件強化学習

Goal-conditioned reinforcement learning for ultrasound navigation guidance ( http://arxiv.org/abs/2405.01409v3 )

ライセンス: Link先を確認
Abdoul Aziz Amadou, Vivek Singh, Florin C. Ghesu, Young-Ho Kim, Laura Stanciulescu, Harshitha P. Sai, Puneet Sharma, Alistair Young, Ronak Rajani, Kawal Rhode, (参考訳) 経食道心エコー法(TEE)は, 診断・介入術において重要な役割を担っている。 しかし、画像の取得と解釈の複雑な性質のため、効果的に広範囲な訓練が必要である。 初心者ソノグラフィーの効率を高め,スキャン取得における可変性を低減するため,目標条件強化学習(GCRL)としてコントラスト学習に基づく超音波ナビゲーション支援手法を提案する。 我々は,新しいコントラスト的患者バッチリング法 (CPB) とデータ拡張型コントラスト的損失を用いて,従来の枠組みを拡張した。 提案するフレームワークは,標準的な診断と,単一モデルによる複雑な介入ビューの両立を可能にする。 提案手法は789名の患者を対象とした大規模データセットを用いて開発され,140名の患者を対象に平均6.56mm,9.36°の角度での誤差を得た。 さらに,LAA閉鎖に使用される左心房アプリケージ(LAA)ビューのような介入的視点にナビゲートする手法の能力を定量的に検証した。 本手法は,経食道超音波検査において有意義なガイダンスを提供することを約束し,心超音波検査者に対する技術習得の進展に寄与する。

Transesophageal echocardiography (TEE) plays a pivotal role in cardiology for diagnostic and interventional procedures. However, using it effectively requires extensive training due to the intricate nature of image acquisition and interpretation. To enhance the efficiency of novice sonographers and reduce variability in scan acquisitions, we propose a novel ultrasound (US) navigation assistance method based on contrastive learning as goal-conditioned reinforcement learning (GCRL). We augment the previous framework using a novel contrastive patient batching method (CPB) and a data-augmented contrastive loss, both of which we demonstrate are essential to ensure generalization to anatomical variations across patients. The proposed framework enables navigation to both standard diagnostic as well as intricate interventional views with a single model. Our method was developed with a large dataset of 789 patients and obtained an average error of 6.56 mm in position and 9.36 degrees in angle on a testing dataset of 140 patients, which is competitive or superior to models trained on individual views. Furthermore, we quantitatively validate our method's ability to navigate to interventional views such as the Left Atrial Appendage (LAA) view used in LAA closure. Our approach holds promise in providing valuable guidance during transesophageal ultrasound examinations, contributing to the advancement of skill acquisition for cardiac ultrasound practitioners.
翻訳日:2024-08-02 14:04:46 公開日:2024-08-01
# エアリアルMECネットワークにおけるディジタルツイン駆動タスクアサインメント:生成モデルを用いた資源連携手法

Digital Twin-Empowered Task Assignment in Aerial MEC Network: A Resource Coalition Cooperation Approach with Generative Model ( http://arxiv.org/abs/2405.01555v3 )

ライセンス: Link先を確認
Xin Tang, Qian Chen, Rong Yu, Xiaohuan Li, (参考訳) 6Gネットワークにおけるユビキタス通信と一時エッジコンピューティングの要求を満たすため,航空移動エッジコンピューティング(MEC)ネットワークは新たなパラダイムとして構想されている。 しかし、動的なユーザリクエストはタスク割り当て戦略の課題を引き起こします。 既存の研究の多くは、この戦略が地上基地(UAV)に展開され、インフラと継続的なエネルギー供給が欠如している環境では効果がないと仮定している。 また、動的タスク割り当てのリソース相互排除問題は、効果的に解決されていない。 この目的のために、我々は、デジタルツイン(DT)を航空MECネットワークに導入し、生成モデル(GM)と資源連携のアプローチを研究する。 具体的には,アプリケーションプレーン,物理プレーン,仮想プレーンで構成される新しいネットワークフレームワークを提案する。 その後、線形制約を伴う凸最適化プログラムにタスク割り当て問題を単純化する。 また,転送可能ユーティリティ(TU)連立ゲームに基づく資源連携協力手法を提案し,最適解を求める。 提案手法の有効性を,エネルギー消費と資源利用の観点から検証した。

To meet the demands for ubiquitous communication and temporary edge computing in 6G networks, aerial mobile edge computing (MEC) networks have been envisioned as a new paradigm. However, dynamic user requests pose challenges for task assignment strategies. Most of the existing research assumes that the strategy is deployed on ground-based stations or UAVs, which will be ineffective in an environment lacking infrastructure and continuous energy supply. Moreover, the resource mutual exclusion problem of dynamic task assignment has not been effectively solved. Toward this end, we introduce the digital twin (DT) into the aerial MEC network to study the resource coalition cooperation approach with the generative model (GM), which provides a preliminary coalition structure for the coalition game. Specifically, we propose a novel network framework that is composed of an application plane, a physical plane, and a virtual plane. After that, the task assignment problem is simplified to convex optimization programming with linear constraints. And then, we also propose a resource coalition cooperation approach that is based on a transferable utility (TU) coalition game to obtain an approximate optimal solution. Numerical results confirm the effectiveness of our proposed approach in terms of energy consumption and utilization of resources.
翻訳日:2024-08-02 14:04:46 公開日:2024-08-01
# 相関誘起有限差分推定器

A Correlation-induced Finite Difference Estimator ( http://arxiv.org/abs/2405.05638v3 )

ライセンス: Link先を確認
Guo Liang, Guangwu Liu, Kun Zhang, (参考訳) 有限差分近似(FD approximation)は、雑音関数しか実現できないときの確率勾配推定の古典的な手法である。 本稿では,まずブートストラップ法を用いて最適な摂動を推定するサンプル駆動法を提案し,次に,推定された最適摂動における相関サンプルに基づく効率的なFD推定器を提案する。 さらに、摂動推定器とFD推定器の理論的解析により、この相関関係により、提案したFD推定器が分散の減少を達成でき、場合によっては従来の最適FD推定器と比較してバイアスの減少が生じることが明らかになった。 数値計算により, 推定器の効率性を確認し, 提案理論, 特にサンプルサイズが小さい場合とよく一致した。 最後に,デリバティブフリー最適化(DFO)問題の解法として推定器を適用し,100次元のDFO問題を効果的に解けることを示す。

Finite difference (FD) approximation is a classic approach to stochastic gradient estimation when only noisy function realizations are available. In this paper, we first provide a sample-driven method via the bootstrap technique to estimate the optimal perturbation, and then propose an efficient FD estimator based on correlated samples at the estimated optimal perturbation. Furthermore, theoretical analyses of both the perturbation estimator and the FD estimator reveal that, {\it surprisingly}, the correlation enables the proposed FD estimator to achieve a reduction in variance and, in some cases, a decrease in bias compared to the traditional optimal FD estimator. Numerical results confirm the efficiency of our estimators and align well with the theory presented, especially in scenarios with small sample sizes. Finally, we apply the estimator to solve derivative-free optimization (DFO) problems, and numerical studies show that DFO problems with 100 dimensions can be effectively solved.
翻訳日:2024-08-02 14:04:46 公開日:2024-08-01
# hBN欠損データベース:六方晶窒化ホウ素における色中心の理論的コンパイル

The hBN defects database: a theoretical compilation of color centers in hexagonal boron nitride ( http://arxiv.org/abs/2405.12749v2 )

ライセンス: Link先を確認
Chanaprom Cholsuk, Ashkan Zand, Asli Cakan, Tobias Vogl, (参考訳) 六方晶窒化ホウ素(hBN)の発色中心は、量子技術への応用の可能性から、集中的に研究されている。 様々な欠陥が作られてきたが、それらの多くは、原子の起源が不明である。 特に回折に制限された場所では、多くの欠陥があり、光学的に活動しているものを特定する必要があるため、欠陥の直接画像化は技術的に非常に難しい。 もう一つのアプローチは、光物性と理論シミュレーションを比較し、どの欠陥が一致するシグネチャを持つかを特定することである。 このために1つの資産が不十分であり、誤割り当てを引き起こすことが示されている。 本稿では,hBN欠陥の電子構造(257三重項と211一重項構成)と光物理指紋(励起状態寿命,量子効率,遷移双極子モーメントと配向,偏光可視性など)を網羅した密度汎関数理論(DFT)に基づく検索可能なオンラインデータベースを公表する。 すべてのデータはオープンソースで、https://h-bn.infoで公開されている。 実験的に観測された欠陥シグネチャを入力でき、データベースは可能な限り多くの観測プロパティを入力して絞り込むことが可能な候補を出力する。 データベースは継続的に更新され、より多くの欠陥と新しいフォトフィジカルな特性が提供される。 したがって、このデータベースは欠陥を確実に識別するだけでなく、どの欠陥が磁場検知や量子メモリの応用に期待できるかを調査することができる。

Color centers in hexagonal boron nitride (hBN) have become an intensively researched system due to their potential applications in quantum technologies. There has been a large variety of defects being fabricated, yet, for many of them, the atomic origin remains unclear. The direct imaging of the defect is technically very challenging, in particular since, in a diffraction-limited spot, there are many defects and then one has to identify the one that is optically active. Another approach is to compare the photophysical properties with theoretical simulations and identify which defect has a matching signature. It has been shown that a single property for this is insufficient and causes misassignments. Here, we publish a density functional theory (DFT)-based searchable online database covering the electronic structure of hBN defects (257 triplet and 211 singlet configurations), as well as their photophysical fingerprint (excited state lifetime, quantum efficiency, transition dipole moment and orientation, polarization visibility, and many more). All data is open-source and publicly accessible at https://h-bn.info and can be downloaded. It is possible to enter the experimentally observed defect signature and the database will output possible candidates which can be narrowed down by entering as many observed properties as possible. The database will be continuously updated with more defects and new photophysical properties (which can also be specifically requested by any users). The database therefore allows one to reliably identify defects but also investigate which defects might be promising for magnetic field sensing or quantum memory applications.
翻訳日:2024-08-02 14:04:46 公開日:2024-08-01
# ベトナムのEコマースサイトにおけるスパムレビューのためのメタデータ統合

Metadata Integration for Spam Reviews Detection on Vietnamese E-commerce Websites ( http://arxiv.org/abs/2405.13292v2 )

ライセンス: Link先を確認
Co Van Dinh, Son T. Luu, (参考訳) 近年,電子商取引の急速な発展に伴い,スパムレビュー(オピニオン)の発見が注目されている。 スパムレビューは、しばしばコメントコンテンツに基づいて分類されるが、場合によっては、レビューラベルを正確に決定するには不十分である。 本稿では,スパムレビュー分類のための補足属性を統合することを目的として,レビューのメタデータを含むViSpamReviews v2データセットを紹介する。 本稿では,テキスト属性と分類属性を同時に分類モデルに統合する手法を提案する。 実験では,深層ニューラルネットワーク(DNN)モデルと組み合わせることで,製品カテゴリが有効であることが確認された。一方,DNNモデルとモデルの両方でテキスト機能は,ベトナムのeコマースサイトであるPhoBERTでスパムレビューを検出する問題において,最先端のパフォーマンスを達成した。 具体的には、PhoBERTモデルとSentenceBERTの組み合わせであるSPhoBertモデルから生成された製品記述機能と組み合わせることで、最も精度の高いPhoBERTモデルを実現する。 マクロ平均F1スコアを用いてスパムレビューを分類する作業は87.22%(ベースライン比1.64%増)、スパムレビューの種類を特定する作業は73.49%(ベースライン比1.93%増)を達成した。

The problem of detecting spam reviews (opinions) has received significant attention in recent years, especially with the rapid development of e-commerce. Spam reviews are often classified based on comment content, but in some cases, it is insufficient for models to accurately determine the review label. In this work, we introduce the ViSpamReviews v2 dataset, which includes metadata of reviews with the objective of integrating supplementary attributes for spam review classification. We propose a novel approach to simultaneously integrate both textual and categorical attributes into the classification model. In our experiments, the product category proved effective when combined with deep neural network (DNN) models, while text features performed well on both DNN models and the model achieved state-of-the-art performance in the problem of detecting spam reviews on Vietnamese e-commerce websites, namely PhoBERT. Specifically, the PhoBERT model achieves the highest accuracy when combined with product description features generated from the SPhoBert model, which is the combination of PhoBERT and SentenceBERT. Using the macro-averaged F1 score, the task of classifying spam reviews achieved 87.22% (an increase of 1.64% compared to the baseline), while the task of identifying the type of spam reviews achieved an accuracy of 73.49% (an increase of 1.93% compared to the baseline).
翻訳日:2024-08-02 14:04:46 公開日:2024-08-01
# 自己監督型学習に基づく手書き手書き検証

Self-Supervised Learning Based Handwriting Verification ( http://arxiv.org/abs/2405.18320v2 )

ライセンス: Link先を確認
Mihir Chauhan, Mohammad Abuzar Hashemi, Abhishek Satbhai, Mir Basheer Ali, Bina Ramamurthy, Mingchen Gao, Siwei Lyu, Sargur Srihari, (参考訳) 本稿では,手書き検証作業に適用したSSL-HV: Self-Supervised Learning approachを提案する。 このタスクは、与えられた手書き画像のペアが同じまたは異なるライター分布に由来するかどうかを決定することである。 我々は,手作り特徴抽出器とCEDARおよびデータセットを用いた教師あり学習に対して,複数の生成的かつ対照的なSSLアプローチの性能を比較した。 ResNet-18では, 可変不変共分散正規化 (VICReg) を用いて微調整し, 78%の精度で比較した。 著者検証の下流作業にVAEとVICRegを併用し,ResNet-18の教師付きベースラインを10%のライターラベルで比較したところ,精度は6.7%,9%向上した。

We present SSL-HV: Self-Supervised Learning approaches applied to the task of Handwriting Verification. This task involves determining whether a given pair of handwritten images originate from the same or different writer distribution. We have compared the performance of multiple generative, contrastive SSL approaches against handcrafted feature extractors and supervised learning on CEDAR AND dataset. We show that ResNet based Variational Auto-Encoder (VAE) outperforms other generative approaches achieving 76.3% accuracy, while ResNet-18 fine-tuned using Variance-Invariance-Covariance Regularization (VICReg) outperforms other contrastive approaches achieving 78% accuracy. Using a pre-trained VAE and VICReg for the downstream task of writer verification we observed a relative improvement in accuracy of 6.7% and 9% over ResNet-18 supervised baseline with 10% writer labels.
翻訳日:2024-08-02 13:55:00 公開日:2024-08-01
# 離散状態空間拡散と流れモデルのためのアンロック誘導

Unlocking Guidance for Discrete State-Space Diffusion and Flow Models ( http://arxiv.org/abs/2406.01572v2 )

ライセンス: Link先を確認
Hunter Nisonoff, Junhao Xiong, Stephan Allenspach, Jennifer Listgarten, (参考訳) 離散状態空間上の生成モデルは、特に自然科学の分野において、幅広い潜在的な応用を持つ。 連続状態空間では、拡散と流れモデルに関するガイダンスを用いて、所望の特性を持つ制御可能で柔軟なサンプルの生成を実現している。 しかし、これらのガイダンスアプローチは離散状態空間モデルに容易には適用できない。 そこで本研究では,そのようなモデルにガイダンスを適用するための汎用的,原則的手法を提案する。 提案手法は離散状態空間上での連続時間マルコフ過程の活用に依存し,所望の導出分布から抽出する際の計算的トラクタビリティを解放する。 我々は,画像のガイド生成,小分子,DNA配列,タンパク質配列など,様々な応用のアプローチであるディスクリートガイダンスの有用性を実証する。

Generative models on discrete state-spaces have a wide range of potential applications, particularly in the domain of natural sciences. In continuous state-spaces, controllable and flexible generation of samples with desired properties has been realized using guidance on diffusion and flow models. However, these guidance approaches are not readily amenable to discrete state-space models. Consequently, we introduce a general and principled method for applying guidance on such models. Our method depends on leveraging continuous-time Markov processes on discrete state-spaces, which unlocks computational tractability for sampling from a desired guided distribution. We demonstrate the utility of our approach, Discrete Guidance, on a range of applications including guided generation of images, small-molecules, DNA sequences and protein sequences.
翻訳日:2024-08-02 13:55:00 公開日:2024-08-01
# 気候モデルパラメータ化のための物理的に一貫性のある深層学習を目指して

Towards Physically Consistent Deep Learning For Climate Model Parameterizations ( http://arxiv.org/abs/2406.03920v2 )

ライセンス: Link先を確認
Birgit Kühbacher, Fernando Iglesias-Suarez, Niki Kilbertus, Veronika Eyring, (参考訳) 気候変動の理解と予測において、気候モデルは重要な役割を担っている。 その複雑さのため、その水平分解能は約40-100kmで、雲や対流などの過程を解明するには大きすぎるが、パラメータ化によって近似する必要がある。 これらのパラメータ化は、気候予測における体系的な誤りと大きな不確実性の主な原因である。 深層学習(DL)に基づくパラメータ化は、計算に高価で高解像度のショートシミュレーションのデータに基づいて訓練されており、その点において気候モデルを改善するための大きな可能性を示している。 しかし、解釈可能性の欠如と、素早い非物理的相関を学習する傾向は、気候シミュレーションの信頼性を低下させる。 本稿では,DLに基づくパラメータ化のための効率的な教師付き学習フレームワークを提案する。 まず、対象の物理プロセスを決定する重要な特徴を明らかにする。 その後、ニューラルネットワークは、関連する機能のみを使用して微調整される。 実験により,本手法は入力の小さな部分集合を実際の物理的ドライバとして確実に識別するので,素早い非物理的関係を除去する。 その結果、物理的に一貫した解釈可能なニューラルネットワークを設計し、制約のないブラックボックスDLベースのパラメータ化の予測性能を維持した。

Climate models play a critical role in understanding and projecting climate change. Due to their complexity, their horizontal resolution of about 40-100 km remains too coarse to resolve processes such as clouds and convection, which need to be approximated via parameterizations. These parameterizations are a major source of systematic errors and large uncertainties in climate projections. Deep learning (DL)-based parameterizations, trained on data from computationally expensive short, high-resolution simulations, have shown great promise for improving climate models in that regard. However, their lack of interpretability and tendency to learn spurious non-physical correlations result in reduced trust in the climate simulation. We propose an efficient supervised learning framework for DL-based parameterizations that leads to physically consistent models with improved interpretability and negligible computational overhead compared to standard supervised training. First, key features determining the target physical processes are uncovered. Subsequently, the neural network is fine-tuned using only those relevant features. We show empirically that our method robustly identifies a small subset of the inputs as actual physical drivers, therefore, removing spurious non-physical relationships. This results in by design physically consistent and interpretable neural networks while maintaining the predictive performance of unconstrained black-box DL-based parameterizations.
翻訳日:2024-08-02 13:55:00 公開日:2024-08-01
# 二次モデルにおける生存確率, 粒子不均衡およびそれらの関係

Survival Probability, Particle Imbalance, and Their Relationship in Quadratic Models ( http://arxiv.org/abs/2406.05500v2 )

ライセンス: Link先を確認
Miroslav Hopjan, Lev Vidmar, (参考訳) 二次フェルミオンモデルにおける粒子不均衡のダイナミクスは、多くの多体積状態のほとんどにおいて、単一粒子状態の生存確率のダイナミクスとほぼ区別できないものであると論じる。 次に、多体状態における非等時と空間密度相関関数と非零距離における単一粒子状態の遷移確率との類似した関係を一般化する。 最後に, 多体状態における等時連結密度相関関数について検討し, 単一粒子状態の生存と遷移確率との質的類似性を示す。 この結果は,3次元アンダーソンモデルと1次元オーブリー・アンドルーモデルの2つのパラメタモデルに対して数値実験を行った。 この研究は、多体状態における観測可能な状態のダイナミクスによって、単一粒子の生存と遷移確率の特徴を測定できるかどうかという疑問に対して、肯定的な答えを与える。

We argue that the dynamics of particle imbalance in quadratic fermionic models is, for the majority of initial many-body product states in site occupation basis, virtually indistinguishable from the dynamics of survival probabilities of single-particle states. We then generalize our statement to a similar relationship between the non-equal time and space density correlation functions in many-body states and the transition probabilities of single-particle states at nonzero distances. Finally, we study the equal time connected density-density correlation functions in many-body states, which exhibit certain qualitative analogies with the survival and transition probabilities of single-particle states. Our results are numerically tested for two paradigmatic models of single-particle localization: the 3D Anderson model and the 1D Aubry-Andr\'e model. This work gives affirmative answer to the question whether it is possible to measure features of the single-particle survival and transition probabilities by the dynamics of observables in many-body states.
翻訳日:2024-08-02 13:55:00 公開日:2024-08-01
# 医療の持続性と公正性を高めるためのリーチ内AI対応フレームワーク

An AI-Enabled Framework Within Reach for Enhancing Healthcare Sustainability and Fairness ( http://arxiv.org/abs/2406.07558v2 )

ライセンス: Link先を確認
Bin Huang, Changchen Zhao, Zimeng Liu, Shenda Hong, Baochang Zhang, Hao Lu, Zhijun Liu, Wenjin Wang, Hui Liu, (参考訳) 健康と幸福は、国連2030年持続可能な開発目標の重要な問題である。 大規模感染症の流行と世界の人口の急速な高齢化が、医療技術の転換を促している。 この文脈では、大規模な公衆衛生データセットの確立、医療モデルの開発、人間中心のアプローチによる意思決定システムの構築が戦略的に重要である。 近年、非常に多くのカメラを活用することで、カメラセンサを用いた生理的信号監視と疾患診断のためのAI手法に画期的な進歩がみられた。 専門的な医療機器を必要としないこれらのアプローチは、公衆衛生イベントに対応するため、大規模な医療データを収集する便利な方法を提供する。 そこで我々は,視覚生理学的モニタリング技術を活用したカメラベース公衆衛生(CBPH)フレームワークの展望とヒューリスティックビジョンを概説した。 CBPHは公衆衛生のための便利で普遍的な枠組みとみなすことができ、国連持続可能な開発目標、特に低所得国や中所得国や地域における医療の普遍性、持続可能性、公平性を推進している。 さらにCBPHは、大規模で人間中心の医療データベースを構築するための包括的なソリューションと、公衆衛生および医学的な発見のためのマルチタスクの大規模医療モデルを提供する。 個人監視技術、デジタル医療、遠隔医療、公衆衛生における主要な医療に革命をもたらす大きな可能性を秘めている。 したがって,本論文の成果は,医療用AI(AI4Medicine)の領域における科学的発見を促進するための重要な橋渡しとなる,持続可能な公衆衛生のための枠組みの確立に寄与すると考えられる。

Good health and well-being is among key issues in the United Nations 2030 Sustainable Development Goals. The rising prevalence of large-scale infectious diseases and the accelerated aging of the global population are driving the transformation of healthcare technologies. In this context, establishing large-scale public health datasets, developing medical models, and creating decision-making systems with a human-centric approach are of strategic significance. Recently, by leveraging the extraordinary number of accessible cameras, groundbreaking advancements have emerged in AI methods for physiological signal monitoring and disease diagnosis using camera sensors. These approaches, requiring no specialized medical equipment, offer convenient manners of collecting large-scale medical data in response to public health events. Therefore, we outline a prospective framework and heuristic vision for a camera-based public health (CBPH) framework utilizing visual physiological monitoring technology. The CBPH can be considered as a convenient and universal framework for public health, advancing the United Nations Sustainable Development Goals, particularly in promoting the universality, sustainability, and equity of healthcare in low- and middle-income countries or regions. Furthermore, CBPH provides a comprehensive solution for building a large-scale and human-centric medical database, and a multi-task large medical model for public health and medical scientific discoveries. It has a significant potential to revolutionize personal monitoring technologies, digital medicine, telemedicine, and primary health care in public health. Therefore, it can be deemed that the outcomes of this paper will contribute to the establishment of a sustainable and fair framework for public health, which serves as a crucial bridge for advancing scientific discoveries in the realm of AI for medicine (AI4Medicine).
翻訳日:2024-08-02 13:55:00 公開日:2024-08-01
# 検索付加生成に及ぼす量子化の影響:小型LLMの解析

The Impact of Quantization on Retrieval-Augmented Generation: An Analysis of Small LLMs ( http://arxiv.org/abs/2406.10251v3 )

ライセンス: Link先を確認
Mert Yazan, Suzan Verberne, Frederik Situmeang, (参考訳) 学習後の量子化は、Large Language Models (LLM) の計算需要を減らすが、その能力の一部を弱める可能性がある。 LLM能力はスケールとともに出現するので、より小さなLCMは量子化に敏感である。 本稿では,量子化がLLMの検索強化生成(RAG)能力にどのように影響するかを,より長い文脈で検討する。 複数の文書に対する長文推論を必要とするため、RAGを用いることが難しいため、評価のためにパーソナライズを選択した。 元のFP16と、複数の7Bと8BのINT4の性能を2つのタスクで比較し、検索された文書の数を徐々に増加させ、より長いコンテキストに対して量子化されたモデルがどのように一致するかを検証した。 検索の効果をよりよく理解するために,本実験における3つの検索モデルの評価を行った。 この結果から, 7B LLM がそのタスクをうまく実行した場合, 量子化ではその性能や長文推論能力が損なわれないことが判明した。 我々は、RAGを量子化された小さなLCMで利用することは可能であると結論付けている。

Post-training quantization reduces the computational demand of Large Language Models (LLMs) but can weaken some of their capabilities. Since LLM abilities emerge with scale, smaller LLMs are more sensitive to quantization. In this paper, we explore how quantization affects smaller LLMs' ability to perform retrieval-augmented generation (RAG), specifically in longer contexts. We chose personalization for evaluation because it is a challenging domain to perform using RAG as it requires long-context reasoning over multiple documents. We compare the original FP16 and the quantized INT4 performance of multiple 7B and 8B LLMs on two tasks while progressively increasing the number of retrieved documents to test how quantized models fare against longer contexts. To better understand the effect of retrieval, we evaluate three retrieval models in our experiments. Our findings reveal that if a 7B LLM performs the task well, quantization does not impair its performance and long-context reasoning capabilities. We conclude that it is possible to utilize RAG with quantized smaller LLMs.
翻訳日:2024-08-02 13:55:00 公開日:2024-08-01
# FG-SBIRの高機能化と多機能化に向けて

Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling ( http://arxiv.org/abs/2406.11551v3 )

ライセンス: Link先を確認
Jianan Jiang, Hao Tang, Zhilin Jiang, Weiren Yu, Di Wu, (参考訳) Fine-Grained Sketch-Based Image Retrieval (FG-SBIR) は、スケッチと埋め込み空間における対応する画像の距離を最小化することを目的としている。 しかし、スケーラビリティはソリューションの複雑さの増大によって妨げられ、主にきめ細かいスケッチの抽象的な性質が原因である。 本稿では,二つの領域間のギャップを狭める効果的な手法を提案する。 主に、モダリティ間の単一特徴アライメント問題として扱うのではなく、サンプル内の情報とサンプル間の情報を共有する統一的な情報共有を促進する。 特に、我々のアプローチには以下のものがある。 一 複重共有ネットワークを用いてスケッチと画像領域内のアライメントを最適化し、モデル学習飽和問題を効果的に軽減する。 (2)コントラスト損失に基づく目的最適化関数の導入により,サンプル内およびサンプル間両方の特徴を整列するモデルの能力を高める。 三 捨てパッチトークンを多機能化した自己管理型マルチスケールトークンリサイクル(MSTR)モジュールの提示、表現能力の向上及び検索性能の向上。 このフレームワークは,CNNおよびViTベースのバックボーンにおいて優れた結果が得られる。 大規模な実験は、既存の方法よりも優れていることを示す。 また、最初のプロのファッションスケッチイメージデータセットであるCloss-V1も導入し、私たちのメソッドを検証するために利用し、他のアプリケーションに役立ちます。

Fine-Grained Sketch-Based Image Retrieval (FG-SBIR) aims to minimize the distance between sketches and corresponding images in the embedding space. However, scalability is hindered by the growing complexity of solutions, mainly due to the abstract nature of fine-grained sketches. In this paper, we propose an effective approach to narrow the gap between the two domains. It mainly facilitates unified mutual information sharing both intra- and inter-samples, rather than treating them as a single feature alignment problem between modalities. Specifically, our approach includes: (i) Employing dual weight-sharing networks to optimize alignment within the sketch and image domain, which also effectively mitigates model learning saturation issues. (ii) Introducing an objective optimization function based on contrastive loss to enhance the model's ability to align features in both intra- and inter-samples. (iii) Presenting a self-supervised Multi-Scale Token Recycling (MSTR) Module featured by recycling discarded patch tokens in multi-scale features, further enhancing representation capability and retrieval performance. Our framework achieves excellent results on CNN- and ViT-based backbones. Extensive experiments demonstrate its superiority over existing methods. We also introduce Cloths-V1, the first professional fashion sketch-image dataset, utilized to validate our method and will be beneficial for other applications
翻訳日:2024-08-02 13:55:00 公開日:2024-08-01
# 離散世界モデルによる心の理論の複雑さの記入

A Notion of Complexity for Theory of Mind via Discrete World Models ( http://arxiv.org/abs/2406.11911v2 )

ライセンス: Link先を確認
X. Angelo Huang, Emanuele La Malfa, Samuele Marro, Andrea Asperti, Anthony Cohn, Michael Wooldridge, (参考訳) ToM(Theory of Mind)は、社会的推論が必要な複雑なシナリオにおいて、LLM(Large Language Models)の機能を評価するために用いられる。 研究コミュニティは多くのToMベンチマークを提案しているが、その硬さは大きく異なり、その複雑さは明確に定義されていない。 本稿では,ToMタスクの複雑さを計測するフレームワークを提案する。 我々は問題の複雑性を、それを正しく解くために必要な状態の数として定量化する。 当社の複雑性測定基準は、ToM問題を明らかに困難にするために設計された突発的な状態も説明しています。 提案手法を用いて,広く採用されている5つのToMベンチマークの複雑さを評価する。 このフレームワークの上に、エージェントのインタラクションによって環境がどのように変化するかを記述することで、モデルに利用可能な情報を強化するプロンプト手法を設計する。 本稿では,この手法をDWM(Disdisrete World Models)と命名し,ToMタスクにおける優れたパフォーマンスを示す。

Theory of Mind (ToM) can be used to assess the capabilities of Large Language Models (LLMs) in complex scenarios where social reasoning is required. While the research community has proposed many ToM benchmarks, their hardness varies greatly, and their complexity is not well defined. This work proposes a framework to measure the complexity of ToM tasks. We quantify a problem's complexity as the number of states necessary to solve it correctly. Our complexity measure also accounts for spurious states of a ToM problem designed to make it apparently harder. We use our method to assess the complexity of five widely adopted ToM benchmarks. On top of this framework, we design a prompting technique that augments the information available to a model with a description of how the environment changes with the agents' interactions. We name this technique Discrete World Models (DWM) and show how it elicits superior performance on ToM tasks.
翻訳日:2024-08-02 13:55:00 公開日:2024-08-01
# GLiNERマルチタスク:様々な情報抽出タスクのための汎用軽量モデル

GLiNER multi-task: Generalist Lightweight Model for Various Information Extraction Tasks ( http://arxiv.org/abs/2406.12925v2 )

ライセンス: Link先を確認
Ihor Stepanov, Mykhailo Shtopko, (参考訳) 情報抽出タスクは正確、効率的、一般化可能なモデルの両方を必要とする。 古典的な教師付きディープラーニングアプローチは、必要なパフォーマンスを達成することができるが、大きなデータセットが必要であり、異なるタスクに適応する能力に制限がある。 一方,大規模言語モデル(LLM)は優れた一般化を示し,ユーザ要求に基づいて様々なタスクに適応できる。 しかし、LLMは計算コストが高く、構造化出力の生成に失敗する傾向がある。 本稿では,小さなエンコーダモデルであると同時に,様々な情報抽出タスクに使用できる新しいタイプのGLiNERモデルを紹介する。 我々のモデルは,ゼロショットNERベンチマークにおけるSoTA性能を達成し,質問応答,要約,関係抽出タスクにおける主要な性能を実現した。 また、本稿では、GLiNERモデルを用いた名前付きエンティティ認識のための自己学習手法の実験結果について述べる。

Information extraction tasks require both accurate, efficient, and generalisable models. Classical supervised deep learning approaches can achieve the required performance, but they need large datasets and are limited in their ability to adapt to different tasks. On the other hand, large language models (LLMs) demonstrate good generalization, meaning that they can adapt to many different tasks based on user requests. However, LLMs are computationally expensive and tend to fail to generate structured outputs. In this article, we will introduce a new kind of GLiNER model that can be used for various information extraction tasks while being a small encoder model. Our model achieved SoTA performance on zero-shot NER benchmarks and leading performance on question-answering, summarization and relation extraction tasks. Additionally, in this article, we will cover experimental results on self-learning approaches for named entity recognition using GLiNER models.
翻訳日:2024-08-02 13:55:00 公開日:2024-08-01
# 空間ボット:視覚言語モデルを用いた精密空間理解

SpatialBot: Precise Spatial Understanding with Vision Language Models ( http://arxiv.org/abs/2406.13642v5 )

ライセンス: Link先を確認
Wenxiao Cai, Yaroslav Ponomarenko, Jianhao Yuan, Xiaoqi Li, Wankou Yang, Hao Dong, Bo Zhao, (参考訳) 視覚言語モデル(VLM)は2次元画像理解において目覚ましい性能を達成しているが、Embodied AIの基盤である空間的理解に苦慮している。 本稿では,RGB画像と深度画像の両方をフィードすることで,空間的理解を向上させるためのSpatialBotを提案する。 さらに、深度理解のためのVLMを訓練するために、多段階の深度関連質問を含むSpatialQAデータセットを構築した。 最後に、異なるレベルでの空間理解におけるVLMの能力を総合的に評価するために、SpatialBenchを提案する。 我々の空間理解ベンチマーク、一般的なVLMベンチマーク、Embodied AIタスクに関する大規模な実験は、SpatialQAでトレーニングされたSpatialBotの顕著な改善を実証している。 モデル、コード、データはhttps://github.com/BAAI-DCAI/SpatialBotで入手できる。

Vision Language Models (VLMs) have achieved impressive performance in 2D image understanding, however they are still struggling with spatial understanding which is the foundation of Embodied AI. In this paper, we propose SpatialBot for better spatial understanding by feeding both RGB and depth images. Additionally, we have constructed the SpatialQA dataset, which involves multi-level depth-related questions to train VLMs for depth understanding. Finally, we present SpatialBench to comprehensively evaluate VLMs' capabilities in spatial understanding at different levels. Extensive experiments on our spatial-understanding benchmark, general VLM benchmarks and Embodied AI tasks, demonstrate the remarkable improvements of SpatialBot trained on SpatialQA. The model, code and data are available at https://github.com/BAAI-DCAI/SpatialBot.
翻訳日:2024-08-02 13:55:00 公開日:2024-08-01
# イベント駆動型バンドル調整によるニューラルラジアンスフィールドの劣化

Deblurring Neural Radiance Fields with Event-driven Bundle Adjustment ( http://arxiv.org/abs/2406.14360v2 )

ライセンス: Link先を確認
Yunshan Qi, Lin Zhu, Yifan Zhao, Nan Bao, Jia Li, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は,高画質のマルチビュー画像を入力として,印象的な3次元表現学習と新しいビュー合成結果を実現する。 しかし、低照度かつ高速な動きシーンでは、画像内の動きのぼかしがしばしば発生し、NeRFの再構成品質は著しく低下する。 それまでの劣化したNeRF法は、露出時間中にポーズや照明の変化を推定するのに苦労し、動きのぼやけを正確にモデル化することができない。 バイオインスパイアされたイベントカメラは、時間分解能の高い強度変化を測定することで、この情報不足を補う。 本稿では,複合イベントRGBデータを活用することで,学習可能なポーズとNeRFパラメータを協調的に最適化するイベント駆動結合調整(EBAD-NeRF)を提案する。 カメラモーションのぼかしの明示的なモデリングを強化するため、強度変化測定イベントロスと光度ボケロスを導入する。 合成データと実撮影データの両方の実験により、EBAD-NeRFは露光時間中に正確なカメラ軌道を得ることができ、以前のものと比較してよりシャープな3D表現を学習できることが示された。

Neural Radiance Fields (NeRF) achieves impressive 3D representation learning and novel view synthesis results with high-quality multi-view images as input. However, motion blur in images often occurs in low-light and high-speed motion scenes, which significantly degrades the reconstruction quality of NeRF. Previous deblurring NeRF methods struggle to estimate pose and lighting changes during the exposure time, making them unable to accurately model the motion blur. The bio-inspired event camera measuring intensity changes with high temporal resolution makes up this information deficiency. In this paper, we propose Event-driven Bundle Adjustment for Deblurring Neural Radiance Fields (EBAD-NeRF) to jointly optimize the learnable poses and NeRF parameters by leveraging the hybrid event-RGB data. An intensity-change-metric event loss and a photo-metric blur loss are introduced to strengthen the explicit modeling of camera motion blur. Experiments on both synthetic and real-captured data demonstrate that EBAD-NeRF can obtain accurate camera trajectory during the exposure time and learn a sharper 3D representations compared to prior works.
翻訳日:2024-08-02 13:55:00 公開日:2024-08-01
# エンドツーエンド音声認識のためのデコーダのみのアーキテクチャ

Decoder-only Architecture for Streaming End-to-end Speech Recognition ( http://arxiv.org/abs/2406.16107v2 )

ライセンス: Link先を確認
Emiru Tsunoo, Hayato Futami, Yosuke Kashiwagi, Siddhant Arora, Shinji Watanabe, (参考訳) デコーダのみの言語モデル(LM)は、自動音声認識(ASR)を含む音声処理タスクにうまく採用されている。 LMは十分な表現力を有し、効率よく機能する。 この効率性は、ASRのストリーミングアプリケーションに適した特性である。 本研究では,ブロックワイドストリーミングASRにおけるデコーダのみのアーキテクチャを提案する。 提案手法では,ブロックワイズ音声サブネットワークを用いて,CTC出力とコンテキスト埋め込みを用いて音声特徴を圧縮し,デコーダのプロンプトとして順次提供する。 デコーダは、各ブロックで出力トークンを即座に推定する。 そこで本研究では,ランダム長プレフィックスプロンプトを用いた新しいトレーニング手法を提案し,ブロックワイズ処理によって引き起こされる停止したプロンプトに頑健なモデルを提案する。 実験により,提案したデコーダのみのストリーミングASRは,ベースラインモデルの2倍の速度で,LibriSpeechテストの他セットの単語誤り率を8%削減できることがわかった。

Decoder-only language models (LMs) have been successfully adopted for speech-processing tasks including automatic speech recognition (ASR). The LMs have ample expressiveness and perform efficiently. This efficiency is a suitable characteristic for streaming applications of ASR. In this work, we propose to use a decoder-only architecture for blockwise streaming ASR. In our approach, speech features are compressed using CTC output and context embedding using blockwise speech subnetwork, and are sequentially provided as prompts to the decoder. The decoder estimates the output tokens promptly at each block. To this end, we also propose a novel training scheme using random-length prefix prompts to make the model robust to the truncated prompts caused by blockwise processing. An experimental comparison shows that our proposed decoder-only streaming ASR achieves 8% relative word error rate reduction in the LibriSpeech test-other set while being twice as fast as the baseline model.
翻訳日:2024-08-02 13:55:00 公開日:2024-08-01
# 駅数から市町村推定:データ駆動型自転車容積外挿

From Counting Stations to City-Wide Estimates: Data-Driven Bicycle Volume Extrapolation ( http://arxiv.org/abs/2406.18454v2 )

ライセンス: Link先を確認
Silke K. Kaiser, Nadja Klein, Lynn H. Kaack, (参考訳) 都市部でのサイクリングへのシフトは温室効果ガスの排出を減らし、公衆衛生を改善する。 ストリートレベルの自転車量情報は、都市が自転車を奨励し、市民社会にサイクリストのニーズを主張する証拠を提供するためのインフラの改善を計画するのに役立つだろう。 しかし、現在市や市民が利用できるデータは、わずかに数える駅からしか得られないことが多い。 本論文は,ベルリン全都市における自転車の容積を推定するために,これらの数箇所を超える自転車の容積を推定する。 我々は、機械学習技術と様々な公共データソースを用いて、毎日、平均1日あたりの街路レベルの自転車量を予測する。 その中には、アプリベースのクラウドソースデータ、インフラストラクチャ、自転車共有、モーター化されたトラフィック、社会経済指標、天気、ホリデーデータなどが含まれる。 分析の結果,最も優れたモデルがXGBoostであり,クラウドソースのサイクリングとインフラデータが最も重要であることがわかった。 さらに,予測位置における短期的カウントの収集により,性能が向上することを示す。 予測された位置毎に10日間のサンプルカウントを提供することで、誤差を半減し、予測された位置間の性能のばらつきを大幅に低減することができる。

Shifting to cycling in urban areas reduces greenhouse gas emissions and improves public health. Street-level bicycle volume information would aid cities in planning targeted infrastructure improvements to encourage cycling and provide civil society with evidence to advocate for cyclists' needs. Yet, the data currently available to cities and citizens often only comes from sparsely located counting stations. This paper extrapolates bicycle volume beyond these few locations to estimate bicycle volume for the entire city of Berlin. We predict daily and average annual daily street-level bicycle volumes using machine-learning techniques and various public data sources. These include app-based crowdsourced data, infrastructure, bike-sharing, motorized traffic, socioeconomic indicators, weather, and holiday data. Our analysis reveals that the best-performing model is XGBoost, and crowdsourced cycling and infrastructure data are most important for the prediction. We further simulate how collecting short-term counts at predicted locations improves performance. By providing ten days of such sample counts for each predicted location to the model, we are able to halve the error and greatly reduce the variability in performance among predicted locations.
翻訳日:2024-08-02 13:55:00 公開日:2024-08-01
# Pistis-RAG: 信頼できる検索拡張世代に向けたスケーラブルなカスケーディングフレームワーク

Pistis-RAG: A Scalable Cascading Framework Towards Trustworthy Retrieval-Augmented Generation ( http://arxiv.org/abs/2407.00072v4 )

ライセンス: Link先を確認
Yu Bai, Yukai Miao, Li Chen, Dan Li, Yanyu Ren, Hongtao Xie, Ce Yang, Xuhui Cai, (参考訳) ギリシア神話では、ピスティスは信仰、信頼、信頼性を象徴していた。 これらの原則から着想を得たPristis-RAGは、大規模検索拡張世代システム(RAG)の課題に対処するために設計されたスケーラブルなマルチステージフレームワークである。 このフレームワークは、マッチング、序列、ランク付け、推論、集約という、異なるステージで構成されている。 各ステージは、検索空間の狭化、意味のある文書の優先順位付け、大きな言語モデル(LLM)の好みの整合化、複雑なチェーン・オブ・シント(CoT)メソッドのサポート、複数のソースからの情報の統合に寄与する。 我々のランク付け段階は、セマンティックな関連性だけでは生成品質が向上しない可能性があることを認識して、重要なイノベーションをもたらす。 この重要な側面は、しばしば現在のRAGフレームワークで見過ごされる。 我々は、LLMと外部知識ランキング手法の整合性問題は、RAGシステムにおいて支配的なモデル中心のパラダイムと結びついていると論じる。 本稿では,LLMと外部情報ソースのシームレスな統合を重視し,特定のタスクに対するコンテンツ変換を最適化する,コンテンツ中心のアプローチを提案する。 LLMの嗜好やユーザフィードバックに反映されるユニークなビジネスシナリオを考慮しつつ,情報検索の原則を取り入れた新しいランキングステージを設計する。 MMLUベンチマークでフィードバック信号をシミュレートし,9.3%の性能向上を実現した。 私たちのモデルとコードはGitHubでオープンソース化される予定です。 さらに、実世界の大規模データに関する実験は、我々のフレームワークのスケーラビリティを検証する。

In Greek mythology, Pistis symbolized good faith, trust, and reliability. Drawing inspiration from these principles, Pistis-RAG is a scalable multi-stage framework designed to address the challenges of large-scale retrieval-augmented generation (RAG) systems. This framework consists of distinct stages: matching, pre-ranking, ranking, reasoning, and aggregating. Each stage contributes to narrowing the search space, prioritizing semantically relevant documents, aligning with the large language model's (LLM) preferences, supporting complex chain-of-thought (CoT) methods, and combining information from multiple sources. Our ranking stage introduces a significant innovation by recognizing that semantic relevance alone may not lead to improved generation quality, due to the sensitivity of the few-shot prompt order, as noted in previous research. This critical aspect is often overlooked in current RAG frameworks. We argue that the alignment issue between LLMs and external knowledge ranking methods is tied to the model-centric paradigm dominant in RAG systems. We propose a content-centric approach, emphasizing seamless integration between LLMs and external information sources to optimize content transformation for specific tasks. Our novel ranking stage is designed specifically for RAG systems, incorporating principles of information retrieval while considering the unique business scenarios reflected in LLM preferences and user feedback. We simulated feedback signals on the MMLU benchmark, resulting in a 9.3% performance improvement. Our model and code will be open-sourced on GitHub. Additionally, experiments on real-world, large-scale data validate the scalability of our framework.
翻訳日:2024-08-02 13:55:00 公開日:2024-08-01
# 拘束帯域ネットワークにおける大規模モデルトレーニングの安定性向上

Enhancing Stability for Large Models Training in Constrained Bandwidth Networks ( http://arxiv.org/abs/2407.01614v2 )

ライセンス: Link先を確認
Yun Dai, Tejas Dharamsi, Byron Hsu, Tao Song, Hamed Firooz, (参考訳) 数十億のパラメータを持つ非常に大きな言語モデルをトレーニングすることは、現在のデータ並列トレーニングシステムの限界を押し上げる計算集約的なタスクである。 ZeRO++のような技術は、安価で低帯域幅のクラスタ上で、そのような巨大モデルの効率的な分散トレーニングを可能にする一方で、マシン間通信を減らすために使用される階層分割(hpZ)方式における潜在的な競合条件による収束問題に悩まされる可能性がある。 本研究は,数十億のパラメータを持つモデルのトレーニングにおいて,これらの競合条件が不安定性の原因となることを示す。 次に、これらの収束問題に対処し、競争力のあるトレーニング効率を維持しながら、分割アルゴリズムの変更を提案する。 Falcon ModelsとLlama-2モデルのマルチビリオンパラメータのトレーニングに関する実証的な評価は、ZeRO++ hpZが収束しないような大規模なモデル上で信頼性の高い収束を実現するアルゴリズムの能力を示している。 改良されたアルゴリズムは、98倍のスループットを持つ大規模モデルの堅牢なトレーニングを可能にし、収束の質を犠牲にすることなく、モデルのトレーニング速度を向上する。

Training extremely large language models with billions of parameters is a computationally intensive task that pushes the limits of current data parallel training systems. While techniques like ZeRO++ have enabled efficient distributed training of such giant models on inexpensive low-bandwidth clusters, they can suffer from convergence issues due to potential race conditions in the hierarchical partitioning (hpZ) scheme employed to reduce cross-machine communication. In this work, we first show how these race conditions cause instability when training models with billions of parameters. We then propose a modification to the partitioning algorithm that addresses these convergence challenges while maintaining competitive training efficiency. Empirical evaluation on training the multi-billion parameters Falcon Models and Llama-2 models demonstrates the updated algorithm's ability to achieve reliable convergence on these massive models, where stock ZeRO++ hpZ fails to converge. The updated algorithm enables robust training of larger models with 98\% throughput and model training speed improvement without sacrificing the quality of convergence.
翻訳日:2024-08-02 13:45:15 公開日:2024-08-01
# 対話型タスク分解を用いたAI支援データ解析におけるステアリングと検証の改善

Improving Steering and Verification in AI-Assisted Data Analysis with Interactive Task Decomposition ( http://arxiv.org/abs/2407.02651v2 )

ライセンス: Link先を確認
Majeed Kazemitabaar, Jack Williams, Ian Drosos, Tovi Grossman, Austin Henley, Carina Negreanu, Advait Sarkar, (参考訳) LLMを利用するChatGPT Data Analysisのようなツールは、ユーザがデータ処理、プログラミング、統計学の専門知識を必要とするデータ分析プログラミングの難しいタスクに取り組むのを助ける可能性がある。 しかし、我々のフォーマティブな研究(n=15)は、AI生成結果の検証とAI(AIシステムに望ましい出力を導くこと)のステアリングにおける深刻な課題を明らかにしました。 これらの課題に対処する2つの対照的なアプローチを開発した。 第1(ステップワイズ)は、タスク完了まで編集可能な仮定とコードのペアでステップバイステップのサブゴールに分解し、第2(ステップワイズ)は、全問題を3つの編集可能な論理的なフェーズ(構造化された入出力仮定、実行計画、コード)に分解する。 制御されたin-subjects実験(n=18)は、これらのシステムを会話ベースラインと比較した。 ユーザは、ステップワイズシステムとフェーズワイズシステムによるコントロールが大幅に向上し、ベースラインに比べて介入、修正、検証が容易になった。 その結果、AI支援データ分析ツールの設計ガイドラインとトレードオフが示唆された。

LLM-powered tools like ChatGPT Data Analysis, have the potential to help users tackle the challenging task of data analysis programming, which requires expertise in data processing, programming, and statistics. However, our formative study (n=15) uncovered serious challenges in verifying AI-generated results and steering the AI (i.e., guiding the AI system to produce the desired output). We developed two contrasting approaches to address these challenges. The first (Stepwise) decomposes the problem into step-by-step subgoals with pairs of editable assumptions and code until task completion, while the second (Phasewise) decomposes the entire problem into three editable, logical phases: structured input/output assumptions, execution plan, and code. A controlled, within-subjects experiment (n=18) compared these systems against a conversational baseline. Users reported significantly greater control with the Stepwise and Phasewise systems, and found intervention, correction, and verification easier, compared to the baseline. The results suggest design guidelines and trade-offs for AI-assisted data analysis tools.
翻訳日:2024-08-02 13:45:15 公開日:2024-08-01
# 機械学習アンサンブルにおける予測不安定性

Prediction Instability in Machine Learning Ensembles ( http://arxiv.org/abs/2407.03194v3 )

ライセンス: Link先を確認
Jeremy Kedziora, (参考訳) 機械学習では、複数のモデルからの予測が集約される。 応用問題におけるアンサンブルの広範な使用と強力な性能にもかかわらず、アグリゲーションモデルの数学的性質や、そのようなモデルの安全で説明可能な使用に関する結果についてはほとんど知られていない。 本稿では,任意のアンサンブルが以下の予測不安定性の少なくとも1つの形式を示すことを示す定理を証明した。 基礎となるすべてのモデル間の合意を無視したり、基礎となるモデルが存在しない場合、その考えを変更したり、実際に予測することのないオプションを除外したりすることで、操作可能になります。 結果として、アンサンブルアグリゲーションの手順は、情報利用の利点とこれらの予測不安定性のリスクのバランスをとる必要がある。 この分析はまた、特定のアンサンブルアルゴリズムから予想される特定の形の予測不安定性(例えば、ランダムな森やxgboostのような一般的な樹木のアンサンブル)が、基本的な直感的なフェアネス特性に反する、ということにも光を当てている。 最後に、これは漸近的条件下で一貫したモデルを用いて改善可能であることを示す。

In machine learning ensembles predictions from multiple models are aggregated. Despite widespread use and strong performance of ensembles in applied problems little is known about the mathematical properties of aggregating models and associated consequences for safe, explainable use of such models. In this paper we prove a theorem that shows that any ensemble will exhibit at least one of the following forms of prediction instability. It will either ignore agreement among all underlying models, change its mind when none of the underlying models have done so, or be manipulable through inclusion or exclusion of options it would never actually predict. As a consequence, ensemble aggregation procedures will always need to balance the benefits of information use against the risk of these prediction instabilities. This analysis also sheds light on what specific forms of prediction instability to expect from particular ensemble algorithms; for example popular tree ensembles like random forest, or xgboost will violate basic, intuitive fairness properties. Finally, we show that this can be ameliorated by using consistent models in asymptotic conditions.
翻訳日:2024-08-02 13:45:15 公開日:2024-08-01
# YourMT3+: 拡張トランスフォーマーアーキテクチャとデータセット間ステム拡張によるマルチインストラクト音楽の書き起こし

YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation ( http://arxiv.org/abs/2407.04822v3 )

ライセンス: Link先を確認
Sungkyun Chang, Emmanouil Benetos, Holger Kirchhoff, Simon Dixon, (参考訳) マルチストラクチャメント音楽の書き起こしは、ポリフォニック音楽の録音を各楽器に割り当てられた楽譜に変換することを目的としている。 このタスクは、複数の楽器を同時に識別し、ピッチと正確なタイミングを記述する必要があるため、モデリングには困難である。 本稿では,MT3の最近の言語トークン復号法に基づくマルチストラクチャ・ミュージック・書き起こしの強化モデルであるYourMT3+を紹介する。 我々は、時間周波数領域における階層型アテンショントランスフォーマーを採用し、専門家の混在を統合することでエンコーダを強化する。 データ制限に対処するため、不完全なアノテーションでトレーニングを行うための新しいマルチチャネルデコーディング手法を導入し、データセット混合のためのイントラおよびクロスステム拡張を提案する。 実験では,音声分離前処理装置の不要さを排除し,直接音声書き起こし機能を示す。 10の公開データセットのベンチマークは、既存の転写モデルとの競合性、あるいは優位性を示しています。 ポップミュージック録音のさらなるテストは、現在のモデルの限界を強調している。 完全な再現可能なコードとデータセットは、 \url{https://github.com/mimbres/YourMT3}でデモが公開されている。

Multi-instrument music transcription aims to convert polyphonic music recordings into musical scores assigned to each instrument. This task is challenging for modeling as it requires simultaneously identifying multiple instruments and transcribing their pitch and precise timing, and the lack of fully annotated data adds to the training difficulties. This paper introduces YourMT3+, a suite of models for enhanced multi-instrument music transcription based on the recent language token decoding approach of MT3. We enhance its encoder by adopting a hierarchical attention transformer in the time-frequency domain and integrating a mixture of experts. To address data limitations, we introduce a new multi-channel decoding method for training with incomplete annotations and propose intra- and cross-stem augmentation for dataset mixing. Our experiments demonstrate direct vocal transcription capabilities, eliminating the need for voice separation pre-processors. Benchmarks across ten public datasets show our models' competitiveness with, or superiority to, existing transcription models. Further testing on pop music recordings highlights the limitations of current models. Fully reproducible code and datasets are available with demos at \url{https://github.com/mimbres/YourMT3}.
翻訳日:2024-08-02 13:45:15 公開日:2024-08-01
# 保存された$\mathrm{U}(1)$ charge を持つ監視フェルミオンのトラクタブルモデル

A tractable model of monitored fermions with conserved $\mathrm{U}(1)$ charge ( http://arxiv.org/abs/2407.08045v2 )

ライセンス: Link先を確認
Michele Fava, Lorenzo Piroli, Denis Bernard, Adam Nahum, (参考訳) U(1)対称性を持つ自由フェルミオン系の測定誘起相について検討した。 マヨラナ連鎖のために開発された最近のアプローチに従えば、大空間と時間スケールにおける純度と二分性絡み合いの場の理論記述が導出される。 ランダムな複素ホッピングと局所フェルミオン密度の連続モニタリングを併用した多自由な一次元鎖に着目する。 レプリカのトリックを用いて、我々の近似を制御する大きなパラメータとしてフレーバーの数を用いることにより、ゆらぎのある流体力学と結合したSU(N)非線形シグマモデル(NL$\sigma$M)からなる実効場理論を導出する。 相互作用しないマヨラナフェルミオンの場合とは対照的に、U(1)対称性は示さないため、二部共役エントロピーは全てのモニタリングレートに対して面積法則を満たすが、相関長が大きい場合の絡み合いの非自明なスケーリングは成立しない。 我々の主張を支持する数値的な証拠を提供する。 ホッピングに現実条件を与えると、NL$\sigma$Mがどう変化するかを簡単に示し、さらに高次元の一般化について議論する。

We study measurement-induced phases of free fermion systems with U(1) symmetry. Following a recent approach developed for Majorana chains, we derive a field theory description for the purity and bipartite entanglement at large space and time scales. We focus on a multi-flavor one-dimensional chain with random complex hoppings and continuous monitoring of the local fermion density. By means of the replica trick, and using the number of flavors as a large parameter controlling our approximations, we derive an effective field theory made up of a SU(N) non-linear sigma model (NL$\sigma$M) coupled to fluctuating hydrodynamics. Contrary to the case of non-interacting Majorana fermions, displaying no U(1) symmetry, we find that the bipartite entanglement entropy satisfies an area law for all monitoring rates, but with a nontrivial scaling of entanglement when the correlation length is large. We provide numerical evidence supporting our claims. We briefly show how imposing a reality condition on the hoppings can change the NL$\sigma$M and also discuss higher dimensional generalizations.
翻訳日:2024-08-02 13:45:15 公開日:2024-08-01
# 収束パラダイム: LLMを利用した自律エージェントにおけるシンボリックAIとコネクショナリズムAIの相乗効果

Converging Paradigms: The Synergy of Symbolic and Connectionist AI in LLM-Empowered Autonomous Agents ( http://arxiv.org/abs/2407.08516v3 )

ライセンス: Link先を確認
Haoyi Xiong, Zhiyuan Wang, Xuhong Li, Jiang Bian, Zeke Xie, Shahid Mumtaz, Laura E. Barnes, (参考訳) 本稿では,コネクショナリズムと象徴的人工知能(AI)の融合について,歴史的議論から現代的進歩まで検討する。 従来は異なるパラダイムと考えられてきたが、コネクショナリストAIはニューラルネットワークに焦点を当てており、シンボリックAIはシンボリック表現と論理を強調している。 大型言語モデル(LLM)の最近の進歩は、ChatGPTとGPT-4によって実証されたものであり、人間の言語をシンボルとして扱う際のコネクショナリストアーキテクチャの可能性を強調している。 この研究は、LLMを利用した自律エージェント(LAA)がこのパラダイムの収束を具現化していると主張している。 LLMをテキストベースの知識モデリングと表現に活用することにより、LAAはニューロシンボリックAIの原則を統合し、推論と意思決定能力の向上を示す。 ニューロシンボリックAIのテーマの中で、LAAと知識グラフを比較することは、人間のような推論プロセスの模倣、大規模なデータセットの効果的スケーリング、明示的な再トレーニングなしにコンテキスト内サンプルを活用することにおける、LAAのユニークな強みを強調している。 この研究は、LAA機能をさらに強化することを目的とした、ニューロ・ベクター・シンボリック統合、命令エンコーディング、暗黙の推論における有望な進路を裏付けている。 ニューロシンボリックAIの進歩を探求し、将来の研究軌道を提案することにより、この研究はAI技術の理解と開発を前進させる。

This article explores the convergence of connectionist and symbolic artificial intelligence (AI), from historical debates to contemporary advancements. Traditionally considered distinct paradigms, connectionist AI focuses on neural networks, while symbolic AI emphasizes symbolic representation and logic. Recent advancements in large language models (LLMs), exemplified by ChatGPT and GPT-4, highlight the potential of connectionist architectures in handling human language as a form of symbols. The study argues that LLM-empowered Autonomous Agents (LAAs) embody this paradigm convergence. By utilizing LLMs for text-based knowledge modeling and representation, LAAs integrate neuro-symbolic AI principles, showcasing enhanced reasoning and decision-making capabilities. Comparing LAAs with Knowledge Graphs within the neuro-symbolic AI theme highlights the unique strengths of LAAs in mimicking human-like reasoning processes, scaling effectively with large datasets, and leveraging in-context samples without explicit re-training. The research underscores promising avenues in neuro-vector-symbolic integration, instructional encoding, and implicit reasoning, aimed at further enhancing LAA capabilities. By exploring the progression of neuro-symbolic AI and proposing future research trajectories, this work advances the understanding and development of AI technologies.
翻訳日:2024-08-02 13:45:15 公開日:2024-08-01
# 普遍クディットゲートに対するランダムなベンチマーク

Randomised benchmarking for universal qudit gates ( http://arxiv.org/abs/2407.10396v2 )

ライセンス: Link先を確認
David Amaro-Alcalá, Barry C. Sanders, Hubert de Guise, (参考訳) 我々は,単量子および多量子系に対する対角的非クリフォードゲートを特徴付けるスケーラブルなスキームを確立することを目指しており, \(d\) は素数整数である。 巡回演算子とキューディットTゲートを用いることで、シングルおよびマルチキューディット回路に対する二面体ベンチマークスキームを一般化する。 提案手法は, クディット・クリフォードゲートの完全配置を必要とせず, 非クリフォードゲートを特徴付けるため, 提案手法が最適であるため, 理論的, 実験的に注目される。 さらに、クリフォードランダム化ベンチマークと組み合わせることで、ユニバーサルゲートセットのジェネレータを特徴付けるのに有用である。

We aim to establish a scalable scheme for characterising diagonal non-Clifford gates for single- and multi-qudit systems; \(d\) is a prime-power integer. By employing cyclic operators and a qudit T gate, we generalise the dihedral benchmarking scheme for single- and multi-qudit circuits. Our results establish a path for experimentally benchmarking qudit systems and are of theoretical and experimental interest because our scheme is optimal insofar as it does not require preparation of the full qudit Clifford gate set to characterise a non-Clifford gate. Moreover, combined with Clifford randomised benchmarking, our scheme is useful to characterise the generators of a universal gate set.
翻訳日:2024-08-02 13:45:15 公開日:2024-08-01
# 医療技術評価のためのジェネレーティブAI : 機会,課題,政策的考察

Generative AI for Health Technology Assessment: Opportunities, Challenges, and Policy Considerations ( http://arxiv.org/abs/2407.11054v2 )

ライセンス: Link先を確認
Rachael Fleurence, Jiang Bian, Xiaoyan Wang, Hua Xu, Dalia Dawoud, Mitch Higashi, Jagpreet Chhatwal, (参考訳) 本稿では,医療技術評価(HTA)のための生成人工知能(AI)と,大規模言語モデル(LLM)を含む基礎モデルについて紹介する。 1)エビデンス・シンセサイザー、エビデンス・ジェネレーション、臨床試験、経済モデリングの応用を探る:(1)エビデンス・シンセサイザー: 生成AIは、文献レビューとメタアナリシスの自動化を支援する能力を持ち、検索用語の提案、要約のスクリーニング、顕著な精度でデータの抽出を行う。(2)エビデンス・ジェネレーション: これらのモデルにより、プロセスの自動化と、非構造化された臨床ノートや画像を含む利用可能な膨大な実世界のデータ(RWD)の収集、実世界のエビデンス(RWE)生成のスピードと品質の向上、(3)臨床試験: 生成AIは、治験設計を最適化し、患者マッチングを改善し、治験データをより効率的に管理するために使用できる;(4)エビデンス・モデリング: 経済モデルの開発にも役立つ。 約束にもかかわらず、これらの技術は急速に改善されているものの、まだ初期段階にあり、HTAへの適用には慎重な評価が引き続き必要である。 責任ある使用と実施を保証するため、これらのツールを取り入れた研究の開発者と利用者は、科学的妥当性、偏見のリスク、公平性や倫理的含意など、現在の制限に精通するべきである。 我々はまた、現在の政策状況を調査し、HTAエージェンシーに対して、生成AIを彼らのワークフローに責任を持って統合することを提案し、人間の監視の重要性とこれらのツールの急速な進化の性質を強調した。

This review introduces the transformative potential of generative Artificial Intelligence (AI) and foundation models, including large language models (LLMs), for health technology assessment (HTA). We explore their applications in four critical areas, evidence synthesis, evidence generation, clinical trials and economic modeling: (1) Evidence synthesis: Generative AI has the potential to assist in automating literature reviews and meta-analyses by proposing search terms, screening abstracts, and extracting data with notable accuracy; (2) Evidence generation: These models can potentially facilitate automating the process and analyze the increasingly available large collections of real-world data (RWD), including unstructured clinical notes and imaging, enhancing the speed and quality of real-world evidence (RWE) generation; (3) Clinical trials: Generative AI can be used to optimize trial design, improve patient matching, and manage trial data more efficiently; and (4) Economic modeling: Generative AI can also aid in the development of health economic models, from conceptualization to validation, thus streamlining the overall HTA process. Despite their promise, these technologies, while rapidly improving, are still nascent and continued careful evaluation in their applications to HTA is required. To ensure their responsible use and implementation, both developers and users of research incorporating these tools, should familiarize themselves with their current limitations, including the issues related to scientific validity, risk of bias, and consider equity and ethical implications. We also surveyed the current policy landscape and provide suggestions for HTA agencies on responsibly integrating generative AI into their workflows, emphasizing the importance of human oversight and the fast-evolving nature of these tools.
翻訳日:2024-08-02 13:45:15 公開日:2024-08-01
# The Devil is in the Statistics: Mitigating and Exploiting Statistics difference for generalizable Semi-supervised Medical Image Segmentation

The Devil is in the Statistics: Mitigating and Exploiting Statistics Difference for Generalizable Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2407.11356v2 )

ライセンス: Link先を確認
Muyang Qiu, Jian Zhang, Lei Qi, Qian Yu, Yinghuan Shi, Yang Gao, (参考訳) 医用画像セグメンテーションにおける領域一般化の成功にもかかわらず、すべてのソースドメインに対するvoxel-wiseアノテーションは依然として大きな負担である。 半教師付き領域の一般化は、複数の医療機関から収集された豊富なラベルなしデータとともに、同時にラベルなしデータを正確に活用し、同時に一般化を改善しながら、制限付きラベル付きデータを活用することで、この課題に対処するために提案されている。 本研究では,医療機関間のドメインシフトが異質な特徴統計を引き起こし,予期せぬ正規化プロセスにより擬似ラベルの品質が著しく低下するのを観察する。 それでもこの現象は、目に見えない領域の一般化を促進するために利用することができる。 そこで,我々は提案する。 1)信頼できる擬似ラベルに対する領域シフトの影響を緩和する複数の統計・個人分枝 2) ドメイン不変な特徴学習のための統計集約ブランチ。 さらに,画像レベルでのヒストグラムマッチングによる摂動と特徴レベルでのランダムなバッチ正規化選択戦略という2つの側面から,統計的差異のある未確認領域をシミュレートする。 3つの医用画像データセットの評価結果から,最近のSOTA法と比較して,本手法の有効性が示された。 コードはhttps://github.com/qiumuyang/SIABで公開されている。

Despite the recent success of domain generalization in medical image segmentation, voxel-wise annotation for all source domains remains a huge burden. Semi-supervised domain generalization has been proposed very recently to combat this challenge by leveraging limited labeled data along with abundant unlabeled data collected from multiple medical institutions, depending on precisely harnessing unlabeled data while improving generalization simultaneously. In this work, we observe that domain shifts between medical institutions cause disparate feature statistics, which significantly deteriorates pseudo-label quality due to an unexpected normalization process. Nevertheless, this phenomenon could be exploited to facilitate unseen domain generalization. Therefore, we propose 1) multiple statistics-individual branches to mitigate the impact of domain shifts for reliable pseudo-labels and 2) one statistics-aggregated branch for domain-invariant feature learning. Furthermore, to simulate unseen domains with statistics difference, we approach this from two aspects, i.e., a perturbation with histogram matching at image level and a random batch normalization selection strategy at feature level, producing diverse statistics to expand the training distribution. Evaluation results on three medical image datasets demonstrate the effectiveness of our method compared with recent SOTA methods. The code is available at https://github.com/qiumuyang/SIAB.
翻訳日:2024-08-02 13:45:15 公開日:2024-08-01
# LLMはどのようにしてステレオタイピングのハームを模倣するのか? 検索エンジン研究から学ぶ

How Are LLMs Mitigating Stereotyping Harms? Learning from Search Engine Studies ( http://arxiv.org/abs/2407.11733v2 )

ライセンス: Link先を確認
Alina Leidinger, Richard Rogers, (参考訳) ChatGPTのリリース以降のLLMの普及と公衆の監視の高まりにより、商業モデル開発は社会的影響評価を犠牲にして、法的負債に関する「安全」トレーニングに重点を置いていたようである。 これは、数年前に検索エンジンのオートコンプリートを観測できる同様の傾向を模倣している。 我々は,NLPと検索エンジン監査から奨学金を得て,LLMにおけるステレオタイピングを評価するための自動補完プロンプトのスタイルで,新しい評価課題を提示する。 4つの指標(拒絶率、毒性、感情と配慮)を用いてLCMを評価する。 以上の結果から,システム・プロンプトによるステレオタイピングのアウトプットの改善が示唆された。 交差したアイデンティティの仮定は不均等な量のステレオタイピングを引き起こす。 最後に, LLM と検索の相互干渉にともなうステレオタイピング障害に関するこれらの知見と, 適用すべきステレオタイピング緩和政策の選択について考察する。 モデル構築者、学者、NLP実践者、政策立案者に対処し、ステレオタイピングの害に関する説明責任と認識を要求し、データキュレーションのトレーニング、リーダーボードの設計と使用、社会的影響の測定を行う。

With the widespread availability of LLMs since the release of ChatGPT and increased public scrutiny, commercial model development appears to have focused their efforts on 'safety' training concerning legal liabilities at the expense of social impact evaluation. This mimics a similar trend which we could observe for search engine autocompletion some years prior. We draw on scholarship from NLP and search engine auditing and present a novel evaluation task in the style of autocompletion prompts to assess stereotyping in LLMs. We assess LLMs by using four metrics, namely refusal rates, toxicity, sentiment and regard, with and without safety system prompts. Our findings indicate an improvement to stereotyping outputs with the system prompt, but overall a lack of attention by LLMs under study to certain harms classified as toxic, particularly for prompts about peoples/ethnicities and sexual orientation. Mentions of intersectional identities trigger a disproportionate amount of stereotyping. Finally, we discuss the implications of these findings about stereotyping harms in light of the coming intermingling of LLMs and search and the choice of stereotyping mitigation policy to adopt. We address model builders, academics, NLP practitioners and policy makers, calling for accountability and awareness concerning stereotyping harms, be it for training data curation, leader board design and usage, or social impact measurement.
翻訳日:2024-08-02 13:45:15 公開日:2024-08-01
# データ再ロード分類器のための量子ハミルトニアン埋め込み

Quantum Hamiltonian Embedding of Images for Data Reuploading Classifiers ( http://arxiv.org/abs/2407.14055v2 )

ライセンス: Link先を確認
Peiyong Wang, Casey R. Myers, Lloyd C. L. Hollenberg, Udaya Parampalli, (参考訳) 機械学習タスクに量子コンピューティングを適用する場合、最初の考慮事項の1つは、量子機械学習モデル自体の設計である。 従来、量子機械学習アルゴリズムの設計は古典的学習アルゴリズムの「量子化」に依存しており、例えば量子線形代数を用いて古典的アルゴリズムの重要なサブルーチンを実装している。 しかし、最近の研究では、スピードアップによる量子アドバンテージが量子機械学習の正しい目標であるかどうかを疑問視する研究が始まっている。 量子文脈性(quantum contextuality)のような量子システム特有の特性を利用して量子機械学習モデル [2] を設計する研究も行われている。 本稿では,古典的なディープラーニングアルゴリズムの設計から量子ニューラルネットワークの設計へのヒューリスティックスと経験的エビデンスを取り入れた代替手法を提案する。 まず、量子ハミルトンデータ埋め込みユニタリ[4]を用いて、データ再ロード回路[3]に基づくモデルを構築する。 有名なMNISTデータセットやFashionMNISTデータセットを含む画像データセットに関する数値実験を通じて、我々のモデルは量子畳み込みニューラルネットワーク(QCNN)[5]を大きなマージン(最大40%のMNISTテストセット)で上回っていることを実証した。 モデル設計プロセスと数値結果に基づいて、量子機械学習モデル、特に量子ニューラルネットワークを設計するための6つの原則を概説した。

When applying quantum computing to machine learning tasks, one of the first considerations is the design of the quantum machine learning model itself. Conventionally, the design of quantum machine learning algorithms relies on the ``quantisation" of classical learning algorithms, such as using quantum linear algebra to implement important subroutines of classical algorithms, if not the entire algorithm, seeking to achieve quantum advantage through possible run-time accelerations brought by quantum computing. However, recent research has started questioning whether quantum advantage via speedup is the right goal for quantum machine learning [1]. Research also has been undertaken to exploit properties that are unique to quantum systems, such as quantum contextuality, to better design quantum machine learning models [2]. In this paper, we take an alternative approach by incorporating the heuristics and empirical evidences from the design of classical deep learning algorithms to the design of quantum neural networks. We first construct a model based on the data reuploading circuit [3] with the quantum Hamiltonian data embedding unitary [4]. Through numerical experiments on images datasets, including the famous MNIST and FashionMNIST datasets, we demonstrate that our model outperforms the quantum convolutional neural network (QCNN)[5] by a large margin (up to over 40% on MNIST test set). Based on the model design process and numerical results, we then laid out six principles for designing quantum machine learning models, especially quantum neural networks.
翻訳日:2024-08-02 13:45:14 公開日:2024-08-01
# AI設計と検証のためのネストモデル

A Nested Model for AI Design and Validation ( http://arxiv.org/abs/2407.16888v2 )

ライセンス: Link先を確認
Akshat Dubey, Zewen Yang, Georges Hattab, (参考訳) 成長するAI分野は、信頼、透明性、公正、差別といった課題に直面している。 新しい規制の必要性にもかかわらず、規制科学とAIの間にはミスマッチがあり、一貫したフレームワークが妨げられている。 AI設計とバリデーションのための5層ネストモデルでは、これらの問題に対処し、AIアプリケーションの設計とバリデーションを合理化し、公正性、信頼、AIの採用を改善することを目的としている。 このモデルは規則に準拠し、AI実践者の日々の課題に対処し、ユニークな妥当性の脅威を特定して適切な評価アプローチを決定するための規範的なガイダンスを提供する。 著者は、コントリビューションが行われる特定の領域を明確にするために貢献を主張するときにレイヤを区別し、混乱を避けるために、著者は、AIシステムのコンテキストと制限が明確に理解されていることを保証するために、アップストリームの仮定を明示的に記述する必要がある。

The growing AI field faces trust, transparency, fairness, and discrimination challenges. Despite the need for new regulations, there is a mismatch between regulatory science and AI, preventing a consistent framework. A five-layer nested model for AI design and validation aims to address these issues and streamline AI application design and validation, improving fairness, trust, and AI adoption. This model aligns with regulations, addresses AI practitioner's daily challenges, and offers prescriptive guidance for determining appropriate evaluation approaches by identifying unique validity threats. We have three recommendations motivated by this model: authors should distinguish between layers when claiming contributions to clarify the specific areas in which the contribution is made and to avoid confusion, authors should explicitly state upstream assumptions to ensure that the context and limitations of their AI system are clearly understood, AI venues should promote thorough testing and validation of AI systems and their compliance with regulatory requirements.
翻訳日:2024-08-02 13:45:14 公開日:2024-08-01
# COKE: 製造データ不足の統計における時系列と専門知識による因果発見

COKE: Causal Discovery with Chronological Order and Expert Knowledge in High Proportion of Missing Manufacturing Data ( http://arxiv.org/abs/2407.12254v2 )

ライセンス: Link先を確認
Ting-Yun Ou, Ching Chang, Wen-Chih Peng, (参考訳) 機械間の因果関係を理解することは、製造プロセスにおける故障診断と最適化に不可欠である。 現実世界のデータセットは、最大90%の欠落したデータと数百のセンサーから高次元性を示す。 これらのデータセットにはドメイン固有の専門知識や時系列情報が含まれており、製造データ内の因果関係を識別する上で重要な、異なるマシン間での記録順序を反映している。 しかし、現実の状況に類似したシナリオで欠落したデータを扱う従来の手法では、専門家の知識を効果的に活用することはできなかった。 逆に、専門家の知識を取り入れた事前の方法は、欠落した値を示すデータセットと苦労する。 そこで本研究では,センサ間の知識と時系列の整合性を利用して,データセットの因果グラフを構築するためのCOKEを提案する。 レシピの特徴を利用して、不足値のサンプルの使用を最大化し、専門家の知識と時系列を組み込んだ初期グラフとの交点からの埋め込みを導出し、センサの順序付けグラフを作成する。 グラフ生成プロセスはアクター批判アーキテクチャによって最適化され、最大報酬を持つ最終グラフを得る。 センサ量の多様さと欠落率を実験的に評価した結果,F1スコアの平均39.9%の改善が確認された。 さらに、F1スコアの改善は、実世界のデータセットに似た構成を考えると62.6%、実世界の半導体データセットでは85.0%に達する。 ソースコードはhttps://github.com/OuTingYun/COKEで入手できる。

Understanding causal relationships between machines is crucial for fault diagnosis and optimization in manufacturing processes. Real-world datasets frequently exhibit up to 90% missing data and high dimensionality from hundreds of sensors. These datasets also include domain-specific expert knowledge and chronological order information, reflecting the recording order across different machines, which is pivotal for discerning causal relationships within the manufacturing data. However, previous methods for handling missing data in scenarios akin to real-world conditions have not been able to effectively utilize expert knowledge. Conversely, prior methods that can incorporate expert knowledge struggle with datasets that exhibit missing values. Therefore, we propose COKE to construct causal graphs in manufacturing datasets by leveraging expert knowledge and chronological order among sensors without imputing missing data. Utilizing the characteristics of the recipe, we maximize the use of samples with missing values, derive embeddings from intersections with an initial graph that incorporates expert knowledge and chronological order, and create a sensor ordering graph. The graph-generating process has been optimized by an actor-critic architecture to obtain a final graph that has a maximum reward. Experimental evaluations in diverse settings of sensor quantities and missing proportions demonstrate that our approach compared with the benchmark methods shows an average improvement of 39.9% in the F1-score. Moreover, the F1-score improvement can reach 62.6% when considering the configuration similar to real-world datasets, and 85.0% in real-world semiconductor datasets. The source code is available at https://github.com/OuTingYun/COKE.
翻訳日:2024-08-02 13:35:28 公開日:2024-08-01
# 野生における複合マルチモーダル感情認識のためのテキスト化モデルと特徴ベースモデル

Textualized and Feature-based Models for Compound Multimodal Emotion Recognition in the Wild ( http://arxiv.org/abs/2407.12927v2 )

ライセンス: Link先を確認
Nicolas Richet, Soufiane Belharbi, Haseeb Aslam, Meike Emilie Schadt, Manuela González-González, Gustave Cortal, Alessandro Lameiras Koerich, Marco Pedersoli, Alain Finkel, Simon Bacon, Eric Granger, (参考訳) マルチモーダル感情認識(ER)システムは、個々の基本的な感情を予測するために組み合わされた様々なモーダル(例えば、視覚、音声、テキスト)から特徴を抽出するために一般的に訓練されている。 しかし、複合的な感情は現実世界のシナリオでしばしば発生し、多様なモダリティよりも複雑な感情を認識するという不確実性は、特徴ベースのモデルでは困難である。 モダリティのテクスト化は、LLMが共有テキスト空間内のすべてのモダリティ間の相互接続を符号化するのを助けるために、感情的な手がかりでデータを増大させる。 このようなテキストベースモデルでは、ERタスクの事前知識を利用して、音声表現からの音声トーンや表情からのアクション単位強度といった、関連する非言語的手がかりをテキスト化する。 事前訓練された重量は、多くのLLMで利用可能であるため、大規模なデータセットのトレーニングは不要であり、複合ER(CER)のような下流タスクの微調整を可能にする。 本稿では,ビデオにおける複合マルチモーダルERのテキストと特徴に基づくアプローチの可能性について比較する。 CERのための挑戦的なC-EXPR-DBデータセットの実験を行い、基礎ERのためのMELDデータセットの結果と比較した。 以上の結果から,C-EXPR-DBにおける特徴ベースモデルよりもマルチモーダルテクスチャライゼーションの精度が低いことが示唆された。 しかし、ビデオデータにリッチな書き起こしがある場合、高い精度が得られる。 私たちのコードは利用可能です。

Systems for multimodal emotion recognition (ER) are commonly trained to extract features from different modalities (e.g., visual, audio, and textual) that are combined to predict individual basic emotions. However, compound emotions often occur in real-world scenarios, and the uncertainty of recognizing such complex emotions over diverse modalities is challenging for feature-based models As an alternative, emerging multimodal large language models (LLMs) like BERT and LLaMA rely on explicit non-verbal cues that may be translated from different non-textual modalities (e.g., audio and visual) into text. Textualization of modalities augments data with emotional cues to help the LLM encode the interconnections between all modalities in a shared text space. In such text-based models, prior knowledge of ER tasks is leveraged to textualize relevant nonverbal cues such as audio tone from vocal expressions, and action unit intensity from facial expressions. Since the pre-trained weights are publicly available for many LLMs, training on large-scale datasets is unnecessary, allowing fine-tuning for downstream tasks such as compound ER (CER). This paper compares the potential of text- and feature-based approaches for compound multimodal ER in videos. Experiments were conducted on the challenging C-EXPR-DB dataset in the wild for CER, and contrasted with results on the MELD dataset for basic ER. Our results indicate that multimodal textualization provides lower accuracy than feature-based models on C-EXPR-DB, where text transcripts are captured in the wild. However, higher accuracy can be achieved when the video data has rich transcripts. Our code is available.
翻訳日:2024-08-02 13:35:28 公開日:2024-08-01
# 畳み込みニューラルネットワークを用いた画像超解像再構成機構に関する研究

Research on Image Super-Resolution Reconstruction Mechanism based on Convolutional Neural Network ( http://arxiv.org/abs/2407.13211v2 )

ライセンス: Link先を確認
Hao Yan, Zixiang Wang, Zhengjia Xu, Zhuoyue Wang, Zhizhong Wu, Ranran Lyu, (参考訳) 超高解像度再構成技術は、同一シーンから撮影された1つ以上の低解像度画像を高解像度画像に変換するためのソフトウェアアルゴリズムの利用を必要とする。 近年、シングルイメージ超解像アルゴリズムの領域、特にディープラーニング技術に基づく領域において、かなりの進歩が観察されている。 それでも、再構成過程における画像の特徴抽出や非線形マッピング手法は、既存のアルゴリズムでは難しいままである。 これらの問題により、ネットワークアーキテクチャは様々なレベルで多様な情報を効果的に活用できない。 微細なテクスチャの詳細が欠如しているため、最終的な再構成画像の特徴は過度に滑らかである。 これは画像の主観的な視覚的品質に悪影響を及ぼす。 目的は、高解像度の画像から高品質で高解像度の画像を復元することである。 本研究では,複数の畳み込み層から構成される深層畳み込みニューラルネットワークモデルを用いて,画像の多様な特徴を効果的に捉えるために,特定のフィルタとアクティベーション機能を備える。 さらに、トレーニングを加速し、ネットワークの収束を高めるために残留学習戦略を採用し、サブピクセル畳み込み層を利用して、画像の高周波の詳細やテクスチャを洗練させる。 実験により、従来のバイコビック補間法や他の学習に基づく超解像法と比較して、複数の公開データセット上でのモデルの有効性が示された。 さらに、画像のエッジやテクスチャを維持する上で、モデルの有効性を証明する。

Super-resolution reconstruction techniques entail the utilization of software algorithms to transform one or more sets of low-resolution images captured from the same scene into high-resolution images. In recent years, considerable advancement has been observed in the domain of single-image super-resolution algorithms, particularly those based on deep learning techniques. Nevertheless, the extraction of image features and nonlinear mapping methods in the reconstruction process remain challenging for existing algorithms. These issues result in the network architecture being unable to effectively utilize the diverse range of information at different levels. The loss of high-frequency details is significant, and the final reconstructed image features are overly smooth, with a lack of fine texture details. This negatively impacts the subjective visual quality of the image. The objective is to recover high-quality, high-resolution images from low-resolution images. In this work, an enhanced deep convolutional neural network model is employed, comprising multiple convolutional layers, each of which is configured with specific filters and activation functions to effectively capture the diverse features of the image. Furthermore, a residual learning strategy is employed to accelerate training and enhance the convergence of the network, while sub-pixel convolutional layers are utilized to refine the high-frequency details and textures of the image. The experimental analysis demonstrates the superior performance of the proposed model on multiple public datasets when compared with the traditional bicubic interpolation method and several other learning-based super-resolution methods. Furthermore, it proves the model's efficacy in maintaining image edges and textures.
翻訳日:2024-08-02 13:35:28 公開日:2024-08-01
# Prover-Verifier Games は LLM 出力の可視性を向上する

Prover-Verifier Games improve legibility of LLM outputs ( http://arxiv.org/abs/2407.13692v2 )

ライセンス: Link先を確認
Jan Hendrik Kirchner, Yining Chen, Harri Edwards, Jan Leike, Nat McAleese, Yuri Burda, (参考訳) LLMs(Large Language Models)のアウトプットに対する信頼性を高めるひとつの方法は、明確で、簡単にチェックできるという理由から、それらをサポートすることです。 小学校数学の問題を解く文脈における正当性について検討し、解答の正当性のみにチェーン・オブ・プリート・ソリューションを最適化することは、それらの正当性を損なうことを示す。 本稿では,Anil et al (2021) の Prover-Verifier Game に触発された学習アルゴリズムを提案する。 我々のアルゴリズムは、解の正確性を予測するために小さな検証器を反復的に訓練し、検証器が受け入れる正しい解を生成するために「ヘルプフル」プローバーと、検証器を騙す誤った解を生成するために「スネーク」プローバーを作成した。 その結果, 有効証明者の精度と検証者の対人攻撃に対する堅牢性は, 訓練期間中に増大することがわかった。 さらに, 解の正当性を検証した時間制約型人間に対して, 正当性訓練を施すことを示す。 LLMトレーニングの過程で、有効な証明者の解をチェックすると人間の精度が増加し、スニージーな証明者の解をチェックすると減少する。 したがって、小検証器による検証可能性の訓練は、出力の正当性を高めるための妥当な手法である。 本研究は,人間に対するLLMの妥当性を高めるための実践的方法として,小検証器に対する妥当性訓練を行うことを示唆し,超人的モデルの整合性向上に寄与する可能性が示唆された。

One way to increase confidence in the outputs of Large Language Models (LLMs) is to support them with reasoning that is clear and easy to check -- a property we call legibility. We study legibility in the context of solving grade-school math problems and show that optimizing chain-of-thought solutions only for answer correctness can make them less legible. To mitigate the loss in legibility, we propose a training algorithm inspired by Prover-Verifier Game from Anil et al. (2021). Our algorithm iteratively trains small verifiers to predict solution correctness, "helpful" provers to produce correct solutions that the verifier accepts, and "sneaky" provers to produce incorrect solutions that fool the verifier. We find that the helpful prover's accuracy and the verifier's robustness to adversarial attacks increase over the course of training. Furthermore, we show that legibility training transfers to time-constrained humans tasked with verifying solution correctness. Over course of LLM training human accuracy increases when checking the helpful prover's solutions, and decreases when checking the sneaky prover's solutions. Hence, training for checkability by small verifiers is a plausible technique for increasing output legibility. Our results suggest legibility training against small verifiers as a practical avenue for increasing legibility of large LLMs to humans, and thus could help with alignment of superhuman models.
翻訳日:2024-08-02 13:35:28 公開日:2024-08-01
# 生音声における音楽類似度指標を用いた音楽生成におけるデータ複製の評価に向けて

Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio ( http://arxiv.org/abs/2407.14364v2 )

ライセンス: Link先を確認
Roser Batlle-Roca, Wei-Hisang Liao, Xavier Serra, Yuki Mitsufuji, Emilia Gómez, (参考訳) 音楽生成の最近の進歩は、創造的音楽プロセスにおけるAIの影響、現在のビジネスモデル、知的財産管理に関連する影響について、様々な懸念を提起している。 関連する議論と関連する技術的な課題は、AI生成音楽におけるトレーニングセットの複製と盗用の可能性であり、データや知的財産権侵害の誤用につながる可能性がある。 この問題に対処するために,様々なオーディオ音楽類似度指標に基づくモデルに依存しないオープン評価手法である音楽レプリケーションアセスメント(MiRA)ツールを提案する。 合成サンプルを用いて,異なるジャンルの楽曲の再現実験を行うことで,正確な複製を識別する5つの指標の能力を評価する。 提案手法は,10%以上の比率で正確なデータ複製を推定できることを示す。 MiRAツールを導入することで、研究者、開発者、利用者によるデータ複製に関する音楽生成モデルのオープンな評価を奨励し、倫理的、社会的、法的、経済的結果の重要性を強調します。 コードとサンプルは再現性のために利用可能だ。

Recent advancements in music generation are raising multiple concerns about the implications of AI in creative music processes, current business models and impacts related to intellectual property management. A relevant discussion and related technical challenge is the potential replication and plagiarism of the training set in AI-generated music, which could lead to misuse of data and intellectual property rights violations. To tackle this issue, we present the Music Replication Assessment (MiRA) tool: a model-independent open evaluation method based on diverse audio music similarity metrics to assess data replication. We evaluate the ability of five metrics to identify exact replication by conducting a controlled replication experiment in different music genres using synthetic samples. Our results show that the proposed methodology can estimate exact data replication with a proportion higher than 10%. By introducing the MiRA tool, we intend to encourage the open evaluation of music-generative models by researchers, developers, and users concerning data replication, highlighting the importance of the ethical, social, legal, and economic consequences. Code and examples are available for reproducibility purposes.
翻訳日:2024-08-02 13:35:28 公開日:2024-08-01
# Jumping Ahead: JumpReLUスパースオートエンコーダによる再構成精度の向上

Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders ( http://arxiv.org/abs/2407.14435v3 )

ライセンス: Link先を確認
Senthooran Rajamanoharan, Tom Lieberum, Nicolas Sonnerat, Arthur Conmy, Vikrant Varma, János Kramár, Neel Nanda, (参考訳) スパースオートエンコーダ(SAE)は、言語モデル(LM)アクティベーションにおける因果関係および解釈可能な線形特徴を特定するための有望な教師なしアプローチである。 下流タスクに役立てるためには、SAEはLMアクティベーションを忠実に分解する必要がある。 本稿では,Gated や TopK SAE などの最近の進歩と比較して,Gemma 2 9B アクティベーションの間隔レベルにおいて,最先端の再現忠実度を達成するJumpReLU SAE を紹介する。 また、この改善は、手動および自動解釈可能性研究による解釈可能性のコストを伴わないことを示した。 JumpReLU SAE はバニラ (ReLU) SAE の単純な修正であり、ReLU を不連続のJumpReLU アクティベーション関数に置き換える。 直線スルー推定器(STE)を原理的に利用することにより,SAEの前方通過で導入された不連続なJumpReLU関数にもかかわらず,JumpReLU SAEを効果的に訓練できることを示す。 同様に、私たちはSTEを使用して、L1のようなプロキシでトレーニングするのではなく、L0を直接スパースにトレーニングします。

Sparse autoencoders (SAEs) are a promising unsupervised approach for identifying causally relevant and interpretable linear features in a language model's (LM) activations. To be useful for downstream tasks, SAEs need to decompose LM activations faithfully; yet to be interpretable the decomposition must be sparse -- two objectives that are in tension. In this paper, we introduce JumpReLU SAEs, which achieve state-of-the-art reconstruction fidelity at a given sparsity level on Gemma 2 9B activations, compared to other recent advances such as Gated and TopK SAEs. We also show that this improvement does not come at the cost of interpretability through manual and automated interpretability studies. JumpReLU SAEs are a simple modification of vanilla (ReLU) SAEs -- where we replace the ReLU with a discontinuous JumpReLU activation function -- and are similarly efficient to train and run. By utilising straight-through-estimators (STEs) in a principled manner, we show how it is possible to train JumpReLU SAEs effectively despite the discontinuous JumpReLU function introduced in the SAE's forward pass. Similarly, we use STEs to directly train L0 to be sparse, instead of training on proxies such as L1, avoiding problems like shrinkage.
翻訳日:2024-08-02 13:35:28 公開日:2024-08-01
# 機械学習における量子アドバンテージと高速リトレーニングの火花

Sparks of Quantum Advantage and Rapid Retraining in Machine Learning ( http://arxiv.org/abs/2407.16020v3 )

ライセンス: Link先を確認
William Troy, (参考訳) 量子コンピューティングの出現は、古典的コンピュータよりも複雑な問題を効率的に解くことによって、様々な分野に革命をもたらす可能性を秘めている。 この約束にもかかわらず、実用的な量子優位性は、現在のハードウェアの制限、特に少数の量子ビットと高いノイズレベルによって妨げられている。 本研究では,低パラメータで複雑な関数を表現するためのニューラルネットワークアーキテクチャであるKolmogorov-Arnold Networksを最適化するために,断熱量子コンピュータを活用する。 ネットワークをベージエ曲線を基底関数として用いるように修正し、最適化問題を擬似非制約二項最適化問題に定式化することにより、トレーニングサンプル数に依存しない固定サイズの解空間を創出する。 提案手法は,Adam,Stochastic Gradient Descent,Adaptive Gradient,シミュレートされたアニーリングなどの古典的オプティマイザと比較して,より高速なトレーニング時間による量子優位性を示す。 さらに,新しい高速リトレーニング機能を導入し,古いサンプルを再処理することなくネットワークを新しいデータで再トレーニングし,動的環境における学習効率を向上させる。 分類タスクと回帰タスクの初期訓練による実験結果から,本手法の有効性を検証し,従来の手法に匹敵する有意な高速化と性能を示した。 リトレーニングの実験では、勾配降下に基づく最適化よりも断熱的量子コンピューティングによる最適化で60倍のスピードアップが示され、理論モデルによりこのスピードアップが可能になったのです! 量子ハードウェアとアルゴリズム最適化のさらなる進歩により、量子最適化機械学習モデルは様々な領域にまたがって幅広い応用が可能となり、当初は高速リトレーニングに重点を置いていた。

The advent of quantum computing holds the potential to revolutionize various fields by solving complex problems more efficiently than classical computers. Despite this promise, practical quantum advantage is hindered by current hardware limitations, notably the small number of qubits and high noise levels. In this study, we leverage adiabatic quantum computers to optimize Kolmogorov-Arnold Networks, a powerful neural network architecture for representing complex functions with minimal parameters. By modifying the network to use Bezier curves as the basis functions and formulating the optimization problem into a Quadratic Unconstrained Binary Optimization problem, we create a fixed-sized solution space, independent of the number of training samples. Our approach demonstrates sparks of quantum advantage through faster training times compared to classical optimizers such as the Adam, Stochastic Gradient Descent, Adaptive Gradient, and simulated annealing. Additionally, we introduce a novel rapid retraining capability, enabling the network to be retrained with new data without reprocessing old samples, thus enhancing learning efficiency in dynamic environments. Experimental results on initial training of classification and regression tasks validate the efficacy of our approach, showcasing significant speedups and comparable performance to classical methods. While experiments on retraining demonstrate a sixty times speed up using adiabatic quantum computing based optimization compared to that of the gradient descent based optimizers, with theoretical models allowing this speed up to be even larger! Our findings suggest that with further advancements in quantum hardware and algorithm optimization, quantum-optimized machine learning models could have broad applications across various domains, with initial focus on rapid retraining.
翻訳日:2024-08-02 13:35:28 公開日:2024-08-01
# 1次元対称射影対角状態

1-Form Symmetric Projected Entangled-Pair States ( http://arxiv.org/abs/2407.16531v2 )

ライセンス: Link先を確認
Yi Tan, Ji-Yao Chen, Didier Poilblanc, Fei Ye, Jia-Wei Mei, (参考訳) ループ様対称性として表される1-形式対称性は、量子相の研究で顕著となり、対称性の理解を深めている。 しかし、二次元テンソルネットワーク状態である射影エンタングルドペア状態(PEPS)における1形式対称性の役割は、いまだほとんど解明されていない。 具体的には,PEPS仮想脚上の対称性行列の代数的関係の導出に着目し,テンソルネットワーク内の1-形式対称性を理解するための新しい枠組みを提案する。 以上の結果から, 1-形式対称性はテンソルネットワーク表現に厳密な制約を課し, 対称性行列が持つ異常なブレイディング位相を導出した。 これらの対称性がPEPSの基底状態と接空間にどのように影響するかを実証し、基底状態最適化の効率を高め、励起状態における1-形式対称性構造を特徴づけるために、それらの物理的意味について新たな知見を提供する。

The 1-form symmetry, manifesting as loop-like symmetries, has gained prominence in the study of quantum phases, deepening our understanding of symmetry. However, the role of 1-form symmetries in Projected Entangled-Pair States (PEPS), two-dimensional tensor network states, remains largely underexplored. We present a novel framework for understanding 1-form symmetries within tensor networks, specifically focusing on the derivation of algebraic relations for symmetry matrices on the PEPS virtual legs. Our results reveal that 1-form symmetries impose stringent constraints on tensor network representations, leading to distinct anomalous braiding phases carried by symmetry matrices. We demonstrate how these symmetries influence the ground state and tangent space in PEPS, providing new insights into their physical implications for enhancing ground state optimization efficiency and characterizing the 1-form symmetry structure in excited states.
翻訳日:2024-08-02 13:35:28 公開日:2024-08-01
# HG-PIPE:ハイブリッドパイプラインを用いたビジョントランス高速化

HG-PIPE: Vision Transformer Acceleration with Hybrid-Grained Pipeline ( http://arxiv.org/abs/2407.17879v2 )

ライセンス: Link先を確認
Qingyu Guo, Jiayong Wan, Songqiang Xu, Meng Li, Yuan Wang, (参考訳) フィールドプログラマブルゲートアレイ(FPGA)を用いたビジョントランスフォーマー(ViT)アクセラレーションは有望だが難しい。 既存のFPGAベースのViTアクセラレータは主に時間的アーキテクチャに依存しており、同じハードウェアブロックを再利用することで異なる演算子を処理する。 粗粒または細粒のパイプラインアーキテクチャは、メモリアクセス効率のために空間的にViT計算をアンロールする。 しかし、彼らは通常、ViTのグローバルな計算依存性によって引き起こされるハードウェアリソースの制約やパイプラインバブルに悩まされる。 本稿では,高スループットかつ低レイテンシなViT処理のためのパイプラインFPGAアクセラレータHG-PIPEを紹介する。 HG-PIPEは、チップ上のバッファコストを低減し、計算データフローと並列設計を結合してパイプラインバブルを除去する、ハイブリッドなパイプラインアーキテクチャを備えている。 HG-PIPEはさらに、Lookup Tables (LUT) の豊富な線形演算子と非線形演算子の両方を実装するための注意深い近似を導入し、リソース制約を緩和する。 ZCU102 FPGAでは、HG-PIPEは前技術のアクセラレータであるAutoViTAccの2.78倍のスループットと2.52倍のリソース効率を達成する。 VCK190 FPGAでは、HG-PIPEは単一のデバイス上でエンドツーエンドのViTアクセラレーションを実現し、V100 GPUの2.81倍の7118イメージ/sを達成する。

Vision Transformer (ViT) acceleration with field programmable gate array (FPGA) is promising but challenging. Existing FPGA-based ViT accelerators mainly rely on temporal architectures, which process different operators by reusing the same hardware blocks and suffer from extensive memory access overhead. Pipelined architectures, either coarse-grained or fine-grained, unroll the ViT computation spatially for memory access efficiency. However, they usually suffer from significant hardware resource constraints and pipeline bubbles induced by the global computation dependency of ViT. In this paper, we introduce HG-PIPE, a pipelined FPGA accelerator for high-throughput and low-latency ViT processing. HG-PIPE features a hybrid-grained pipeline architecture to reduce on-chip buffer cost and couples the computation dataflow and parallelism design to eliminate the pipeline bubbles. HG-PIPE further introduces careful approximations to implement both linear and non-linear operators with abundant Lookup Tables (LUTs), thus alleviating resource constraints. On a ZCU102 FPGA, HG-PIPE achieves 2.78 times better throughput and 2.52 times better resource efficiency than the prior-art accelerators, e.g., AutoViTAcc. With a VCK190 FPGA, HG-PIPE realizes end-to-end ViT acceleration on a single device and achieves 7118 images/s, which is 2.81 times faster than a V100 GPU.
翻訳日:2024-08-02 13:35:28 公開日:2024-08-01
# 26$μ$eV前後のORGAN実験による近接量子制限原子性ダークマター探索

Near-quantum limited axion dark matter search with the ORGAN experiment around 26 $μ$eV ( http://arxiv.org/abs/2407.18586v2 )

ライセンス: Link先を確認
Aaron P. Quiskamp, Graeme Flower, Steven Samuels, Ben T. McAllister, Paul Altin, Eugene N. Ivanov, Maxim Goryachev, Michael E. Tobar, (参考訳) The ORGAN Experimentの最新の成果は、アクシオンハロスコープである。 この実験はミリケルビン温度で作動し、フラックス駆動のジョセフソンパラメトリック増幅器(JPA)を用いてノイズを低減し、他の様々な改良を行った。 25.45 - 26.27\,\mu\text{eV}$ (6.15-6.35$ GHz) mass ( frequency) rangeをカバーし、ORGANのこの準量子制限位相は、導電性棒共振器と7-Tソレノイド磁石を用いて、現在の範囲で最も敏感な軸-光子結合の排除限界を、|g_{a\gamma\gamma}| \gtrsim 2.8\times10^{-13}$に設定する。

The latest result from The ORGAN Experiment, an axion haloscope is presented. This iteration of the experiment operated at millikelvin temperatures using a flux-driven Josephson parametric amplifier (JPA) for reduced noise, along with various other upgrades over previous iterations. Covering the $25.45 - 26.27\,\mu\text{eV}$ ($6.15-6.35$ GHz) mass (frequency) range, this near-quantum limited phase of ORGAN employs a conducting rod resonator and a 7-T solenoidal magnet to place the most sensitive exclusion limits on axion-photon coupling in the range to date, with $|g_{a\gamma\gamma}| \gtrsim 2.8\times10^{-13}$ at a 95% confidence level.
翻訳日:2024-08-02 13:35:28 公開日:2024-08-01
# 視覚変換器における奥行きの畳み込み

Depth-Wise Convolutions in Vision Transformers for Efficient Training on Small Datasets ( http://arxiv.org/abs/2407.19394v2 )

ライセンス: Link先を確認
Tianxiao Zhang, Wenju Xu, Bo Luo, Guanghui Wang, (参考訳) Vision Transformer (ViT)はTransformerのエンコーダを利用して、イメージをパッチに分割することでグローバル情報をキャプチャし、様々なコンピュータビジョンタスクで優れたパフォーマンスを達成する。 しかし、ViTの自己注意機構は、画像やビデオの隣り合うピクセル間の固有の関係を見渡すことで、グローバルなコンテキストを最初から捉えている。 トランスフォーマーは主に、細かなローカルの詳細を無視しながら、グローバル情報に焦点を当てている。 その結果、ViTは画像やビデオデータセットのトレーニング中に誘導バイアスを欠いている。 対照的に、畳み込みニューラルネットワーク(CNN)は、局所的なフィルタに依存するため、固有の帰納バイアスを持ち、より少ないデータでViTよりも効率的で高速に収束する。 本稿では,トランスフォーマーブロック全体をバイパスして,ローカルおよびグローバル両方の情報を最小限のオーバーヘッドで捕捉する,軽量なDepth-Wise ConvolutionモジュールをViTモデルのショートカットとして提案する。 さらに、Depth-Wise Convolutionモジュールをパラメータセーブのために複数のTransformerブロックに適用し、異なるカーネルで独立した並列Depth-Wise Convolutionモジュールを組み込むことにより、ローカル情報の取得を促進する。 提案手法は,画像分類のためのCIFAR-10, CIFAR-100, Tiny-ImageNet, ImageNet, オブジェクト検出およびインスタンスセグメント化のためのCOCOにおいて評価され, 画像分類, オブジェクト検出, インスタンスセグメント化におけるViTモデルの性能を大幅に向上させる。 ソースコードはhttps://github.com/ZTX-100/Efficient_ViT_with_DWでアクセスできる。

The Vision Transformer (ViT) leverages the Transformer's encoder to capture global information by dividing images into patches and achieves superior performance across various computer vision tasks. However, the self-attention mechanism of ViT captures the global context from the outset, overlooking the inherent relationships between neighboring pixels in images or videos. Transformers mainly focus on global information while ignoring the fine-grained local details. Consequently, ViT lacks inductive bias during image or video dataset training. In contrast, convolutional neural networks (CNNs), with their reliance on local filters, possess an inherent inductive bias, making them more efficient and quicker to converge than ViT with less data. In this paper, we present a lightweight Depth-Wise Convolution module as a shortcut in ViT models, bypassing entire Transformer blocks to ensure the models capture both local and global information with minimal overhead. Additionally, we introduce two architecture variants, allowing the Depth-Wise Convolution modules to be applied to multiple Transformer blocks for parameter savings, and incorporating independent parallel Depth-Wise Convolution modules with different kernels to enhance the acquisition of local information. The proposed approach significantly boosts the performance of ViT models on image classification, object detection and instance segmentation by a large margin, especially on small datasets, as evaluated on CIFAR-10, CIFAR-100, Tiny-ImageNet and ImageNet for image classification, and COCO for object detection and instance segmentation. The source code can be accessed at https://github.com/ZTX-100/Efficient_ViT_with_DW.
翻訳日:2024-08-02 13:35:28 公開日:2024-08-01
# OpenUAS:地域利用パターンの都市横断分析のためのアンカーデータを用いた日本の都市埋め込み

OpenUAS: Embeddings of Cities in Japan with Anchor Data for Cross-city Analysis of Area Usage Patterns ( http://arxiv.org/abs/2407.19872v2 )

ライセンス: Link先を確認
Naoki Tamura, Kazuyuki Shoji, Shin Katayama, Kenta Urano, Takuro Yonezawa, Nobuo Kawaguchi, (参考訳) 都市利用パターンに基づいた地域埋め込みのデータセットであるOpenUASを公開し、総面積3300平方キロメートルをカバーする1300万平方メートルのメッシュに埋め込みます。 このデータセットは、市場分析、都市計画、交通インフラ、感染予測といった分野における地域機能の分析に有用である。 オフィス地区や住宅地区など市内各地区の特徴をGPSで取得した位置情報を利用した地域埋め込み技術を用いて把握する。 多くの領域埋め込み技術が提案されており、そのような埋め込みデータセットの公開リリースは技術的に実現可能であるが、実現されていない。 障害の1つは、異なる都市や時代からのデータを、生の位置情報を共有することなく統一された空間に統合することである。 共有埋め込み空間内にアンカーを確立するアンカー法を開発することでこの問題に対処する。 本研究では,このアンカーデータセットを,日本の8大都市における複数期間の地域埋め込みデータセットとともに公開する。 このデータセットは、日本の都市における都市利用パターンを分析し、アンカー方式を用いて都市データセットを同じ埋め込み空間に埋め込むことができる。 本研究の主な貢献は, アンカー法の開発, 地域埋め込みデータセットのリリース, 効果的なデータ活用のためのツールの提供等である。

We publicly release OpenUAS, a dataset of area embeddings based on urban usage patterns, including embeddings for over 1.3 million 50-meter square meshes covering a total area of 3,300 square kilometers. This dataset is valuable for analyzing area functions in fields such as market analysis, urban planning, transportation infrastructure, and infection prediction. It captures the characteristics of each area in the city, such as office districts and residential areas, by employing an area embedding technique that utilizes location information typically obtained by GPS. Numerous area embedding techniques have been proposed, and while the public release of such embedding datasets is technically feasible, it has not been realized. One of the obstacles has been the integration of data from different cities and periods into a unified space without sharing raw location data. We address this issue by developing an anchoring method that establishes anchors within a shared embedding space. We publicly release this anchor dataset along with area embedding datasets from several periods in eight major Japanese cities. This dataset allows users to analyze urban usage patterns in Japanese cities and embed their urban dataset into the same embedding space using the anchoring method. Our key contributions include the development of the anchoring method, releasing area embedding datasets for Japanese cities, and providing tools for effective data utilization.
翻訳日:2024-08-02 13:35:28 公開日:2024-08-01
# MimiQ: 視覚変換器の低ビットデータフリー量子化

MimiQ: Low-Bit Data-Free Quantization of Vision Transformers with Encouraging Inter-Head Attention Similarity ( http://arxiv.org/abs/2407.20021v3 )

ライセンス: Link先を確認
Kanghyun Choi, Hye Yoon Lee, Dain Kwon, SunJong Park, Kyuyeun Kim, Noseong Park, Jinho Lee, (参考訳) データフリー量子化(DFQ)は、元のトレーニングデータなしで、しばしば合成データセットを通じて、フル精度のネットワークから軽量なネットワークを作成するテクニックである。 視覚変換器(ViT)アーキテクチャにはいくつかのDFQ手法が提案されているが、低ビット設定では有効性は得られていない。 既存の手法を調べると、それらの合成データは、実際のサンプルが高度に整列しているのに対して、不整合注意マップを生成する。 一致した注意の観測から、合成データのアライメント・アライメント・マップは、量子化されたViTの全体的な性能を向上させるのに役立つことが判明した。 この発見に触発され,視覚障害者を対象とした新しいDFQ手法であるMimiQを考案した。 まず,空間的な問合せパッチに関連して,頭部の注意応答を調整して合成データを生成する。 そこで,本研究では,頭部構造型注意蒸留法を用いて,量子化ネットワークの注意図と実精度教師の注意図を一致させる。 実験の結果,提案手法はベースラインを著しく上回り,データフリーなViT量子化のための新しい最先端性能が確立された。

Data-free quantization (DFQ) is a technique that creates a lightweight network from its full-precision counterpart without the original training data, often through a synthetic dataset. Although several DFQ methods have been proposed for vision transformer (ViT) architectures, they fail to achieve efficacy in low-bit settings. Examining the existing methods, we identify that their synthetic data produce misaligned attention maps, while those of the real samples are highly aligned. From the observation of aligned attention, we find that aligning attention maps of synthetic data helps to improve the overall performance of quantized ViTs. Motivated by this finding, we devise MimiQ, a novel DFQ method designed for ViTs that focuses on inter-head attention similarity. First, we generate synthetic data by aligning head-wise attention responses in relation to spatial query patches. Then, we apply head-wise structural attention distillation to align the attention maps of the quantized network to those of the full-precision teacher. The experimental results show that the proposed method significantly outperforms baselines, setting a new state-of-the-art performance for data-free ViT quantization.
翻訳日:2024-08-02 13:25:30 公開日:2024-08-01
# 空間オミクスのよい形態表現には何をもたらすのか?

What makes for good morphology representations for spatial omics? ( http://arxiv.org/abs/2407.20660v2 )

ライセンス: Link先を確認
Eduard Chelebian, Christophe Avenel, Carolina Wählby, (参考訳) 空間オミクスは、遺伝子発現パターンの空間的コンテキストを保存することによって、組織構造に対する理解を変容させてきた。 同時に、イメージングAIの進歩により、組織を記述する形態的特徴の抽出が可能になった。 空間オミクスとイメージングAIの交差は、より総合的な理解の機会を与える。 本稿では,空間オミクスと形態素の組み合わせ法を分類し,形態素の特徴の変換や空間オミクス解析への統合に焦点をあてる枠組みを提案する。 翻訳によって、遺伝子発現を予測することを目的として、空間的に遺伝子発現パターンと相関する形態的特徴を見つけることを意味する。 このような特徴は、高解像度の遺伝子発現マップを生成したり、臨床H&E染色サンプルから遺伝情報を推測するために利用することができる。 統合することで、情報豊か化を目的として、空間的に遺伝子発現パターンを補完する形態的特徴を見つけることを意味する。 このような特徴は、特に遺伝子発現が形態変化に先行し、遺伝子発現後に形態が残る空間領域を定義するために用いられる。 この分野のさらなる発展に向けた学習戦略と方向性について論じる。

Spatial omics has transformed our understanding of tissue architecture by preserving spatial context of gene expression patterns. Simultaneously, advances in imaging AI have enabled extraction of morphological features describing the tissue. The intersection of spatial omics and imaging AI presents opportunities for a more holistic understanding. In this review we introduce a framework for categorizing spatial omics-morphology combination methods, focusing on how morphological features can be translated or integrated into spatial omics analyses. By translation we mean finding morphological features that spatially correlate with gene expression patterns with the purpose of predicting gene expression. Such features can be used to generate super-resolution gene expression maps or infer genetic information from clinical H&E-stained samples. By integration we mean finding morphological features that spatially complement gene expression patterns with the purpose of enriching information. Such features can be used to define spatial domains, especially where gene expression has preceded morphological changes and where morphology remains after gene expression. We discuss learning strategies and directions for further development of the field.
翻訳日:2024-08-02 13:25:30 公開日:2024-08-01
# 実例に基づく説明可能性手法のクラス外化器への適用

The Susceptibility of Example-Based Explainability Methods to Class Outliers ( http://arxiv.org/abs/2407.20678v2 )

ライセンス: Link先を確認
Ikhtiyor Nematov, Dimitris Sacharidis, Tomer Sagi, Katja Hose, (参考訳) 本研究は,ブラックボックス機械学習モデルにおける実例に基づく説明可能性手法の有効性に及ぼすクラスアウトレーヤの影響について検討する。 本稿では,特に実例に基づく手法の正当性や妥当性などの既存の説明可能性評価尺度を改訂し,新しい尺度,識別可能性を導入する。 これらの指標を用いて、クラス外れを抑えようとする者を含む、現在の例に基づく説明可能性手法の欠点を強調した。 テキスト分類データセットと画像分類データセットの2つのデータセットについて実験を行い、4つの最先端説明可能性手法の性能評価を行った。 以上の結果から,クラス外れによる課題に対処するための堅牢なテクニックの必要性が浮き彫りになった。

This study explores the impact of class outliers on the effectiveness of example-based explainability methods for black-box machine learning models. We reformulate existing explainability evaluation metrics, such as correctness and relevance, specifically for example-based methods, and introduce a new metric, distinguishability. Using these metrics, we highlight the shortcomings of current example-based explainability methods, including those who attempt to suppress class outliers. We conduct experiments on two datasets, a text classification dataset and an image classification dataset, and evaluate the performance of four state-of-the-art explainability methods. Our findings underscore the need for robust techniques to tackle the challenges posed by class outliers.
翻訳日:2024-08-02 13:25:30 公開日:2024-08-01
# CultureVo: 文化インテリジェンスを強化するためにGen AIを活用するシリアスなゲーム

CultureVo: The Serious Game of Utilizing Gen AI for Enhancing Cultural Intelligence ( http://arxiv.org/abs/2407.20685v2 )

ライセンス: Link先を確認
Ajita Agarwala, Anupam Purwar, Viswanadhasai Rao, (参考訳) CultureVo, Inc.は、インタラクティブなレッスンとゲーミフィケーション体験を組み合わせることで、世界文化の基礎知識を提供する統合文化学習スイート(ICLS)を開発した。 本稿では,オープンソースのLarge Langauge Modelを用いたジェネレーティブAIがICLS内でどのように活用され,文化的なインテリジェンスを高めるかを検討する。 このスイートでは、学習者知識の自動評価、行動パターンの分析、リアルタイム学習者評価を用いた非プレイヤーキャラクターとのインタラクション管理に、ジェネレーティブAI技術を採用している。 さらに、ICLSは学習者の習熟度を評価することによってコンテキストヒントを提供し、コースコンテンツを推薦する一方、生成AIは教育コンテンツの自動作成と検証を容易にする。

CultureVo, Inc. has developed the Integrated Culture Learning Suite (ICLS) to deliver foundational knowledge of world cultures through a combination of interactive lessons and gamified experiences. This paper explores how Generative AI powered by open source Large Langauge Models are utilized within the ICLS to enhance cultural intelligence. The suite employs Generative AI techniques to automate the assessment of learner knowledge, analyze behavioral patterns, and manage interactions with non-player characters using real time learner assessment. Additionally, ICLS provides contextual hint and recommend course content by assessing learner proficiency, while Generative AI facilitates the automated creation and validation of educational content.
翻訳日:2024-08-02 13:25:30 公開日:2024-08-01
# SynthVLM:視覚言語モデルのための高効率・高品質合成データ

SynthVLM: High-Efficiency and High-Quality Synthetic Data for Vision Language Models ( http://arxiv.org/abs/2407.20756v2 )

ライセンス: Link先を確認
Zheng Liu, Hao Liang, Xijie Huang, Wentao Xiong, Qinhan Yu, Linzhuang Sun, Chong Chen, Conghui He, Bin Cui, Wentao Zhang, (参考訳) 近年,Web画像の出現に伴い,大規模画像データセットの管理と理解がますます重要になっている。 Vision Large Language Models (VLLM)が最近登場した。 しかし、これらのモデルのトレーニングには大量のデータが必要であり、効率性、有効性、データ品質、プライバシといった課題を提起する。 本稿では,VLLMのための新しいデータ合成パイプラインであるSynthVLMを紹介する。 画像からキャプションを生成する既存の方法とは異なり、SynthVLMは高度な拡散モデルと高品質なキャプションを使用して、キャプションから高解像度の画像を自動的に生成し、選択し、正確に整列された画像テキストペアを作成する。 これらのペアを活用することで、様々な視覚質問応答タスクにおける最先端(SoTA)のパフォーマンス、高いアライメント品質の維持、高度な言語能力の維持を実現します。 さらに、SynthVLMは従来のGPT-4ビジョンベースのキャプション生成手法をはるかに上回り、計算オーバーヘッドを大幅に削減する。 重要なことに、本手法は純粋に生成されたデータに依存するため、プライバシの保護が保証され、100kのデータポイント(公式データセットサイズのわずか18%)でSoTAのパフォーマンスが達成される。

Recently, with the rise of web images, managing and understanding large-scale image datasets has become increasingly important. Vision Large Language Models (VLLMs) have recently emerged due to their robust vision-understanding capabilities. However, training these models requires vast amounts of data, posing challenges to efficiency, effectiveness, data quality, and privacy. In this paper, we introduce SynthVLM, a novel data synthesis pipeline for VLLMs. Unlike existing methods that generate captions from images, SynthVLM employs advanced diffusion models and high-quality captions to automatically generate and select high-resolution images from captions, creating precisely aligned image-text pairs. Leveraging these pairs, we achieve state-of-the-art (SoTA) performance on various vision question answering tasks, maintaining high alignment quality and preserving advanced language abilities. Moreover, SynthVLM surpasses traditional GPT-4 Vision-based caption generation methods in performance while significantly reducing computational overhead. Crucially, our method's reliance on purely generated data ensures the preservation of privacy, achieving SoTA performance with just 100k data points (only 18% of the official dataset size).
翻訳日:2024-08-02 13:25:30 公開日:2024-08-01
# DFE-IANet:デュアルドメインの特徴抽出と相互作用注意に基づくポリプ画像分類手法

DFE-IANet: A Method for Polyp Image Classification Based on Dual-domain Feature Extraction and Interaction Attention ( http://arxiv.org/abs/2407.20843v2 )

ライセンス: Link先を確認
Wei Wang, Jixing He, Xin Wang, (参考訳) 早期の消化管ポリープの検出および治療に大腸癌の予防に有用である。 しかし、効率と精度のバランスをとるポリプ画像分類ネットワークを設計する研究はほとんど行われていない。 この課題は主に、ポリープは他の病理と類似しており、テクスチャ、色、形態に影響される複雑な特徴があるという事実に起因している。 本稿ではスペクトル変換と特徴相互作用の両方に基づく新しいネットワークDFE-IANetを提案する。 まず、詳細な特徴とマルチスケール特徴を抽出するために、その特徴をマルチスケール周波数領域特徴抽出ブロック(MSFD)によって変換し、周波数領域のきめ細かいレベルでテクスチャの詳細を抽出する。 第二に、マルチスケールインタラクションアテンション(MSIA)ブロックは、重要な特徴を抽出するネットワークの能力を高めるために設計されている。 このブロックは、ネットワークが重要な領域に集中するように適応的に誘導することを目的として、マルチスケール機能を自己注意に導入する。 最後に、DFE-IANetは4Mのコンパクトパラメータしか持たないため、効率面では最新のネットワークや古典的ネットワークよりも優れている。 さらに、DFE-IANetは、挑戦的なKvasirデータセットに関する最新技術(SOTA)の結果を達成し、93.94%という顕著なTop-1精度を示している。 この顕著な精度はViTを8.94%上回り、ResNet50を1.69%上回り、VMambaを1.88%上回る。 私たちのコードはhttps://github.com/PURSUETHESUN/DFE-IANet.comで公開されています。

It is helpful in preventing colorectal cancer to detect and treat polyps in the gastrointestinal tract early. However, there have been few studies to date on designing polyp image classification networks that balance efficiency and accuracy. This challenge is mainly attributed to the fact that polyps are similar to other pathologies and have complex features influenced by texture, color, and morphology. In this paper, we propose a novel network DFE-IANet based on both spectral transformation and feature interaction. Firstly, to extract detailed features and multi-scale features, the features are transformed by the multi-scale frequency domain feature extraction (MSFD) block to extract texture details at the fine-grained level in the frequency domain. Secondly, the multi-scale interaction attention (MSIA) block is designed to enhance the network's capability of extracting critical features. This block introduces multi-scale features into self-attention, aiming to adaptively guide the network to concentrate on vital regions. Finally, with a compact parameter of only 4M, DFE-IANet outperforms the latest and classical networks in terms of efficiency. Furthermore, DFE-IANet achieves state-of-the-art (SOTA) results on the challenging Kvasir dataset, demonstrating a remarkable Top-1 accuracy of 93.94%. This outstanding accuracy surpasses ViT by 8.94%, ResNet50 by 1.69%, and VMamba by 1.88%. Our code is publicly available at https://github.com/PURSUETHESUN/DFE-IANet.
翻訳日:2024-08-02 13:25:30 公開日:2024-08-01
# Nested Embedding Learning を用いたアラビア語NLPにおける意味的類似性理解の強化

Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning ( http://arxiv.org/abs/2407.21139v2 )

ライセンス: Link先を確認
Omer Nacar, Anis Koubaa, (参考訳) この研究は、多言語、アラビア語固有の、英語ベースのモデルを活用し、様々なアラビア語のNLP下流タスクにおける入れ子埋め込みモデルのパワーを強調するために、Matryoshka Embedding Learningを通じて、アラビア語の入れ子埋め込みモデルをトレーニングするための新しいフレームワークを提示している。 我々の革新的な貢献には、様々な文類似性データセットをアラビア語に翻訳することが含まれており、様々な次元でこれらのモデルを総合的な評価フレームワークで比較することができる。 アラビア自然言語推論三重項データセットを用いたネスト埋め込みモデルの訓練を行い,コサイン類似性,マンハッタン距離,ユークリッド距離,ドット製品類似性などのPearsonとSpearmanの相関関係など,複数の評価指標を用いて評価を行った。 この結果は、マトリオシュカの埋め込みモデルの優れた性能を示し、特にアラビア語特有の意味的ニュアンスを捉えた。 その結果、アラビア・マトリオシュカの埋め込みモデルは、アラビア語固有の意味的ニュアンスを捉えるのに優れた性能を示し、様々な類似度指標で従来のモデルよりも最大20~25倍高い性能を示した。 これらの結果は、アラビア語NLPにおける意味的テキスト類似性タスクの強化において、言語固有の訓練の有効性を強調し、Matryoshkaモデルの可能性を強調した。

This work presents a novel framework for training Arabic nested embedding models through Matryoshka Embedding Learning, leveraging multilingual, Arabic-specific, and English-based models, to highlight the power of nested embeddings models in various Arabic NLP downstream tasks. Our innovative contribution includes the translation of various sentence similarity datasets into Arabic, enabling a comprehensive evaluation framework to compare these models across different dimensions. We trained several nested embedding models on the Arabic Natural Language Inference triplet dataset and assessed their performance using multiple evaluation metrics, including Pearson and Spearman correlations for cosine similarity, Manhattan distance, Euclidean distance, and dot product similarity. The results demonstrate the superior performance of the Matryoshka embedding models, particularly in capturing semantic nuances unique to the Arabic language. Results demonstrated that Arabic Matryoshka embedding models have superior performance in capturing semantic nuances unique to the Arabic language, significantly outperforming traditional models by up to 20-25\% across various similarity metrics. These results underscore the effectiveness of language-specific training and highlight the potential of Matryoshka models in enhancing semantic textual similarity tasks for Arabic NLP.
翻訳日:2024-08-02 13:25:30 公開日:2024-08-01
# ボゾン量子準結晶における低エネルギー励起

Low energy excitations in bosonic quantum quasicrystals ( http://arxiv.org/abs/2407.21230v2 )

ライセンス: Link先を確認
Alejandro Mendoza-Coto, Mariano Bonifacio, Francesco Piazza, (参考訳) ボゾン自己組織量子準結晶に対する低エネルギー有効作用の第一原理について述べる。 一般化された弾性法は、ゴールドストーンモードの適切な記述に必要な位相および対応する共役密度-自由度を適切に保持する。 ドデカゴナルおよびデカゴナル準結晶構造では、音の等方的な速度で、集合的長手および横方向の励起が得られる。 一方、八角形構造では、音速と音速の次数の結合は、後者と凝縮音モードのハイブリッド化につながり、縦・横成分の集合励起と異方性音速を生成する。 最後に、量子準結晶相を制限する低密度および高密度相転移における各励起モードの運命について論じる。

We present the first principles construction of the low-energy effective action for bosonic self-organized quantum quasicrystals. Our generalized elasticity approach retains the appropriate number of phase- and corresponding conjugate density- degrees-of-freedom required for a proper description of the Goldstone modes. For the dodecagonal and decagonal quasicrystal structures we obtain collective longitudinal and transversal excitations with an isotropic speed of sound. Meanwhile, for the octagonal structure, the coupling between phononic and phasonic degrees of freedom leads in turn to hybridization of the latter with the condensate sound mode, producing collective excitations with a longitudinal and transversal component, and an anisotropic speed of sound. Finally, we discuss the fate of each excitation mode at the low and high density phase transitions limiting the quantum quasicrystal phase.
翻訳日:2024-08-02 13:25:30 公開日:2024-08-01
# QuestGen: Fact-Checking アプリケーションにおける質問生成手法の有効性

QuestGen: Effectiveness of Question Generation Methods for Fact-Checking Applications ( http://arxiv.org/abs/2407.21441v2 )

ライセンス: Link先を確認
Ritvik Setty, Vinay Setty, (参考訳) 事実チェックの主張を検証することは、人間にとっても大きな課題となる。 近年のアプローチでは、証拠を収集するために主張を関連する問題に分解することで、事実確認プロセスの効率が向上することが示されている。 本稿では,この問題の分解を効果的に自動化できることを示す実証的証拠を提供する。 様々なデータセットからのデータ拡張を用いて質問生成タスクを微調整したより小さな生成モデルが、最大8%の精度で大きな言語モデルより優れていることを示す。 意外なことに、機械による質問で得られた証拠は、人間が書いた質問よりも、事実チェックにかなり効果的であることが証明されている。 また,分解された質問を手動で評価し,生成した質問の質を評価する。

Verifying fact-checking claims poses a significant challenge, even for humans. Recent approaches have demonstrated that decomposing claims into relevant questions to gather evidence enhances the efficiency of the fact-checking process. In this paper, we provide empirical evidence showing that this question decomposition can be effectively automated. We demonstrate that smaller generative models, fine-tuned for the question generation task using data augmentation from various datasets, outperform large language models by up to 8%. Surprisingly, in some cases, the evidence retrieved using machine-generated questions proves to be significantly more effective for fact-checking than that obtained from human-written questions. We also perform manual evaluation of the decomposed questions to assess the quality of the questions generated.
翻訳日:2024-08-02 13:25:30 公開日:2024-08-01
# eSPARQL: RDF-star Knowledge GraphsにおけるAgnosticおよびAtheistic Beliefの表現と再構成

eSPARQL: Representing and Reconciling Agnostic and Atheistic Beliefs in RDF-star Knowledge Graphs ( http://arxiv.org/abs/2407.21483v2 )

ライセンス: Link先を確認
Xiny Pan, Daniel Hernández, Philipp Seifer, Ralf Lämmel, Steffen Staab, (参考訳) 過去数年間、複数の情報源からの情報を組み合わせた大きな知識グラフが出現してきた。 この情報は時として、他のアサーションに関するアサーションの形式で提供され、アサーションが有効なコンテキストを定義する。 RDF-starと呼ばれるステートメントに対するステートメントを認めるRDFへの最近の拡張は、W3C標準になるように改訂されている。 しかしながら、これらのRDF星のステートメントのセマンティクスや、それらを操作するためのビルトイン設備の提案はない。 本稿では,eSPARQLと呼ばれる4値論理に基づく認識型RDF星メタデータのクエリ言語を提案する。 提案する問合せ言語は,RDF-starの問合せ言語であるSPARQL-starを拡張した。 提案したクエリ言語は,以下の機能を含む4つのユースケースクエリを表現可能であることを示す。 一 個人の信条を問うこと。 (二)信条の集約 三 誰かと対立している者を問うこと、 (四)信仰に関する信仰(すなわち信仰の営巣)

Over the past few years, we have seen the emergence of large knowledge graphs combining information from multiple sources. Sometimes, this information is provided in the form of assertions about other assertions, defining contexts where assertions are valid. A recent extension to RDF which admits statements over statements, called RDF-star, is in revision to become a W3C standard. However, there is no proposal for a semantics of these RDF-star statements nor a built-in facility to operate over them. In this paper, we propose a query language for epistemic RDF-star metadata based on a four-valued logic, called eSPARQL. Our proposed query language extends SPARQL-star, the query language for RDF-star, with a new type of FROM clause to facilitate operating with multiple and sometimes conflicting beliefs. We show that the proposed query language can express four use case queries, including the following features: (i) querying the belief of an individual, (ii) the aggregating of beliefs, (iii) querying who is conflicting with somebody, and (iv) beliefs about beliefs (i.e., nesting of beliefs).
翻訳日:2024-08-02 13:25:30 公開日:2024-08-01
# 継続的セキュリティコンプライアンスの自動化に向けて

Towards Automated Continuous Security Compliance ( http://arxiv.org/abs/2407.21494v2 )

ライセンス: Link先を確認
Florian Angermeir, Jannik Fischbach, Fabiola Moyón, Daniel Mendez, (参考訳) コンテキスト: 継続的ソフトウェアエンジニアリングは、高度に規制されたドメインでますます採用され、継続的コンプライアンスの必要性が高まっています。 高度に規制されたドメインにおける主要な関心事である、特にセキュリティ規制の遵守は、業界や研究に高い関連性を持つ継続的セキュリティコンプライアンスをもたらす。 問題: 業界で継続的ソフトウェアエンジニアリングを採用する上で重要な障壁の1つは、従来の手動のセキュリティコンプライアンス活動において、リソース集約的でエラーを起こしやすい性質です。 自動化は有利であると約束する。 しかし、継続的セキュリティコンプライアンスは、効果的に採用される前に、あまり研究されていない。 コントリビューション:私たちは、これらの問題に対処するため、業界パートナーと長期的な研究プロジェクトを開始しました。 本書では,(1) 現状に整合した継続的セキュリティコンプライアンスという用語の正確な定義,(2) 第三次学術研究を通じての継続的セキュリティコンプライアンスの分野における課題の概観,(3) 自動的な継続的セキュリティコンプライアンスを通じてこれらの課題に対処するための研究ロードマップを提示する。

Context: Continuous Software Engineering is increasingly adopted in highly regulated domains, raising the need for continuous compliance. Adherence to especially security regulations -- a major concern in highly regulated domains -- renders Continuous Security Compliance of high relevance to industry and research. Problem: One key barrier to adopting continuous software engineering in the industry is the resource-intensive and error-prone nature of traditional manual security compliance activities. Automation promises to be advantageous. However, continuous security compliance is under-researched, precluding an effective adoption. Contribution: We have initiated a long-term research project with our industry partner to address these issues. In this manuscript, we make three contributions: (1) We provide a precise definition of the term continuous security compliance aligning with the state-of-art, (2) elaborate a preliminary overview of challenges in the field of automated continuous security compliance through a tertiary literature study, and (3) present a research roadmap to address those challenges via automated continuous security compliance.
翻訳日:2024-08-02 13:25:30 公開日:2024-08-01
# MPCトラジェクトリプランナのSOTIF改善のための機能不全とトリガー条件の解析

Analysis of Functional Insufficiencies and Triggering Conditions to Improve the SOTIF of an MPC-based Trajectory Planner ( http://arxiv.org/abs/2407.21569v2 )

ライセンス: Link先を確認
Mirko Conrad, Georg Schildbach, (参考訳) 自動運転と自動運転は、過去10年間で大きな技術進歩を遂げてきた。 このプロセスでは、車両制御に使用されるアルゴリズムの複雑さが著しく増大している。 モデル予測制御(MPC)は顕著な例であり、非常に人気を集め、現在では車両の運動計画と制御に広く利用されている。 しかし、安全性に関する懸念は、特に従来の機能安全(FS)の手順であるISO26262が限界に達しているため、その実用的適用を制限している。 対照的に、SOTIF(Safety-of-the-intended-function)の新たな側面は注目の中心に移行し、ISO21448は2022年にリリースされたばかりである。 したがって、SOTIFの使用経験は低く、業界や研究でのケーススタディは少ない。 そこで本研究では,(1)汎用MPCベーストラジェクトリプランナのSOTIFの分析,(2)機能不全(FIs)とトリガー条件(TCs)を決定するためのISO21448で記述されたジェネリックプロシージャの解釈と具体的応用を行う。 具体的には,SOTIF関連要素(SOTIF-EooC)のアウト・オブ・コンテクスト開発へのアプローチ,MPCベースのトラジェクトリプランナーのための重要なFIとTCのコンパイル,MPCベースのトラジェクトリプランナーのための特定FIとTCの最適化された安全性概念などについて述べる。

Automated and autonomous driving has made a significant technological leap over the past decade. In this process, the complexity of algorithms used for vehicle control has grown significantly. Model Predictive Control (MPC) is a prominent example, which has gained enormous popularity and is now widely used for vehicle motion planning and control. However, safety concerns constrain its practical application, especially since traditional procedures of functional safety (FS), with its universal standard ISO26262, reach their limits. Concomitantly, the new aspect of safety-of-the-intended-function (SOTIF) has moved into the center of attention, whose standard, ISO21448, has only been released in 2022. Thus, experience with SOTIF is low and few case studies are available in industry and research. Hence this paper aims to make two main contributions: (1) an analysis of the SOTIF for a generic MPC-based trajectory planner and (2) an interpretation and concrete application of the generic procedures described in ISO21448 for determining functional insufficiencies (FIs) and triggering conditions (TCs). Particular novelties of the paper include an approach for the out-of-context development of SOTIF-related elements (SOTIF-EooC), a compilation of important FIs and TCs for a MPC-based trajectory planner, and an optimized safety concept based on the identified FIs and TCs for the MPC-based trajectory planner.
翻訳日:2024-08-02 13:25:30 公開日:2024-08-01
# クロスモダリティ情報検出器によるVLMの脱獄防止

Defending Jailbreak Attack in VLMs via Cross-modality Information Detector ( http://arxiv.org/abs/2407.21659v2 )

ライセンス: Link先を確認
Yue Xu, Xiuyuan Qi, Zhan Qin, Wenjie Wang, (参考訳) 視覚言語モデル(VLM)は、視覚情報を包括的に理解するためにLLMの能力を拡張し、多くの視覚中心のタスクにおいて顕著な性能を達成する。 それにもかかわらず、最近の研究では、これらのモデルがジェイルブレイク攻撃の影響を受けやすいことが示されている。 この潜在的な脅威は、LLMの固有の脆弱性と、視覚入力によって導入されたより大きな攻撃範囲の両方によって引き起こされる。 ジェイルブレイク攻撃に対するVLMの安全性を高めるため、研究者は様々な防御技術を開発した。 しかし、これらの手法はモデルの内部構造の変更を必要とするか、推論フェーズ中に重要な計算資源を必要とするかのいずれかである。 マルチモーダル・インフォメーション(Multimodal Information)は、両刃の剣。 攻撃のリスクを増大させる一方で、安全対策を強化するための追加データも提供する。 このことにインスパイアされた、$\underline{\textbf{C}}$ross-modality $\underline{\textbf{I}}$nformation $\underline{\textbf{DE}}$tecto$\underline{\textbf{R}}$$$$\textit{CIDER})$, 悪質なクエリと敵対的なイメージの相互類似性を利用して、悪意ある摂動イメージの入力を識別するために設計されたプラグインとプレイのジェイルブレイク検出器である。 この単純で効果的なクロスモダリティ情報検出器である$\textit{CIDER}$は、ターゲットのVLMとは独立であり、計算コストが低い。 大規模な実験結果から,$\textit{CIDER}$の有効性と有効性,およびWhite-boxおよびBlack-box VLMへの転送性を示す。

Vision Language Models (VLMs) extend the capacity of LLMs to comprehensively understand vision information, achieving remarkable performance in many vision-centric tasks. Despite that, recent studies have shown that these models are susceptible to jailbreak attacks, which refer to an exploitative technique where malicious users can break the safety alignment of the target model and generate misleading and harmful answers. This potential threat is caused by both the inherent vulnerabilities of LLM and the larger attack scope introduced by vision input. To enhance the security of VLMs against jailbreak attacks, researchers have developed various defense techniques. However, these methods either require modifications to the model's internal structure or demand significant computational resources during the inference phase. Multimodal information is a double-edged sword. While it increases the risk of attacks, it also provides additional data that can enhance safeguards. Inspired by this, we propose $\underline{\textbf{C}}$ross-modality $\underline{\textbf{I}}$nformation $\underline{\textbf{DE}}$tecto$\underline{\textbf{R}}$ ($\textit{CIDER})$, a plug-and-play jailbreaking detector designed to identify maliciously perturbed image inputs, utilizing the cross-modal similarity between harmful queries and adversarial images. This simple yet effective cross-modality information detector, $\textit{CIDER}$, is independent of the target VLMs and requires less computation cost. Extensive experimental results demonstrate the effectiveness and efficiency of $\textit{CIDER}$, as well as its transferability to both white-box and black-box VLMs.
翻訳日:2024-08-02 13:25:30 公開日:2024-08-01
# コントラスト要因分析

Contrastive Factor Analysis ( http://arxiv.org/abs/2407.21740v2 )

ライセンス: Link先を確認
Zhibin Duan, Tiansheng Wen, Yifei Wang, Chen Zhu, Bo Chen, Mingyuan Zhou, (参考訳) 因子分析は、しばしば行列分解のベイズ変種と見なされるが、不確実性を捉え、複雑な依存関係をモデル化し、堅牢性を確保するのに優れた能力を提供する。 深層学習の時代が到来するにつれ、因子分析は表現力の限界により、徐々に注目されるようになってきている。 対照的に、対照的な学習は、教師なし表現学習における効果を示す強力な手法として現れてきた。 2つの手法は異なるパラダイムであるが、最近の理論的解析により、対照的学習と行列分解の数学的等価性が明らかとなり、因子分析と対照的学習が組み合わさる可能性が高まっている。 本稿では, コントラスト学習の相互接続性, 行列分解, 因子分析の動機付けにより, コントラスト学習の領域における因子分析の有利性を活用することを目的とした, 新たなコントラスト要因分析フレームワークを提案する。 不整合表現を学習できる非負因子分析の解釈可能性特性をさらに活用するために、コントラスト係数解析を非負バージョンに拡張する。 最後に, 提案手法の有効性を, 表現性, 頑健性, 解釈可能性, 正確な不確実性評価など, 複数の重要な特性にわたって検証した。

Factor analysis, often regarded as a Bayesian variant of matrix factorization, offers superior capabilities in capturing uncertainty, modeling complex dependencies, and ensuring robustness. As the deep learning era arrives, factor analysis is receiving less and less attention due to their limited expressive ability. On the contrary, contrastive learning has emerged as a potent technique with demonstrated efficacy in unsupervised representational learning. While the two methods are different paradigms, recent theoretical analysis has revealed the mathematical equivalence between contrastive learning and matrix factorization, providing a potential possibility for factor analysis combined with contrastive learning. Motivated by the interconnectedness of contrastive learning, matrix factorization, and factor analysis, this paper introduces a novel Contrastive Factor Analysis framework, aiming to leverage factor analysis's advantageous properties within the realm of contrastive learning. To further leverage the interpretability properties of non-negative factor analysis, which can learn disentangled representations, contrastive factor analysis is extended to a non-negative version. Finally, extensive experimental validation showcases the efficacy of the proposed contrastive (non-negative) factor analysis methodology across multiple key properties, including expressiveness, robustness, interpretability, and accurate uncertainty estimation.
翻訳日:2024-08-02 13:25:30 公開日:2024-08-01
# 量子力学におけるクリロフ状態複雑性の性質

Properties of Krylov state complexity in qubit dynamics ( http://arxiv.org/abs/2407.21776v2 )

ライセンス: Link先を確認
Siddharth Seetharaman, Chetanya Singh, Rejish Nath, (参考訳) 量子ビット力学におけるKrylov状態の複雑性の性質を,1つの量子ビットと1つの量子ビット対を考慮して解析する。 クリロフ複雑性の幾何学的図面は、単量子の場合では議論されるが、2量子の場合では非自明となる。 相互作用するリドベルク原子の特定の場合を考えると、実効ハミルトニアンを用いて得られるクリロフ基底は、元のハミルトニアンから得られるものと比べて複雑さを最小化することを示す。 さらに後者の性質を任意のハミルトニアンに一般化し、ヒルベルト空間全体はそれらの間に弱結合を持つ2つの部分空間からなる。

We analyze the properties of Krylov state complexity in qubit dynamics, considering a single qubit and a qubit pair. A geometrical picture of the Krylov complexity is discussed for the single-qubit case, whereas it becomes non-trivial for the two-qubit case. Considering the particular case of interacting Rydberg atoms, we show that the Krylov basis obtained using an effective Hamiltonian minimizes the complexity compared to that obtained from the original Hamiltonian. We further generalize the latter property to an arbitrary Hamiltonian in which the entire Hilbert space comprises two subspaces with a weak coupling between them.
翻訳日:2024-08-02 13:25:30 公開日:2024-08-01
# オフライン強化学習のためのデータセット蒸留

Dataset Distillation for Offline Reinforcement Learning ( http://arxiv.org/abs/2407.20299v2 )

ライセンス: Link先を確認
Jonathan Light, Yuanzhe Liu, Ziniu Hu, (参考訳) オフライン強化学習は、ポリシーをトレーニングできる品質データセットを必要とすることが多い。 しかし、多くの状況では、そのようなデータセットを入手することは不可能であり、オフラインデータから実際の環境でうまく動作するようにポリシーを訓練することも容易ではない。 我々は、データ蒸留を用いてより良いデータセットを訓練し、それからより良いポリシーモデルをトレーニングするために使用できることを提案する。 提案手法は,トレーニングしたモデルが,全データセットでトレーニングしたモデルやパーセンタイルの行動クローンを用いてトレーニングしたモデルと同じような性能を達成できるようなデータセットを合成可能であることを示す。 私たちのプロジェクトサイトは$\href{https://datasetdistillation4rl.github.io}{\text{here}}$.comで利用可能です。 私たちはまた、$\href{https://github.com/ggflow123/DDRL}{\text{this GitHub repository}}$で実装を提供しています。

Offline reinforcement learning often requires a quality dataset that we can train a policy on. However, in many situations, it is not possible to get such a dataset, nor is it easy to train a policy to perform well in the actual environment given the offline data. We propose using data distillation to train and distill a better dataset which can then be used for training a better policy model. We show that our method is able to synthesize a dataset where a model trained on it achieves similar performance to a model trained on the full dataset or a model trained using percentile behavioral cloning. Our project site is available at $\href{https://datasetdistillation4rl.github.io}{\text{here}}$. We also provide our implementation at $\href{https://github.com/ggflow123/DDRL}{\text{this GitHub repository}}$.
翻訳日:2024-08-02 11:29:04 公開日:2024-08-01
# UMAPを用いた大規模ラジオロジカルデータセットの異常検出

Outlier Detection in Large Radiological Datasets using UMAP ( http://arxiv.org/abs/2407.21263v2 )

ライセンス: Link先を確認
Mohammad Tariqul Islam, Jason W. Fleischer, (参考訳) 機械学習アルゴリズムの成功は、サンプルの品質と対応するラベルの精度に大きく依存している。 しかし、大規模で高品質なデータセットの構築とメンテナンスは膨大な作業である。 これは特にバイオメディカルデータや、画像品質、ラベル付け、レポート、アーカイビングのバリエーションがエラー、矛盾、繰り返しサンプルなど、より小さなものからコンパイルされたメタセットに当てはまる。 ここでは、一様多様体近似および投影法(UMAP)アルゴリズムが、本質的には主(良い)データとは異なるが、同じエラー型を持つ他の点と類似した独立クラスタを形成することにより、これらの異常を見つけることができることを示す。 代表的な例として、UMAPを適用して、公開されているChestX-ray14、CheXpert、muraデータセットの外れ値を検出する。 結果はアーカイブと振り返りであり、放射線画像に焦点を当てるが、グラフベースの手法はどんなデータ型でも機能し、データセット作成時のキュレーションにも等しく有用である。

The success of machine learning algorithms heavily relies on the quality of samples and the accuracy of their corresponding labels. However, building and maintaining large, high-quality datasets is an enormous task. This is especially true for biomedical data and for meta-sets that are compiled from smaller ones, as variations in image quality, labeling, reports, and archiving can lead to errors, inconsistencies, and repeated samples. Here, we show that the uniform manifold approximation and projection (UMAP) algorithm can find these anomalies essentially by forming independent clusters that are distinct from the main (good) data but similar to other points with the same error type. As a representative example, we apply UMAP to discover outliers in the publicly available ChestX-ray14, CheXpert, and MURA datasets. While the results are archival and retrospective and focus on radiological images, the graph-based methods work for any data type and will prove equally beneficial for curation at the time of dataset creation.
翻訳日:2024-08-02 11:29:04 公開日:2024-08-01
# DDU-Net:複数のGPU上での高分解能画像分割のためのドメイン分解ベースのCNN

DDU-Net: A Domain Decomposition-based CNN for High-Resolution Image Segmentation on Multiple GPUs ( http://arxiv.org/abs/2407.21266v2 )

ライセンス: Link先を確認
Corné Verburg, Alexander Heinlein, Eric C. Cyr, (参考訳) 超高解像度画像のセグメンテーションは、空間情報の喪失や計算不効率といった問題を引き起こす。 本研究では,エンコーダ・デコーダアーキテクチャとドメイン分解戦略を組み合わせた新しい手法を提案する。 具体的には、ドメイン分解に基づくU-Net(DDU-Net)アーキテクチャを導入し、入力イメージを別のデバイスで独立に処理可能な非重複パッチに分割する。 空間コンテキストの理解を高めるために、パッチ間情報交換を容易にするための通信ネットワークが追加される。 通信ネットワークの有効性を測定するために設計された合成データセット上で実験的な検証を行う。 次に、実世界のベンチマークデータセットとして、DeepGlobeランドカバー分類データセット上で性能を試験する。 提案手法は, 画像の非重複部分画像に分割した16\times16$のパッチ間通信を含む手法で, パッチ間通信のない同一ネットワークと比較して, ユニオン(IoU)のスコアが2~3\,\%高くなることを示す。 通信を含むネットワークの性能は,全画像上でトレーニングされたベースラインU-Netと同等であり,空間的コンテキストを保ちながら,超高解像度画像のセグメント化に有効なソリューションを提供することを示す。 コードはhttps://github.com/corne00/HiRes-Seg-CNNで公開されている。

The segmentation of ultra-high resolution images poses challenges such as loss of spatial information or computational inefficiency. In this work, a novel approach that combines encoder-decoder architectures with domain decomposition strategies to address these challenges is proposed. Specifically, a domain decomposition-based U-Net (DDU-Net) architecture is introduced, which partitions input images into non-overlapping patches that can be processed independently on separate devices. A communication network is added to facilitate inter-patch information exchange to enhance the understanding of spatial context. Experimental validation is performed on a synthetic dataset that is designed to measure the effectiveness of the communication network. Then, the performance is tested on the DeepGlobe land cover classification dataset as a real-world benchmark data set. The results demonstrate that the approach, which includes inter-patch communication for images divided into $16\times16$ non-overlapping subimages, achieves a $2-3\,\%$ higher intersection over union (IoU) score compared to the same network without inter-patch communication. The performance of the network which includes communication is equivalent to that of a baseline U-Net trained on the full image, showing that our model provides an effective solution for segmenting ultra-high-resolution images while preserving spatial context. The code is available at https://github.com/corne00/HiRes-Seg-CNN.
翻訳日:2024-08-02 11:29:04 公開日:2024-08-01
# サイレントレターを超えて:声のニュアンスによる感情認識におけるLLMの増幅

Beyond Silent Letters: Amplifying LLMs in Emotion Recognition with Vocal Nuances ( http://arxiv.org/abs/2407.21315v2 )

ライセンス: Link先を確認
Zehui Wu, Ziwei Gong, Lin Ai, Pengyuan Shi, Kaan Donbekci, Julia Hirschberg, (参考訳) 本稿では,Large Language Models (LLM) を用いた音声における感情検出手法を提案する。 音声の特徴を自然言語記述に変換することで音声入力処理におけるLLMの限界に対処する。 提案手法はこれらの記述をテキストプロンプトに統合し,LLMがアーキテクチャ変更なしにマルチモーダル感情分析を行うことを可能にする。 我々は、IEMOCAPとMELDという2つのデータセットに対するアプローチを評価し、特に高品質な音声データに対して、感情認識精度を大幅に改善したことを示す。 実験の結果,IEMOCAPの重み付きF1スコアは70.111\%から72.596\%に2ポイント上昇した。 また、様々なLLMアーキテクチャを比較し、異なる特徴表現の有効性について検討する。 本研究は,LLMの感情検出能力向上におけるこのアプローチの可能性を明らかにするとともに,音声による感情認識タスクにおける音質の重要性を明らかにするものである。 ソースコードはGithubで公開します。

This paper introduces a novel approach to emotion detection in speech using Large Language Models (LLMs). We address the limitation of LLMs in processing audio inputs by translating speech characteristics into natural language descriptions. Our method integrates these descriptions into text prompts, enabling LLMs to perform multimodal emotion analysis without architectural modifications. We evaluate our approach on two datasets: IEMOCAP and MELD, demonstrating significant improvements in emotion recognition accuracy, particularly for high-quality audio data. Our experiments show that incorporating speech descriptions yields a 2 percentage point increase in weighted F1 score on IEMOCAP (from 70.111\% to 72.596\%). We also compare various LLM architectures and explore the effectiveness of different feature representations. Our findings highlight the potential of this approach in enhancing emotion detection capabilities of LLMs and underscore the importance of audio quality in speech-based emotion recognition tasks. We'll release the source code on Github.
翻訳日:2024-08-02 11:29:04 公開日:2024-08-01
# 生成的表現型会話音声合成

Generative Expressive Conversational Speech Synthesis ( http://arxiv.org/abs/2407.21491v2 )

ライセンス: Link先を確認
Rui Liu, Yifan Hu, Yi Ren, Xiang Yin, Haizhou Li, (参考訳) 会話音声合成(CSS)は,ユーザエージェントによる会話設定において,適切な発話スタイルでターゲット発話を表現することを目的としている。 既存のCSSメソッドでは、共感理解と表現を実現するために効果的なマルチモーダルコンテキストモデリング技術を採用している。 しかし、複雑なネットワークアーキテクチャを設計し、内部のモジュールを慎重に最適化する必要があることが多い。 さらに、スクリプティングされた記録スタイルを含む小規模なデータセットの制限のため、実際の自然な会話スタイルをシミュレートすることができないことが多い。 上記の課題に対処するため,GPT-Talkerと呼ばれる新しい生成表現型CSSシステムを提案し,マルチターン対話履歴のマルチモーダル情報を離散トークンシーケンスに変換し,それらをシームレスに統合し,包括的ユーザエージェント対話コンテキストを形成する。 GPTの力を利用して、エージェントに対する応答のセマンティック知識とスタイル知識の両方を含むトークンシーケンスを予測する。 その後、会話に富んだVITSを用いて表現的な会話音声を合成し、ユーザへのフィードバックを提供するとともに、即興スタイルの会話音声とテレビ番組から抽出した対話文の両方を含むNCSSDと呼ばれる大規模自然CSSデータセットを提案する。 中国語と英語を合わせて236時間, NCSSDの信頼性とGPT-Talkerの有効性について総合的な実験を行った。 主観的および客観的評価は,本モデルが他の最先端CSSシステムよりも自然性や表現性に優れていたことを示す。 Code、Dataset、Pre-trained Modelは、https://github.com/AI-S2-Lab/GPT-Talker.comで入手できる。

Conversational Speech Synthesis (CSS) aims to express a target utterance with the proper speaking style in a user-agent conversation setting. Existing CSS methods employ effective multi-modal context modeling techniques to achieve empathy understanding and expression. However, they often need to design complex network architectures and meticulously optimize the modules within them. In addition, due to the limitations of small-scale datasets containing scripted recording styles, they often fail to simulate real natural conversational styles. To address the above issues, we propose a novel generative expressive CSS system, termed GPT-Talker.We transform the multimodal information of the multi-turn dialogue history into discrete token sequences and seamlessly integrate them to form a comprehensive user-agent dialogue context. Leveraging the power of GPT, we predict the token sequence, that includes both semantic and style knowledge, of response for the agent. After that, the expressive conversational speech is synthesized by the conversation-enriched VITS to deliver feedback to the user.Furthermore, we propose a large-scale Natural CSS Dataset called NCSSD, that includes both naturally recorded conversational speech in improvised styles and dialogues extracted from TV shows. It encompasses both Chinese and English languages, with a total duration of 236 hours.We conducted comprehensive experiments on the reliability of the NCSSD and the effectiveness of our GPT-Talker. Both subjective and objective evaluations demonstrate that our model outperforms other state-of-the-art CSS systems significantly in terms of naturalness and expressiveness. The Code, Dataset, and Pre-trained Model are available at: https://github.com/AI-S2-Lab/GPT-Talker.
翻訳日:2024-08-02 11:29:04 公開日:2024-08-01